| dbpprop:abstract
|
- A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner. Other terms for Web crawlers are ants, automatic indexers, bots, and worms Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the web". ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi:10.1145/358923.358934. http://doi. acm. org/10.1145/358923.358934. or Web spider, Web robot, or—especially in the FOAF community—Web scutterSee definition of scutter on FOAF Project's wiki. This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine that will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML code. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses. A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier. URLs from the frontier are recursively visited according to a set of policies.
- Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen. Der Begriff bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war. Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen.
- Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web, s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines proporcionant un sistema de recerques ràpid. Aquests programes, comencen visitant una llista d'URLs, identifica els hiperenllaços que contenen i els afegeix a la llista d'URLs a visitar de manera recurrent d'acord a un determinat conjunt de regles. El seu funcionament usual, és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, analitza les seves enllaços, i així successivament ad nauseam. Les tasques més comunes de les aranyes són: Crear l'índex d'una màquina de recerca. Analitzar els enllaços d'un lloc per a buscar enllaços trencats. Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. Els administradors de webs, poden controlar relativament, l'accés de les aranyes a les seves webs, creant l'arxiu "robots. txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca. wikipedia. org/robots. txt
- Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos). Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente. Entre las tareas más comunes de las arañas de la web tenemos: Crear el índice de una máquina de búsqueda. Analizar los enlaces de un sitio para buscar links rotos. Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
- Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne. ) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin. Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit. Hakurobottien toimintaa voidaan rajoittaa robots. txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja.
- Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.
- Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots. txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca Dati aggiornati al 21/02/2008
- クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「ロボット」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
- Een spider (ook wel webcrawler genoemd) is een computerprogramma dat het wereldwijde web op een methodische en geautomatiseerde manier doorbladert, als een soort robot. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt. Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots. txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven. Zie bijvoorbeeld: http://nl. wikipedia. org/robots. txt Sommige spiders negeren robots. txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots. txt staan. Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde: Het content-element kent de volgende variaties: index / noindex – wel of niet indexeren van de pagina follow / nofollow – wel of niet volgen van hyperlinks op de pagina noarchive – de pagina niet lokaal archiveren Index en Follow hebben niet direct effect, standaard wordt een pagina geïndexeerd en worden de hyperlinks op een pagina gevolgd. Een spider meldt zich aan met een bepaalde User Agent. Bijvoorbeeld, de spiders van Google melden zich met user agent Googlebot of om compleet te zijn 'Googlebot/2. X '. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al. Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden.
- Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. De store internett-søkemotorene har hundrevis av crawlere som jobber på spreng for å sanke sammen så mange som mulig av verdens nettsteder.
- Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m. in. do: dodawania do wyszukiwarek, sprawdzania kodu strony, zbierania informacji o stronie, monitorowania "co nowego", tworzenia mirrorów stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl". "Fresh crawl" jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, "deep crawl" głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. Ruch generowany przez roboty jest jednym z podstawowych wskaźników mówiących o pozycjonowaniu strony.
- Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью указать на его существование. Ограничить индексацию сайта можно с помощью файла robots. txt, однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben. Dessa spindlar söker igenom allt på de websidor de hittar till. Om inte domänen i fråga inehåller en speciall textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robot. txt och kan utesluta delar eller hela hemsidor. Om en spindel inte hittar något kan det bero på att filen robot. txt inte tillåter spindeln att indexera sidan, eller att spindeln inte kan hitta till sidan på grund utav brist på hyperlänk.
- Пошуковий робот ("веб-павук", краулер, спайдер) - програма, що є складовою частиною пошуковаї системи і призначена для обходу сторінок інтернету з метою занесення інформації про них (ключові слова) у базу. Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.
- 網路蜘蛛(Web spider)指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。
|
| rdfs:comment
|
- A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner. Other terms for Web crawlers are ants, automatic indexers, bots, and worms Kobayashi, M. and Takeda, K. (2000). "Information retrieval on the web". ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi:10.1145/358923.358934. http://doi. acm. org/10.1145/358923.358934.
- Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen. Der Begriff bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war. Webcrawler sind eine spezielle Art von Bots, d.
- Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web, s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines proporcionant un sistema de recerques ràpid.
- Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos).
- Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja.
- Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.
- Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web.
- Een spider (ook wel webcrawler genoemd) is een computerprogramma dat het wereldwijde web op een methodische en geautomatiseerde manier doorbladert, als een soort robot. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.
- Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. De store internett-søkemotorene har hundrevis av crawlere som jobber på spreng for å sanke sammen så mange som mulig av verdens nettsteder.
- Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m. in. do: dodawania do wyszukiwarek, sprawdzania kodu strony, zbierania informacji o stronie, monitorowania "co nowego", tworzenia mirrorów stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl".
- Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер.
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben. Dessa spindlar söker igenom allt på de websidor de hittar till. Om inte domänen i fråga inehåller en speciall textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robot.
- Пошуковий робот ("веб-павук", краулер, спайдер) - програма, що є складовою частиною пошуковаї системи і призначена для обходу сторінок інтернету з метою занесення інформації про них (ключові слова) у базу. Павуки здійснюють загальний пошук інформації в Інтернет.
- 網路蜘蛛(Web spider)指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。
|