| dbpprop:abstract
| - A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner. Other terms for Web crawlers are ants, automatic indexers, bots, and worms or Web spider, Web robot, or—especially in the FOAF community—Web scutter. This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine that will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML code. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses . A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier. URLs from the frontier are recursively visited according to a set of policies. (en)
- Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder anderer Informationen. Der Begriff bürgerte sich durch die gleichnamige Suchmaschine WebCrawler ein, welche 1994 die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex war. Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen. (de)
- Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne.) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin. Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit. Hakurobottien toimintaa voidaan rajoittaa robots. txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja. (fi)
- Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels. (fr)
- Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.Un crawler è un tipo di bot . I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots. txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricercaDati aggiornati al 21/02/2008 (it)
- クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「スパイダー」や「ロボット」などとも呼ばれる。主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja)
- Een spider (ook wel webcrawler genoemd) is een computerprogramma dat het wereldwijde web op een methodische en geautomatiseerde manier doorbladert, als een soort robot. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt. Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots. txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven. Zie bijvoorbeeld: http://nl. wikipedia. org/robots. txtSommige spiders negeren robots. txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots. txt staan. Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde: <meta name="robots" content="index,follow"> Het content-element kent de volgende variaties:* index / noindex – wel of niet indexeren van de pagina* follow / nofollow – wel of niet volgen van hyperlinks op de pagina* noarchive – de pagina niet lokaal archiverenEen spider meldt zich aan met een bepaalde User Agent. Bijvoorbeeld, de spiders van Google melden zich met user agent Googlebot of om compleet te zijn 'Googlebot/2.X '. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al. Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden. (nl)
- Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. De store internett-søkemotorene har hundrevis av crawlere som jobber på spreng for å sanke sammen så mange som mulig av verdens nettsteder. (no)
- Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m.in. do: dodawania do wyszukiwarek, sprawdzania kodu strony, zbierania informacji o stronie, monitorowania "co nowego", tworzenia mirrorów stron. W przypadku robota Google tzn. Googlebota mówi się robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl". "Fresh crawl" jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, "deep crawl" głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. Ruch generowany przez roboty jest jednym z podstawowych wskaźników mówiących o pozycjonowaniu strony. (pl)
- Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяется алгоритмами поисковой машины. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании. Ограничить индексацию сайта можно с помощью файла robots. txt, однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому. (ru)
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben. (sv)
- 網路蜘蛛(Web spider)指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。 (zh)
|
| rdfs:comment
| - A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner. (en)
- Ein Webcrawler (auch Spider) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. (de)
- Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. (fi)
- Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. (fr)
- Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.Un crawler è un tipo di bot . (it)
- クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラ� である。「スパイダー」や「ロボット」などとも呼ばれる。主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパ� の送信効率を上げている。一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた� �合はデータベースに登録する。また、既知のファイルが存在しないことを検出した� �合はデータベースから削除する。 (ja)
- Een spider (ook wel webcrawler genoemd) is een computerprogramma dat het wereldwijde web op een methodische en geautomatiseerde manier doorbladert, als een soort robot. (nl)
- Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. (no)
- Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m.in. (pl)
- Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. (ru)
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. (sv)
- 網路蜘蛛(Web spider)指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。 (zh)
|