A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. Other terms for Web crawlers are ants, automatic indexers, bots, Web spiders, Web robots, or—especially in the FOAF community—Web scutters. This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data.

PropertyValue
dbpedia-owl:abstract
  • A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. Other terms for Web crawlers are ants, automatic indexers, bots, Web spiders, Web robots, or—especially in the FOAF community—Web scutters. This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine that will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML code. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses (usually for sending spam). A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier. URLs from the frontier are recursively visited according to a set of policies. The large volume implies that the crawler can only download a fraction of the Web pages within a given time, so it needs to prioritize its downloads. The high rate of change implies that the pages might have already been updated or even deleted. The number of possible crawlable URLs being generated by server-side software has also made it difficult for web crawlers to avoid retrieving duplicate content. Endless combinations of HTTP GET (URL-based) parameters exist, of which only a small selection will actually return unique content. For example, a simple online photo gallery may offer three options to users, as specified through HTTP GET parameters in the URL. If there exist four ways to sort images, three choices of thumbnail size, two file formats, and an option to disable user-provided content, then the same set of content can be accessed with 48 different URLs, all of which may be linked on the site. This mathematical combination creates a problem for crawlers, as they must sort through endless combinations of relatively minor scripted changes in order to retrieve unique content. As Edwards et al. noted, "Given that the bandwidth for conducting crawls is neither infinite nor free, it is becoming essential to crawl the Web in not only a scalable, but efficient way, if some reasonable measure of quality or freshness is to be maintained. " A crawler must carefully choose at each step which pages to visit next. The behavior of a Web crawler is the outcome of a combination of policies: a selection policy that states which pages to download, a re-visit policy that states when to check for changes to the pages, a politeness policy that states how to avoid overloading Web sites, and a parallelization policy that states how to coordinate distributed Web crawlers.
  • Ein Webcrawler (auch Spider oder Searchbot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen.
  • Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos). Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente. Entre las tareas más comunes de las arañas de la web tenemos: Crear el índice de una máquina de búsqueda. Analizar los enlaces de un sitio para buscar links rotos. Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
  • Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja. Robotit voivat indeksoida koko tekstin tai otsikon ja pari ensimmäistä lausetta tai URL-osoitteet tai META-elementin. Ne poistavat tekstistä yleiset sanat (prepositiot, artikkelit jne. ) ja sanojen päätteet ja muodostavat tietokannan, jossa jokainen termi viittaa ko. termiin viittaavaan dokumenttiin. Koska jotkin hakurobotit antavat liian paljon linkkejä, on kehitetty rypästäviä eli klusteroivia hakurobotteja, jotka eivät ilmoita samaa linkkiä kahdesti ja jotka ryhmittelevät hakemansa linkit. Hakurobottien toimintaa voidaan rajoittaa robots. txt-tiedostolla. Tunnettujen hakukoneiden hakurobotteja voidaan sen avulla estää hakemasta yksittäisiä verkkosivuja, niitä sisältäviä hakemistoja tai kaikkia verkkotunnuksella olevia sivuja.
  • Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots. txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca Dati aggiornati al 21/02/2008
  • クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
  • Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt. Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots. txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven. Sommige spiders negeren robots. txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots. txt staan. Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde: <meta name="robots" content="index,follow"> Het content-element kent de volgende variaties: index / noindex – wel of niet indexeren van de pagina follow / nofollow – wel of niet volgen van hyperlinks op de pagina noarchive – de pagina niet lokaal archiveren Index en Follow hebben niet direct effect, standaard wordt een pagina geïndexeerd en worden de hyperlinks op een pagina gevolgd. Een spider meldt zich aan met een bepaalde User Agent. Bijvoorbeeld, de spiders van Google melden zich met user agent Googlebot of om compleet te zijn 'Googlebot/2. X '. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al. Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden.
  • Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. De store Søkemotorene har hundrevis av crawlere som jobber på spreng for å sanke sammen så mange som mulig av verdens nettsteder.
  • Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m. in. do: dodawania do wyszukiwarek, sprawdzania kodu strony, zbierania informacji o stronie, monitorowania "co nowego", tworzenia mirrorów stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl". "Fresh crawl" jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, "deep crawl" głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. Ruch generowany przez roboty jest jednym z podstawowych wskaźników mówiących o pozycjonowaniu strony.
  • Web crawler é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter. O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada. Os Web crawlers são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas. Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web site, como checar os links ou validar o código HTML. Os crawlers também podem ser usados para obter tipos específicos de informação das páginas da Web, como minerar endereços de email (mais comumente para spam). Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar (também chamado de seeds). À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.
  • Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью указать на его существование. Ограничить индексацию сайта можно с помощью файла robots. txt, однако некоторые недобросовестные боты могут игнорировать наличие этого файла. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
  • En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben. Dessa spindlar söker igenom allt på de websidor de hittar till. Om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robot. txt och kan utesluta delar eller hela hemsidor. Om en spindel inte hittar något kan det bero på att filen robot. txt inte tillåter spindeln att indexera sidan, eller att spindeln inte kan hitta till sidan på grund av brist på hyperlänk.
  • 網路蜘蛛也叫网络机器人,指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。
  • Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.
dbpedia-owl:wikiPageExternalLink
dcterms:subject
rdf:type
rdfs:comment
  • Ein Webcrawler (auch Spider oder Searchbot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen.
  • クローラ (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
  • Søkerobot (eller crawler) er et dataprogram som samler sammen nettsider, typisk for å sende til en søkemotor. Når crawleren besøker en internett-side, gjennomsøker den siden for å finne lenker til andre sider. Deretter henter den inn disse sidene også, og slik fortsetter det helt til den har hentet alt man har bedt den om. De store Søkemotorene har hundrevis av crawlere som jobber på spreng for å sanke sammen så mange som mulig av verdens nettsteder.
  • 網路蜘蛛也叫网络机器人,指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」。
  • A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion. Other terms for Web crawlers are ants, automatic indexers, bots, Web spiders, Web robots, or—especially in the FOAF community—Web scutters. This process is called Web crawling or spidering. Many sites, in particular search engines, use spidering as a means of providing up-to-date data.
  • Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos).
  • Hakurobotti on tietokantaohjelma, joka hakee selaimen tapaan webin palvelimissa olevia verkkosivuja, indeksoi eli tallentaa niistä tiedonhakua varten tiettyjä kenttiä. Robotin tallentamien tietojen pohjalta luodaan tai päivitetään tietokanta, josta Internetin käyttäjä voi tehdä hakuja. Robotti voi käydä läpi kaikkia palvelimia tai vain esimerkiksi suosituimpien palvelimien dokumentteja.
  • Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web.
  • Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd.
  • Robot internetowy (lub też Robot indeksujący) – jest programem zbierającym informacje o strukturze i stronach umieszczanych w indeksie wyszukiwarek i służą m. in. do: dodawania do wyszukiwarek, sprawdzania kodu strony, zbierania informacji o stronie, monitorowania "co nowego", tworzenia mirrorów stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl".
  • Web crawler é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter. O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada.
  • Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы.
  • En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben. Dessa spindlar söker igenom allt på de websidor de hittar till. Om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robot.
  • Un robot d'indexation (ou littéralement araignée du Web; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.
rdfs:label
  • Webcrawler
  • Web crawler
  • Araña web
  • Hakurobotti
  • Robot d'indexation
  • Crawler
  • クローラ
  • Spider
  • Søkerobot
  • Robot internetowy
  • Web crawler
  • Поисковый робот
  • Spindel (internet)
  • 網路蜘蛛
owl:sameAs
foaf:page
is dbpedia-owl:genre of
is dbpedia-owl:wikiPageRedirects of
is dbpprop:genre of
is owl:sameAs of
is foaf:primaryTopic of