About: Web crawler

Property	Value
dbo:abstract	Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord amb un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam. Les tasques més comunes de les aranyes són: * Crear l'índex d'una màquina de recerca. * Analitzar els enllaços d'un lloc per a buscar enllaços trencats. * Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; (ca) زاحف الشبكة أو زاحف الويب (بالإنجليزية: Web crawler)‏ هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.، وعناكب الشبكة ، أو آليات الشبكة. وهذه العملية تسمى الزحف على الشبكة أو العنكبة. كثير من المواقع، وبخاصة محركات البحث، تستخدم العنكبة كوسيلة لتوفير بيانات حديثة. وزواحف الشبكة تستخدم أساسا لإنشاء نسخ من جميع الصفحات التي يتم زيارتها لكى يفهرسها محرك البحث في وقت لاحق ويحمل الصفحات أثناء عمليات البحث بسرعة. ويمكن أيضا أن تستخدم الزواحف لاتمام مهام الصيانة على موقع علي الشبكة، مثل التحقق من صحة الروابط أو تعليمات لغة تحرير النص الفائق البرمجية. أيضا، يمكن استخدام الزواحف لجمع أنواع محددة من المعلومات من صفحات الشبكة، مثل حصاد عناوين البريد الإلكتروني (عادة لارسال رسائل غير المرغوب فيها). وزاحف الشبكة هو أحد أنواع البوتات، أو وكلاء البرامج. بشكل عام، يبدأ زاحف الشبكة بقائمة من العناوين المرغوب في زيارتها، وتدعى هذه القائمة بالبذور. عندما يزور الزاحف هذه العناوين، فإنه يحدد كافة الارتباطات التشعبية في الصفحة ويضيفها إلى قائمة العناوين المطلوب زيارتها، وتدعى حدود الزحف. وتتم زيارة عناوين حدود الزحف بشكل متكرر وفقا لمجموعة من السياسات. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. و عدد العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق، ولكن في الحقيقة لا يوجد سوى مجموعة صغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان. إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوين مختلفة، كل منها على الموقع. هذا التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلال تركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة. (ar) Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze. Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení. (cs) Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen. (de) Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Las arañas web comienzan visitando una lista de URL, identifica los hiperenlaces en dichas páginas y los añade a la lista de URL a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente. Entre las tareas más comunes de las arañas de la web tenemos: * Crear el índice de una máquina de búsqueda. * Analizar los enlaces de un sitio para buscar links rotos. * Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo. (es) Web crawler modu automatikoan webeko orrialdeak arakatzen dituen sistema da. Web crawler bat orrialde guzti hauen kopia bana egin eta datu-base batean indizatu ondoren web bilatzaile batean modu azkarrean emaitzak erakusteko erabiltzen da. Hasteko, eskuz zehaztutako URL helbide zerrenda bat izaten dute abiapuntu, ondoren orrialde guzti horietan hiperloturak aurkituz doan heinean orrialde berriak deskubritu eta eremua handituz doa. Horrela jarraitzen du helbide berri gehiago aurkitzen ez dituen arte edo amaiera puntu bat definitu arte. (eu) Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. (fr) クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja) ( 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오.) 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. (ko) A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. Crawlers consume resources on visited systems and often visit sites unprompted. Issues of schedule, load, and "politeness" come into play when large collections of pages are accessed. Mechanisms exist for public sites not wishing to be crawled to make this known to the crawling agent. For example, including a <a href="/wiki/Robots.txt" class="mw-redirect" title="Robots.txt">robots.txt</a> file can request bots to index only parts of a website, or nothing at all. The number of Internet pages is extremely large; even the largest crawlers fall short of making a complete index. For this reason, search engines struggled to give relevant search results in the early years of the World Wide Web, before 2000. Today, relevant results are given almost instantly. Crawlers can validate hyperlinks and HTML code. They can also be used for web scraping and data-driven programming. (en) Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione. Un uso estremamente comune dei crawler viene effettuato sul Web; esso si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa a sua volta sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di una URL, identifica tutti i collegamenti ipertestuali presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. (it) Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze een voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang correct te gedragen omdat ze pagina's sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt. (nl) Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso. O processo que um rastreador da rede executa é chamado de rastreamento da rede ou indexação. Muitos sítios, em particular os motores de busca, usam rastreadores para manter uma base de dados atualizada. Os rastreadores da rede são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Os rastreadores também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, como verificar as ligações ou validar o código HTML. Os rastreadores também podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (mais comumente para spam). Um rastreador da rede é um tipo de robô da rede ou agente de programa. Em geral, ele começa com uma lista de endereços para visitar (também chamado em inglês de seeds). À medida que o rastreador visita esses endereços, ele identifica todas as ligações na página e as adiciona na lista de endereços para visitar. Tais endereços são visitados recursivamente de acordo com um conjunto de regras. (pt) Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej: * badają zawartość witryny, * sprawdzają kod strony, * zbierają dodatkowe informacje o stronie, * monitorują aktualizacje, * tworzą mirrory stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. (pl) En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben.Dessa spindlar söker igenom allt på de webbsidor de hittar till, om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robots.txt och kan utesluta delar eller hela hemsidor. Om en spindel inte hittar något kan det bero på att filen robots.txt inte tillåter spindeln att sidan, eller att spindeln inte kan hitta till sidan på grund av brist på hyperlänkar. (sv) Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru. Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому. (ru) Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них (ключових слів) до бази даних. Пошукові роботи здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. (uk) 网络爬虫（英語：web crawler），也叫網路蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來，以便搜索引擎事後生成供用戶搜索。爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引，或完全不作处理。互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质素结果。爬虫还可以验证超連結和HTML代码，用于网络抓取（参见数据驱动编程）。 (zh)
dbo:thumbnail	wiki-commons:Special:FilePath/WebCrawlerArchitecture.svg?width=300
dbo:wikiPageExternalLink	http://llama.org/hamster/monkey/page.html%3C/nowiki%3E, http://oak.cs.ucla.edu/~cho/research/crawl.html https://www.blogingguru.com/what-technology-do-search-engines-use-to-crawl-websites-google/ http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling http://www.slideshare.net/denshe/intelligent-crawling-shestakovwiiat13 http://www.wiley.com/legacy/compbooks/sonnenreich/history.html http://code.google.com/p/wivet/
dbo:wikiPageID	33120 (xsd:integer)
dbo:wikiPageLength	53855 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1124235168 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Python_(programming_language) dbr:Robots.txt dbr:Scrapy dbr:Bing_(search_engine) dbr:Algorithm dbr:Regular_expression dbr:Uniform_Resource_Locator dbr:Unintended_consequences dbr:Unix dbr:Duplicate_content dbr:Internet_bot dbr:Intrinsic_and_extrinsic_properties_(philosophy) dbr:Software_agent dbr:User_agent dbr:John_Wiley_&_Sons dbr:Swiftype dbr:SortSite dbr:URL_normalization dbr:Middleware dbr:Open_Search_Server dbr:Elasticsearch dbr:GNU_Affero_General_Public_License dbr:GNU_General_Public_License dbr:Gnutella_crawler dbr:Google.com dbr:Google_Scholar dbr:Googlebot dbr:Apache_Hadoop dbr:Apache_License dbr:Apache_Nutch dbr:Apache_Solr dbr:Apple_(company) dbr:Libwww dbr:Machine_learning dbr:Macintosh_operating_systems dbr:Siri dbr:StormCrawler dbr:Storm_(event_processor) dbr:Deep_Web_(search_indexing) dbr:Panos_Ipeirotis dbr:Parallel_computing dbr:Web_page dbr:Steve_Lawrence_(computer_scientist) dbr:Top-level_domain dbr:Ht-//dig dbr:BSD_License dbr:Baidu dbc:Web_crawlers dbr:C_(programming_language) dbr:TkWWW dbr:Data-driven_programming dbr:Data_breach dbr:WebCrawler dbr:Web_content dbr:Web_pages dbr:Web_search_engine dbr:Web_server dbr:Web_sites dbr:Wget dbr:Wikia_Search dbc:Internet_search_algorithms dbr:CiteSeer dbr:AJAX dbc:Search_engine_software dbr:FOAF_(software) dbr:Bandwidth_(computing) dbr:Breadth-first_search dbr:PDF dbr:PageRank dbr:Diffbot dbr:Lee_Giles dbr:Query_string dbr:Recursion dbr:Repository_(version_control) dbr:Grep dbr:Grub_(search_engine) dbr:HTML dbr:HTTP dbr:HTTrack dbr:Heritrix dbr:Internet_Archive dbr:Java_(programming_language) dbr:Backlink dbr:Crawl_frontier dbr:Hyperlink dbr:Ask.com dbr:API dbr:Larry_Page dbr:Bingbot dbr:Support-vector_machine dbr:Thumbnail dbr:Xenon_(program) dbr:MnoGoSearch dbr:Mod_oai dbr:Automatic_indexing dbr:PostScript dbr:Software_as_a_service dbr:Spambots dbr:Filippo_Menczer dbr:Edward_G._Coffman,_Jr. dbr:Domain_ontology dbr:Metadata dbr:Microsoft dbr:Microsoft_Academic_Search dbr:Microsoft_Windows dbr:Microsoft_Word dbr:OWASP dbr:Seeks dbr:Sergey_Brin dbr:Xapian dbr:YaCy dbr:Yahoo! dbr:Yahoo!_Search dbr:Search_engine_indexing dbr:Web_indexing dbr:Robots_exclusion_standard dbr:Software dbr:Website dbr:World_Wide_Web dbr:Spamdexing dbr:Vertical_search dbr:Web_scraping dbr:Webgraph dbr:Msnbot dbr:Web_archiving dbr:Internet_media_type dbr:Sitemaps dbr:Spider_trap dbr:Web_application_security dbr:Robots_Exclusion_Standard dbr:World_Wide_Web_Worm dbr:URL_rewriting dbr:Website_mirroring_software dbr:Search_Engine_Scraping dbr:Search_engines dbr:Command_line_interface dbr:Index_(search_engine) dbr:Focused_crawlers dbr:Mathematical_combination dbr:Zipped_file dbr:Screen_scraping dbr:MIME_types dbr:TkWWW_Robot dbr:WebFountain dbr:File:WebCrawlerArchitecture.svg dbr:Blogingguru dbr:File:Web_Crawling_Freshness_Age.png
dbp:wikiPageUsesTemplate	dbt:Hatnote_group dbt:Web_crawlers dbt:About dbt:Authority_control dbt:Citation_needed dbt:Further dbt:Main dbt:Quote dbt:R dbt:Redirect dbt:Redirect-distinguish dbt:Reflist dbt:Short_description dbt:Use_dmy_dates dbt:Internet_search
dcterms:subject	dbc:Web_crawlers dbc:Internet_search_algorithms dbc:Search_engine_software
rdf:type	owl:Thing yago:WikicatWebCrawlers yago:Administrator109770949 yago:CausalAgent100007347 yago:Director110014939 yago:Flatterer110095869 yago:Follower110099375 yago:Head110162991 yago:Leader109623038 yago:LivingThing100004258 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:YagoLegalActor yago:YagoLegalActorGeo dbo:MusicGenre yago:Sycophant110684827 yago:Whole100003553 yago:WikicatDownloadManagers
rdfs:comment	Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze. Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení. (cs) Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen. (de) Web crawler modu automatikoan webeko orrialdeak arakatzen dituen sistema da. Web crawler bat orrialde guzti hauen kopia bana egin eta datu-base batean indizatu ondoren web bilatzaile batean modu azkarrean emaitzak erakusteko erabiltzen da. Hasteko, eskuz zehaztutako URL helbide zerrenda bat izaten dute abiapuntu, ondoren orrialde guzti horietan hiperloturak aurkituz doan heinean orrialde berriak deskubritu eta eremua handituz doa. Horrela jarraitzen du helbide berri gehiago aurkitzen ez dituen arte edo amaiera puntu bat definitu arte. (eu) クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja) ( 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오.) 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. (ko) Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них (ключових слів) до бази даних. Пошукові роботи здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. (uk) 网络爬虫（英語：web crawler），也叫網路蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來，以便搜索引擎事後生成供用戶搜索。爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引，或完全不作处理。互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质素结果。爬虫还可以验证超連結和HTML代码，用于网络抓取（参见数据驱动编程）。 (zh) زاحف الشبكة أو زاحف الويب (بالإنجليزية: Web crawler)‏ هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.، وعناكب الشبكة ، أو آليات الشبكة. وهذه العملية تسمى الزحف على الشبكة أو العنكبة. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. (ar) Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Les tasques més comunes de les aranyes són: * Crear l'índex d'una màquina de recerca. * Analitzar els enllaços d'un lloc per a buscar enllaços trencats. * Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. (ca) Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Entre las tareas más comunes de las arañas de la web tenemos: (es) A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. (en) Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. (fr) Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione. (it) Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. (nl) Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej: * badają zawartość witryny, * sprawdzają kod strony, * zbierają dodatkowe informacje o stronie, * monitorują aktualizacje, * tworzą mirrory stron. (pl) Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso. (pt) Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. (ru) En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben.Dessa spindlar söker igenom allt på de webbsidor de hittar till, om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robots.txt och kan utesluta delar eller hela hemsidor. (sv)
rdfs:label	زاحف الشبكة (ar) Aranya web (ca) Web crawler (cs) Webcrawler (de) Ανιχνευτής ιστού (el) Araña web (es) Web crawler (eu) Robot d'indexation (fr) Crawler (it) 웹 크롤러 (ko) Spider (nl) クローラ (ja) Rastreador web (pt) Robot internetowy (pl) Web crawler (en) Поисковый робот (ru) Spindel (internet) (sv) Пошуковий робот (uk) 網路爬蟲 (zh)
owl:differentFrom	dbr:Spider_web
owl:sameAs	freebase:Web crawler http://sw.cyc.com/concept/Mx4rv3R5vZwpEbGdrcN5Y29ycA yago-res:Web crawler http://d-nb.info/gnd/4796298-7 wikidata:Web crawler dbpedia-af:Web crawler dbpedia-ar:Web crawler dbpedia-bar:Web crawler dbpedia-ca:Web crawler dbpedia-cs:Web crawler dbpedia-cy:Web crawler dbpedia-de:Web crawler dbpedia-el:Web crawler dbpedia-es:Web crawler dbpedia-eu:Web crawler dbpedia-fa:Web crawler dbpedia-fi:Web crawler dbpedia-fr:Web crawler dbpedia-he:Web crawler dbpedia-hr:Web crawler dbpedia-hu:Web crawler http://hy.dbpedia.org/resource/Որոնողական_ռոբոտ dbpedia-it:Web crawler dbpedia-ja:Web crawler dbpedia-ko:Web crawler http://lt.dbpedia.org/resource/Interneto_robotas dbpedia-ms:Web crawler dbpedia-nl:Web crawler dbpedia-nn:Web crawler dbpedia-no:Web crawler dbpedia-pl:Web crawler dbpedia-pt:Web crawler dbpedia-ro:Web crawler dbpedia-ru:Web crawler dbpedia-simple:Web crawler dbpedia-sr:Web crawler dbpedia-sv:Web crawler http://ta.dbpedia.org/resource/வலை_ஊர்தி dbpedia-th:Web crawler dbpedia-tr:Web crawler dbpedia-uk:Web crawler dbpedia-zh:Web crawler https://global.dbpedia.org/id/4Fc54
prov:wasDerivedFrom	wikipedia-en:Web_crawler?oldid=1124235168&ns=0
foaf:depiction	wiki-commons:Special:FilePath/WebCrawlerArchitecture.svg wiki-commons:Special:FilePath/Web_Crawling_Freshness_Age.png
foaf:isPrimaryTopicOf	wikipedia-en:Web_crawler
is dbo:genre of	dbr:Scrapy dbr:PowerMapper dbr:SortSite dbr:Googlebot dbr:Apache_Nutch dbr:StormCrawler dbr:HTTrack dbr:Heritrix
is dbo:service of	dbr:Diffbot
is dbo:wikiPageDisambiguates of	dbr:Crawl dbr:Crawler
is dbo:wikiPageRedirects of	dbr:FAST_Crawler dbr:Web_spider dbr:Webcrawler dbr:Internet_spider dbr:Semantic_focused_crawler dbr:RBSE dbr:Automated_agent dbr:Automatic_indexer dbr:Web-crawler dbr:Web_Crawler dbr:Web_crawling dbr:Web_scutter dbr:Crawl_site dbr:Site_crawler dbr:Scutter dbr:Search-engine_spider dbr:Search_bot dbr:Search_engine_robot dbr:Search_engine_robots dbr:Search_engine_spider dbr:Search_engine_spiders dbr:Search_robot dbr:Searchbot dbr:List_of_web_crawlers dbr:Spider_bot dbr:Spider_operating_system dbr:Spiderable dbr:Spiderbot dbr:Spidering dbr:Web_crawlers dbr:Webcrawlers
is dbo:wikiPageWikiLink of	dbr:Canadian_Centre_for_Child_Protection dbr:Pricesearcher dbr:Scour_Inc. dbr:Scrapy dbr:Enterprise_search dbr:FAST_Crawler dbr:Meta_element dbr:Metasearch_engine dbr:Omgili dbr:University_of_North_Texas_Libraries dbr:Ben_Chiu dbr:Algolia dbr:Archival_appraisal dbr:Archive dbr:Archive_site dbr:Hypertext_Transfer_Protocol dbr:List_of_Google_April_Fools'_Day_jokes dbr:Cuil dbr:Cultural_depictions_of_spiders dbr:DARPA_Network_Challenge dbr:DeepPeep dbr:Deep_linking dbr:Deep_web dbr:Doorway_page dbr:EBay_v._Bidder's_Edge dbr:ESpew dbr:Internet_research dbr:User_agent dbr:Libarc dbr:List_of_search_engine_software dbr:PowerMapper dbr:SortSite dbr:Timeline_of_Yahoo! dbr:Timeline_of_artificial_intelligence dbr:.htaccess dbr:12ft dbr:Common_Crawl dbr:Ant_(disambiguation) dbr:McAfee_SiteAdvisor dbr:Najdi! dbr:OPIC_(disambiguation) dbr:Search_neutrality dbr:Web_navigation dbr:Web_analytics dbr:Offline_reader dbr:Site_map dbr:Quantone dbr:Search_as_a_service dbr:Search_engine_cache dbr:Sebastiano_Vigna dbr:Timeline_of_digital_preservation dbr:Timeline_of_web_search_engines dbr:1996_in_science dbr:Gigablast dbr:Glossary_of_computer_science dbr:Gnutella_crawler dbr:Google_Books dbr:Google_Shopping dbr:Google_Video dbr:Googlebot dbr:Mojeek dbr:Contact_scraping dbr:Content_protection_network dbr:Cross-site_request_forgery dbr:Tableless_web_design dbr:Apache_Nutch dbr:Library_for_WWW_in_Perl dbr:Libwww dbr:Lèse-majesté_in_Thailand dbr:StormCrawler dbr:Click_fraud dbr:Client–queue–client dbr:Comparison_shopping_website dbr:Keyword_Services_Platform dbr:Ping_(blogging) dbr:Spider_(disambiguation) dbr:Media_Cloud dbr:British_Library dbr:CURL dbr:TkWWW dbr:TokuDB dbr:TokuMX dbr:Tropes_Zoom dbr:Trove dbr:Trovit dbr:Turnitin dbr:Wayback_Machine dbr:Web_Sheriff dbr:Web_server dbr:Web_spider dbr:Webcrawler dbr:Wget dbr:Wikia_Search dbr:Wikipedia dbr:WiseNut dbr:Distributed_search_engine dbr:Distributed_web_crawling dbr:Fusker dbr:Give_Yourself_Goosebumps dbr:Crawl dbr:Crawler dbr:HTTPS dbr:LawMoose dbr:Leaderless_resistance dbr:List_of_Apache_Software_Foundation_projects dbr:Liveuamap dbr:Local_search_engine_optimisation dbr:Walhello dbr:ANT_catalog dbr:AirMosaic dbr:Alexa_Internet dbr:AltaVista dbr:Cyveillance dbr:DMOZ dbr:Dan_Quine dbr:DuckDuckGo dbr:EDITED_(company) dbr:Field_v._Google,_Inc. dbr:Footytube dbr:Angel_F dbr:Nofollow dbr:PageRank dbr:Diffbot dbr:Digital_library dbr:Diplomacy_Monitor dbr:Discoverability dbr:Focused_crawler dbr:Geotargeting dbr:Google_data_centers dbr:History_of_Google dbr:Knowbot dbr:Web_directory dbr:Search_engine dbr:POST_(HTTP) dbr:Rhizome_(organization) dbr:URL_redirection dbr:HTML dbr:HTML_element dbr:HTTP_server dbr:HTTrack dbr:Heritrix dbr:Internet_Archive dbr:Internet_spider dbr:Jeff_Dean dbr:BTJunkie dbr:Backscatter_(email) dbr:Crawl_frontier dbr:Crawljax dbr:Hyperlink dbr:Noindex dbr:Volunia dbr:Archive.today dbr:LOCKSS dbr:Larry_Page dbr:Blekko dbr:HoneyMonkey dbr:TenTen_Corpus_Family dbr:Terminology_extraction dbr:Trespass dbr:Web_ARChive dbr:Xenon_(program) dbr:Mod_oai dbr:Twing dbr:Diffeo_(company) dbr:Audio_search_engine dbr:Australian_Web_Archive dbr:Automated_Content_Access_Protocol dbr:File_change_log dbr:Filippo_Menczer dbr:Email-address_harvesting dbr:URI_normalization dbr:Internal_link dbr:Metadata dbr:Microformat dbr:Microsoft_Bing dbr:OWASP_ZAP dbr:Online_presence_management dbr:Canonical_link_element dbr:Qwant dbr:ReCAPTCHA dbr:Real-time_web dbr:Sean_Parker dbr:Search_engine_(computing) dbr:Search_engine_optimization dbr:Search_engine_scraping dbr:Search_engine_technology dbr:Semantic_focused_crawler dbr:Sergey_Brin dbr:World_Wide_Web_Wanderer dbr:YaCy dbr:Yahoo!_Music_Jukebox dbr:Yahoo!_Search dbr:Social_bookmarking dbr:Spambot dbr:Search_engine_indexing dbr:Resources_of_a_Resource dbr:Robots_exclusion_standard dbr:Unique_user dbr:World_Wide_Web dbr:TeLQAS dbr:Weblogs.com dbr:List_of_volunteer_computing_projects dbr:Perfect_10,_Inc._v._Amazon.com,_Inc. dbr:Semantic_Web dbr:Search.ch dbr:Website_tracking dbr:Spamdexing dbr:Vertical_search dbr:Web_scraping dbr:Truth_Tobacco_Industry_Documents dbr:Msnbot dbr:Semantic_HTML dbr:Search_appliance dbr:SimHash dbr:Software_mining dbr:Web_archiving dbr:Ticketmaster_Corp._v._Tickets.com,_Inc. dbr:Viewable_impression dbr:Singingfish dbr:Sitemaps dbr:Torsten_Suel dbr:Outline_of_search_engines dbr:Search_advertising dbr:Social_media_measurement dbr:Spider_trap dbr:Video_search_engine dbr:RBSE dbr:Stop_word dbr:Automated_agent dbr:Automatic_indexer dbr:Web-crawler dbr:Web_Crawler dbr:Web_crawling dbr:Web_scutter dbr:Crawl_site dbr:Site_crawler dbr:Scutter dbr:Search-engine_spider dbr:Search_bot dbr:Search_engine_robot dbr:Search_engine_robots dbr:Search_engine_spider dbr:Search_engine_spiders dbr:Search_robot dbr:Searchbot dbr:List_of_web_crawlers dbr:Spider_bot dbr:Spider_operating_system dbr:Spiderable dbr:Spiderbot dbr:Spidering dbr:Web_crawlers dbr:Webcrawlers
is dbp:genre of	dbr:Scrapy dbr:PowerMapper dbr:SortSite dbr:Googlebot dbr:Apache_Nutch dbr:StormCrawler dbr:Heritrix
is foaf:primaryTopic of	wikipedia-en:Web_crawler