About: Web crawler

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Web crawler Goto Sponge NotDistinct Permalink

An Entity of Type : yago:WikicatDownloadManagers, within Data Space : dbpedia.org associated with source document(s)
QRcode icon

http://dbpedia.org/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FWeb_crawler&graph=http%3A%2F%2Fdbpedia.org&graph=http%3A%2F%2Fdbpedia.org

A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently.

Attributes	Values
rdf:type	Thing yago:WikicatWebCrawlers yago:Administrator109770949 yago:CausalAgent100007347 yago:Director110014939 yago:Flatterer110095869 yago:Follower110099375 yago:Head110162991 yago:Leader109623038 yago:LivingThing100004258 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:YagoLegalActor yago:YagoLegalActorGeo music genre yago:Sycophant110684827 yago:Whole100003553 yago:WikicatDownloadManagers
rdfs:label	زاحف الشبكة (ar) Aranya web (ca) Web crawler (cs) Webcrawler (de) Ανιχνευτής ιστού (el) Araña web (es) Web crawler (eu) Robot d'indexation (fr) Crawler (it) 웹 크롤러 (ko) Spider (nl) クローラ (ja) Rastreador web (pt) Robot internetowy (pl) Web crawler (en) Поисковый робот (ru) Spindel (internet) (sv) Пошуковий робот (uk) 網路爬蟲 (zh)
rdfs:comment	Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze. Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení. (cs) Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen. (de) Web crawler modu automatikoan webeko orrialdeak arakatzen dituen sistema da. Web crawler bat orrialde guzti hauen kopia bana egin eta datu-base batean indizatu ondoren web bilatzaile batean modu azkarrean emaitzak erakusteko erabiltzen da. Hasteko, eskuz zehaztutako URL helbide zerrenda bat izaten dute abiapuntu, ondoren orrialde guzti horietan hiperloturak aurkituz doan heinean orrialde berriak deskubritu eta eremua handituz doa. Horrela jarraitzen du helbide berri gehiago aurkitzen ez dituen arte edo amaiera puntu bat definitu arte. (eu) クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja) ( 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오.) 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. (ko) Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них (ключових слів) до бази даних. Пошукові роботи здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. (uk) 网络爬虫（英語：web crawler），也叫網路蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來，以便搜索引擎事後生成供用戶搜索。爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引，或完全不作处理。互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质素结果。爬虫还可以验证超連結和HTML代码，用于网络抓取（参见数据驱动编程）。 (zh) زاحف الشبكة أو زاحف الويب (بالإنجليزية: Web crawler)‏ هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.، وعناكب الشبكة ، أو آليات الشبكة. وهذه العملية تسمى الزحف على الشبكة أو العنكبة. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. (ar) Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Les tasques més comunes de les aranyes són: * Crear l'índex d'una màquina de recerca. * Analitzar els enllaços d'un lloc per a buscar enllaços trencats. * Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. (ca) Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Entre las tareas más comunes de las arañas de la web tenemos: (es) A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. (en) Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. (fr) Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione. (it) Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. (nl) Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej: * badają zawartość witryny, * sprawdzają kod strony, * zbierają dodatkowe informacje o stronie, * monitorują aktualizacje, * tworzą mirrory stron. (pl) Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso. (pt) Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. (ru) En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben.Dessa spindlar söker igenom allt på de webbsidor de hittar till, om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robots.txt och kan utesluta delar eller hela hemsidor. (sv)
differentFrom	Spider web
foaf:depiction
dcterms:subject	Web crawlers Internet search algorithms Search engine software
Wikipage page ID	33120 (xsd:integer)
Wikipage revision ID	1124235168 (xsd:integer)
Link from a Wikipage to another Wikipage	Python (programming language) Robots.txt Scrapy Bing (search engine) Algorithm Regular expression Uniform Resource Locator Unintended consequences Unix Duplicate content Internet bot Intrinsic and extrinsic properties (philosophy) Software agent User agent John Wiley & Sons Swiftype SortSite URL normalization Middleware Open Search Server Elasticsearch GNU Affero General Public License GNU General Public License Gnutella crawler Google.com Google Scholar Googlebot Apache Hadoop Apache License Apache Nutch Apache Solr Apple (company) Libwww Machine learning Mac operating systems

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (61 GB total memory, 42 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software