| dbpprop:abstract
|
- Googlebot is the search bot software used by Google, which collects documents from the web to build a searchable index for the Google search engine. If a webmaster wishes to restrict the information on their site available to a Googlebot, or another well-behaved spider, they can do so with the appropriate directives in a robots. txt file, or by adding the meta tag <meta name="Googlebot" content="nofollow" /> to the webpage. Googlebot requests to Web servers are identifiable by a user-agent string containing "Googlebot" and a host address containing "googlebot. com". Currently Googlebot only follows HREF links and SRC links. Googlebot discovers pages by harvesting all of the links on every page it finds. It then follows these links to other web pages. New web pages must be linked to other known pages on the web in order to be crawled and indexed. A problem which webmasters have often noted with the Googlebot is that it takes up an enormous amount of bandwidth. This can cause websites to exceed their bandwidth limit and be taken down temporarily. This is especially troublesome for mirror sites which host many gigabytes of data. Google provides "Webmaster Tools" that allow website owners to throttle the crawl rate.
- Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web- und die Bildsuche von Google auffindbar macht.
- Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto llamado robots. txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web. Googlebot tiene dos versiones, deepbot y freshbot. Deepbot investiga profundamente, tratando de seguir cualquier enlace en esa página, además de poner esta página en el caché, y dejarla disponible para Google. En Marzo del 2006, completaba este proceso en casi un mes. Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el freshbot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Googlebot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente.
- Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, él puede insertar un texto llamado robots. txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web. Googlebot tiene dos versiones, deepbot y freshbot. Deepbot investiga profundamente, tratando de seguir cualquier enlace en esa página, además de poner esta página en el caché, y dejarla disponible para Google. En Marzo del 2006, completaba este proceso en casi un mes. Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el freshbot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Googlebot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente.
- Les googlebots sont des robots d'indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web. La chaîne de caractères permettant de les identifier en tant que User-Agent est, selon la tâche qu'ils effectuent, l'une des trois suivantes : Googlebot/2.1 Mozilla/5.0 Googlebot-Image/1.0 La version mobile du googlebot contient elle une chaîne de caractères de ce type: DoCoMo/2.0 N905i(c100;TB;W24H16) Cependant le type du terminal (ici DoCoMo/2.0 N905i) peut varier. Google utilise un autre type de robot, dénommé Mediabot, qui analyse le contenu des pages intégrant un encart AdSense afin de fournir une publicité pertinente par rapport au contexte.
- GoogleBot è lo spider web (italianizzato in "agente mobile") di Google. Googlebot effettua due tipi di scansione del web: la Deep-crawl (fatta una volta al mese circa) e la Fresh-crawl (quasi tutti i giorni). La prima come detto viene fatta una volta al mese e viene scansionato tutto il web pagina per pagina, aggiornando indici, pagerank e cache. Dopo una Deep-crawl Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter. In questo periodo di tempo si parla della cosiddetta "Google dance" perché i risultati che escono possono essere diversi di volta in volta. Dopo qualche giorno invece si stabilizzano. La seconda invece viene fatta quasi tutti i giorni e in pratica aggiorna le pagine che già sono presenti nell'indice e aggiunge quelle eventualmente create dopo l'ultima Deep-crawl. Esistono altri strumenti e procedure che il GoogleBot utilizza per indirizzare (e limitare) le sue scansioni. Uno tra i più importanti è il file "robots. txt", che dovrebbe essere sempre presente sui web server attestati su internet, in quanto naturale oggetto di scansione da parte degli spider.
- グーグルボット(Googlebot)は、Googleが採用しているクローラ(Webロボット)ソフトウェアである。
- Googlebot er Googles søkerobot, som er ansvarlig for å innhente alle nettsider i verden slik at Google kan indeksere dem.
- Googlebot - robot internetowy, używany przez Google. Przechodząc z jednej strony na drugą za pomocą odnośników indeksuje je tym samym tworząc indeks dla wyszukiwarki Google. Jeśli webmaster zażyczy sobie, aby informacje na jego stronie nie były dostępne dla Googlebota lub innego robota internetowego, może wykonać to za pomocą pliku robots. txt. Googlebot działa w dwóch wersjach; wykonuje tak zwany deep crawl i fresh crawl. Deep crawl czyli pełzanie głębokie ma za zadanie przechodzenie na każdy link jaki znajdzie na "oglądanych" przez siebie stronach i dodanie tylu, ile może, do indeksu. Ten proces jest kończony i powtarzany mniej więcej co miesiąc. W trybie Fresh crawl surfuje po sieci i odwiedza strony zmieniające się często; w zależności od tego, jak często są aktualizowane. Operacja ta wykonywana jest w celu odswiezenia często zmieniającej się zawartości niektórych stron. Googlebot przegląda strony korzystając ze wszystkich linków, jakie znajdzie na każdej wcześniej odwiedzonej przez siebie stronie. Nowe strony muszą być zalinkowane od innej, znanej już Googlebotowi strony, aby mógł ją odwiedzić i zaindeksować. Problem, z którym często borykają się webmasterzy, to duże zużycie transferu przez Googlebota. Może on powodować, że strony wykorzystają swój limit transferu i zostaną na pewien czas zawieszone. To problem dotyczący szczególnie stron mirrorujących, które przechowują gigabajty danych. Google umożliwia dostęp do "Webmaster Tools", która umożliwia posiadaczom stron dopasowanie "natężenia" odwiedzin Googlebota na stronie.
- Googlebot är en sökrobot som används av sökmotorn Google. Den hämtar dokument från Internet, främst World Wide Web, för att bygga upp en databas för Googles sökmotor. Googlebot finns i två olika versioner, Freshbot och Deepbot. Deepbot följer alla länkar den hittar och laddar ner så mycket den kan till Googles indexerare. En runda för Deepbot tar cirka en månad att slutföra. Freshbot far runt på Internet och letar efter nytt material. Den besöker enskilda sidor beroende på hur mycket de ändras. Den kan besöka en del webbplatser såsom utpräglade nyhetssajter upp till sju gånger om dagen. Alla Googles sökrobotar har hostmasken crawl-xxx-xxx-xxx-xxx. googlebot. com, där alla xxx representerar det IP-nummer sökroboten har. Googlebot upptäcker webbsidorsidor genom att skörda alla länkar på alla sidor den hittar. Sen följer den länkar till andra sidor. Nya webbsidor måste vara länkade på en gammal webbsida som redan är känd av googlebot. Googlebot är ett problem för en del webbmasters som hyr webbutrymme och har en gräns på hur mycket trafik de får använda. Många webbmasters har klagat på att googlebot använder för mycket av deras bandbredd och deras webbplatser tas ner temporärt för att de har gått över bandbreddsgränsen. Detta är ett stort problem för alla mirrors som hostar flera gigabyte data. Ifall en webbmaster registrerar sin sida hos Google Webmaster Tools så får Googlebot en liten ledtråd om vilken sida den ska söka igenom. Man kan även konfigurera att boten inte ska söka igenom en viss sida så mycket. Det kan man göra genom att registera ett Googlekonto.
- Googlebot, Google tarafından kullanılan bir arama bot'udur. Bu bot web'deki dökümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) yaratır. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots. txt adlı dosya yaratarak,yada sadece Googlebot için aşağıdaki meta etiketini kullanarak botların indekslemesini engelleyebilirsiniz. Googlebot'un indeksleme yapabilmesi için, sunucularda "googlebot. com" içeren bir web sitesi (host address)ve içinde Googlebot kelimesinin geçtiği bir user-agent kodlu metine ihtiyaç duyarlar. Bakınız : robots. txt Googlebot'un iki sürümü vardır: "Derinbot" (deepbot) ve "yenileyici bot" (fresh bot). Deepbot Web'de bulunan bütün bağlantıları takip etmeye çalışır ve birçok sayfayı Google indeksleyicisine indirir. Bu işlemi ayda bir kez yapar ve tamamlar. Freshbot web sayfalarındaki yenilenmiş içerikleri tarar. Sıklıkla yenilenen web sitelerini değişme sıklıklarınıa bağlı olarak tarar, değişikleri kontrol eder. Yalnız Googlebot HREF ve SRC linkleri takip eder. Googlebot bir sayfayı, o sayfa üzerinde bulunan bütün bağlantıları ziyaret ederek işler, sonrada o bağlantılardan başka web sayfalarına geçer. Bu nedenle ayrıca yeni web sayfaları indekslenmek için başka bilinen web sayfalarından ulaşılabilmelidir. Site yöneticileri, Googlebot'un tarama yaptığı sırada siteye ayrılan bant genişliğinin çoğunu kullandığını ve bu nedenle web sitelerinin zaman zaman bant genişliği limitlerini aştığını ve geçici olarak sitelerinde çökmeler olduğunu belirtmektedirler. Bu durum özellikle onlarca gigabyte veri barındıran yansıma--ayna-- (ing. mirror) siteler için sorun olmaktadır. Google ayrıca site yöneticilerini tarama (indekslenme) oranlarını yükseltmek için çeşitli yolların anlatıldığı bir Webmaster Tools sayfasına sahiptir.
|
| rdfs:comment
|
- Googlebot is the search bot software used by Google, which collects documents from the web to build a searchable index for the Google search engine. If a webmaster wishes to restrict the information on their site available to a Googlebot, or another well-behaved spider, they can do so with the appropriate directives in a robots. txt file, or by adding the meta tag <meta name="Googlebot" content="nofollow" /> to the webpage.
- Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web- und die Bildsuche von Google auffindbar macht.
- Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, puede insertar un texto llamado robots. txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web. Googlebot tiene dos versiones, deepbot y freshbot.
- Googlebot es el robot de búsqueda usado por Google. Colecciona documentos desde la web para construir una base de datos para el motor de búsqueda Google. Si un webmaster no quiere que su página sea descargada por un Googlebot, él puede insertar un texto llamado robots. txt, el cual puede hacer que Googlebot (y otros bots) no investiguen una o varias páginas o incluso todo el sitio web. Googlebot tiene dos versiones, deepbot y freshbot.
- Les googlebots sont des robots d'indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web.
- GoogleBot è lo spider web (italianizzato in "agente mobile") di Google. Googlebot effettua due tipi di scansione del web: la Deep-crawl (fatta una volta al mese circa) e la Fresh-crawl (quasi tutti i giorni). La prima come detto viene fatta una volta al mese e viene scansionato tutto il web pagina per pagina, aggiornando indici, pagerank e cache. Dopo una Deep-crawl Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter.
- グーグルボット(Googlebot)は、Googleが採用しているクローラ(Webロボット)ソフトウェアである。
- Googlebot er Googles søkerobot, som er ansvarlig for å innhente alle nettsider i verden slik at Google kan indeksere dem.
- Googlebot - robot internetowy, używany przez Google. Przechodząc z jednej strony na drugą za pomocą odnośników indeksuje je tym samym tworząc indeks dla wyszukiwarki Google. Jeśli webmaster zażyczy sobie, aby informacje na jego stronie nie były dostępne dla Googlebota lub innego robota internetowego, może wykonać to za pomocą pliku robots. txt. Googlebot działa w dwóch wersjach; wykonuje tak zwany deep crawl i fresh crawl.
- Googlebot är en sökrobot som används av sökmotorn Google. Den hämtar dokument från Internet, främst World Wide Web, för att bygga upp en databas för Googles sökmotor. Googlebot finns i två olika versioner, Freshbot och Deepbot. Deepbot följer alla länkar den hittar och laddar ner så mycket den kan till Googles indexerare. En runda för Deepbot tar cirka en månad att slutföra. Freshbot far runt på Internet och letar efter nytt material.
- Googlebot, Google tarafından kullanılan bir arama bot'udur. Bu bot web'deki dökümanları toplar ve Google Arama Motoru için aranabilir bir içerik listesi (index) yaratır. Eğer site yöneticiyseniz ve sitenizin Google aramalarında ya da herhangi bir arama motoru botunun indeksleme işleminde çıkmasını istemiyorsanız sitenizin dizininde bir robots.
|