About: Apache Nutch

An Entity of Type: software, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Apache Nutch is a highly extensible and scalable open source web crawler software project.

Property Value
dbo:abstract
  • Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca)
  • Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf. Nutch wird zur Zeit in 2 Versionen gepflegt * 1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein * 2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt. (de)
  • Apache Nutch is a highly extensible and scalable open source web crawler software project. (en)
  • Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: * No distingue entre mayúsculas y minúsculas * Usando comillas (") al principio y al final de un grupo de palabras o frase realiza la búsqueda de ese texto exacto * Añadiendo el signo más (+) delante de una palabra fuerza la búsqueda de palabras no habituales * Añadiendo el signo menos (-) delante de una palabra realiza la búsqueda excluyendo esa palabra En los resultados se puede encontrar diversa información: * en caché, muestra la versión de la página visitada por Nutch. * explicar, muestra una explicación de cómo Nutch otorgó la puntuación a esa página. * anchors, muestra una lista con el texto que aparece en enlaces que apuntan a esa página. (es)
  • Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans un format de données indépendant de tout langage de programmation.En juin 2003 a été présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant 100 millions de documents. (fr)
  • 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko)
  • Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop. (it)
  • Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl)
  • Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl)
  • Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как , , Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД. (ru)
  • Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як , , Apache Cassandra, Apache і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД. (uk)
dbo:author
dbo:developer
dbo:genre
dbo:license
dbo:operatingSystem
dbo:programmingLanguage
dbo:thumbnail
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 398847 (xsd:integer)
dbo:wikiPageLength
  • 13041 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1112651225 (xsd:integer)
dbo:wikiPageWikiLink
dbp:author
dbp:caption
  • Nutch Web Interface Search (en)
dbp:collapsible
  • yes (en)
dbp:developer
dbp:genre
dbp:license
dbp:logo
  • Apache Nutch logo.svg (en)
dbp:name
  • Apache Nutch (en)
dbp:operatingSystem
dbp:programmingLanguage
dbp:repo
dbp:screenshot
  • NutchScreenshot.png (en)
dbp:screenshotSize
  • 250 (xsd:integer)
dbp:wikiPageUsesTemplate
dbp:wordnet_type
dct:subject
rdf:type
rdfs:comment
  • Nutch és un programari de motor de cerca construït sota la filosofia de codi obert, altament extensible i escalable. (ca)
  • Apache Nutch is a highly extensible and scalable open source web crawler software project. (en)
  • 아파치 너치(Apache Nutch)는 루씬을 기반으로 하여 만든 오픈 소스 검색 엔진이다. 루씬을 기반으로 하였지만 웹 크롤러는 처음부터 다시 만들었다. 여러 가지 플러그인을 붙일 수 있도록 모듈화가 잘 되어 있다. 현재 아파치의 하위 프로젝트이다. 완전히 자바로 작성되어 있지만 자료는 특정 언어와 관계없는 형식으로 저장된다. 100만 페이지 정도를 검색할 수 있다. 여러 대의 머신에서 수행될 수 있도록 맵리듀스와 를 구현하였는데, 이제는 하둡이라는 하위 프로젝트를 통하여 따로 관리되고 있다. (ko)
  • Apache Nutch – otwartoźródłowy, rozszerzalny i skalowalny robot internetowy (program komputerowy do przeszukiwania i analizy stron internetowych) rozwijany pod opieką Fundacji Apache. (pl)
  • Apache Nutch is een open source internetzoekmachine, gebouwd op Lucene, dat een alternatief biedt voor commerciële zoekmachines waaronder Google en Bing. Omdat Nutch in Java geschreven is, is het beschikbaar voor meerdere platformen. De software wordt vrijgegeven onder de Apache-licentie 2.0. (nl)
  • Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung). Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate. Nutch wird zur Zeit in 2 Versionen gepflegt (de)
  • Nutch es un robot y motor de búsqueda basado en Lucene. Es parte del proyecto Lucene que a su vez es gestionado por la Apache Software Foundation. Nutch es software libre. Nutch ofrece una solución transparente, pues al ser una tecnología de código abierto es posible conocer como organiza el ranking de resultados de las búsquedas. Está desarrollada en Java, y basa su arquitectura en la plataforma Hadoop de desarrollo de sistemas distribuidos. Algunas de las características del buscador son: En los resultados se puede encontrar diversa información: (es)
  • Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet. L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus : récupération des données, analyse des documents, recherche, etc. Doug Cutting est l'initiateur et le coordinateur de ce projet. (fr)
  • Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene. Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto. Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione. Nel giugno del 2005 Nutch è passato dallo stato di a sottoprogetto di Lucene. (it)
  • Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера. (ru)
  • Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера. (uk)
rdfs:label
  • Apache Nutch (en)
  • Nutch (ca)
  • Nutch (de)
  • Nutch (es)
  • Nutch (fr)
  • Nutch (it)
  • 아파치 너치 (ko)
  • Apache Nutch (nl)
  • Apache Nutch (pl)
  • Nutch (ru)
  • Nutch (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:isPrimaryTopicOf
foaf:name
  • Apache Nutch (en)
is dbo:knownFor of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is dbp:knownFor of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License