About: Heritrix

An Entity of Type: software, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is available under a free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by the Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by employees of the Internet Archive and other interested parties.

Property Value
dbo:abstract
  • هيراتراكس (Heritrix) هو زاحف أرشيف أنترنت، والذي صمم خصيصا للأرشفة ويب. فهو مفتوح المصدر ومكتوب بلغة جافا. الواجهة الرئيسية للوصول باستخدام متصفح ويب، وهناك أداة سطر الأوامر التي يمكن اختياريا استخدامها لبدء بالزحف.طور هيراتراكس بالاشتراك مع أرشيف الإنترنت والمكتبات الوطنية في الشمال المواصفات المكتوبة في أوائل عام 2003. وكان إطلاقه الرسمي في أول يناير 2004، وتم تحسينها باستمرار من قبل العاملين في أرشيف الإنترنت وغيرها من الأطراف المهتمة. (ar)
  • Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is available under a free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by the Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by employees of the Internet Archive and other interested parties. For many years Heritrix was not the main crawler used to crawl content for the Internet Archive's web collection. The largest contributor to the collection, as of 2011, is Alexa Internet. Alexa crawls the web for its own purposes, using a crawler named ia_archiver. Alexa then donates the material to the Internet Archive. The Internet Archive itself did some of its own crawling using Heritrix, but only on a smaller scale. Starting in 2008, the Internet Archive began performance improvements to do its own wide scale crawling, and now does collect most of its content. (en)
  • Heritrix es un rastreador (o crawler) de ficheros web a través de internet. Su licencia es open-source y está escrito completamente en JAVA. Su interfaz de configuración es accesible usando un navegador web, haciéndolo muy versátil y cómodo de usar, aunque también puede ser lanzando desde línea de comandos. Heritrix fue desarrollado conjuntamente por Internet Archive y "Nordic National Libraries" a principios de 2003. La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de Internet Archive y terceras partes. (es)
  • Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation. Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première publication officielle a eu lieu en janvier 2004, et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés. (fr)
  • Heritrix はインターネット・アーカイブが開発したウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、フリーソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する。 Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。 もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。 2008年からインターネット・アーカイブは自身の全ウェブ規模のクローリングの性能を向上させ、現在では自身で収集したものが大半を占めるようになっている。 (ja)
dbo:genre
dbo:license
dbo:thumbnail
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 5681427 (xsd:integer)
dbo:wikiPageLength
  • 9318 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1096273807 (xsd:integer)
dbo:wikiPageWikiLink
dbp:caption
  • Screenshot of Heritrix Admin Console. (en)
dbp:genre
dbp:license
dbp:logo
  • 145 (xsd:integer)
dbp:name
  • Heritrix (en)
dbp:operatingSystem
dbp:programmingLanguage
dbp:revision
  • 531730721 (xsd:integer)
dbp:screenshot
  • Heritrix 3.4.0 Web UI.png (en)
dbp:screenshotSize
  • 250 (xsd:integer)
dbp:sourcearticle
  • Re: Control over the Internet Archive besides just “Disallow /”? (en)
dbp:sourcepath
dbp:wikiPageUsesTemplate
dbp:wordnet_type
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • هيراتراكس (Heritrix) هو زاحف أرشيف أنترنت، والذي صمم خصيصا للأرشفة ويب. فهو مفتوح المصدر ومكتوب بلغة جافا. الواجهة الرئيسية للوصول باستخدام متصفح ويب، وهناك أداة سطر الأوامر التي يمكن اختياريا استخدامها لبدء بالزحف.طور هيراتراكس بالاشتراك مع أرشيف الإنترنت والمكتبات الوطنية في الشمال المواصفات المكتوبة في أوائل عام 2003. وكان إطلاقه الرسمي في أول يناير 2004، وتم تحسينها باستمرار من قبل العاملين في أرشيف الإنترنت وغيرها من الأطراف المهتمة. (ar)
  • Heritrix es un rastreador (o crawler) de ficheros web a través de internet. Su licencia es open-source y está escrito completamente en JAVA. Su interfaz de configuración es accesible usando un navegador web, haciéndolo muy versátil y cómodo de usar, aunque también puede ser lanzando desde línea de comandos. Heritrix fue desarrollado conjuntamente por Internet Archive y "Nordic National Libraries" a principios de 2003. La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de Internet Archive y terceras partes. (es)
  • Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is available under a free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by the Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by employees of the Internet Archive and other interested parties. (en)
  • Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation. (fr)
  • Heritrix はインターネット・アーカイブが開発したウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、フリーソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する。 Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。 もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。 (ja)
rdfs:label
  • هريتركس (ar)
  • Heritrix (es)
  • Heritrix (en)
  • Heritrix (fr)
  • Heritrix (ja)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:homepage
foaf:isPrimaryTopicOf
foaf:name
  • Heritrix (en)
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License