Heritrix is the Internet Archive’s web crawler which was specially designed for web archiving. It is open-source and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by Internet Archive and the Nordic national libraries on specifications written in early 2003.
| Property | Value |
| dbpedia-owl:Software/license
| |
| dbpedia-owl:Work/genre
| |
| dbpedia-owl:genre
| |
| dbpedia-owl:license
| |
| dbpprop:abstract
|
- Heritrix is the Internet Archive’s web crawler which was specially designed for web archiving. It is open-source and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by members of the Internet Archive and other interested third parties.
- Heritrix incluye un conjunto de herramientas a través de la línea de comandos llamado arcreader el cual puede ser usado para extraer el contenido de un fichero Arc. El siguiente comando lista todas las URLs y metadatos almacenados en el fichero Arc: arcreader IA-2006062. arc El siguiente comando extrae hello. html del ejemplo de fichero Arc anterior, suponiendo que el registro empieza en la posición 140: arcreader -o 140 -f dump IA-2006062. arc Otras herramientas: Arc processing tools WERA (Web ARchive Access)
- Heritrix on pääasiassa Internet Archiven kehittämä hakurobotti verkkoaineistojen keräämiseen. Kehitystyössä on mukana myös muita IIPC:n jäseniä eli pääasiassa kansalliskirjastoja. Hakurobotti on toteutettu Javalla ja sisältää laajan valikoiman asetuksia, joilla erilaisia keruutoimintoja voidaan toteuttaa. Keruurobottia on käytetty onnistuneesti useissa hyvin laajoissa verkkoaineistojen haravointiprojekteissa ja sen tekninen toteutus osaa kiertää monet yleisesti keräyksissä vastaantulevat tekniset ongelmat. Heritrixiä käyttävät yleensä kansalliskirjastot tai muut toimijat, joiden tehtäviin kuuluu verkkoaineistojen kerääminen ja säilyttäminen jälkipolville. Heritrix:iä voidaan käyttää myös erilaisten vähemmän teknisten käyttöliittymien kautta kuten NetArchiveSuite tai Web Curator Tool. Suomen Kansalliskirjasto kerää Suomea koskevia Internetin aineistoja kulttuuriaineistojen tallettamista ja säilyttämistä koskevan lain (28.12.2007/1433) mukaisesti. Myös muiden maiden kansalliskirjastojen toiminta perustuu samankaltaisiin lakeihin.
- Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre, programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation. Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première sortie officielle a eu lieu en janvier 2004, et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés.
|
| dbpprop:caption
|
- Screenshot of Heritrix Admin Console.
|
| dbpprop:genre
| |
| dbpprop:hasPhotoCollection
| |
| dbpprop:latestReleaseDate
| |
| dbpprop:latestReleaseVersion
| |
| dbpprop:license
| |
| dbpprop:name
| |
| dbpprop:operatingSystem
| |
| dbpprop:portalProperty
|
- Free Software Portal Logo.svg
- Free software
|
| dbpprop:programmingLanguage
| |
| dbpprop:reference
| |
| dbpprop:screenshot
| |
| dbpprop:website
| |
| dbpprop:wikiPageUsesTemplate
| |
| dbpprop:wordnet_type
| |
| rdf:type
| |
| rdfs:comment
|
- Heritrix is the Internet Archive’s web crawler which was specially designed for web archiving. It is open-source and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by Internet Archive and the Nordic national libraries on specifications written in early 2003.
- Heritrix incluye un conjunto de herramientas a través de la línea de comandos llamado arcreader el cual puede ser usado para extraer el contenido de un fichero Arc. El siguiente comando lista todas las URLs y metadatos almacenados en el fichero Arc: arcreader IA-2006062. arc El siguiente comando extrae hello. html del ejemplo de fichero Arc anterior, suponiendo que el registro empieza en la posición 140: arcreader -o 140 -f dump IA-2006062.
- Heritrix on pääasiassa Internet Archiven kehittämä hakurobotti verkkoaineistojen keräämiseen. Kehitystyössä on mukana myös muita IIPC:n jäseniä eli pääasiassa kansalliskirjastoja. Hakurobotti on toteutettu Javalla ja sisältää laajan valikoiman asetuksia, joilla erilaisia keruutoimintoja voidaan toteuttaa.
- Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre, programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation. Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003.
|
| rdfs:label
|
- Heritrix
- Byrsophyllum
- Heritrix
- Heritrix
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:homepage
| |
| foaf:name
| |
| foaf:page
| |
| is owl:sameAs
of | |