The success of the Semantic Web depends on the availability of ontologies as well as of web pages annotated with metadata conforming to these ontologies. Acquiring the necessary metadata through manual definition of an information extraction system is a laborious task requiring a lot of time and expert know-how. PANKOW (Pattern-based Annotation through Knowledge on the Web), represents an automated self annotating Web method based on counting Google hits of instantiated linguistic patterns.

PropertyValue
dbpprop:abstract
  • The success of the Semantic Web depends on the availability of ontologies as well as of web pages annotated with metadata conforming to these ontologies. Acquiring the necessary metadata through manual definition of an information extraction system is a laborious task requiring a lot of time and expert know-how. PANKOW (Pattern-based Annotation through Knowledge on the Web), represents an automated self annotating Web method based on counting Google hits of instantiated linguistic patterns. It employs an unsupervised learning approach to characterize instances with regard to ontology, by combining the idea of using linguistic patterns to identify ontological relations as well as the idea of using the Web as a big corpus to overcome data sparseness. The system scans the Web pages for phrases in the HTML text that might be categorized as instances of the ontology. Candidate phrases are proper nouns, identified by a standard part-of-speech tagging procedure. All candidate proper nouns and all candidate ontology concepts are introduced into linguistic patterns to derive hypothesis phrases. Then Google is queried for the hypothesis phrases through its Web service API. Finally the system sums up the query results to a total for each instance-concept pair and categorizes the candidate proper nouns into their highest rank concepts. The results are comparable to state of the art systems, whereas the approach is simpler and more intuitive to use to annotate the web. PANKOW project has been initiated at University of Karlsruhe, Germany in 2004. Reference: Philipp Cimiano, Siegfried Handschuh, Steffen Staab Towards the Self-Annotating Web In Proceedings of the 13th WWW Conference, pp. 462-471. ACM, New York, May 2004. ISBN 1-58113-844-X
  • Succesul webului semantic este dependent de existenţa unor ontologii corespunzătoare şi de proliferarea paginilor web adnotate cu metadate conforme acestor ontologii. Obţinerea metadatelor prin definirea manuală a unor reguli de extracţie a informaţiei necesită o muncă titanică, timp şi experienţă de înalt nivel. PANKOW (prescurtare din engleză de la Pattern-based Annotation through Knowledge on the Web, Anotare prin similaritate utilizînd informaţia incorporată de web) reprezintă o metodă de auto-anotare bazată pe numărarea paginilor web care includ anumite şabloane lingvistice specificate. Este o abordare similară invăţării automate nesupravegheate a corespondenţei dintre anumiţi termeni şi categoriile unei ontologii, ce combină idea folosirii şabloanelor lingvistice în identificarea relaţiilor ontologice cu idea de folosire a Internetului ca sursă gigantică de informaţie. Sistemul caută în textul HTML care descrie paginile de Internet termeni care ar putea constitui exemple de categorii ale ontologiei. În general aceştia sînt substantive comune ce pot fi identificate cu algoritmi specifici de separare a unităţilor lexicale. Substantivele comune candidate şi termenii ontologiei sînt combinaţi în şabloane lingvistice ce sînt apoi utilizate ca termeni de căutare în Google. În final, pentru fiecare combinaţie substantiv-categorie ontologică, sistemul rezumă rezultatele interogării la un număr total de pagini regăsite incluzînd combinaţia respectivă, şi atribuie termenul (substantiv comun) categoriei ontologice cele mai relevante din punct de vedere al acestui număr. PANKOW este ca performanţă la nivelul sistemelor celor mai moderne din domeniu, în plus fiind mai simplu şi mai intuitiv în ce priveşte anotarea paginilor Internet. Proiectul PANKOW a fost iniţiat la Universitatea Karlsruhe, Germania, în 2004.
dbpprop:hasPhotoCollection
rdf:type
rdfs:comment
  • The success of the Semantic Web depends on the availability of ontologies as well as of web pages annotated with metadata conforming to these ontologies. Acquiring the necessary metadata through manual definition of an information extraction system is a laborious task requiring a lot of time and expert know-how. PANKOW (Pattern-based Annotation through Knowledge on the Web), represents an automated self annotating Web method based on counting Google hits of instantiated linguistic patterns.
  • Succesul webului semantic este dependent de existenţa unor ontologii corespunzătoare şi de proliferarea paginilor web adnotate cu metadate conforme acestor ontologii. Obţinerea metadatelor prin definirea manuală a unor reguli de extracţie a informaţiei necesită o muncă titanică, timp şi experienţă de înalt nivel.
rdfs:label
  • PANKOW
  • PANKOW
owl:sameAs
skos:subject
foaf:page
is owl:sameAs of