In linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The exploitation of treebank data has been important ever since the first large-scale treebank, The Penn Treebank, was published. However, although originating in computational linguistics, the value of treebanks is becoming more widely appreciated in linguistics research as a whole. For example, annotated treebank data has been crucial in syntactic research to test linguistic theories of sentence structure against large quantities of naturally occurring examples.

Property Value
dbo:abstract
  • Eine Baumbank (englisch Treebank), auch geparstes Korpus, ist ein Textkorpus, in dem jeder Satz geparst, also mit syntaktischer Struktur annotiert wurde. Der Begriff Baumbank bezieht sich darauf, dass die syntaktische Struktur gewöhnlich als eine Baumstruktur repräsentiert wird. Baumbanken werden oft auf Korpora erstellt, die bereits mit Part-of-speech-Tags annotiert wurden. Zudem werden Baumbanken manchmal mit semantischer oder anderer linguistischer Information erweitert. Baumbanken können manuell erstellt werden, indem Linguisten jeden Satz mit syntaktischer Struktur annotieren, aber auch halbautomatisch, so dass ein Parser automatisch syntaktische Struktur zuordnet, die dann von einem Linguisten geprüft und, wenn nötig, korrigiert wird. In der Praxis ist das komplette Überprüfen und Parsen von natürlichsprachlichen Texten ein arbeitsintensiver Prozess. Einige Baumbanken folgen in ihrer syntaktischen Annotation einer bestimmten linguistischen Theorie (z. B. die BulTreeBank mit HPSG), aber die meisten sind weniger theoriespezifisch. Trotzdem lassen sich im Wesentlichen zwei Gruppen unterscheiden: Baumbanken, die Phrasenstruktur annotieren (z. B. Penn Treebank oder ICE-GB), und solche, die Abhängigkeitsstruktur annotieren (z. B. Prague Dependency Treebank oder die Quranic Arabic Dependency Treebank). (de)
  • TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir con su . La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.​ En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semi-automáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la práctica, el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de lingüistas, pudiendo alcanzar varios años. (es)
  • Treebank edo zuhaitz-banku bat hizkuntzaren corpus bat da, non esaldi bakoitza sintaktikoki edo semantikoki aztertzen den haren egitura adieraziz. Egitura hori, oro har, zuhaitz egitura baten moduan adierazten da. Hortik datorkio treebank izena, hau da, zuhaitz-bankua. Treebank corpusak eskuz sortu daitezke, hizkuntzalari talde batek esaldi bakoitzaren egitura sintaktikoaren anotazioak hartuz; edo prozesu automatikoen bitartez ere, non parser (analizatzaile sintaktiko) batek egitura esleitzen dion eta, ondoren, hizkuntzalari batek egitura hori gainbegiratzen duen. Errealitatean, corpus desberdinak sortzeko parser proiektuek hizkuntzalari talde askoren kontribuzioa behar dute, urte askotako lana izan daitekeelarik. Treebankek iraultza ekarri zuten hizkuntzalaritza konputazionalera 90. hamarkada hasieran, eskala handiko ebidentzia enpirikoaetatik etekina ateraz. (eu)
  • In linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The exploitation of treebank data has been important ever since the first large-scale treebank, The Penn Treebank, was published. However, although originating in computational linguistics, the value of treebanks is becoming more widely appreciated in linguistics research as a whole. For example, annotated treebank data has been crucial in syntactic research to test linguistic theories of sentence structure against large quantities of naturally occurring examples. (en)
  • ツリーバンク(英: Treebank)は、コーパスの一種であり、各文に統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。 (ja)
  • Bank drzew – korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa – stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne, nie zaś spreparowane sztucznie. Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat. Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument. (pl)
dbo:thumbnail
rdfs:comment
  • In linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The exploitation of treebank data has been important ever since the first large-scale treebank, The Penn Treebank, was published. However, although originating in computational linguistics, the value of treebanks is becoming more widely appreciated in linguistics research as a whole. For example, annotated treebank data has been crucial in syntactic research to test linguistic theories of sentence structure against large quantities of naturally occurring examples. (en)
  • ツリーバンク(英: Treebank)は、コーパスの一種であり、各文に統語構造の注釈が付与されているものである。統語構造は一般に木構造で表されることが多いため、ツリーバンクと呼ばれる。ツリーバンクはコーパス言語学で文法的現象の研究に使われる他、計算言語学での構文解析器の評価や訓練に使われる。 (ja)
  • Eine Baumbank (englisch Treebank), auch geparstes Korpus, ist ein Textkorpus, in dem jeder Satz geparst, also mit syntaktischer Struktur annotiert wurde. Der Begriff Baumbank bezieht sich darauf, dass die syntaktische Struktur gewöhnlich als eine Baumstruktur repräsentiert wird. Baumbanken werden oft auf Korpora erstellt, die bereits mit Part-of-speech-Tags annotiert wurden. Zudem werden Baumbanken manchmal mit semantischer oder anderer linguistischer Information erweitert. (de)
  • Treebank edo zuhaitz-banku bat hizkuntzaren corpus bat da, non esaldi bakoitza sintaktikoki edo semantikoki aztertzen den haren egitura adieraziz. Egitura hori, oro har, zuhaitz egitura baten moduan adierazten da. Hortik datorkio treebank izena, hau da, zuhaitz-bankua. Treebank corpusak eskuz sortu daitezke, hizkuntzalari talde batek esaldi bakoitzaren egitura sintaktikoaren anotazioak hartuz; edo prozesu automatikoen bitartez ere, non parser (analizatzaile sintaktiko) batek egitura esleitzen dion eta, ondoren, hizkuntzalari batek egitura hori gainbegiratzen duen. Errealitatean, corpus desberdinak sortzeko parser proiektuek hizkuntzalari talde askoren kontribuzioa behar dute, urte askotako lana izan daitekeelarik. Treebankek iraultza ekarri zuten hizkuntzalaritza konputazionalera 90. hamar (eu)
  • TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir con su . La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.​ En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semi-automáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la (es)
  • Bank drzew – korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa – stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne, nie zaś spreparowane sztucznie. Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat. (pl)
rdfs:label
  • Baumbank (Linguistik) (de)
  • TreeBank (es)
  • TreeBank (eu)
  • ツリーバンク (ja)
  • Bank drzew (pl)
  • Baumbank (Linguistik) (de)
  • TreeBank (es)
  • TreeBank (eu)
  • ツリーバンク (ja)
  • Bank drzew (pl)
owl:sameAs
foaf:depiction
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of