In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on a specific universe.

PropertyValue
p:abstract
  • In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is part-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc.) is added to the corpus in the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual. Corpora are the main knowledge base in corpus linguistics. The analysis and processing of various types of corpora are also the subject of much work in computational linguistics, speech recognition and machine translation, where they are often used to create hidden Markov models for POS-tagging and other purposes. Corpora and frequency lists derived from them are useful for language teaching. (en)
  • Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que se maneja, normalmente se asocia con la lingüística computacional, según esta última se acerca a las aplicaciones de Procesamiento de lenguaje natural. Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el clásico Computational Analysis of Present-Day American English, basándose en el corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes. (es)
  • Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten Textkorpus gelten: etwa dem deutschen Roman des 20. Jahrhunderts, oder Titeln, in denen ein bestimmtes Motiv wie "Eifersuchtsmord" vorkommt. Genauso kann ein Textkorpus von Linguisten ausgewertet werden, um Regelmäßigkeiten in dieser Sprache beschreiben zu können. Eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, Gesetzestexte einer bestimmten Tradition. Gerne werden in linguistischen Arbeiten Zeitungsartikel als Textkorpora verwendet, da sie in großer Zahl und als elektronische Datei verfügbar sind. Diese "Bequemlichkeit" beeinflusst natürlich die Tendenz der Ergebnisse. Die wichtigsten linguistischen Teilbereiche, die Textkorpora benutzen, sind die Korpuslinguistik und die Computerlinguistik. Hier werden möglichst große Korpora in möglichst großer Zahl automatisch mit Computerprogrammen ausgewertet oder durchforstet. Ein Textkorpus muss nicht notwendigerweise aus geschriebenen Texten bestehen. Für die Spracherkennung besteht ein Korpus zum Beispiel aus Audiodateien, die Gespräche oder Monologe aufgezeichnet haben. Mehrsprachige Korpora werden in der maschinellen Übersetzung verwendet. Hier ist ein Text mit gleicher oder ähnlicher Bedeutung in zwei oder mehr Sprachen verfügbar. Mit einer automatischen oder statistischen Analyse z.B. der Häufigkeit und Verteilung von bestimmten Wörtern kann man so ein Wörterbuch zwischen den beiden Sprachen automatisch erstellen. Die Bibel ist das am häufigsten verwendete mehrsprachige Textkorpus, vor allem bei kleineren, unbekannteren Sprachen. (de)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc. (fr)
  • コーパス(corpus; 「身体」を意味するラテン語に由来。複数形はcorpora(コーポラ)だが通常使われず、最近はcorpusesも散見される)とは、電子化された自然言語の文章から成る巨大なテキストデータである。 言語学や自然言語処理などの研究に用いるため、言語的な情報(品詞、統語構造など)が付与されていることが多い。 元となる文章を集めるにあたり著作権などの法的問題が発生する他、電子化の手間などが発生するため、大規模なコーパスの作成には相当の費用と時間がかかる。 現在日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」をすすめている。 一般企業としては三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として期間限定で無料公開している。 (ja)
  • Een corpus (meervoud corpora) is in de taalkunde om het even welke verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de taalverwerving spreekt men ook van de (totale) taalproductie van een kind. (nl)
  • Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Nowszym zastosowaniem korpusów jest uczenie maszynowe w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych - oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika Frekwencyjnego Polszczyzny Współczesnej (obecnie znany także jako korpus polszczyzny lat sześćdziesiątych XX wieku), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być ustawione (ang. aligned), np. na poziomie akapitu lub zdania. (pl)
  • Corpus lingüístico é um corpo de textos escritos ou falados numa língua disponível para análise. O estudo de corpora (corpora é o plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento lingüístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpus (plural corpora) está associado à Linguística de Corpus. (pt)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "[http://en.wikipedia.org/wiki/Text_corpus text corpus]" 的涵意即為 "body of text"。 (zh)
p:hasPhotoCollection
p:reference
p:relatedInstance
p:wikipage-de
p:wikipage-es
p:wikipage-fr
p:wikipage-ja
p:wikipage-nl
p:wikipage-pl
p:wikipage-pt
p:wikipage-zh
rdfs:comment
  • In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis, checking occurrences or validating linguistic rules on a specific universe. (en)
  • Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). (es)
  • Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die Gegenstand einer beliebigen Darstellung oder Untersuchung wird. Eine literaturwissenschaftliche Untersuchung kann einem bestimmten Textkorpus gelten: etwa dem deutschen Roman des 20. Jahrhunderts, oder Titeln, in denen ein bestimmtes Motiv wie "Eifersuchtsmord" vorkommt. (de)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc. (fr)
  • コーパス(corpus; 「身体」を意味するラテン語に由来。複数形はcorpora(コーポラ)だが通常使われず、最近はcorpusesも散見される)とは、電子化された自然言語の文章から成る巨大なテキストデータである。 言語学や自然言語処理などの研究に用いるため、言語的な情報(品詞、統語構造など)が付与されていることが多い。 (ja)
  • Een corpus (meervoud corpora) is in de taalkunde om het even welke verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de taalverwerving spreekt men ook van de (totale) taalproductie van een kind. (nl)
  • Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Nowszym zastosowaniem korpusów jest uczenie maszynowe w przetwarzaniu języków naturalnych. (pl)
  • Corpus lingüístico é um corpo de textos escritos ou falados numa língua disponível para análise. O estudo de corpora (corpora é o plural de corpus) apresenta muitas vantagens. (pt)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "[http://en.wikipedia.org/wiki/Text_corpus text corpus]" 的涵意即為 "body of text"。 (zh)
rdfs:label
  • Text corpus (en)
  • Corpus lingüístico (es)
  • Textkorpus (de)
  • Corpus (fr)
  • コーパス (ja)
  • Corpus (taalkunde) (nl)
  • Korpus (językoznawstwo) (pl)
  • Corpus lingüístico (pt)
  • 语料库 (zh)
skos:subject
foaf:page
p:redirect