| dbpprop:abstract
|
- In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is part-of-speech tagging, or POS-tagging, in which information about each word's part of speech (verb, noun, adjective, etc. ) is added to the corpus in the form of tags. Another example is indicating the lemma (base) form of each word. When the language of the corpus is not a working language of the researchers who use it, interlinear glossing is used to make the annotation bilingual. Some corpora have further structured levels of analysis applied. In particular, a number of smaller corpora may be fully parsed. Such corpora are usually called Treebanks or Parsed Corpora. The difficulty of ensuring that the entire corpus is completely and consistently annotated means that these corpora are usually smaller, containing around 1 to 3 million words. Other levels of linguistic structured analysis are possible, including annotations for morphology, semantics and pragmatics. Corpora are the main knowledge base in corpus linguistics. The analysis and processing of various types of corpora are also the subject of much work in computational linguistics, speech recognition and machine translation, where they are often used to create hidden Markov models for part of speech tagging and other purposes. Corpora and frequency lists derived from them are useful for language teaching.
- Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die in verschiedenen wissenschaftlichen Disziplinen Gegenstand einer beliebigen Darstellung oder Untersuchung ist. So kann beispielsweise eine literaturwissenschaftliche Untersuchung einem bestimmten Textkorpus gelten, etwa dem deutschen Roman des 20. Jahrhunderts oder Titeln, in denen ein bestimmtes Motiv (wie etwa "Eifersuchtsmord") vorkommt. Des Weiteren kann ein Textkorpus einer bestimmten Sprache von Linguisten ausgewertet werden, um z. B. Regelmäßigkeiten in dieser Sprache beschreiben zu können. Auch eine rechtshistorische Arbeit kann ein bestimmtes Textkorpus behandeln, so etwa Gesetzestexte einer bestimmten Tradition.
- Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples poden ser textos (típicament), o mostres orals (normalment transcrites). Es diu lingüística de corpus a la subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres. Aquest tipus d'aproximació xoca amb l'enfocament chomskiano que tendeix a estudiar la llengua a través de la intuïció lingüística del parlant. Aquesta subdisciplina, donat el volum de dades que es maneja, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural. Aquesta disciplina es va iniciar en 1967 quan Henry Kucera i Nelson Francis van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió de paraules seleccionades d'una àmplia varietat de fonts.
- Jazykový korpus je (většinou rozsáhlý) soubor textů, které jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod. ) a zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech. Některé korpusy jsou budovány jako takzvaně vyvážené, což znamená, že by měly obsahovat vyvážený podíl textů tříděných podle žánrovosti, doby vzniku, případně dalších hledisek (mluvenost, psanost, regionálnost, užívanost apod.). V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. Pro formátování textů a vkládání značek se používá zejména standardizovaného jazyka XML, případně staršího SGML. Jazykové korpusy rozlišujeme na synchronní a diachronní. Synchronní korpusy jsou budované jako reprezentativní a vyvážené otisky jazyka v určitém relativně krátkém časovém období, během něhož lze považovat jazyk za neměnný systém. Většinou se jedná o korpusy současného jazyka. Diachronní korpusy zachycují jazyk v různých vývojových fázích a obsahují tudíž texty z rozsáhlejších období. Podle dalšího kritéria rozlišujeme také korpusy jednojazyčné a vícejazyčné. Vícejazyčný korpus se také nazývá paralelní korpus a obsahuje vedle sebe stejné texty v různých jazycích. Korpusy slouží zejména jako lexikologický a lexikografický nástroj a stávají se mj. zdrojem pro zpracování jednojazyčných výkladových slovníků nebo vícejazyčných překladových slovníků. Budováním korpusů českého jazyka se v České republice zabývá Ústav Českého národního korpusu, který založil lingvista František Čermák.
- Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que se maneja, normalmente se asocia con la lingüística computacional, según esta última se acerca a las aplicaciones de Procesamiento de lenguaje natural. Esta disciplina se inició en 1967 cuando Henry Kucera y Nelson Francis publicaron el clásico Computational Analysis of Present-Day American English, basándose en el corpus Brown, una compilación de inglés estadounidense de aproximadamente un millón de palabras seleccionadas de una amplia variedad de fuentes.
- Un corpus est un ensemble de documents, artistiques ou non, regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc.
- Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell’uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di “corpus elettronico”. Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano “La Repubblica”. Il settore della linguistica in cui vengono usati i corpora è anche noto come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito.
- コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
- Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus.
- Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych - oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika Frekwencyjnego Polszczyzny Współczesnej (obecnie znany także jako korpus polszczyzny lat sześćdziesiątych XX wieku), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione, np. na poziomie akapitu lub zdania.
- Corpus linguístico é um corpo de textos escritos ou falados numa língua disponível para análise. O estudo de corpora (corpora é o plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpus (plural corpora) está associado à Linguística de Corpus.
- 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。
|
| rdfs:comment
|
- In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus).
- Das Textkorpus (oft auch nur Corpus bzw. Korpus) ist eine Sammlung von Texten oder Äußerungen in einer Sprache, die in verschiedenen wissenschaftlichen Disziplinen Gegenstand einer beliebigen Darstellung oder Untersuchung ist. So kann beispielsweise eine literaturwissenschaftliche Untersuchung einem bestimmten Textkorpus gelten, etwa dem deutschen Roman des 20. Jahrhunderts oder Titeln, in denen ein bestimmtes Motiv (wie etwa "Eifersuchtsmord") vorkommt.
- Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples poden ser textos (típicament), o mostres orals (normalment transcrites). Es diu lingüística de corpus a la subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres. Aquest tipus d'aproximació xoca amb l'enfocament chomskiano que tendeix a estudiar la llengua a través de la intuïció lingüística del parlant.
- Jazykový korpus je (většinou rozsáhlý) soubor textů, které jsou v různé míře opatřeny metajazykovými značkami vypovídajícími o samotném textu (autor, rok vydání, žánr apod. ) a zařazení jednotlivých slov do kategorie slovních druhů, o frekvenci slova v korpusu, případně dalších lingvistických a frekvenčních aspektech.
- Un Corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (típicamente), o muestras orales (normalmente transcritas). Se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante.
- Un corpus est un ensemble de documents, artistiques ou non, regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc.
- Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo.
- コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。
- Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus.
- Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.
- Corpus linguístico é um corpo de textos escritos ou falados numa língua disponível para análise. O estudo de corpora (corpora é o plural de corpus) apresenta muitas vantagens.
- 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。
|