In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (nowadays usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory.

Property Value
dbo:abstract
  • In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (nowadays usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. (en)
  • 25بك المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016) مجموع النصوص أو ذخيرة النصوص هو مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وهي تستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.يرتبط مفهوم ذخيرة النصوص بما يسما في اللغات اللاتينية "corpus" (جمعها "corpora") فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد 'المدونة'. والشعبة التي تهتم بهذا المفهوم هي 'لسانيات المدونة'. قد تحتوي الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أو نصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تسمى الذخائر المتوازية. (ar)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas). Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los córpora tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias. Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la complicación de los córpora han llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general. La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los córpora se recogen y almacenan de manera electrónica. (es)
  • Der Ausdruck Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lat. corpus ‚Körper') bezeichnet generell eine Sammlung von schriftlichen Texten oder von schriftlich aufgezeichneten, mündlichen Äußerungen in einer bestimmten Sprache. Textkorpora sind in unterschiedlichen wissenschaftlichen Disziplinen, hauptsächlich in der Sprachwissenschaft, Literaturwissenschaft und historisch orientierten Fächern, aber auch beispielsweise in der Rechtswissenschaft von Bedeutung. Sie sind dabei das Mittel, anhand dessen beispielsweise eine bestimmte Sprache beschrieben werden kann oder die Werke eines Autors erforscht werden; Korpora dienen aber auch als Quellen zur Untersuchung bestimmter (etwa historischer) Themen und Sachverhalte. Textkorpora werden – sofern es sich um solche aus lebenden Sprachen handelt – nach gewissen wissenschaftlichen Kriterien zusammengestellt und umfassen eine bestimmte Art und Anzahl von Texten. Solche Zusammenstellungen haben mit Aufkommen maschineller Möglichkeiten besonders in mehreren Disziplinen der Sprachwissenschaft eine immense Bedeutung erlangt und waren bestimmend für die erst vor kurzem erfolgte Etablierung der Korpuslinguistik. Ein Textkorpus liegt heute typischerweise in digitaler Form vor. Zum Zwecke der Beschreibung bestimmter Einzelsprachen wurden bereits in zahlreichen Nationalsprachen große, das heißt viele Millionen bis teils mehrere Milliarden Wörter umfassende Korpora erstellt, die ein gewisses Verhältnis einzelner Textsorten in der jeweiligen Sprache abbilden sollen. Zudem existiert eine große Reihe von Spezialkorpora wie etwa Kindersprachkorpora, Dialektkorpora, Korpora bestehend aus Gesamtausgaben von literarischen Werken u. a. m. Auch werden in zunehmendem Maße für linguistische Einzeluntersuchungen eigens konzipierte Textkorpora erstellt. (de)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • コーパス(英: corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。 (ja)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche.Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo.I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di "corpus elettronico". Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano "".Il settore della linguistica in cui vengono usati i corpora è anche noto come . Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito. (it)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • Korpus (ang. corpus, z łac. corpus 'ciało') – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych - oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat sześćdziesiątych XX wieku), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania. (pl)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。 (zh)
  • В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами. Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики. Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики, распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам. (ru)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 53887 (xsd:integer)
dbo:wikiPageRevisionID
  • 724587897 (xsd:integer)
dct:subject
http://purl.org/linguistics/gold/hypernym
rdfs:comment
  • In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (nowadays usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. (en)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • コーパス(英: corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。 (ja)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。 (zh)
  • 25بك المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016) مجموع النصوص أو ذخيرة النصوص هو مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وهي تستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.يرتبط مفهوم ذخيرة النصوص بما يسما في اللغات اللاتينية "corpus" (جمعها "corpora") فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد 'المدونة'. والشعبة التي تهتم بهذا المفهوم هي 'لسانيات المدونة'. (ar)
  • Der Ausdruck Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lat. corpus ‚Körper') bezeichnet generell eine Sammlung von schriftlichen Texten oder von schriftlich aufgezeichneten, mündlichen Äußerungen in einer bestimmten Sprache. Textkorpora sind in unterschiedlichen wissenschaftlichen Disziplinen, hauptsächlich in der Sprachwissenschaft, Literaturwissenschaft und historisch orientierten Fächern, aber auch beispielsweise in der Rechtswissenschaft von Bedeutung. Sie sind dabei das Mittel, anhand dessen beispielsweise eine bestimmte Sprache beschrieben werden kann oder die Werke eines Autors erforscht werden; Korpora dienen aber auch als Quellen zur Untersuchung bestimmter (etwa historischer) Themen und Sachverhalte. (de)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas). Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los córpora tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en (es)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche.Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo.I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di "corpus elettronico". Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano "".Il settore della linguistica in cui vengono usati i corpora è anche noto come . Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Compara (it)
  • Korpus (ang. corpus, z łac. corpus 'ciało') – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. (pl)
  • В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами. (ru)
rdfs:label
  • Text corpus (en)
  • مجموع نصوص (ar)
  • Textkorpus (de)
  • Corpus lingüístico (es)
  • Corpus (fr)
  • Corpus (it)
  • コーパス (ja)
  • Corpus (taalkunde) (nl)
  • Korpus (językoznawstwo) (pl)
  • Corpus linguístico (pt)
  • 语料库 (zh)
  • Корпус текстов (ru)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:genre of
is dbo:occupation of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is foaf:primaryTopic of