About: Text corpus

An Entity of Type: music genre, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched.

Property Value
dbo:abstract
  • المتن (بالإنجليزية: corpus)‏ في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة. (ar)
  • Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua. En català, destaca el Corpus Textual Informatitzat de la Llengua Catalana (CTILC) desenvolupat per l'Institut d'Estudis Catalans, amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana. Per a l'anglès Cobuild n'és un altre exemple. La subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua en partir de la premissa que els humans tenen un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi. Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural. Aquesta disciplina es va iniciar el 1967 quan i van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts. (ca)
  • Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka. Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i o indexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl.” Korpus slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. Tvorbou korpusů se zabývá obor korpusová lingvistika. V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. (cs)
  • Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de)
  • Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el)
  • Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo)
  • Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).​ Los corpus pueden ser , cuando compilan textos orales o escritos, o , cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile.​ Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus​ tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias. Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.​ La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica. (es)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched. (en)
  • コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。 (ja)
  • 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. (ko)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le . L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia, ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano ""). Il settore della linguistica in cui vengono usati i corpora è noto pure come . Altri rami degni di menzione, in cui i corpora sono utilizzati, sono i seguenti: la Linguistica storico-comparativa in Italia, la Comparative grammar negli Stati Uniti, e la Comparative philology nel Regno Unito. (it)
  • Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych – oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat 60. XX wieku), składający się w równych częściach (po 10 tys. próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania. (pl)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 (zh)
  • У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики. (uk)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 53887 (xsd:integer)
dbo:wikiPageInterLanguageLink
dbo:wikiPageLength
  • 8443 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1110037402 (xsd:integer)
dbo:wikiPageWikiLink
dbp:date
  • 2013-08-13 (xsd:date)
dbp:url
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • المتن (بالإنجليزية: corpus)‏ في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة. (ar)
  • Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de)
  • Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el)
  • Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo)
  • Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched. (en)
  • コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。 (ja)
  • 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. (ko)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。 根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 (zh)
  • У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики. (uk)
  • Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». (ca)
  • Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka. Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i o indexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl.” Korpus slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. Tvorbou korpusů se zabývá obor korpusová lingvistika. (cs)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).​ Los corpus pueden ser , cuando compilan textos orales o escritos, o , cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile.​ (es)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le . L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia, ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. (it)
  • Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. (pl)
rdfs:label
  • أصول نصية (ar)
  • Corpus lingüístic (ca)
  • Jazykový korpus (cs)
  • Textkorpus (de)
  • Σώμα κειμένων (el)
  • Korpuso (eo)
  • Corpus lingüístico (es)
  • Testu corpus (eu)
  • Corpus (fr)
  • Korpus teks (in)
  • Corpus (it)
  • 말뭉치 (ko)
  • コーパス (ja)
  • Corpus (taalkunde) (nl)
  • Korpus (językoznawstwo) (pl)
  • Text corpus (en)
  • Corpus linguístico (pt)
  • Корпус текстов (ru)
  • 语料库 (zh)
  • Корпус текстів (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:genre of
is dbo:occupation of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is dbp:genre of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License