In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory.

Property Value
dbo:abstract
  • مجموع النصوص (إنجليزي: corpus، ذخيرة ، متن، مدونة) هو مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وهي تستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.يرتبط مفهوم ذخيرة النصوص بما يسما في اللغات اللاتينية "corpus" (جمعها "corpora") فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد 'المدونة'. والشعبة التي تهتم بهذا المفهوم هي ''. قد تحتوي الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أو نصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تسمى الذخائر المتوازية. (ar)
  • Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka, který slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. (cs)
  • Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a l'estudi d'una llengua. Val a dir que, paral·lelament al desenvolupament de les tecnologies de la informació, els corpus electrònics han esdevingut una eina fonamental per a l'obtenció d'aquestes dades, atesa la quantitat d'informació que es pot processar amb un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 milions d'ocurrències de mots. Els corpus de referència contenen un gran volum de dades lingüístiques que permeten obtenir dades representatives per analitzar qualsevol aspecte d'una llengua. En català, destaca el Corpus Textual Informatitzat de la Llengua Catalana (CTILC) desenvolupat per l'Institut d'Estudis Catalans, amb més de 52 milions de mots i consultable en línia des del 2005. Es tracta d'un corpus diacrònic (les mostres són textos escrits entre 1833 i 1988) a partir del qual s'està desenvolupant el Diccionari Descriptiu de la Llengua Catalana. Per a l'anglès Cobuild n'és un altre exemple. La subdisciplina de la lingüística que estudia la llengua a través d'aquestes mostres es diu «lingüística de corpus». Aquest tipus d'aproximació xoca amb l'enfocament generativista chomskià que tendeix a estudiar la llengua en partir de la premissa que els humans tenen un coneixement innat de la llengua, la gramàtica universal, i que el repertori d'aquests coneixements és infinit. Chomsky proposa prendre com a mostra un parlant ideal amb competència lingüística en la llengua objecte d'estudi. Aquesta subdisciplina, donat el volum de dades que utilitza, normalment s'associa amb la lingüística computacional, segons aquesta última s'apropa a les aplicacions de Processament de llenguatge natural. Aquesta disciplina es va iniciar el 1967 quan i van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglès nord-americà d'aproximadament un milió d'ocurrències de paraules, seleccionades d'una àmplia varietat de fonts. (ca)
  • Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de)
  • Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el)
  • Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo)
  • In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. (en)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas).​ Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus​ tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias. Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.​ La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica. (es)
  • Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le . Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano ""). Il settore della linguistica in cui vengono usati i corpora è noto pure come . Altre rami degni di menzione, in cui i corpora sono utilizzati, sono i seguenti: la Linguistica storico-comparativa in Italia, la Comparative grammar negli Stati Uniti, e la Comparative philology nel Regno Unito. (it)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供している。 (ja)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. Niektóre korpusy bywają określane mianem zrównoważonych – oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat sześćdziesiątych XX wieku), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego. Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania. (pl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 53887 (xsd:integer)
dbo:wikiPageInterLanguageLink
dbo:wikiPageLength
  • 7958 (xsd:integer)
dbo:wikiPageRevisionID
  • 976493668 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dct:subject
rdf:type
rdfs:comment
  • Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka, který slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. V současnosti mají korpusy digitální podobu, což výrazně usnadňuje sběr dat i jejich zpracování: speciální programy umožňují vyhledávání slov a slovních spojení v kontextu, zjištění frekvence výskytu v korpusu i zjištění původního zdroje textu. (cs)
  • Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de)
  • Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el)
  • Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo)
  • In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. (en)
  • Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu)
  • Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr)
  • コーパス(英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、など)を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供している。 (ja)
  • Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl)
  • Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt)
  • В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru)
  • 语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。 (zh)
  • مجموع النصوص (إنجليزي: corpus، ذخيرة ، متن، مدونة) هو مجموعة كبيرة ومنظمة من النصوص (التي أصبحت الآن عادة مخزنة ومعالجة إلكترونيا). وهي تستخدم للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.يرتبط مفهوم ذخيرة النصوص بما يسما في اللغات اللاتينية "corpus" (جمعها "corpora") فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد 'المدونة'. والشعبة التي تهتم بهذا المفهوم هي ''. (ar)
  • Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». (ca)
  • Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos (los más comunes), o muestras orales (generalmente transcritas).​ Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus​ tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en (es)
  • Un corpus è una collezione di testi selezionati e organizzati per facilitare le . Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano ""). (it)
  • Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. (pl)
rdfs:label
  • أصول نصية (ar)
  • Corpus lingüístic (ca)
  • Jazykový korpus (cs)
  • Textkorpus (de)
  • Σώμα κειμένων (el)
  • Korpuso (eo)
  • Corpus lingüístico (es)
  • Testu corpus (eu)
  • Corpus (fr)
  • Text corpus (en)
  • Corpus (it)
  • コーパス (ja)
  • Corpus (taalkunde) (nl)
  • Korpus (językoznawstwo) (pl)
  • Corpus linguístico (pt)
  • Корпус текстов (ru)
  • 语料库 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:genre of
is dbo:occupation of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is dbp:genre of
is foaf:primaryTopic of