About: Text corpus

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Text corpus Goto Sponge NotDistinct Permalink

An Entity of Type : dbo:MusicGenre, within Data Space : dbpedia.org:8891 associated with source document(s)
QRcode icon

http://dbpedia.org:8891/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FText_corpus

In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched.

Attributes	Values
rdf:type	music genre
rdfs:label	أصول نصية (ar) Corpus lingüístic (ca) Jazykový korpus (cs) Textkorpus (de) Σώμα κειμένων (el) Korpuso (eo) Corpus lingüístico (es) Testu corpus (eu) Corpus (fr) Korpus teks (in) Corpus (it) 말뭉치 (ko) コーパス (ja) Corpus (taalkunde) (nl) Korpus (językoznawstwo) (pl) Text corpus (en) Corpus linguístico (pt) Корпус текстов (ru) 语料库 (zh) Корпус текстів (uk)
rdfs:comment	المتن (بالإنجليزية: corpus)‏ في اللسانيات، عبارة عن مجموعة من البيانات اللغوية (عادة ما تكون موجودة في قاعدة بيانات حاسوبية). تسمى أيضًا أصول نصية. وفي علم لسانيات المتون، يتم استخدامها لإجراء التحليل الإحصائي واختبار الفرضيات، والتحقق من الأحداث أو التحقق من صحة القواعد اللغوية ضمن نطاق لغة معينة. (ar) Ein Textkorpus (Neutrum; Plural Textkorpora; kurz auch nur Korpus oder Corpus; lateinisch corpus ‚Körper‘) ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mündlichen Äußerungen einer bestimmten Sprache oder Textgattung. (de) Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη . (el) Korpuso (aŭ tekstaro) estas aro da tekstoj aŭ transskribitaj konversacioj/paroloj, kiun oni uzaskiel tuton por studo. Komputado ne necesas,sed tre faciligas la pretigon kaj uzon de tekstaroj. Ankaŭaro da parolregistraĵoj estas korpuso. Multaj lingvistoj insistas, ke tekstaro devas esti morfologie markita por ebligi serĉon de gramatikaj formoj en kuntekstoj. (eo) Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du. (eu) Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie, etc. (fr) In linguistics, a corpus (plural corpora) or text corpus is a language resource consisting of a large and structured set of texts (nowadays usually electronically stored and processed). In corpus linguistics, they are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules within a specific language territory. In search technology, a corpus is the collection of documents which is being searched. (en) コーパス（英: corpus）は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報（品詞、など）を付与している。言語学以外では「全集」を意味することもあり、言語学でも日本語を扱う場合には、「言語全集」「名詞全集」「動詞全集」などと呼ぶとよい。コンピュータ利用が進み、電子化データとして提供されている。 (ja) 말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. (ko) Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus. Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek. (nl) Corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus. (pt) В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики. (ru) 语料库一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記。根据语料库的特征，可以分为单语语料库、双语语料库、平行语料库等，根据语料的来源，可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。 (zh) У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики. (uk) Un corpus lingüístic és un conjunt, normalment molt ampli, d'exemples reals d'ús d'una llengua. Aquests exemples que conté un corpus sovint són textos, però poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'aquest conjunt d'exemples, existeixen corpus escrits, orals i de llengües de signes. Segons el Diccionari de la Llengua Catalana un corpus lingüístic és el «conjunt o recull d'enunciats o de texts a partir del qual el lingüista estableix l'anàlisi i la descripció d'una llengua». (ca) Jazykový korpus je (většinou rozsáhlý) soubor textů určitého jazyka. Jedná se o „vnitřně strukturovaný, unifikovaný a obvykle i o indexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl.” Korpus slouží jednak pro lingvistický výzkum jazykové praxe, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů apod. Tvorbou korpusů se zabývá obor korpusová lingvistika. (cs) Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas). Los corpus pueden ser , cuando compilan textos orales o escritos, o , cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile. (es) Un corpus è una collezione di testi selezionati e organizzati per facilitare le . L'idea di selezione può anche mancare: per corpus può intendersi anche una raccolta completa di testimonianze linguistiche riguardanti una certa materia, ad esempio: "corpus della lingua sannita". Infine, un corpus può essere inteso come una raccolta completa costituita secondo un particolare criterio. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis, al Corpus Inscriptionum Latinarum e a molti altri che sono andati sviluppandosi nel tempo. (it) Korpus (ang. corpus, z łac. corpus „ciało”) – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów, w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych. (pl)
dcterms:subject	Discourse analysis Works based on multiple works Test items Computational linguistics Corpus linguistics
Wikipage page ID	53887 (xsd:integer)
Wikipage revision ID	1110037402 (xsd:integer)
Link from a Wikipage to another Wikipage	Natural language processing Parsing Discourse analysis Decipherment Parallel text alignment 1350 BC Morphology (linguistics) Concordance (publishing) Corpus linguistics Annotation Works based on multiple works Computational linguistics Zipf's Law Translation memory Distributional–relational database Language resource Language technology Linguistic Data Consortium Linguistics Treebank Test items Amarna letters Foreign language writing aid Historical document Lemma (morphology) Speech corpus Part-of-speech tagging Speech recognition Computational linguistics Corpus linguistics Hidden Markov model Philology Interlinear gloss Kültepe Natural Language Toolkit Search engine (computing) Machine translation Semantics Statistical hypothesis testing Pragmatics Frequency list Search engines Biblical scholarship Parallel corpora Language teaching
Link from a Wikipage to an external page	https://the.sketchengine.co.uk/open/ https://digital.lib.hkbu.edu.hk/corpus/index.php http://corpus.byu.edu/ http://ucnk.korpus.cz/intercorp/%3Flang=en http://www.tnc.org.tr/ http://www.tscorpus.com/ https://ruscorpora.ru/en/ http://www.clres.com/corp.html

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3331 as of Sep 2 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (62 GB total memory, 43 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software