About: Corpus linguistics

Property	Value
dbo:abstract	لسانيات المتون أو علم متن اللغة (بالإنجليزية: Corpus Linguistics)‏ هي دراسة اللغة المجموعة والموضحة في متن أو مكنز نصي. وهذه الطريقة تمثل نهج موجز لاستخلاص قواعد مجردة تخضع لها اللغة الطبيعية. في الاصل تتم هذه الدراسة أو المعالجة يدويا لكن الآن المتون تتم دراستها بعمليات مؤتمتة (automated process). مختصون لغويات المتون يعتقدون أنه أفضل تحليل لغة موثوق يمكن ظهوره في عينات المتون المجمعة في مجال محدد (مثل الصحف أو الاخبار أو الطب... الخ) في سياقاتها الطبيعية مع القليل من التدخل التجريبي. (ar) Korpusová lingvistika je odvětví lingvistiky, jehož rozvoj je spjat s příchodem počítačů a informačních technologií. Tato disciplína zkoumá jazyk pomocí elektronických jazykových korpusů a zabývá se i výstavbou těchto korpusů, jejich zpracováním a příslušnou metodologií. Korpusová lingvistika vznikla v 50. letech 20. století, kdy si američtí lingvisté (Hill a Harris) uvědomili, že korpus je nutným empirickým základem pro vytvoření popisu gramatiky přirozeného jazyka. V 60. letech se rozvíjí korpusová lingvistika v novém pojetí a to vznikem Survey of English Usage (SEU), v jehož rámci se počítalo i se zpracováním mluveného anglického jazyka, toto však nebylo orientováno počítačově. V roce 1967 začali Čech Jindřich Kučera a Američan W. Nelson Francis na Brown University v USA pracovat na Computation Analysis of Present-Day American English – počítačovém korpusu současné americké angličtiny obsahující pouze psané texty. Prudký rozkvět tohoto odvětví byl zaznamenán s rychlým rozvojem výpočetní techniky, nejvýrazněji pak v posledních dvou desetiletích 20. století. Dnes je v jednotlivých jazycích korpusů již mnoho. Mezi nejznámější patří obsahující 100 milionů slov a také významnou složku mluvenou. Efektivní studium a tvorbu korpusů umožňuje speciální software – tzv. . Mezi nejznámější korpusové manažery patří , jenž vytvořili Angličan a Čech a dále jej vyvíjí brněnská společnost Lexical Computing. Korpusová lingvistika není novou teorií jazyka, využívá důsledně jazykových dat, zkoumá texty, které se chápou jako rozsáhlé produkty jazykového systému a schopností jejich tvůrců a skrze ně dospívá k poznání obecnějších jazykových zákonitostí a pravidel. (cs) Korpusa lingvistiko aŭ korpuslingvistiko (angle: Corpora Linguistics aŭ mallonge ankaŭ kiel ldc) estas la studo de lingvaj fenomenoj (lingvaj regulecoj) uzante kolekton de kompareblaj tekstoj. Tiaj kolektoj de tekstoj estas nomataj korpusoj. (eo) Corpus linguistics is the study of a language as that language is expressed in its text corpus (plural corpora), its body of "real world" text. Corpus linguistics proposes that a reliable analysis of a language is more feasible with corpora collected in the field—the natural context ("realia") of that language—with minimal experimental interference. The text-corpus method uses the body of texts written in any natural language to derive the set of abstract rules which govern that language. Those results can be used to explore the relationships between that subject language and other languages which have undergone a similar analysis. The first such corpora were manually derived from source texts, but now that work is automated. Corpora have not only been used for linguistics research, they have also been used to compile dictionaries (starting with The American Heritage Dictionary of the English Language in 1969) and grammar guides, such as A Comprehensive Grammar of the English Language, published in 1985. Experts in the field have differing views about the annotation of a corpus. These views range from John McHardy Sinclair, who advocates minimal annotation so texts speak for themselves, to the Survey of English Usage team (University College, London), who advocate annotation as allowing greater linguistic understanding through rigorous recording. (en) La lingüística de corpus estudia el lenguaje a través de ejemplos de textos reales producidos en el "mundo real". Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma. Antiguamente se hacían a mano pero hoy en día los corpus lingüísticos se obtienen mayoritariamente mediante un proceso automatizado. En la filología forman los corpus aquellos textos, orales o escritos, y los documentos que los contienen, que han sido debidamente recopilados. Estos corpus constituyen las muestras que se utilizan en lingüística aplicada, entre otros, para estudiar y analizar las características del objeto de estudio, pues integran las muestras de los elementos que constituyen la realidad que se quiere observar. Tanto si es oral como escrito, un corpus deberá definirse en función de los objetivos que se persigan con el mismo. Los partidarios de la lingüística de corpus creen que el análisis lingüístico más fiable se produce en las muestras recogidas en contextos naturales y con una interferencia mínima. Dentro de la lingüística de corpus hay puntos de vista divergentes en cuanto al valor de la anotación de corpus, desde el punto de vista de John Sinclair, que opta por la anotación mínima y permitiendo a los textos "hablar por sí mismos" hasta otros como el del equipo de (con sede en la University College, Londres) que apoyan la anotación como un camino hacia una mayor comprensión lingüística y de mayor rigor. (es) Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie verhält sich, wissenschaftstheoretisch betrachtet, komplementär zum Generativismus. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt. (de) Corpus-hizkuntzalaritza hizkuntza "testu-errealetan" dauden adibideen arabera ikertzeaz arduratzen da. Metodo honek, lengoaia natural bat zuzentzen duten arau multzo abstraktuak inferitzen dituen ikuspegi bat aurkezten du, lengoaia horri dagozkion testuak aztertuz, gainera, lengoaia horrek beste lengoaia batzuekiko dituen harremanak ezartzen saiatzen da. Antzina testu-corpusak eskuz egiten ziren, baina gaur egun prozesu automatiko baten bidez eskuratzen dira gehienetan. Filologiaren arloan corpusak ahozkoak zein idatzizkoak diren testuak eta hauek biltzen dituzten dokumentuak eratzen dituzte, era berean, testu guztiak behar bezala izan behar dira biltegiratuak. Corpus hauek hizkuntzalaritza aplikatuan erabiltzen diren ereduak osatzen dituzte, bestek beste, ikertzen ari denaren ezaugarriak ikertu eta analizatzeko. Corpus bat, corpus horrekin lortu nahi diren helburuen arabera definitu behar da. Corpus-hizkuntzalaritzaren aldekoak uste dute hizkuntzaren analisi fidagarrienak testuinguru natural batean sortzen diren laginen gainean egiten diren analisietan sortzen direla. Corpus-hizkuntzalaritzaren barnean ikuspegi desberdinak daude balioari dagokionez, adibidez, etiketazte murriztu baten alde egiten du, testuek "beraien kabuz hitz egin dezaten", eta beste batzuek etiketatze handiago baten alde egiten duten bitartean, hizkuntzaren ulermena hobetzeko asmoarekin. (eu) La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés. Aujourd'hui la création de ces corpus linguistiques est possible grâce au processus automatique c'est-à-dire grâce à l'emploi d'outils statistiques et de programmes informatiques qui rendent le travail humain beaucoup plus facile. Concernant la valeur de l'annotation de corpus, il existe deux points de vue différents, l'un de John Sinclair, qui préfère l'annotation minimale afin que les textes puissent parler pour "eux-mêmes", l'autre de l'équipe Survey of English Usage qui préconise l'annotation comme une compréhension linguistique plus efficace. (fr) Linguistik korpus (bahasa Inggris: corpus linguistics) adalah sebuah bidang yang fokus pada prosedur atau metode untuk mempelajari atau meneliti bahasa. Metode linguistik ini menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu sumber yang disebut korpus (jamak: korpora) yang berasal dari penggunaan bahasa dalam berbagai genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti idiolek. Data-data tersebut disusun secara sistematis dan mudah diakses secara elektronis melalui komputer. Metode ini digunakan dalam linguistik deskriptif maupun linguistik terapan, seperti penyusunan kamus, untuk menjamin bahwa data yang digunakan benar-benar berasal dari penggunaan yang luas dan terhindar dari penggunaan subjektif. Selain itu, korpus dapat membantu menyediakan, mengumpulkan, dan mengatur data linguistik untuk tujuan penelitian dan akademis lainnya, termasuk pedagogi. (in) 말뭉치언어학(영어: Corpus Linguistics)은 '실제 언어' 혹은 실제 언어의 샘플을 이용하여 언어를 공부하는 응용언어학의 한 분야이다. 말뭉치(코퍼스)란, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다. 조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념이 있다. 최근의 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, “일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”를 가리키는 개념으로 사용하는 것이 일반적이다. 초기에는 수작업으로 이루어졌으나 컴퓨터의 발달로 지금은 많이 자동화되었으며, 전산언어학의 도움을 많이 받고 있다. 촘스키의 관점에서는, 실제 언어는 언어수행상의 오류로 가득하기 때문에 언어학을 제대로 연구하기 위해서는 잘 제어된 환경에서 이루어진 언어를 다룰 필요가 있다고 하였는데, 말뭉치언어학은 이러한 관점에 정면으로 반하고 있는 방법론이다. 촘스키가 다루는 정제된 환경에서는 언어에서 화자에 대한 정보를 아무것도 찾아낼 수 없다는 것이다. 말뭉치 언어학에서는 언어능력(competence)과 언어수행(performance)으로 나누는 촘스키식 이분법도 거부한다. 대신 말뭉치에 다가갈 수 있는 최소한의 인터페이스만 있으면 실제 언어를 통해 언어 현상의 본질에 다가갈 수 있다고 본다. (ko) コーパス言語学（コーパスげんごがく、英: corpus linguistics）とは、言語学の一分野で、計算言語学と関連がある。 (ja) Linguística de Córpus (ou corpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. (Berber Sardinha, 2004) A linguística de córpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os córpus são eletrônicos. Assim, a Linguística de Córpus contemporânea caracteriza-se pela coleta e análise de córpus eletrônicos com o auxílio de ferramentas eletrônicas. O córpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar. O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são: * Programas para listar palavras - fazem a contagem das palavras em um córpus; * Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um córpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto; * Etiquetadores - fazem análises automáticas do córpus e inserem etiquetas (códigos) de ordem morfossintática, , semântica ou . A Linguística de Córpus faz uso de uma abordagem empirista, distinta da abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico. De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem. Na Linguística de Córpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Córpus são: colocação, coligação e . Para muitos pesquisadores, a Linguística de Córpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de (Lexicografia, , Tradução, etc,). As principais áreas da Linguística de Córpus são: * Compilação de corpora; * Desenvolvimento de ferramentas para análise de corpora; * Descrição de linguagem; * Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução. (pt) Corpuslinguïstiek of corpustaalkunde is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd. Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden, maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de Bijbel. Tegenwoordig maken onderzoekers gebruik van concordantieprogramma's. (nl) Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier. Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. (sv) Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів. Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — до корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання. За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених галузях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку — лінгвістичний аналіз тексту і інформаційний аналіз тексту. Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, «бачить» текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення. (uk) Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники. Лингвистический, или языковой, корпус текстов — это большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. Основными чертами современного корпуса являются машиночитаемый формат, репрезентативность, наличие металингвистической информации. Репрезентативность достигается с помощью специальной процедуры отбора текстов. Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов). Целесообразность создания текстовых корпусов объясняется: * представлением лингвистических данных в реальном контексте; * достаточно большой представительностью данных (при большом объёме корпуса); * возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др. (ru) 语料库语言学（英語：corpus linguistics）是基于语言运用的实例（即语料库）的语言研究。语料库语言学可以对自然语言进行语法与句法分析，还可以研究它与其他语言的关系。语料库最初由手工完成，而现在主要是由电子计算机自动完成。语料库语言学家相信，可靠的语言分析需建立在新鲜的语料、自然的语言环境，和最小的实验干扰之上。在语料库语言学中，语料的意义众说纷纭，从(John McHardy Sinclair)主张最少量的标注，并允许文本“为自己说话”，到“英语用法调查组”（设在伦敦大学学院）鼓励更多的标注，并认为它是通向更完备和严谨的语言理解的道路。 (zh)
dbo:wikiPageExternalLink	http://rdues.bcu.ac.uk/ https://digital.lib.hkbu.edu.hk/corpus/index.php http://corpus-analysis.com/ http://corpus.byu.edu/ http://martinweisser.org/corpora_site/CBLLinks.html http://www.bmanuel.org/index.html http://www.corpus.bham.ac.uk/ http://www.corpus4u.org/ http://www.elra.info/en http://www.metadiscourseacrossgenres.com/ https://ricl.aelinco.es/index.php/ricl https://translate.google.com/translate%3Fhl=en&sl=zh-CN&tl=en&u=http%3A%2F%2Fwww.dmcbc.com.cn%2F https://langsci-press.org/catalog/book/148. http://www.ling.upenn.edu/hist-corpora https://heiup.uni-heidelberg.de/catalog/book/361%3Flang=en http://icame.uib.no/journal.html http://corsis.sourceforge.net http://www.corpus-linguistics.com https://lighttag.io https://archive.today/20121208123647/http:/www.dmcbc.com.cn/ https://groups.google.com/group/corpling-with-r https://web.archive.org/web/20060113235630/http:/torvald.aksis.uib.no/corpora/ https://web.archive.org/web/20060623204506/http:/www.askoxford.com/oec/mainpage/oec01/%3Fview=uk https://web.archive.org/web/20060830044341/http:/www.ldc.upenn.edu/ https://web.archive.org/web/20060920015213/http:/compbio.uchsc.edu/corpora/ https://web.archive.org/web/20070221063805/http:/www.benjamins.com/cgi-bin/t_seriesview.cgi%3Fseries=SCL https://web.archive.org/web/20070928002315/http:/www.arts-humanities.net/text_mining https://web.archive.org/web/20110725203641/http:/ifa.amu.edu.pl/~kprzemek/biblios/corpling.zip https://www.springer.com/journal/10579 http://www.ucl.ac.uk/english-usage/ http://www.ucl.ac.uk/english-usage/resources/ftfs http://www.ucl.ac.uk/english-usage/resources/icecup https://www.bloomsbury.com/uk/series/corpus-and-discourse/ http://www.lancs.ac.uk/fss/courses/ling/corpus https://www.peterlang.com/view/serial/ECL
dbo:wikiPageID	40277 (xsd:integer)
dbo:wikiPageLength	20281 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1118570842 (xsd:integer)
dbo:wikiPageWikiLink	dbr:American_National_Corpus dbr:Psychology dbr:Pāṇini dbr:Sanskrit dbr:Parsing dbr:Corpus_Linguistics_and_Linguistic_Theory_(journal) dbr:Arabic_grammar dbc:Discourse_analysis dbr:Bible_concordance dbr:Vedas dbr:International_Corpus_of_English dbr:International_Journal_of_Corpus_Linguistics dbr:The_American_Heritage_Dictionary_of_the_English_Language dbr:Corpus_of_Contemporary_American_English dbc:Linguistic_history dbr:English_language_learning_and_teaching dbr:GPL dbr:Google_Scholar dbr:Concordance_(publishing) dbr:Corpora_(journal) dbr:Corpus_manager dbr:LIVAC_Synchronous_Corpus dbr:Lexical_category dbr:Collocation dbr:Collostructional_analysis dbr:Computer_science dbr:John_McHardy_Sinclair dbr:Key_Word_in_Context dbr:Keyword_(linguistics) dbr:Translation_memory dbr:Australian_English dbr:British_English dbr:British_Library dbr:W._Nelson_Francis dbr:Law_and_Corpus_Linguistics dbr:Linguistic_Data_Consortium dbr:Treebank dbr:ACL_Anthology dbr:A_Linguistic_Atlas_of_Early_Middle_English dbr:American_English dbr:DBLP dbr:European_Language_Resources_Association dbr:European_Union dbr:Francis_Andersen dbr:Bank_of_English dbr:British_National_Corpus dbr:Parliament_of_Canada dbr:Speech_corpus dbr:Text_corpus dbr:Part-of-speech_tagging dbr:Semantic_prosody dbr:Quranic_Arabic_Corpus dbr:A_Comprehensive_Grammar_of_the_English_Language dbc:Corpus_linguistics dbc:Applied_linguistics dbc:Linguistic_research dbr:Lancaster_University dbr:Language_and_Computers dbr:Henry_Kučera dbr:Dictionaries dbr:Dictionary dbr:COBUILD dbr:Classical_Sanskrit dbr:Indian_English dbr:Brown_Corpus dbr:Natural_Language_Toolkit dbr:New_Zealand_English dbr:Open_source_software dbr:Quran dbr:Randolph_Quirk dbr:Word_list dbr:Machine_translation dbr:Monolingual_learner's_dictionary dbr:Survey_of_English_Usage dbr:List_of_text_corpora dbr:Pattern_grammar dbr:Text_mining dbr:Oxford_University dbr:Shana_Poplack dbr:Pratisakhya dbr:University_College,_London dbr:LOB_Corpus dbr:Search_engines dbr:Houghton-Mifflin dbr:Study_of_language
dbp:wikiPageUsesTemplate	dbt:Natural_language_processing dbt:Authority_control dbt:Commons_category dbt:Doi dbt:External_links dbt:ISBN dbt:Linguistics dbt:Portal dbt:Portal_bar dbt:Reflist dbt:Short_description dbt:Use_dmy_dates
dcterms:subject	dbc:Discourse_analysis dbc:Linguistic_history dbc:Corpus_linguistics dbc:Applied_linguistics dbc:Linguistic_research
gold:hypernym	dbr:Study
rdf:type	owl:Thing dbo:Book
rdfs:comment	لسانيات المتون أو علم متن اللغة (بالإنجليزية: Corpus Linguistics)‏ هي دراسة اللغة المجموعة والموضحة في متن أو مكنز نصي. وهذه الطريقة تمثل نهج موجز لاستخلاص قواعد مجردة تخضع لها اللغة الطبيعية. في الاصل تتم هذه الدراسة أو المعالجة يدويا لكن الآن المتون تتم دراستها بعمليات مؤتمتة (automated process). مختصون لغويات المتون يعتقدون أنه أفضل تحليل لغة موثوق يمكن ظهوره في عينات المتون المجمعة في مجال محدد (مثل الصحف أو الاخبار أو الطب... الخ) في سياقاتها الطبيعية مع القليل من التدخل التجريبي. (ar) Korpusa lingvistiko aŭ korpuslingvistiko (angle: Corpora Linguistics aŭ mallonge ankaŭ kiel ldc) estas la studo de lingvaj fenomenoj (lingvaj regulecoj) uzante kolekton de kompareblaj tekstoj. Tiaj kolektoj de tekstoj estas nomataj korpusoj. (eo) Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie verhält sich, wissenschaftstheoretisch betrachtet, komplementär zum Generativismus. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt. (de) コーパス言語学（コーパスげんごがく、英: corpus linguistics）とは、言語学の一分野で、計算言語学と関連がある。 (ja) Corpuslinguïstiek of corpustaalkunde is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd. Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden, maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de Bijbel. Tegenwoordig maken onderzoekers gebruik van concordantieprogramma's. (nl) Korpuslingvistik kallas metoden att använda en korpus, en stor samling språkliga data, för språkstudier. Termen myntades först på 1980-talet, men metoden började användas flera årtionden dessförinnan. (sv) 语料库语言学（英語：corpus linguistics）是基于语言运用的实例（即语料库）的语言研究。语料库语言学可以对自然语言进行语法与句法分析，还可以研究它与其他语言的关系。语料库最初由手工完成，而现在主要是由电子计算机自动完成。语料库语言学家相信，可靠的语言分析需建立在新鲜的语料、自然的语言环境，和最小的实验干扰之上。在语料库语言学中，语料的意义众说纷纭，从(John McHardy Sinclair)主张最少量的标注，并允许文本“为自己说话”，到“英语用法调查组”（设在伦敦大学学院）鼓励更多的标注，并认为它是通向更完备和严谨的语言理解的道路。 (zh) Korpusová lingvistika je odvětví lingvistiky, jehož rozvoj je spjat s příchodem počítačů a informačních technologií. Tato disciplína zkoumá jazyk pomocí elektronických jazykových korpusů a zabývá se i výstavbou těchto korpusů, jejich zpracováním a příslušnou metodologií. Korpusová lingvistika není novou teorií jazyka, využívá důsledně jazykových dat, zkoumá texty, které se chápou jako rozsáhlé produkty jazykového systému a schopností jejich tvůrců a skrze ně dospívá k poznání obecnějších jazykových zákonitostí a pravidel. (cs) Corpus linguistics is the study of a language as that language is expressed in its text corpus (plural corpora), its body of "real world" text. Corpus linguistics proposes that a reliable analysis of a language is more feasible with corpora collected in the field—the natural context ("realia") of that language—with minimal experimental interference. (en) La lingüística de corpus estudia el lenguaje a través de ejemplos de textos reales producidos en el "mundo real". Este método representa un enfoque que infiere un conjunto de reglas abstractas por el cual una lengua natural se gobierna o se refiere a otro idioma. Antiguamente se hacían a mano pero hoy en día los corpus lingüísticos se obtienen mayoritariamente mediante un proceso automatizado. (es) Corpus-hizkuntzalaritza hizkuntza "testu-errealetan" dauden adibideen arabera ikertzeaz arduratzen da. Metodo honek, lengoaia natural bat zuzentzen duten arau multzo abstraktuak inferitzen dituen ikuspegi bat aurkezten du, lengoaia horri dagozkion testuak aztertuz, gainera, lengoaia horrek beste lengoaia batzuekiko dituen harremanak ezartzen saiatzen da. Antzina testu-corpusak eskuz egiten ziren, baina gaur egun prozesu automatiko baten bidez eskuratzen dira gehienetan. (eu) Linguistik korpus (bahasa Inggris: corpus linguistics) adalah sebuah bidang yang fokus pada prosedur atau metode untuk mempelajari atau meneliti bahasa. Metode linguistik ini menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu sumber yang disebut korpus (jamak: korpora) yang berasal dari penggunaan bahasa dalam berbagai genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti idiolek. Data-data tersebut disusun secara sistematis dan mudah diakses secara elektronis melalui komputer. (in) La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. (fr) 말뭉치언어학(영어: Corpus Linguistics)은 '실제 언어' 혹은 실제 언어의 샘플을 이용하여 언어를 공부하는 응용언어학의 한 분야이다. 말뭉치(코퍼스)란, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다. 조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 그러므로 말뭉치라는 용어는 연구의 목적이나 성격에 따라 다양한 대상을 지시할 수 있는 포괄적인 개념이 있다. 최근의 언어 연구에서는 말뭉치의 개념을 더 좁게 보아, “일정 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”를 가리키는 개념으로 사용하는 것이 일반적이다. 초기에는 수작업으로 이루어졌으나 컴퓨터의 발달로 지금은 많이 자동화되었으며, 전산언어학의 도움을 많이 받고 있다. (ko) Linguística de Córpus (ou corpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. (Berber Sardinha, 2004) O córpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar. Para muitos pesquisadores, a Linguística de Córpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de (Lexicografia, , Tradução, etc,). (pt) Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники. Целесообразность создания текстовых корпусов объясняется: (ru) Ко́рпусна лінгві́стика — розділ мовознавства, що вивчає створення, обробку та використання корпусів. Розв'язування задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці — до корпусної лінгвістики, тобто науки, що вивчає створення корпусів текстів і їхнє використання. (uk)
rdfs:label	Corpus linguistics (en) لسانيات المتون (ar) Korpusová lingvistika (cs) Korpuslinguistik (de) Korpusa lingvistiko (eo) Lingüística de corpus (es) Corpus-hizkuntzalaritza (eu) Linguistik korpus (in) Linguistique de corpus (fr) コーパス言語学 (ja) 말뭉치언어학 (ko) Corpuslinguïstiek (nl) Корпусная лингвистика (ru) Linguística de corpus (pt) Корпусна лінгвістика (uk) Korpuslingvistik (sv) 语料库语言学 (zh)
owl:sameAs	freebase:Corpus linguistics http://d-nb.info/gnd/4165338-5 wikidata:Corpus linguistics dbpedia-ar:Corpus linguistics dbpedia-bg:Corpus linguistics dbpedia-cs:Corpus linguistics http://cv.dbpedia.org/resource/Хапа_лингвистики dbpedia-da:Corpus linguistics dbpedia-de:Corpus linguistics dbpedia-eo:Corpus linguistics dbpedia-es:Corpus linguistics dbpedia-et:Corpus linguistics dbpedia-eu:Corpus linguistics dbpedia-fa:Corpus linguistics dbpedia-fr:Corpus linguistics http://hi.dbpedia.org/resource/कॉर्पस_भाषाविज्ञान dbpedia-hu:Corpus linguistics http://hy.dbpedia.org/resource/Կորպուսային_լեզվաբանություն dbpedia-id:Corpus linguistics dbpedia-io:Corpus linguistics dbpedia-is:Corpus linguistics dbpedia-ja:Corpus linguistics dbpedia-ka:Corpus linguistics dbpedia-ko:Corpus linguistics http://lt.dbpedia.org/resource/Tekstynų_lingvistika dbpedia-nl:Corpus linguistics dbpedia-pt:Corpus linguistics dbpedia-ru:Corpus linguistics dbpedia-sh:Corpus linguistics dbpedia-sl:Corpus linguistics dbpedia-sq:Corpus linguistics dbpedia-sr:Corpus linguistics dbpedia-sv:Corpus linguistics http://ta.dbpedia.org/resource/மொழித்_தொகுப்பு dbpedia-uk:Corpus linguistics dbpedia-zh:Corpus linguistics https://global.dbpedia.org/id/521BZ
prov:wasDerivedFrom	wikipedia-en:Corpus_linguistics?oldid=1118570842&ns=0
foaf:isPrimaryTopicOf	wikipedia-en:Corpus_linguistics
is dbo:academicDiscipline of	dbr:Adam_Kilgarriff dbr:Stefan_Th._Gries
is dbo:picture of	dbr:Corpus_Linguistics_and_Linguistic_Theory
is dbo:wikiPageDisambiguates of	dbr:Corpus
is dbo:wikiPageRedirects of	dbr:Corpus-based_analysis dbr:History_of_corpus_linguistics dbr:Concordancing
is dbo:wikiPageWikiLink of	dbr:Scott_Schwenter dbr:Natural_language_processing dbr:Corpus-based_analysis dbr:Beatrix_Busse dbr:Beryl_Atkins dbr:Anna-Brita_Stenström dbr:Applied_Linguistics_(journal) dbr:Appraisal_(discourse_analysis) dbr:History_of_corpus_linguistics dbr:Paul_Baker_(linguist) dbr:Czech_National_Corpus dbr:CBA dbr:Vladimir_Plungian dbr:David_G._Hays dbr:David_Ian_Hanauer dbr:Index_of_cognitive_science_articles dbr:Index_of_linguistics_articles dbr:International_Computer_Archive_of_Modern_and_Medieval_English dbr:International_Corpus_of_English dbr:International_Journal_of_Corpus_Linguistics dbr:L2_Syntactic_Complexity_Analyzer dbr:The_American_Heritage_Dictionary_of_the_English_Language dbr:Letter_frequency dbr:Lexis_(linguistics) dbr:List_of_linguists dbr:Corpora_in_Translation_Studies dbr:Corpus_of_Contemporary_American_English dbr:Corpus_of_Written_Tatar dbr:Geoffrey_Sampson dbr:Oxford_Dictionary_of_English dbr:Xaira dbr:Claire_Hardaker_(linguist) dbr:Cognitive_linguistics dbr:Elena_Semino dbr:English_language dbr:General_Internet_Corpus_of_Russian dbr:Geoffrey_Leech dbr:German_Reference_Corpus dbr:Goenkale dbr:Monika_Bednarek dbr:Mutual_information dbr:Concordancer dbr:Construction_grammar dbr:Contrastive_linguistics dbr:Contrastive_rhetoric dbr:Corpora_(journal) dbr:Corpus-assisted_discourse_studies dbr:Corpus_Linguistics_and_Linguistic_Theory dbr:Corpus_language dbr:Corpus_manager dbr:Thomas_Rex_Lee dbr:Anna_Siewierska dbr:Mandarin_Chinese_profanity dbr:Cambridge_English_Corpus dbr:Chinese_dictionary dbr:Sketch_Engine dbr:Snježana_Kordić dbr:Clinical_linguistics dbr:Collocation dbr:Collocation_extraction dbr:Computational_creativity dbr:Computational_linguistics dbr:Zellig_Harris dbr:Emotion_recognition dbr:Hen_(pronoun) dbr:John_McHardy_Sinclair dbr:Keyword_(linguistics) dbr:Keyword_(rhetoric) dbr:Partition_function_(mathematics) dbr:Mahmood_Bijankhan dbr:Taiyō_(magazine) dbr:Matti_Rissanen dbr:Trevor_Johnston dbr:Tunisian_Arabic dbr:W._Nelson_Francis dbr:Corpus dbr:Irregardless dbr:Laurel_J._Brinton dbr:Law_and_Corpus_Linguistics dbr:Linguistic_Data_Consortium dbr:Linguistic_Linked_Open_Data dbr:Linguistic_categories dbr:Linguistics dbr:Treebank dbr:A_Linguistic_Atlas_of_Early_Middle_English dbr:Adam_Kilgarriff dbr:African-American_Vernacular_English dbr:Anat_Ninio dbr:Dash dbr:Amarna_letter_EA_205 dbr:Amarna_letter_EA_223 dbr:Amarna_letter_EA_34 dbr:Amarna_letter_EA_362 dbr:Amarna_letter_EA_38 dbr:Amarna_letter_EA_39 dbr:Amarna_letter_EA_75 dbr:European_Language_Resources_Association dbr:Eva_Hajičová dbr:Francis_Andersen dbr:British_National_Corpus dbr:Nick_Ellis dbr:Oxford_English_Dictionary dbr:Carl_Ferdinand_Friedrich_Lehmann-Haupt dbr:Digital_history dbr:Dirk_Geeraerts dbr:Discourse dbr:Graeco-Phrygian dbr:GramTrans dbr:Grammaticality dbr:Hapax_legomenon dbr:History_of_machine_translation dbr:History_of_natural_language_processing dbr:Lemma_(morphology) dbr:Text_corpus dbr:Patrick_Hanks dbr:Stefan_Th._Gries dbr:Part-of-speech_tagging dbr:Semantic_prosody dbr:2000s dbr:Hamid_Hassani dbr:Atlantic_Creole dbr:Jan_Svartvik dbr:Jean_Twenge dbr:Terttu_Nevalainen dbr:Jens_Allwood dbr:Quranic_Arabic_Corpus dbr:Text_annotation dbr:A_Dictionary_of_Modern_English_Usage dbr:Charles_Carpenter_Fries dbr:Charles_J._Fillmore dbr:Language_and_Computers dbr:Birmingham_City_University_School_of_English dbr:Eckhard_Bick dbr:Economical_with_the_truth dbr:Henry_Kučera dbr:Hermann_Moisl dbr:TenTen_Corpus_Family dbr:Za_(cuneiform) dbr:Dictionary dbr:Aslı_Özyürek dbr:Mark_Davies_(linguist) dbr:BulPosCor dbr:BulSemCor dbr:Bulgarian_National_Corpus dbr:Michael_Hoey_(linguist) dbr:Michele_Zappavigna dbr:Mikel_Zalbide dbr:Canaanite_and_Aramaic_inscriptions dbr:Second-order_co-occurrence_pointwise_mutual_information dbr:Christiane_Marchello-Nizia dbr:WordSmith_(software) dbr:Wordnik dbr:Writing_style dbr:Machine_translation dbr:Rosetta_Project dbr:Slang dbr:Word-sense_disambiguation dbr:Negative_evidence_in_language_acquisition dbr:New_Oxford_American_Dictionary dbr:Survey_of_English_Usage dbr:Ultralingua dbr:Experimental_jurisprudence dbr:Extended_affix_grammar dbr:List_of_text_corpora dbr:Mark_Liberman dbr:Suzanne_Romaine dbr:Fingerspelling dbr:Technolangue/Easy dbr:Sylviane_Granger dbr:MultiNet dbr:Stochastic_grammar dbr:Unobtrusive_research dbr:Quantitative_linguistics dbr:Tîrî_language dbr:Speech_translation dbr:The_Cambridge_Guide_to_English_Usage dbr:Spell_checker dbr:Outline_of_linguistics dbr:Outline_of_natural_language_processing dbr:Referring_expression_generation dbr:Sang-sup_Lee dbr:Slovenian_National_Corpus dbr:Shanghai_Foreign_Language_Education_Press dbr:Strategic_planning dbr:Susan_Hunston dbr:Word2vec dbr:Concordancing
is dbp:discipline of	dbr:Mark_Davies_(linguist)
is dbp:fields of	dbr:Stefan_Th._Gries
is dbp:knownFor of	dbr:Mark_Davies_(linguist)
is dbp:mainInterests of	dbr:Mahmood_Bijankhan
is dbp:subDiscipline of	dbr:Monika_Bednarek
is foaf:primaryTopic of	wikipedia-en:Corpus_linguistics