| dbpprop:abstract
|
- Corpus linguistics is the study of language as expressed in samples or "real world" text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are now largely derived by an automated process, which is corrected. The corpus approach runs counter to Noam Chomsky's view that real language is riddled with performance-related errors, thus requiring careful analysis of small speech samples obtained in a highly controlled laboratory setting. The problem of laboratory-selected sentences is similar to that facing lab-based psychology: researchers do not have any measure of the ethnographic representativity of their data. Corpus linguistics does away with Chomsky's competence/performance split; adherents believe that reliable language analysis best occurs on field-collected samples, in natural contexts and with minimal experimental interference. Within CL there are divergent views as to the value of corpus annotation, from John Sinclair
- Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden.
- Korpusová lingvistika je odvětví lingvistiky, jehož rozvoj je spjat s příchodem počítačů a informačních technologií. Tato disciplína zkoumá jazyk pomocí elektronických jazykových korpusů a zabývá se i výstavbou těchto korpusů, jejich zpracováním a příslušnou metodologií. Korpusová lingvistika vznikla v 50. letech 20. století, kdy si američtí lingvisté (Hill a Harris) uvědomili, že korpus je nutným empirickým základem pro vytvoření popisu gramatiky přirozeného jazyka. V 60. letech se rozvíjí korpusová lingvistika v novém pojetí a to vznikem Survey of English Usage (SEU), v jehož rámci se počítalo i se zpracováním mluveného anglického jazyka, toto však nebylo orientováno počítačově. V roce 1967 začali Čech H. Kučera a Američan N. Francis na Brown University v USA pracovat na Computation Analysis of Present-Day American English – počítačovém korpusu současné americké angličtiny obsahující pouze psané texty. Prudký rozkvět tohoto odvětví byl zaznamenán s rychlým rozvojem výpočetní techniky, nejvýrazněji pak v posledních dvou desetiletích 20. století. Dnes je v jednotlivých jazycích korpusů již mnoho, například British National Corpus obsahující 100 milionů slov a také významnou složku mluvenou. Korpusová lingvistika není novou teorií jazyka, využívá důsledně jazykových dat, zkoumá texty, které se chápou jako rozsáhlé produkty jazykového systému a schopností jejich tvůrců a skrze ně dospívá k poznání obecnějších jazykových zákonitostí a pravidel.
- コーパス言語学(こーぱすげんごがく)は言語学の一分野である。 実際に使用された言語資料の集成をコーパスと呼ぶが、最近では特に電子化された言語資料のことを指す。そのコーパスを利用して、より実際的な言語の仕組みを探る学問がコーパス言語学である。 チョムスキーの生成文法が言語能力(Competence)を調査対象とするのに対し、コーパス言語学は言語運用(Performance)に焦点を当てる。ある言語事象をリサーチクエスチョン(仮説)として設定し、それをコーパスデータに基づいて記述する。その後、その仮説を検証し、それに基づいて新たなリサーチクエスチョンを設定するという研究サイクルが一般的である。 日本においては、国語学(=日本語学)の分野においては、国立国語研究所や計量国語学会などにより、コーパスという名称を使わないものの、コンピュータ利用による言語資料の研究は比較的早くから行われてきた。一方、ヨーロッパ系の語学教育分野において、コーパスという名前が使われるようになったのは比較的最近のこと、1980年後半以降のことである。 日本における関連学会としては、計量国語学会(1956年設立)、英語コーパス学会などがある。
- Corpustaalkunde is de studie van taal met behulp van een verzameling van geannoteerd tekst. Zulke verzamelingen van teksten worden corpora genoemd.
- Lingüística de Corpus (ou de Córpus, no Brasil, ou Linguística de Corpus, ou de Córpus, em Portugal) é uma área da Lingüística que se ocupa da coleta e análise de corpus, que é um conjunto de dados lingüísticos coletados criteriosamente para serem objeto de pesquisa lingüística. A Lingüística de Corpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiarem em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento lingüístico. Atualmente, a Lingüística de Corpus está intimamente ligada ao uso do computador, visto que os corpora (ou córpora, plural de corpus) são eletrônicos. Assim, a Lingüística de Corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas. De forma geral, o conjunto de dados lingüísticos reais criteriosamente coletados utilizados em estudos de Lingüística de Corpus é chamado de corpus . O corpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar. O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise lingüística. As ferramentas computacionais mais comuns são: Programas para listar palavras - fazem a contagem das palavras em um corpus; Concordanciadores - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto; Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica ou discursiva. A Lingüística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista lingüístico, e tem como central a noção de linguagem enquanto sistema probabilístico. De acordo com essa noção, os traços lingüísticos não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços lingüísticos e os contextos situacionais de uso da linguagem. Na Lingüística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Lingüística de Corpus são: colocação, coligação e prosódia semântica. Para muitos pesquisadores, a Lingüística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa lingüística. As principais áreas da Lingüística de Corpus são: Compilação de corpora; Desenvolvimento de ferramentas para análise de corpora; Descrição de linguagem; Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.
- Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники. Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов). Целесообразность создания текстовых корпусов объясняется: представлением лингвистических данных в реальном контексте; достаточно большой представительностью данных (при большом объёме корпуса); возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.
- Korpuslingvistik kallas metoden att använda en korpus för språkstudier. Termen myntades redan på 1980-talet, men metoden användes redan årtionden tidigare.
- Корпусна лінгвістика - розділ мовознавства, що займається створенням, обробкою та використанням корпусів. Рішення задач, пов'язаних з пошуком прикладів, що ілюструють те або інше мовне явище, а також з уточненням вживання окремих лексем привело до появи нового напряму в прикладній лінгвістиці – до корпусної лінгвістики, тобто науки, яка займається створенням корпусів текстів і їх використанням. За останнє десятиліття корпусна лінгвістика швидко прийняла той досвід, який був накопичений в інших достатньо розвинених областях, що об'єднуються терміном АОТ (автоматична обробка тексту), або ж АРТ (автоматичне розуміння тексту), корпусна лінгвістика сьогодні має дві лінії розвитку – лінгвістичний аналіз тексту і інформаційний аналіз тексту. Інформаційний аналіз реалізується в системах типу ІПС (інформаційно-пошукові системи), а лінгвістичний аналіз прагне інтерпретувати, виявити сенс тексту, при цьому лінгвістичний аналіз характеризується локальністю, тобто проходить в рамках однієї пропозиції. Інформаційний аналіз, навпаки, “бачить” текст як ціле. Ці два напрями розвивалися майже паралельно, практично ніяк не стикаючись, унаслідок чого не отримали достатнього розвитку. Лінгвістичний аналіз не дав коректного машинного перекладу, оскільки одна неправильно інтерпретована фраза може в контексті набувати абсолютно іншого значення.
|
| rdfs:comment
|
- Corpus linguistics is the study of language as expressed in samples or "real world" text. This method represents a digestive approach to deriving a set of abstract rules by which a natural language is governed or else relates to another language. Originally done by hand, corpora are now largely derived by an automated process, which is corrected.
- Die Korpuslinguistik ist ein Bereich der Linguistik, in dem Theorien über Sprache anhand von Belegen oder statistischen Daten aus Textkorpora aufgestellt oder überprüft werden.
- Korpusová lingvistika je odvětví lingvistiky, jehož rozvoj je spjat s příchodem počítačů a informačních technologií. Tato disciplína zkoumá jazyk pomocí elektronických jazykových korpusů a zabývá se i výstavbou těchto korpusů, jejich zpracováním a příslušnou metodologií. Korpusová lingvistika vznikla v 50. letech 20.
- Corpustaalkunde is de studie van taal met behulp van een verzameling van geannoteerd tekst. Zulke verzamelingen van teksten worden corpora genoemd.
- Lingüística de Corpus (ou de Córpus, no Brasil, ou Linguística de Corpus, ou de Córpus, em Portugal) é uma área da Lingüística que se ocupa da coleta e análise de corpus, que é um conjunto de dados lingüísticos coletados criteriosamente para serem objeto de pesquisa lingüística.
- Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов.
- Korpuslingvistik kallas metoden att använda en korpus för språkstudier. Termen myntades redan på 1980-talet, men metoden användes redan årtionden tidigare.
- Корпусна лінгвістика - розділ мовознавства, що займається створенням, обробкою та використанням корпусів.
|