Corpus linguistics is the study of language as expressed in corpora (samples) of "real world" text. The text-corpus method is a digestive approach for deriving a set of abstract rules, from a text, for governing a natural language, and how that language relates to and with another language; originally derived manually, corpora now are automatically derived from the source texts. Corpus linguistics proposes that reliable language analysis is more feasible with corpora collected in the field, in their natural contexts, and with minimal experimental-interference.

Property Value
dbo:abstract
  • Corpus linguistics is the study of language as expressed in corpora (samples) of "real world" text. The text-corpus method is a digestive approach for deriving a set of abstract rules, from a text, for governing a natural language, and how that language relates to and with another language; originally derived manually, corpora now are automatically derived from the source texts. Corpus linguistics proposes that reliable language analysis is more feasible with corpora collected in the field, in their natural contexts, and with minimal experimental-interference. The field of Corpus Linguistics features divergent views about the value of corpus annotation, ranging from John McHardy Sinclair, who advocates minimal annotation, and so allow texts to speak for themselves; to the Survey of English Usage team (University College, London) who advocate annotation as allowing greater linguistic understanding, by way of rigorous recording. (en)
  • Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie steht, wissenschaftstheoretisch betrachtet, dem augenblicklich herrschenden Paradigma des Generativismus entgegen. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt. (de)
  • لغويات المتون (Corpus Linguistics) هي دراسة اللغة المجموعة والموضحة في متن أو مكنز نصي. وهذه الطريقة تمثل نهج موجز لاستخلاص قواعد مجردة تخضع لها اللغة الطبيعية. في الاصل تتم هذه الدراسة أو المعالجة يدويا لكن الان المتون تتم دراستها بعمليات مؤتمته (automated process).مختصون لغويات المتون يعتقدون انه أفضل تحليل لغة موثوق يمكن ظهوره في عينات المتون المجمعة في مجال محدد (مثل الصحف أو الاخبار أو الطب... الخ) في سياقاتها الطبيعية مع القليل من التدخل التجريبي. (ar)
  • コーパス言語学(コーパスげんごがく、英語:corpus linguistics)は言語学の一分野で、計算言語学と関連がある。 実際に使用された言語資料の集成をコーパスと呼ぶが、最近では特に電子化された言語資料のことを指す。そのコーパスを利用して、より実際的な言語の仕組みを探る学問がコーパス言語学である。 チョムスキーの生成文法が言語能力(competence)を調査対象とするのに対し、コーパス言語学は言語運用(performance)に焦点を当てる。ある言語事象をリサーチクエスチョン(仮説)として設定し、それをコーパスデータに基づいて記述する。その後、その仮説を検証し、それに基づいて新たなリサーチクエスチョンを設定するという研究サイクルが一般的である。 日本においては、国語学の分野においては、国立国語研究所や計量国語学会などにより、コーパスという名称を使わないものの、コンピュータ利用による言語資料の研究は比較的早くから行われてきた。一方、ヨーロッパ系の語学教育分野において、コーパスという名前が使われるようになったのは比較的最近のこと、1980年後半以降のことである。 日本における関連学会としては、計量国語学会(1956年設立)、英語コーパス学会(1993年設立)などがある。 (ja)
  • Corpustaalkunde of corpuslinguïstiek is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd. Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de bijbel. (nl)
  • Linguística de corpus (ou córpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística. A linguística de corpus surgiu com a necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do computador, visto que os corpora/córpora (plural de corpus) são eletrônicos. Assim, a linguística de corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas. O corpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar. O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística. As ferramentas computacionais mais comuns são: A Linguística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico. De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem. Na Linguística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Corpus são: colocação, coligação e prosódia semântica. Para muitos pesquisadores, a Linguística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de pesquisa linguística (Lexicografia, Ensino-aprendizagem, Tradução, etc,). As principais áreas da Linguística de Corpus são: (pt)
  • Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).Целесообразность создания текстовых корпусов объясняется: представлением лингвистических данных в реальном контексте; достаточно большой представительностью данных (при большом объёме корпуса); возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.↑ (ru)
  • 语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由计算机自动完成。语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 40277 (xsd:integer)
dbo:wikiPageRevisionID
  • 708002285 (xsd:integer)
dct:subject
rdf:type
rdfs:comment
  • لغويات المتون (Corpus Linguistics) هي دراسة اللغة المجموعة والموضحة في متن أو مكنز نصي. وهذه الطريقة تمثل نهج موجز لاستخلاص قواعد مجردة تخضع لها اللغة الطبيعية. في الاصل تتم هذه الدراسة أو المعالجة يدويا لكن الان المتون تتم دراستها بعمليات مؤتمته (automated process).مختصون لغويات المتون يعتقدون انه أفضل تحليل لغة موثوق يمكن ظهوره في عينات المتون المجمعة في مجال محدد (مثل الصحف أو الاخبار أو الطب... الخ) في سياقاتها الطبيعية مع القليل من التدخل التجريبي. (ar)
  • 语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由计算机自动完成。语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。 (zh)
  • Corpus linguistics is the study of language as expressed in corpora (samples) of "real world" text. The text-corpus method is a digestive approach for deriving a set of abstract rules, from a text, for governing a natural language, and how that language relates to and with another language; originally derived manually, corpora now are automatically derived from the source texts. Corpus linguistics proposes that reliable language analysis is more feasible with corpora collected in the field, in their natural contexts, and with minimal experimental-interference. (en)
  • Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie steht, wissenschaftstheoretisch betrachtet, dem augenblicklich herrschenden Paradigma des Generativismus entgegen. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt. (de)
  • コーパス言語学(コーパスげんごがく、英語:corpus linguistics)は言語学の一分野で、計算言語学と関連がある。実際に使用された言語資料の集成をコーパスと呼ぶが、最近では特に電子化された言語資料のことを指す。そのコーパスを利用して、より実際的な言語の仕組みを探る学問がコーパス言語学である。チョムスキーの生成文法が言語能力(competence)を調査対象とするのに対し、コーパス言語学は言語運用(performance)に焦点を当てる。ある言語事象をリサーチクエスチョン(仮説)として設定し、それをコーパスデータに基づいて記述する。その後、その仮説を検証し、それに基づいて新たなリサーチクエスチョンを設定するという研究サイクルが一般的である。日本においては、国語学の分野においては、国立国語研究所や計量国語学会などにより、コーパスという名称を使わないものの、コンピュータ利用による言語資料の研究は比較的早くから行われてきた。一方、ヨーロッパ系の語学教育分野において、コーパスという名前が使われるようになったのは比較的最近のこと、1980年後半以降のことである。日本における関連学会としては、計量国語学会(1956年設立)、英語コーパス学会(1993年設立)などがある。 (ja)
  • Corpustaalkunde of corpuslinguïstiek is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd.Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de bijbel. (nl)
  • Linguística de corpus (ou córpus) é uma área da Linguística que se ocupa da coleta e análise de corpus, que é um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística.O corpus deve ser constituído de dados autênticos (não inventados), legíveis por computador e representativos de uma língua ou variedade da língua da qual se deseja estudar.A Linguística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico. (pt)
  • Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых корпусов. Термин введён в употребление в 1960-е годы в связи с развитием практики создания корпусов, которому начиная с 1980-х способствовало развитие вычислительной техники.Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. (ru)
rdfs:label
  • Corpus linguistics (en)
  • لغويات المتون (ar)
  • Korpuslinguistik (de)
  • Lingüística de corpus (es)
  • コーパス言語学 (ja)
  • Corpustaalkunde (nl)
  • Корпусная лингвистика (ru)
  • Linguística de corpus (pt)
  • 语料库语言学 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:field of
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbp:fields of
is foaf:primaryTopic of