An Entity of Type: Thing, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

The TenTen Corpus Family (also called TenTen corpora) is a set of comparable web text corpora, i.e. collections of texts that have been crawled from the World Wide Web and processed to match the same standards. These corpora are made available through the Sketch Engine corpus manager. There are TenTen corpora for more than 35 languages. Their target size is 10 billion (1010) words per language, which gave rise to the corpus family's name.

Property Value
dbo:abstract
  • The TenTen Corpus Family (also called TenTen corpora) is a set of comparable web text corpora, i.e. collections of texts that have been crawled from the World Wide Web and processed to match the same standards. These corpora are made available through the Sketch Engine corpus manager. There are TenTen corpora for more than 35 languages. Their target size is 10 billion (1010) words per language, which gave rise to the corpus family's name. In the creation of the TenTen corpora, data crawled from the World Wide Web are processed with natural language processing tools developed by the Natural Language Processing Centre at the Faculty of Informatics at Masaryk University (Brno, Czech Republic) and by the Lexical Computing company (developer of the Sketch Engine). (en)
  • Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники. До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»). Щоб отримати доступ до корпусів ТенТен, необхідно авторизуватися та купити підписку на сайті Sketch Engine. Можна скористатися 30-денним пробним періодом. (uk)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 54292120 (xsd:integer)
dbo:wikiPageLength
  • 12210 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1018803597 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
rdfs:comment
  • The TenTen Corpus Family (also called TenTen corpora) is a set of comparable web text corpora, i.e. collections of texts that have been crawled from the World Wide Web and processed to match the same standards. These corpora are made available through the Sketch Engine corpus manager. There are TenTen corpora for more than 35 languages. Their target size is 10 billion (1010) words per language, which gave rise to the corpus family's name. (en)
  • Родина корпусів ТенТен (англ. The TenTen Corpus Family) — це сукупність порівняльних веб-корпусів, укладених з лінгвістично вартісних текстів всесвітньої павутини. Доступ до корпусів реалізовано через корпусний менеджер Sketch Engine. Інструментарій цієї веб-платформи дає змогу детально досліджувати граматику, лексику та термінологію, аналізувати переклади, укладати частотні словники. До родини ТенТен входять корпуси 42 мов (за даними на квітень 2022). Цільовий розмір кожного з корпусів становить 10 мільярдів (1010) слововживань, це число й дало їм назву (1010 — «ten-ten»). (uk)
rdfs:label
  • TenTen Corpus Family (en)
  • Сімейство корпусів ТенТен (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License