An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram"; size 4 is a "four-gram" and size 5 or more is simply called an "n-gram". Some language models built from n-grams are "(n − 1)-order Markov models".
| Property | Value |
| dbpedia-owl:abstract
|
- N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt und jeweils Fragmente als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
- An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram"; size 4 is a "four-gram" and size 5 or more is simply called an "n-gram". Some language models built from n-grams are "(n − 1)-order Markov models". An n-gram model is a type of probabilistic model for predicting the next item in such a sequence. n-gram models are used in various areas of statistical natural language processing and genetic sequence analysis.
- Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n-grama de tamaño dos se denomina "bigrama" o "digrama"; de tamaño 3, "trigrama"; de tamaño 4 o más se denomina "n-grama" o "modelo de Márkov de orden (n − 1)".
- N-grammi on n merkin, morfeemin tai sanan mittainen jakso. Tavallisesti käytettyjä n-grammeja ovat muun muassa kahden merkin tai sanan mittaiset digrammit (n=2) ja kolmen merkin tai sanan mittaiset trigrammit (n=3). N-grammimallit ovat tapa rakentaa tilastollisia kielimalleja, joissa käytetään indeksointiyksiköinä vakiomittaisia peräkkäisiä merkkijonoja tai sanoja. Kieliteknologiassa n-grammeihin perustuvia kielimalleja on hyödynnetty muun muassa automaattisessa puheentunnistuksessa, sanan sanaluokan tai merkityksen määrittämisessä, oikeinkirjoituksen tarkistuksessa ja tiedonhaussa.
- Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
- Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À partir du (court) corpus "par exemple", nous obtenons : Pas d'historique (unigramme) : p : 2 occurrences sur 10 lettres = 1/5; e : 3 occurrences sur 10 lettres = 3/10; x : 1 occurrence sur 10 lettres = 1/10; ... La somme des probabilités étant nécessairement égale à 1. Historique de taille 1 (on considère la lettre et un successeur) : p-a : 1 occurrence sur 9 couples = 1/9; p-l : 1 occurrence sur 9 couples = 1/9; p-e : 0 occurrence sur 9 couples = 0; ... La somme des probabilités étant toujours nécessairement égale à 1. Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est de, comme dans l'article de, mais aussi comme dans les mots demain, monde ou moderne.
|
| dbpedia-owl:wikiPageExternalLink
| |
| dcterms:subject
| |
| rdfs:comment
|
- N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt und jeweils Fragmente als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
- Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n-grama de tamaño dos se denomina "bigrama" o "digrama"; de tamaño 3, "trigrama"; de tamaño 4 o más se denomina "n-grama" o "modelo de Márkov de orden (n − 1)".
- Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
- An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram"; size 4 is a "four-gram" and size 5 or more is simply called an "n-gram". Some language models built from n-grams are "(n − 1)-order Markov models".
- N-grammi on n merkin, morfeemin tai sanan mittainen jakso. Tavallisesti käytettyjä n-grammeja ovat muun muassa kahden merkin tai sanan mittaiset digrammit (n=2) ja kolmen merkin tai sanan mittaiset trigrammit (n=3). N-grammimallit ovat tapa rakentaa tilastollisia kielimalleja, joissa käytetään indeksointiyksiköinä vakiomittaisia peräkkäisiä merkkijonoja tai sanoja.
- Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante.
|
| rdfs:label
|
- N-Gramm
- N-grama
- N-grammi
- N-gram
- N-gramme
- N-gramma
|
| owl:sameAs
| |
| foaf:page
| |
| is dbpedia-owl:wikiPageDisambiguates
of | |
| is dbpedia-owl:wikiPageRedirects
of | |
| is owl:sameAs
of | |
| is foaf:primaryTopic
of | |