An n-gram model is a type of probabilistic model for predicting the next item in a sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application.
| Property | Value |
| dbpprop:abstract
|
- An n-gram model is a type of probabilistic model for predicting the next item in a sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram"; and size 4 or more is simply called an "n-gram". Some language models built from n-grams are "(n − 1)-order Markov models".
- Ein N-Gramm ist eine Folge aus <math>N</math> Zeichen, beispielsweise ein Wortfragment. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
- Donada una sequència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de l'investigació científica com l'anàlisi de seqüències genètiques. Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames també es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transició entre els diferents estats.
- Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n-grama de tamaño dos se denomina "bigrama" o "digrama"; de tamaño 3, "trigrama"; de tamaño 4 o más se denomina "n-grama" o "modelo de Márkov de orden (n − 1)".
- Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille <math>n</math>. Cette modélisation correspond en fait à un modèle de Markov d'ordre <math>n</math> où seules les <math>n</math> dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À partir du (court) corpus "par exemple", nous obtenons : Pas d'historique (unigramme) : p : 2 occurrences sur 10 lettres = 1/5; e : 3 occurrences sur 10 lettres = 3/10; x : 1 occurrence sur 10 lettres = 1/10; La somme des probabilités étant nécessairement égale à 1. Historique de taille 1 (on considère la lettre et un successeur) : p-a : 1 occurrence sur 9 couples = 1/9; p-l : 1 occurrence sur 9 couples = 1/9; p-e : 0 occurrence sur 9 couples = 0; La somme des probabilités étant toujours nécessairement égale à 1. Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, <math>P(a|p) = 1/9</math> est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est de, comme dans l'article de, mais aussi comme dans les mots demain, monde ou moderne.
- Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, Gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "bigramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
|
| dbpprop:hasPhotoCollection
| |
| dbpprop:reference
| |
| rdfs:comment
|
- An n-gram model is a type of probabilistic model for predicting the next item in a sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. An n-gram is a subsequence of n items from a given sequence. The items in question can be phonemes, syllables, letters, words or base pairs according to the application.
- Ein N-Gramm ist eine Folge aus <math>N</math> Zeichen, beispielsweise ein Wortfragment. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
- Donada una sequència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de l'investigació científica com l'anàlisi de seqüències genètiques. Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc.
- Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n-grama de tamaño dos se denomina "bigrama" o "digrama"; de tamaño 3, "trigrama"; de tamaño 4 o más se denomina "n-grama" o "modelo de Márkov de orden (n − 1)".
- Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante.
- Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, Gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "bigramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
|
| rdfs:label
|
- N-gram
- N-Gramm
- N-grama
- N-grama
- N-gramme
- N-gramma
|
| owl:sameAs
| |
| skos:subject
| |
| foaf:page
| |
| is dbpprop:redirect
of | |