An n-gram is a sub-sequence of n items from a given sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. The items in question can be letters, words or base pairs according to the application.

PropertyValue
p:abstract
  • An n-gram is a sub-sequence of n items from a given sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. The items in question can be letters, words or base pairs according to the application. An n-gram of size 1 is a "unigram"; size 2 is a "bigram" (or, more etymologically sound but less commonly used, a "digram"); size 3 is a "trigram"; and size 4 or more is simply called an "n-gram". Some language models built from n-grams are "(n − 1)-order Markov models". (en)
  • Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. Un n-grama de tamaño dos se denomina "bigrama" o "digrama"; de tamaño 3, "trigrama"; de tamaño 4 o más se denomina "n-grama" o "modelo de Markov de orden (n − 1)". (es)
  • Ein N-Gramm ist eine Folge aus N Zeichen, beispielsweise ein Wortfragment. Wichtige N-Gramme sind das Monogramm, das Bigramm (manchmal auch als Digramm bezeichnet) und das Trigramm. Das Monogramm besteht aus einem Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, das Bigramm aus zwei und das Trigramm aus drei Zeichen. Allgemein kann man auch von Multigrammen sprechen, wenn es sich um eine Gruppe von „vielen“ Zeichen handelt. Die Vorsilben der Bezeichnungen werden in der Regel unter Zuhilfenahme der griechischen Zahlwörter gebildet. Beispiele sind mono von griechisch monos für „allein“ oder „einzig“, tri für „drei““, tetra für „vier““, penta von griechisch pente für „fünf“, hexa für „sechs“, hepta für „sieben“, okto für „acht“ und so weiter. Bi und multi sind Vorsilben lateinischen Ursprungs und stehen für „zwei“ beziehungsweise „viele“. Die folgende Tabelle gibt sortiert nach der Anzahl N der Zeichen zusammen mit einem Beispiel, bei denen als Zeichen Alphabet-Buchstaben genommen wurden, eine Übersicht über die Bezeichnung der N-Gramme:N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik und Computerforensik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt. (de)
  • Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À partir du (court) corpus "par exemple", nous obtenons : Pas d'historique (unigramme) : * p : 2 occurrences sur 10 lettres = 1/5 ; * e : 3 occurrences sur 10 lettres = 3/10 ; * x : 1 occurrence sur 10 lettres = 1/10 ; ... La somme des probabilités étant nécessairement égale à 1.0. Historique de taille 1 (on considère la lettre et un successeur) : * p-a : 1 occurrence sur 9 couples = 1/9 ; * p-l : 1 occurrence sur 9 couples = 1/9 ; * p-e : 0 occurrence sur 9 couples = 0 ; ... La somme des probabilités étant toujours nécessairement égale à 1.0. Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, P(a|p) = 1/9 est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est de, comme dans l'article de, mais aussi comme dans les mots demain, monde ou moderne. (fr)
p:hasPhotoCollection
p:reference
p:wikipage-de
p:wikipage-es
p:wikipage-fr
rdfs:comment
  • An n-gram is a sub-sequence of n items from a given sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. The items in question can be letters, words or base pairs according to the application. (en)
  • Un n-grama es una subsecuencia de n elementos de una secuencia dada. Los n-gramas se emplean en varias áreas del procesamiento estadístico del lenguaje natural, así como en algunos métodos de predicción o descubrimiento de genes. (es)
  • Ein N-Gramm ist eine Folge aus N Zeichen, beispielsweise ein Wortfragment. Wichtige N-Gramme sind das Monogramm, das Bigramm (manchmal auch als Digramm bezeichnet) und das Trigramm. Das Monogramm besteht aus einem Zeichen, beispielsweise nur aus einem einzelnen Buchstaben, das Bigramm aus zwei und das Trigramm aus drei Zeichen. Allgemein kann man auch von Multigrammen sprechen, wenn es sich um eine Gruppe von „vielen“ Zeichen handelt. (de)
  • Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. (fr)
rdfs:label
  • N-gram (en)
  • N-grama (es)
  • N-Gramm (de)
  • N-gramme (fr)
skos:subject
foaf:page
p:redirect