In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. An n-gram could be any combination of letters. However, the items in question can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus.

PropertyValue
dbpedia-owl:abstract
  • N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt und jeweils Fragmente als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
  • Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
  • In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. An n-gram could be any combination of letters. However, the items in question can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus. An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram". Larger sizes are sometimes referred to by the value of n, e.g. , "four-gram", "five-gram", and so on.
  • Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À partir du (court) corpus "par exemple", nous obtenons : Pas d'historique (unigramme) : p : 2 occurrences sur 10 lettres = 1/5 ; e : 3 occurrences sur 10 lettres = 3/10 ; x : 1 occurrence sur 10 lettres = 1/10 ; ... La somme des probabilités étant nécessairement égale à 1. Historique de taille 1 (on considère la lettre et un successeur) : p-a : 1 occurrence sur 9 couples = 1/9 ; p-l : 1 occurrence sur 9 couples = 1/9 ; p-e : 0 occurrence sur 9 couples = 0 ; ... La somme des probabilités étant toujours nécessairement égale à 1. Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est de, comme dans l'article de, mais aussi comme dans les mots demain, monde ou moderne.
  • Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente. Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas en base a distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras. Algunos sistemas procesan las cadenas de texto eliminando los espacios. Otros no. En casi todos los casos, los signos de puntuación se eliminan durante el preproceso. Se puede usar gramas para casi todos los ámbitos. Por ejemplo, se han usado n-gramas para extraer características comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué parte de la Tierra pertenece una imagen dada. Para ciertos valores de n los n-gramas tienen nombres especiales. Por ejemplo: Los 1-gramas también se llaman unigramas. Los 2-gramas también se llaman bigramas o digramas. Los 3-gramas también se llaman trigramas.
  • N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов. Последовательность из двух последовательных элементов часто называют биграммы, последовательность из трех элементов называется триграмма. Не менее четырех и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов.
dbpedia-owl:wikiPageExternalLink
dbpedia-owl:wikiPageID
  • 986182 (xsd:integer)
dbpedia-owl:wikiPageInLinkCount
  • 64 (xsd:integer)
dbpedia-owl:wikiPageOutLinkCount
  • 105 (xsd:integer)
dbpedia-owl:wikiPageRevisionID
  • 548024834 (xsd:integer)
dbpprop:hasPhotoCollection
dcterms:subject
rdf:type
rdfs:comment
  • In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. An n-gram could be any combination of letters. However, the items in question can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus.
  • N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt und jeweils Fragmente als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt.
  • Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple "par exemple") il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante.
  • Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1.
  • Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente.
  • N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов. Последовательность из двух последовательных элементов часто называют биграммы, последовательность из трех элементов называется триграмма. Не менее четырех и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов.
rdfs:label
  • N-Gramm
  • N-gram
  • N-grama
  • N-gramme
  • N-gramma
  • N-грамм
owl:sameAs
http://www.w3.org/ns/prov#wasDerivedFrom
foaf:isPrimaryTopicOf
is dbpedia-owl:wikiPageDisambiguates of
is dbpedia-owl:wikiPageRedirects of
is owl:sameAs of
is foaf:primaryTopic of