A statistical language model is a probability distribution over sequences of words. Given such a sequence, say of length m, it assigns a probability to the whole sequence. Having a way to estimate the relative likelihood of different phrases is useful in many natural language processing applications. Language modeling is used in speech recognition, machine translation, part-of-speech tagging, parsing, handwriting recognition, information retrieval and other applications. . Commonly, the unigram language model is used for this purpose—otherwise known as the bag of words model.

Property Value
dbo:abstract
  • 25بك المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016) قوالب اللغات هي قوالب إحصائية تقوم بتعيين قيمة محتملة لكل سلسلة من الكلمات عن طريق التوزيع الإحتمالي تستخدم قوالب اللغات في العديد من تطبيقات معالجة اللغة الطبيعية مثل التعرف على الكلام، الترجمة الآلية، وتحليل واسترجاع المعلومات. (ar)
  • A statistical language model is a probability distribution over sequences of words. Given such a sequence, say of length m, it assigns a probability to the whole sequence. Having a way to estimate the relative likelihood of different phrases is useful in many natural language processing applications. Language modeling is used in speech recognition, machine translation, part-of-speech tagging, parsing, handwriting recognition, information retrieval and other applications. In speech recognition, the computer tries to match sounds with word sequences. The language model provides context to distinguish between words and phrases that sound similar. For example, in American English, the phrases "recognize speech" and "wreck a nice beach" are pronounced almost the same but mean very different things. These ambiguities are easier to resolve when evidence from the language model is incorporated with the pronunciation model and the acoustic model. Language models are used in information retrieval in the query likelihood model. Here a separate language model is associated with each document in a collection. Documents are ranked based on the probability of the query Q in the document's language model . Commonly, the unigram language model is used for this purpose—otherwise known as the bag of words model. Data sparsity is a major problem in building language models. Most possible word sequences will not be observed in training. One solution is to make the assumption that the probability of a word only depends on the previous n words. This is known as an n-gram model or unigram model when n = 1. (en)
  • Un modelo del lenguaje estadístico asigna una probabilidad a una secuencia de m palabras mediante una distribución de probabilidad. Tener una forma de estimar la verosimilitud de diferentes frases es útil en muchas aplicaciones de procesamiento de lenguaje natural. Modelación del lenguaje se utiliza en el reconocimiento de voz, traducción automática, etiquetado de discurso, análisis, reconocimiento de escritura, la recuperación de información y otras aplicaciones. En el reconocimiento de voz, la computadora intenta hacer coincidir los sonidos con secuencias de palabras. El modelo del lenguaje proporciona un contexto para distinguir entre las palabras y frases que suenan similares. Por ejemplo, en Inglés Americano, las frases "recognize speech " y " wreck a nice beach " se pronuncian igual pero significan cosas muy diferentes. Estas ambigüedades son más fáciles de resolver cuando se incorpora la evidencia del modelo del lenguaje con el modelo de pronunciación y el modelo acústico. Los modelos del lenguaje se utilizan en la recuperación de información en el modelo de consulta probabilístico. Aquí un modelo del lenguaje está asociado con cada documento en una colección. Los documentos se clasifican sobre la base de la probabilidad de la consulta en el modelo del lenguaje del documento . Comúnmente, el modelo del lenguaje unigrama se utiliza para este propósito—además conocido como el modelo de bolsa de palabras. La escasez de datos es un problema importante en la construcción de modelos de lenguaje. La mayoría de las posibles secuencias de palabras no serán observadas en el entrenamiento. Una solución es hacer la hipótesis de que la probabilidad de una palabra sólo depende de las palabras anteriores. Esto se conoce como un modelo de N-grama o modelo unigrama cuando . (es)
  • 統計式的語言模型是藉由一個機率分佈,而指派機率給字詞所組成的字串: 語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。 在語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。 當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率 代表該文件的語言模型所產生的語句之機率。 (zh)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 1911810 (xsd:integer)
dbo:wikiPageRevisionID
  • 736435605 (xsd:integer)
dct:subject
rdf:type
rdfs:comment
  • 25بك المحتوى هنا ينقصه الاستشهاد بمصادر. يرجى إيراد مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مارس 2016) قوالب اللغات هي قوالب إحصائية تقوم بتعيين قيمة محتملة لكل سلسلة من الكلمات عن طريق التوزيع الإحتمالي تستخدم قوالب اللغات في العديد من تطبيقات معالجة اللغة الطبيعية مثل التعرف على الكلام، الترجمة الآلية، وتحليل واسترجاع المعلومات. (ar)
  • 統計式的語言模型是藉由一個機率分佈,而指派機率給字詞所組成的字串: 語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑n元語法(N-gram)模型之原因。 在語音辨識和在資料壓縮的領域中,這種模式試圖捕捉語言的特性,並預測在語音串列中的下一個字。 當用於資訊檢索,語言模型是與文件有關的集合。以查詢字「Q」作為輸入,依據機率將文件作排序,而該機率 代表該文件的語言模型所產生的語句之機率。 (zh)
  • A statistical language model is a probability distribution over sequences of words. Given such a sequence, say of length m, it assigns a probability to the whole sequence. Having a way to estimate the relative likelihood of different phrases is useful in many natural language processing applications. Language modeling is used in speech recognition, machine translation, part-of-speech tagging, parsing, handwriting recognition, information retrieval and other applications. . Commonly, the unigram language model is used for this purpose—otherwise known as the bag of words model. (en)
  • Un modelo del lenguaje estadístico asigna una probabilidad a una secuencia de m palabras mediante una distribución de probabilidad. Tener una forma de estimar la verosimilitud de diferentes frases es útil en muchas aplicaciones de procesamiento de lenguaje natural. Modelación del lenguaje se utiliza en el reconocimiento de voz, traducción automática, etiquetado de discurso, análisis, reconocimiento de escritura, la recuperación de información y otras aplicaciones. en el modelo del lenguaje del documento palabras anteriores. Esto se conoce como un modelo de N-grama o modelo unigrama cuando . (es)
rdfs:label
  • قالب اللغة (ar)
  • Language model (en)
  • Modelación del lenguaje (es)
  • 語言模型 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is foaf:primaryTopic of