An Entity of Type: Thing, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

The bag-of-words model is a simplifying representation used in natural language processing and information retrieval (IR). In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity. The bag-of-words model has also been used for computer vision. The bag-of-words model is commonly used in methods of document classification where the (frequency of) occurrence of each word is used as a feature for training a classifier. The Bag-of-words model is one example of a Vector space model.

Property Value
dbo:abstract
  • نموذج حقيبة الكلمات هو تمثيل مبسط يستخدم في معالجة اللغة الطبيعية واسترجاع المعلومات (IR). يتم فيه تمثيل النصوص كالجمل أو المستندات كحقيبة (مجموعة متعددة) من الكلمات الواردة فيها، متجاهلاً القواعد اللغوية وترتيب الكلمات مع الحفاظ على التعددية. كما تم استخدام نموذج حقيبة الكلمات في الرؤية الحاسوبية. يستخدم نموذج حقيبة الكلمات بشكل شائع في حيث يتم استخدام (تكرارات) كل كلمة لتدريب المصنف. يمكن العثور على إشارة مبكرة إلى «حقيبة الكلمات» في سياق لغوي بمقالة زيليغ هاريس (Zellig Harris) عام 1954 حول البنية التوزيعية. (ar)
  • El model bossa de paraules (de l'anglès, Bag of Words) és un mètode que s'utilitza en el processament del llenguatge per representar documents ignorant l'ordre de les paraules. En aquest model, cada document sembla una bossa que conté algunes paraules. Per tant, aquest mètode permet un modelatge de les paraules basat en diccionaris on cada bossa conté unes quantes paraules del diccionari. En el camp de reconeixement d'objectes, s'utilitza una idea similar per a les representacions d'imatges, és a dir, una imatge pot ser tractada com un document i les característiques extretes d'uns certs punts de la imatge són considerades paraules visuals.Els principals avantatges d'utilitzar aquest model és la seva facilitat d'ús i la seva eficiència computacional. (ca)
  • The bag-of-words model is a simplifying representation used in natural language processing and information retrieval (IR). In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity. The bag-of-words model has also been used for computer vision. The bag-of-words model is commonly used in methods of document classification where the (frequency of) occurrence of each word is used as a feature for training a classifier. An early reference to "bag of words" in a linguistic context can be found in Zellig Harris's 1954 article on Distributional Structure. The Bag-of-words model is one example of a Vector space model. (en)
  • Hitz-zaku edo bag-of-words eredua informazioaren berreskuratze eta hizkuntzaren prozesamenduan erabilitako testuak errepresentatzeko modu bat da. Adierazpide honetan, testu bat (adibidez dokumentu edo esaldi bat) barnean dituen hitzen zaku edo multimultzo bat bezala adierazten da, hau da, hitzen arteko ordena eta harremana baztertzen da, baina agerpen-kontaketak mantentzen dira. Hitz-zaku eredua ikusmen artifizialean ere erabili izan da. Hitz-zaku eredua askotan dokumentu saenilkapenean erabiltzen da, non hitz bakoitzaren agerpen-kontaketa sailkatzailearen entrenamendu datu gisa erabiltzen den. “Hitz-zaku” terminoaren erabilera goiztiar bat Zellig Harris-en 1954ko Distributional Structure artikuluan aurki daiteke. (eu)
  • El modelo "bolsa de palabras" (del inglés, Bag of Words) es un método que se utiliza en el procesado del lenguaje para representar documentos ignorando el orden de las palabras. En este modelo, cada documento parece una bolsa que contiene algunas palabras. Por lo tanto, este método permite un modelado de las palabras basado en diccionarios, donde cada bolsa contiene unas cuantas palabras del diccionario. En el campo de reconocimiento de objetos, se utiliza una idea similar para las representaciones de imágenes, es decir, una imagen puede ser tratada como un documento y las características extraídas de ciertos puntos de la imagen son consideradas palabras visuales.Las principales ventajas de utilizar este modelo es su facilidad de uso y su eficiencia computacional. (es)
  • La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information. (fr)
  • Model tas-kata-kata (bahasa Inggris: Bag-of-words model) ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi. Dikenal sebagai model ruang vektor. Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai token, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen. (in)
  • 단어 가방(bag-of-words) 모형은 자연어 처리 및 정보 검색 (IR)에 사용되는 단순화 된 표현이다. 이 모델에서 텍스트 (문장 또는 문서 등)는 문법 및 단어 순서는 무시하고 다중성을 유지하면서 단어의 가방(멀티 세트)으로 표시된다. 단어 가방 모델은 컴퓨터 비전에도 사용되었다. 단어 가방 모델은 각 단어의 발생 빈도가 분류자를 훈련시키는 특성으로 사용되는 문서 분류 방법에 일반적으로 사용된다. 언어적 맥락에서 "단어 가방"에 대한 초기 언급은 분포 구조에 관한 Zellig Harris 의 1954년 논문에서 찾을 수 있다. (ko)
  • Il modello della borsa di parole (in inglese: Bag-of-words model, in sigla: BoW) è un metodo utilizzato nell'Information Retrieval e nel Elaborazione del linguaggio naturale per rappresentare documenti ignorando l'ordine delle parole. In questo modello, ogni documento è considerato in quanto contiene parole, analogamente a una borsa; ciò consente una gestione di queste basata su liste, dove ogni borsa contiene determinate parole di una lista. Nella Computer Vision si applica alla classificazione delle immagini, trattando l'immagine come caratteristiche (feature) di parole. In particolare, nell'object recognition, un'immagine può essere trattata come un documento e le caratteristiche rilevate in determinati punti dell'immagine si considerano "parole" visuali. Nella classificazione di documenti, la borsa di parole è un vettore sparso del numero di occorrenze delle parole, che non è altro che un istogramma sparso sul vocabolario. In Computer Vision una borsa di parole visuale è un vettore sparso di occorrenze del vocabolario di caratteristiche locali dell'immagine. (it)
  • Мешок слов (англ. bag-of-words) — упрощенное представление текста, которое используется в обработке естественных языков и информационном поиске. В этой модели текст (одно предложение или весь документ) представляется в виде мешка (мультимножества) его слов без какого-либо учета грамматики и порядка слов, но с сохранением информации об их количестве. Мешок слов обычно используется в методах классификации документов, где частотность вхождения слова используется как признак для обучения классификатора. Одно из первых упоминаний «мешка слов» в лингвистическом контексте встречается в статье 1954 года Зеллига Харриса Distributional Structure. Модель «мешок слов» также используется в задачах компьютерного зрения. (ru)
  • O modelo saco-de-palavras é uma representação simplificada utilizada no processamento de linguagem natural e na recuperação de informações. Neste modelo, o texto (uma frase ou documento) é representado como um multiconjunto de suas palavras (o "saco"), desconsiderando a estrutura gramatical e até mesmo a ordenação delas, mas mantendo sua multiplicidade. O modelo saco-de-palavras é frequentemente utilizado em métodos de , onde a frequência de ocorrência de cada palavra é vista como uma característica utilizada para treinar o . No entanto, já foram registrados usos do modelo em estudos na área de visão computacional. (pt)
  • Модель «торба слів» (англ. bag-of-words) є спрощенням подання, що використовується в обробці природних мов і інформаційному пошуку. У цій моделі текст (наприклад, речення або документ) представляється у вигляді торби (мультимножини) його слів, не беручи до уваги граматику і навіть порядок слів, але зберігаючи множинність. Модель «мішок слів» також використовується для задач . Модель «торба слів» зазвичай використовується в методах класифікації документів, де (частота) виникнення кожного слова використовується як ознака для навчання класифікатору. Раннє посилання на термін «торба слів» у мовному контексті можна знайти в статті 1954 року Зелліха Харріса про структуру розподілу. (uk)
  • 词袋模型(英語:Bag-of-words model)是一個在自然語言處理和信息檢索(IR)下被簡化的表達模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一個装着这些词的袋子来表示,這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。 词袋模型被廣泛應用在文件分類,詞出現的頻率可以用來當作訓練分類器的特徵。 關於"词袋"這個用字的由來可追溯到於1954年在《Distributional Structure》的文章。 (zh)
dbo:wikiPageID
  • 14003441 (xsd:integer)
dbo:wikiPageLength
  • 10682 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1119717306 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdfs:comment
  • نموذج حقيبة الكلمات هو تمثيل مبسط يستخدم في معالجة اللغة الطبيعية واسترجاع المعلومات (IR). يتم فيه تمثيل النصوص كالجمل أو المستندات كحقيبة (مجموعة متعددة) من الكلمات الواردة فيها، متجاهلاً القواعد اللغوية وترتيب الكلمات مع الحفاظ على التعددية. كما تم استخدام نموذج حقيبة الكلمات في الرؤية الحاسوبية. يستخدم نموذج حقيبة الكلمات بشكل شائع في حيث يتم استخدام (تكرارات) كل كلمة لتدريب المصنف. يمكن العثور على إشارة مبكرة إلى «حقيبة الكلمات» في سياق لغوي بمقالة زيليغ هاريس (Zellig Harris) عام 1954 حول البنية التوزيعية. (ar)
  • El model bossa de paraules (de l'anglès, Bag of Words) és un mètode que s'utilitza en el processament del llenguatge per representar documents ignorant l'ordre de les paraules. En aquest model, cada document sembla una bossa que conté algunes paraules. Per tant, aquest mètode permet un modelatge de les paraules basat en diccionaris on cada bossa conté unes quantes paraules del diccionari. En el camp de reconeixement d'objectes, s'utilitza una idea similar per a les representacions d'imatges, és a dir, una imatge pot ser tractada com un document i les característiques extretes d'uns certs punts de la imatge són considerades paraules visuals.Els principals avantatges d'utilitzar aquest model és la seva facilitat d'ús i la seva eficiència computacional. (ca)
  • El modelo "bolsa de palabras" (del inglés, Bag of Words) es un método que se utiliza en el procesado del lenguaje para representar documentos ignorando el orden de las palabras. En este modelo, cada documento parece una bolsa que contiene algunas palabras. Por lo tanto, este método permite un modelado de las palabras basado en diccionarios, donde cada bolsa contiene unas cuantas palabras del diccionario. En el campo de reconocimiento de objetos, se utiliza una idea similar para las representaciones de imágenes, es decir, una imagen puede ser tratada como un documento y las características extraídas de ciertos puntos de la imagen son consideradas palabras visuales.Las principales ventajas de utilizar este modelo es su facilidad de uso y su eficiencia computacional. (es)
  • La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information. (fr)
  • Model tas-kata-kata (bahasa Inggris: Bag-of-words model) ialah sebuah gambaran sederhana digunakan dalam pengolahan bahasa alami dan pencarian informasi. Dikenal sebagai model ruang vektor. Pada model ini, tiap kalimat dalam dokumen digambarkan sebagai token, mengabaikan tata bahasa dan bahkan urutan kata namun menghitung frekuensi kejadian atau kemunculan kata dari dokumen. (in)
  • 단어 가방(bag-of-words) 모형은 자연어 처리 및 정보 검색 (IR)에 사용되는 단순화 된 표현이다. 이 모델에서 텍스트 (문장 또는 문서 등)는 문법 및 단어 순서는 무시하고 다중성을 유지하면서 단어의 가방(멀티 세트)으로 표시된다. 단어 가방 모델은 컴퓨터 비전에도 사용되었다. 단어 가방 모델은 각 단어의 발생 빈도가 분류자를 훈련시키는 특성으로 사용되는 문서 분류 방법에 일반적으로 사용된다. 언어적 맥락에서 "단어 가방"에 대한 초기 언급은 분포 구조에 관한 Zellig Harris 의 1954년 논문에서 찾을 수 있다. (ko)
  • 词袋模型(英語:Bag-of-words model)是一個在自然語言處理和信息檢索(IR)下被簡化的表達模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一個装着这些词的袋子来表示,這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。 词袋模型被廣泛應用在文件分類,詞出現的頻率可以用來當作訓練分類器的特徵。 關於"词袋"這個用字的由來可追溯到於1954年在《Distributional Structure》的文章。 (zh)
  • The bag-of-words model is a simplifying representation used in natural language processing and information retrieval (IR). In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words, disregarding grammar and even word order but keeping multiplicity. The bag-of-words model has also been used for computer vision. The bag-of-words model is commonly used in methods of document classification where the (frequency of) occurrence of each word is used as a feature for training a classifier. The Bag-of-words model is one example of a Vector space model. (en)
  • Hitz-zaku edo bag-of-words eredua informazioaren berreskuratze eta hizkuntzaren prozesamenduan erabilitako testuak errepresentatzeko modu bat da. Adierazpide honetan, testu bat (adibidez dokumentu edo esaldi bat) barnean dituen hitzen zaku edo multimultzo bat bezala adierazten da, hau da, hitzen arteko ordena eta harremana baztertzen da, baina agerpen-kontaketak mantentzen dira. Hitz-zaku eredua ikusmen artifizialean ere erabili izan da. “Hitz-zaku” terminoaren erabilera goiztiar bat Zellig Harris-en 1954ko Distributional Structure artikuluan aurki daiteke. (eu)
  • Il modello della borsa di parole (in inglese: Bag-of-words model, in sigla: BoW) è un metodo utilizzato nell'Information Retrieval e nel Elaborazione del linguaggio naturale per rappresentare documenti ignorando l'ordine delle parole. In questo modello, ogni documento è considerato in quanto contiene parole, analogamente a una borsa; ciò consente una gestione di queste basata su liste, dove ogni borsa contiene determinate parole di una lista. Nella Computer Vision si applica alla classificazione delle immagini, trattando l'immagine come caratteristiche (feature) di parole. In particolare, nell'object recognition, un'immagine può essere trattata come un documento e le caratteristiche rilevate in determinati punti dell'immagine si considerano "parole" visuali. Nella classificazione di docume (it)
  • O modelo saco-de-palavras é uma representação simplificada utilizada no processamento de linguagem natural e na recuperação de informações. Neste modelo, o texto (uma frase ou documento) é representado como um multiconjunto de suas palavras (o "saco"), desconsiderando a estrutura gramatical e até mesmo a ordenação delas, mas mantendo sua multiplicidade. (pt)
  • Мешок слов (англ. bag-of-words) — упрощенное представление текста, которое используется в обработке естественных языков и информационном поиске. В этой модели текст (одно предложение или весь документ) представляется в виде мешка (мультимножества) его слов без какого-либо учета грамматики и порядка слов, но с сохранением информации об их количестве. Мешок слов обычно используется в методах классификации документов, где частотность вхождения слова используется как признак для обучения классификатора. Модель «мешок слов» также используется в задачах компьютерного зрения. (ru)
  • Модель «торба слів» (англ. bag-of-words) є спрощенням подання, що використовується в обробці природних мов і інформаційному пошуку. У цій моделі текст (наприклад, речення або документ) представляється у вигляді торби (мультимножини) його слів, не беручи до уваги граматику і навіть порядок слів, але зберігаючи множинність. Модель «мішок слів» також використовується для задач . Модель «торба слів» зазвичай використовується в методах класифікації документів, де (частота) виникнення кожного слова використовується як ознака для навчання класифікатору. (uk)
rdfs:label
  • نموذج حقيبة الكلمات (ar)
  • Model bossa de paraules (ca)
  • Bag-of-words model (en)
  • Modelo bolsa de palabras (es)
  • Hitz-zaku eredu (eu)
  • Model tas-kata-kata (in)
  • Sac de mots (fr)
  • Modello della borsa di parole (it)
  • 단어 가방 모형 (ko)
  • Мешок слов (ru)
  • Modelo saco-de-palavras (pt)
  • Модель «торба слів» (uk)
  • 词袋模型 (zh)
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License