About: Topic model

Property	Value
dbo:abstract	En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. (fr) In statistics and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for discovery of hidden semantic structures in a text body. Intuitively, given that a document is about a particular topic, one would expect particular words to appear in the document more or less frequently: "dog" and "bone" will appear more often in documents about dogs, "cat" and "meow" will appear in documents about cats, and "the" and "is" will appear approximately equally in both. A document typically concerns multiple topics in different proportions; thus, in a document that is 10% about cats and 90% about dogs, there would probably be about 9 times more dog words than cat words. The "topics" produced by topic modeling techniques are clusters of similar words. A topic model captures this intuition in a mathematical framework, which allows examining a set of documents and discovering, based on the statistics of the words in each, what the topics might be and what each document's balance of topics is. Topic models are also referred to as probabilistic topic models, which refers to statistical algorithms for discovering the latent semantic structures of an extensive text body. In the age of information, the amount of the written material we encounter each day is simply beyond our processing capacity. Topic models can help to organize and offer insights for us to understand large collections of unstructured text bodies. Originally developed as a text-mining tool, topic models have been used to detect instructive structures in data such as genetic information, images, and networks. They also have applications in other fields such as bioinformatics and computer vision. (en) 기계 학습 및 자연언어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. 예를 들어 개에 대한 문서에서는 "개"와 "뼈다귀"라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 "고양이"와 "야옹"이 더 자주 등장할 것이고, "그", "~이다"와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉, "개"와 "뼈다귀"를 하나의 주제로 묶고, "고양이"와 "야옹"을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. 실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아 낼 수 있다. 그렇기에 토픽 모델은 또한 확률적 토픽 모델이라고도 불리는데, 이는 광범위한 텍스트 본문의 잠재적 의미 구조를 발견하기 위한 통계적 알고리즘을 가리키는 의미로도 쓰인다. 정보화 시대가 도래하면서 매일 생성되는 텍스트는 인간이 직접 처리할 수 있는 양을 크게 넘어서는데, 토픽 모델은 자동적으로 비정형 텍스트의 집합을 이해하기 쉽도록 조직하고 정리하는 데에 쓰일 수 있다. 또한 토픽 모델은 원래 개발된 목적인 텍스트 마이닝 분야 이외에도 유전자 정보, 이미지, 네트워크와 같은 자료에서 유의미한 구조를 발견하는데에도 유용하게 사용되고 있다. 또한 생물정보학과 같은 응용분야에서도 널리 사용되고 있다. (ko) Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento che parla del 10% di gatti e del 90% di cani, ci sarebbero probabilmente circa 9 volte più parole di cane rispetto a parole di gatto. Questi algoritmi cercano gruppi di parole simili. Un modello di argomento cattura questa intuizione in un quadro matematico, che consente di esaminare una serie di documenti e scoprire, sulla base delle statistiche delle parole in ciascuno, quali potrebbero essere gli argomenti e qual è l'equilibrio degli argomenti di ciascun documento. I topic models sono considerati probabilistici, considerato che si riferiscono ad algoritmi statistici per scoprire le strutture latenti. I topic models sono stati utilizzati per rilevare strutture istruttive in dati come informazioni genetiche, immagini e reti. Hanno anche applicazioni in altri campi come la bioinformatica e la visione artificiale. Animazione del processo di scoperta dei topic. Ogni colonna è un testo, ogni riga una parola. Ogni cella rappresenta la frequenza di una parola in un testo. Le celle scure rappresentano frequenze alte. I topic models raggruppano parole simili e documenti simili allo stesso tempo. (it) Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков. Тематическое моделирование как вид статистических моделей для нахождения скрытых тем, встреченных в коллекции документов, нашло своё применение в таких областях, как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определённой теме, в документах, посвящённых одной теме, можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10 % темы составляют кошки, а 90 % темы — собаки, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математической структуре, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе сделать вывод, что каждый документ — это некоторый баланс тем. Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — вероятностных моделях на ориентированных графах. Вероятностные тематические модели — это относительно молодая область исследований в теории самообучения. Одним из первых был предложен вероятностный латентно-семантический анализ (PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле и его многочисленные обобщения. Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонентов смеси по выборке. Хотя тематическое моделирование традиционно описывалось и применялось в обработке естественного языка, оно нашло своё применение и в других областях, например, таких как биоинформатика. (ru) 主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向，但目前以及延伸至例如生物信息学的其它领域。 (zh) Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів. Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему. Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків. Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документів. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем. Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії навчання без учителя. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA), заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод і його численні узагальнення. Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему дискретним розподілом на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірці. Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика. (uk)
dbo:wikiPageExternalLink	http://home.cse.ust.hk/~lzhang/topic/aipanoIntro.pdf http://programminghistorian.org/lessons/topic-modeling-and-mallet/ http://toolsfortext.wordpress.com/ http://www.matthewjockers.net/2010/03/19/whos-your-dh-blog-mate-match-making-the-day-of-dh-bloggers-with-topic-modeling/ http://www.proustarchive.org/wp-trackback.php%3Fp=60 https://slidetalk.net/Home/Viewer%3FVideo=2626079 https://www.cs.columbia.edu/~blei/papers/BleiLafferty2009.pdf http://www.aclweb.org/anthology/W/W11/W11-15.pdf%23page=108 http://www.ics.uci.edu/~newman/pubs/JASIST_Newman.pdf http://www.common-place.org/vol-06/no-02/tales/ http://psiexp.ss.uci.edu/research/papers/SteyversGriffithsLSABookFormatted.pdf http://journalofdigitalhumanities.org/2-1/topic-modeling-a-basic-introduction-by-megan-r-brett/ http://mith.umd.edu/topic-modeling-in-the-humanities-an-overview/ http://home.cse.ust.hk/~lzhang/topic/ai-tree.pdf http://aipano.cse.ust.hk http://vimeo.com/13597441 https://github.com/AmazaspShumik/sklearn-bayes/blob/master/ipython_notebooks_tutorials/decomposition_models/example_lda.ipynb https://github.com/AmazaspShumik/sklearn-bayes/blob/master/skbayes/decomposition_models/gibbs_lda_cython.pyx https://web.archive.org/web/20121002061418/http:/www.cs.princeton.edu/~blei/topicmodeling.html https://web.archive.org/web/20130624013706/http:/www.psypress.com/books/details/9780805854183/ https://web.archive.org/web/20140828231754/http:/programminghistorian.org/lessons/topic-modeling-and-mallet https://web.archive.org/web/20190901175618/http:/www.cse.ust.hk/~lzhang/paper/pspdf/liu-n-ecml14.pdf https://www.academia.edu/5508141 https://www.perseus.tufts.edu/~amahoney/02-jocch-mimno.pdf https://www.youtube.com/watch%3Fv=1wcX4fEdNUo https://www.youtube.com/watch%3Fv=8nBE5Qm8y6I http://www.psypress.com/books/details/9780805854183/ http://mimno.infosci.cornell.edu/topics.html
dbo:wikiPageID	28934119 (xsd:integer)
dbo:wikiPageLength	19537 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	1112640170 (xsd:integer)
dbo:wikiPageWikiLink	dbr:Method_of_moments_(statistics) dbr:Natural_language_processing dbr:Non-negative_matrix_factorization dbr:Pennsylvania_Gazette dbr:David_Blei dbr:Gensim dbr:Andrew_Ng dbr:Mallet_(software_project) dbr:Singular_value_decomposition dbr:Statistical_model dbr:Statistics dbc:Latent_variable_models dbr:Computer_vision dbr:Probabilistic_latent_semantic_indexing dbc:Statistical_natural_language_processing dbr:Latent_Dirichlet_allocation dbr:Latent_semantic_analysis dbr:American_Civil_War dbr:PNAS dbr:Dirichlet_distribution dbr:Richmond_Times-Dispatch dbr:Hierarchical_Dirichlet_process dbc:Corpus_linguistics dbr:Bioinformatics dbr:Michael_I._Jordan dbr:Stochastic_block_model dbr:Statistical_classification dbr:Explicit_semantic_analysis dbr:Unsupervised_learning dbr:Pachinko_allocation dbr:File:Topic_model_scheme.webm
dbp:bot	InternetArchiveBot (en)
dbp:date	July 2018 (en)
dbp:fixAttempted	no (en)
dbp:wikiPageUsesTemplate	dbt:Cite_book dbt:Cite_journal dbt:Cite_web dbt:Cleanup_bare_URLs dbt:Dead_link dbt:Reflist dbt:Short_description dbt:Natural_Language_Processing
dcterms:subject	dbc:Latent_variable_models dbc:Statistical_natural_language_processing dbc:Corpus_linguistics
gold:hypernym	dbr:Model
rdf:type	dbo:Person yago:WikicatLatentVariableModels yago:Assistant109815790 yago:CausalAgent100007347 yago:LivingThing100004258 yago:Model110324560 yago:Object100002684 yago:Organism100004475 yago:Person100007846 yago:PhysicalEntity100001930 yago:Worker109632518 yago:YagoLegalActor yago:YagoLegalActorGeo yago:Whole100003553
rdfs:comment	En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. (fr) 主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向，但目前以及延伸至例如生物信息学的其它领域。 (zh) In statistics and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for discovery of hidden semantic structures in a text body. Intuitively, given that a document is about a particular topic, one would expect particular words to appear in the document more or less frequently: "dog" and "bone" will appear more often in documents about dogs, "cat" and "meow" will appear in documents about cats, and "the" and "is" will appear approximately equally in both. A document typically concerns multiple topics in different proportions; thus, in a document that is 10% about cats and 90% about dogs, there would probably be about 9 times more dog word (en) 기계 학습 및 자연언어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. 예를 들어 개에 대한 문서에서는 "개"와 "뼈다귀"라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 "고양이"와 "야옹"이 더 자주 등장할 것이고, "그", "~이다"와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉, "개"와 "뼈다귀"를 하나의 주제로 묶고, "고양이"와 "야옹"을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. 실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아 낼 수 있다. (ko) Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento (it) Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков. (ru) Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів. Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему. Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків. (uk)
rdfs:label	Topic model (it) Topic model (fr) 토픽 모델 (ko) Topic model (en) Тематическое моделирование (ru) Тематичне моделювання (uk) 主题模型 (zh)
owl:sameAs	freebase:Topic model yago-res:Topic model wikidata:Topic model dbpedia-fa:Topic model dbpedia-fi:Topic model dbpedia-fr:Topic model dbpedia-it:Topic model dbpedia-ko:Topic model dbpedia-ru:Topic model dbpedia-tr:Topic model dbpedia-uk:Topic model dbpedia-vi:Topic model dbpedia-zh:Topic model https://global.dbpedia.org/id/3GDu6 dbr:Topic model
prov:wasDerivedFrom	wikipedia-en:Topic_model?oldid=1112640170&ns=0
foaf:isPrimaryTopicOf	wikipedia-en:Topic_model
is dbo:knownFor of	dbr:David_Blei
is dbo:wikiPageRedirects of	dbr:Topic_modeling dbr:Topic_detection dbr:Topic_identification dbr:Topic_mining dbr:Algorithms_for_topic_modeling
is dbo:wikiPageWikiLink of	dbr:Science dbr:Topic_modeling dbr:Deeplearning4j dbr:David_Blei dbr:Day_of_Archaeology dbr:Mixture_model dbr:Review_article dbr:Cognitive_linguistics dbr:Gensim dbr:Concentration_parameter dbr:Mallet_(software_project) dbr:Computational_journalism dbr:Franco_Moretti dbr:Participatory_rural_appraisal dbr:Topic_detection dbr:Topic_identification dbr:Topic_mining dbr:Distributional_semantics dbr:Latent_Dirichlet_allocation dbr:Latent_semantic_analysis dbr:Diffusion_wavelets dbr:Dirichlet-multinomial_distribution dbr:Himabindu_Lakkaraju dbr:Software_engine dbr:Restricted_Boltzmann_machine dbr:Hierarchical_Dirichlet_process dbr:Document_clustering dbr:Algorithms_for_topic_modeling dbr:Stochastic_block_model dbr:Sentiment_analysis dbr:Explicit_semantic_analysis dbr:Implicit_authentication dbr:List_of_statistics_articles dbr:Gibbs_sampling dbr:Pachinko_allocation dbr:Online_content_analysis dbr:Outline_of_machine_learning dbr:Outline_of_object_recognition dbr:Structured_sparsity_regularization
is foaf:primaryTopic of	wikipedia-en:Topic_model