This HTML5 document contains 174 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dbthttp://dbpedia.org/resource/Template:
n31http://www.aclweb.org/anthology/W/W11/
wikipedia-enhttp://en.wikipedia.org/wiki/
n52https://www.academia.edu/
dbpedia-fihttp://fi.dbpedia.org/resource/
dbrhttp://dbpedia.org/resource/
n12http://mimno.infosci.cornell.edu/
n42http://home.cse.ust.hk/~lzhang/topic/
n6http://psiexp.ss.uci.edu/research/papers/
n18http://journalofdigitalhumanities.org/2-1/topic-modeling-a-basic-introduction-by-megan-r-brett/
n45http://
dbpedia-frhttp://fr.dbpedia.org/resource/
n54http://www.proustarchive.org/
n28http://programminghistorian.org/lessons/topic-modeling-and-mallet/
n48http://www.common-place.org/vol-06/no-02/tales/
n15https://github.com/AmazaspShumik/sklearn-bayes/blob/master/ipython_notebooks_tutorials/decomposition_models/
n27https://slidetalk.net/Home/
n21http://mith.umd.edu/topic-modeling-in-the-humanities-an-overview/
dctermshttp://purl.org/dc/terms/
n23https://web.archive.org/web/20140828231754/http:/programminghistorian.org/lessons/
rdfshttp://www.w3.org/2000/01/rdf-schema#
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
n55http://www.psypress.com/books/details/9780805854183/
dbphttp://dbpedia.org/property/
n34http://dbpedia.org/resource/File:
n50https://web.archive.org/web/20190901175618/http:/www.cse.ust.hk/~lzhang/paper/pspdf/
n9https://web.archive.org/web/20130624013706/http:/www.psypress.com/books/details/9780805854183/
xsdhhttp://www.w3.org/2001/XMLSchema#
dbpedia-ukhttp://uk.dbpedia.org/resource/
n16https://github.com/AmazaspShumik/sklearn-bayes/blob/master/skbayes/decomposition_models/
dbohttp://dbpedia.org/ontology/
dbpedia-vihttp://vi.dbpedia.org/resource/
n29https://web.archive.org/web/20121002061418/http:/www.cs.princeton.edu/~blei/
dbchttp://dbpedia.org/resource/Category:
n30http://www.ics.uci.edu/~newman/pubs/
n17https://www.youtube.com/
yagohttp://dbpedia.org/class/yago/
dbpedia-ruhttp://ru.dbpedia.org/resource/
wikidatahttp://www.wikidata.org/entity/
n11http://www.matthewjockers.net/2010/03/19/whos-your-dh-blog-mate-match-making-the-day-of-dh-bloggers-with-topic-modeling/
goldhttp://purl.org/linguistics/gold/
yago-reshttp://yago-knowledge.org/resource/
n24https://global.dbpedia.org/id/
n39http://toolsfortext.wordpress.com/
dbpedia-ithttp://it.dbpedia.org/resource/
provhttp://www.w3.org/ns/prov#
n51https://www.cs.columbia.edu/~blei/papers/
foafhttp://xmlns.com/foaf/0.1/
dbpedia-zhhttp://zh.dbpedia.org/resource/
n47http://vimeo.com/
dbpedia-kohttp://ko.dbpedia.org/resource/
dbpedia-trhttp://tr.dbpedia.org/resource/
dbpedia-fahttp://fa.dbpedia.org/resource/
freebasehttp://rdf.freebase.com/ns/
n10https://www.perseus.tufts.edu/~amahoney/
owlhttp://www.w3.org/2002/07/owl#

Statements

Subject Item
dbr:Science
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Topic_modeling
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:wikiPageRedirects
dbr:Topic_model
Subject Item
dbr:Deeplearning4j
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:David_Blei
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:knownFor
dbr:Topic_model
Subject Item
dbr:Day_of_Archaeology
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Mixture_model
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Review_article
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Cognitive_linguistics
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Gensim
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Concentration_parameter
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Mallet_(software_project)
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Computational_journalism
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Franco_Moretti
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Participatory_rural_appraisal
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Topic_detection
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:wikiPageRedirects
dbr:Topic_model
Subject Item
dbr:Topic_identification
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:wikiPageRedirects
dbr:Topic_model
Subject Item
dbr:Topic_mining
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:wikiPageRedirects
dbr:Topic_model
Subject Item
dbr:Distributional_semantics
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Latent_Dirichlet_allocation
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Latent_semantic_analysis
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Diffusion_wavelets
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Dirichlet-multinomial_distribution
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Himabindu_Lakkaraju
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Software_engine
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Restricted_Boltzmann_machine
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Hierarchical_Dirichlet_process
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Document_clustering
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Algorithms_for_topic_modeling
dbo:wikiPageWikiLink
dbr:Topic_model
dbo:wikiPageRedirects
dbr:Topic_model
Subject Item
dbr:Stochastic_block_model
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Sentiment_analysis
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Explicit_semantic_analysis
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Implicit_authentication
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:List_of_statistics_articles
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Gibbs_sampling
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Pachinko_allocation
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Online_content_analysis
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Outline_of_machine_learning
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Outline_of_object_recognition
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
dbr:Topic_model
rdf:type
yago:YagoLegalActor yago:YagoLegalActorGeo yago:PhysicalEntity100001930 yago:Worker109632518 yago:LivingThing100004258 yago:CausalAgent100007347 yago:Assistant109815790 yago:Organism100004475 dbo:Person yago:Whole100003553 yago:Object100002684 yago:Person100007846 yago:WikicatLatentVariableModels yago:Model110324560
rdfs:label
主题模型 토픽 모델 Тематическое моделирование Topic model Тематичне моделювання Topic model Topic model
rdfs:comment
Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. 기계 학습 및 자연언어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. 예를 들어 개에 대한 문서에서는 "개"와 "뼈다귀"라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 "고양이"와 "야옹"이 더 자주 등장할 것이고, "그", "~이다"와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉, "개"와 "뼈다귀"를 하나의 주제로 묶고, "고양이"와 "야옹"을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. 실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아 낼 수 있다. In statistics and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for discovery of hidden semantic structures in a text body. Intuitively, given that a document is about a particular topic, one would expect particular words to appear in the document more or less frequently: "dog" and "bone" will appear more often in documents about dogs, "cat" and "meow" will appear in documents about cats, and "the" and "is" will appear approximately equally in both. A document typically concerns multiple topics in different proportions; thus, in a document that is 10% about cats and 90% about dogs, there would probably be about 9 times more dog word 主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。 主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。 Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів. Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему. Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків.
dcterms:subject
dbc:Corpus_linguistics dbc:Statistical_natural_language_processing dbc:Latent_variable_models
dbo:wikiPageID
28934119
dbo:wikiPageRevisionID
1112640170
dbo:wikiPageWikiLink
dbr:Hierarchical_Dirichlet_process dbr:Latent_Dirichlet_allocation dbr:Pachinko_allocation dbr:Michael_I._Jordan dbr:Latent_semantic_analysis dbr:David_Blei dbc:Corpus_linguistics dbr:Computer_vision dbr:Stochastic_block_model dbr:Andrew_Ng dbr:PNAS dbr:Unsupervised_learning dbr:Natural_language_processing dbr:Bioinformatics n34:Topic_model_scheme.webm dbr:Dirichlet_distribution dbr:Richmond_Times-Dispatch dbr:Gensim dbr:Method_of_moments_(statistics) dbr:Statistics dbr:American_Civil_War dbr:Explicit_semantic_analysis dbr:Pennsylvania_Gazette dbr:Mallet_(software_project) dbr:Statistical_model dbc:Statistical_natural_language_processing dbr:Singular_value_decomposition dbr:Probabilistic_latent_semantic_indexing dbr:Statistical_classification dbr:Non-negative_matrix_factorization dbc:Latent_variable_models
dbo:wikiPageExternalLink
n6:SteyversGriffithsLSABookFormatted.pdf n9: n10:02-jocch-mimno.pdf n11: n12:topics.html n15:example_lda.ipynb n16:gibbs_lda_cython.pyx n17:watch%3Fv=1wcX4fEdNUo n18: n21: n23:topic-modeling-and-mallet n17:watch%3Fv=8nBE5Qm8y6I n27:Viewer%3FVideo=2626079 n28: n29:topicmodeling.html n30:JASIST_Newman.pdf n31:W11-15.pdf%23page=108 n39: n42:aipanoIntro.pdf n45:aipano.cse.ust.hk n42:ai-tree.pdf n47:13597441 n48: n50:liu-n-ecml14.pdf n51:BleiLafferty2009.pdf n52:5508141 n54:wp-trackback.php%3Fp=60 n55:
owl:sameAs
dbpedia-tr:Konu_modelleme yago-res:Topic_model n24:3GDu6 dbpedia-fa:مدل_عناوین freebase:m.0dgn020 dbpedia-ko:토픽_모델 dbpedia-ru:Тематическое_моделирование dbpedia-uk:Тематичне_моделювання dbpedia-fi:Aihemalli dbpedia-vi:Mô_hình_chủ_đề dbpedia-it:Topic_model dbpedia-fr:Topic_model dbpedia-zh:主题模型 wikidata:Q3532085
dbp:wikiPageUsesTemplate
dbt:Cleanup_bare_URLs dbt:Cite_book dbt:Natural_Language_Processing dbt:Cite_journal dbt:Cite_web dbt:Short_description dbt:Dead_link dbt:Reflist
dbp:bot
InternetArchiveBot
dbp:date
July 2018
dbp:fixAttempted
no
dbo:abstract
기계 학습 및 자연언어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. 예를 들어 개에 대한 문서에서는 "개"와 "뼈다귀"라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 "고양이"와 "야옹"이 더 자주 등장할 것이고, "그", "~이다"와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉, "개"와 "뼈다귀"를 하나의 주제로 묶고, "고양이"와 "야옹"을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. 실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아 낼 수 있다. 그렇기에 토픽 모델은 또한 확률적 토픽 모델이라고도 불리는데, 이는 광범위한 텍스트 본문의 잠재적 의미 구조를 발견하기 위한 통계적 알고리즘을 가리키는 의미로도 쓰인다. 정보화 시대가 도래하면서 매일 생성되는 텍스트는 인간이 직접 처리할 수 있는 양을 크게 넘어서는데, 토픽 모델은 자동적으로 비정형 텍스트의 집합을 이해하기 쉽도록 조직하고 정리하는 데에 쓰일 수 있다. 또한 토픽 모델은 원래 개발된 목적인 텍스트 마이닝 분야 이외에도 유전자 정보, 이미지, 네트워크와 같은 자료에서 유의미한 구조를 발견하는데에도 유용하게 사용되고 있다. 또한 생물정보학과 같은 응용분야에서도 널리 사용되고 있다. In statistics and natural language processing, a topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for discovery of hidden semantic structures in a text body. Intuitively, given that a document is about a particular topic, one would expect particular words to appear in the document more or less frequently: "dog" and "bone" will appear more often in documents about dogs, "cat" and "meow" will appear in documents about cats, and "the" and "is" will appear approximately equally in both. A document typically concerns multiple topics in different proportions; thus, in a document that is 10% about cats and 90% about dogs, there would probably be about 9 times more dog words than cat words. The "topics" produced by topic modeling techniques are clusters of similar words. A topic model captures this intuition in a mathematical framework, which allows examining a set of documents and discovering, based on the statistics of the words in each, what the topics might be and what each document's balance of topics is. Topic models are also referred to as probabilistic topic models, which refers to statistical algorithms for discovering the latent semantic structures of an extensive text body. In the age of information, the amount of the written material we encounter each day is simply beyond our processing capacity. Topic models can help to organize and offer insights for us to understand large collections of unstructured text bodies. Originally developed as a text-mining tool, topic models have been used to detect instructive structures in data such as genetic information, images, and networks. They also have applications in other fields such as bioinformatics and computer vision. 主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。 主题模型最初是运用于自然语言处理相关方向,但目前以及延伸至例如生物信息学的其它领域。 En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів. Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему. Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків. Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документів. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем. Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії навчання без учителя. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA), заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод і його численні узагальнення. Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему дискретним розподілом на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірці. Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика. Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков. Тематическое моделирование как вид статистических моделей для нахождения скрытых тем, встреченных в коллекции документов, нашло своё применение в таких областях, как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определённой теме, в документах, посвящённых одной теме, можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10 % темы составляют кошки, а 90 % темы — собаки, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математической структуре, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе сделать вывод, что каждый документ — это некоторый баланс тем. Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — вероятностных моделях на ориентированных графах. Вероятностные тематические модели — это относительно молодая область исследований в теории самообучения. Одним из первых был предложен вероятностный латентно-семантический анализ (PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле и его многочисленные обобщения. Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонентов смеси по выборке. Хотя тематическое моделирование традиционно описывалось и применялось в обработке естественного языка, оно нашло своё применение и в других областях, например, таких как биоинформатика. Nell'apprendimento automatico e nell'elaborazione del linguaggio naturale, un topic model è un tipo di modello statistico per scoprire gli "argomenti" (topic) astratti che si verificano in una raccolta di documenti. Questi vengono frequentemente utilizzati per la scoperta di strutture semantiche nascoste in un testo o in una raccolta di testi. Intuitivamente, dato che un documento riguarda un argomento particolare, ci si aspetterebbe che nel documento compaiano parole particolari più o meno frequentemente: "cane" e "osso" appariranno più spesso nei documenti sui cani, "gatto" e "miagolio" appariranno nei documenti sui gatti e "il" e "è" appariranno approssimativamente allo stesso modo in entrambi. Un documento in genere riguarda più argomenti in proporzioni diverse; quindi, in un documento che parla del 10% di gatti e del 90% di cani, ci sarebbero probabilmente circa 9 volte più parole di cane rispetto a parole di gatto. Questi algoritmi cercano gruppi di parole simili. Un modello di argomento cattura questa intuizione in un quadro matematico, che consente di esaminare una serie di documenti e scoprire, sulla base delle statistiche delle parole in ciascuno, quali potrebbero essere gli argomenti e qual è l'equilibrio degli argomenti di ciascun documento. I topic models sono considerati probabilistici, considerato che si riferiscono ad algoritmi statistici per scoprire le strutture latenti. I topic models sono stati utilizzati per rilevare strutture istruttive in dati come informazioni genetiche, immagini e reti. Hanno anche applicazioni in altri campi come la bioinformatica e la visione artificiale. Animazione del processo di scoperta dei topic. Ogni colonna è un testo, ogni riga una parola. Ogni cella rappresenta la frequenza di una parola in un testo. Le celle scure rappresentano frequenze alte. I topic models raggruppano parole simili e documenti simili allo stesso tempo.
gold:hypernym
dbr:Model
prov:wasDerivedFrom
wikipedia-en:Topic_model?oldid=1112640170&ns=0
dbo:wikiPageLength
19537
foaf:isPrimaryTopicOf
wikipedia-en:Topic_model
Subject Item
dbr:Structured_sparsity_regularization
dbo:wikiPageWikiLink
dbr:Topic_model
Subject Item
wikipedia-en:Topic_model
foaf:primaryTopic
dbr:Topic_model