在自然语言处理(NLP)中,主题建模是一种技术,用于从文本数据中发现隐藏的语义主题(或主题)。这是一个无监督机器学习问题,即在没有标签或标签的情况下学习模式。主题建模的应用非常广泛,可用于搜索引擎、情感分析、新闻聚类和摘要生成等许多任务。
在这里将探讨主题建模的不同方法,包括传统的统计方法和最新的基于深度学习的方法。我们还将介绍每种方法的优点和缺点,并提供端到端的 Python 示例。
 
文章目录
- 主题模型比较
 - 主题建模策略
 - 
   
- LSA 潜在语义分析
 - pLSA 概率潜在语义分析
 - LDA 潜在狄利克雷分布
 - NMF 非负矩阵分解
 - BERTopic 和 Top2Vec
 
 
主题模型比较
先上比较的结论,然后一个一个的分析。
| Metric | LDA | NMF | BERTopic | Top2Vec | 
|---|---|---|---|---|
| 主题的数量 | ❌必须事先知道主题的数量 | ❌必须 | 

















