摘要: |
本文为解决实际应用场景中常面临的数据标注不足的问题,提出一种基于变分主题模型的半监督文本分类模型。首先使用无监督变分主题模型挖掘出语义信息集中的文档-主题分布,然后作为有效的文档特征表示,再通过半监督方式训练分类器。其中基于神经网络的变分主题模型相较传统的主题模型,不仅可以得到合理的主题,而且推断速度更快。在20NewsGroup等数据集上的实验结果表明,所提出的模型仅使用30%的训练数据就可以取得与使用90%训练数据的半监督基线模型相当甚至更好的结果,证明了所提出模型的正确性和实用性。 |
关键词: 变分主题模型 半监督学习 文本分类 |
DOI:10.3969/j.issn.1005-9490.2023.02.026 |
|
基金项目: |
|
|
|
() |
Abstract: |
|
Key words: |