CDA持证人阿涛哥

2021-03-30   阅读量: 737

机器学习 数据分析师

Word2Vec 与 LDA 的区别和联系

扫码加入数据分析学习群

Word2Vec 与 LDA 的区别和联系,首先, LDA 是利用文挡
中单词的共现关系来对单词按主题聚类,也可以理解为对“文挡 - 单词”
矩阵进行分解, 得到“文档 - 主题”和“主题 - 单词”两个概率分布 。
而 Word2Vec 真实是对“上下文 - 单词”矩阵进行学习,其中上下文由
周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现
的特征 。 也就是说,如果两个单词所对应的 Word2Vec 向量相似度较高,
那么它们很可能经常在同样的上下文中出现 。需要说明的是,上述分析
的是 LDA 与 Word2Vec 的不同,不应该作为主题模型和词嵌入两类方
法的主要差异 。 主题模型通过一定的结构调整可以基于 “上下文,单词”
矩阵进行主题推理 。 同样地,词嵌入方法也可以根据“文档 - 单词”矩阵
学习出词的隐含向量表示 。 主题模型和词嵌入两类方法最大的不同其实
在于模型本身,主题模型是一种基于概率图模型的生成式模型,其似
然函数可以写成若干条件概率连乘的形式 , 其中包括需要推测的隐含变
量( 即主题);而词嵌入模型一般表达为神经网络的形式,似然函数定
义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量
表示。

0.0157 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子