热线电话:13121318867

登录
2021-03-30 阅读量: 799
有哪些文本表示模型?

1,词袋模型和 N-gram 模型
最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看
成一袋子词,并忽略每个词出现的顺序 。具体地说,就是将整段文本以
词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一
维代表一个主要词,而该维对应的权重则反映了这个词在原文章中的重要
程度。

可以将连续出现的 n 个词
( n <= N ) 组成的词组( N-gram )也作为一个单独的特征搬到向量表
示中去,构成 N-gram 模型 。


2,主题模型
主题模型用于从文本库中发现有代表性的主题(得到每个主题上面
词的分布特性 ) ,并且能够计算出每篇文章的主题分布。


3, 词嵌入与深度学习模型
词嵌入是一类将词向量化的模型的统称 , 核心思想是将每个词都
映射成低维空间(通常 K=50 ~ 300 维)上的一个稠密向量 ( Dense
Vector ) 。 K维空间的每一维也可以看作一个隐含的主题 , 只不过不像
主题模型中的主题那样直观 。
由于词嵌入将每个词映射成一个 K维的向量, 如果一篇文档有 N个
词, 就可以用一个 N×K维的生巨阵来表示这篇文挡,但是这样的表示过于
底层 。 在实际应用中,如果仅仅把这个矩阵作为原文本的表示特征输入
到机器学习模型中,通常很难得到令人满意的结果。因此 , 还需要在此
基础之上加工出更高层的特征 。 在传统的浅层机器学习模型中,一个好
的特征工程往往可以带来算法效果的显著提升 。 而深度学习模型正好为
我们提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以
认为对应着不同抽象层次的特征 。 从这个角度来讲,深度学习模型能够
打败浅层模型也就顺理成章了 。 卷积神经网络和循环神经网络的结构在
文本表示中取得了很好的效果,主要是由于它们能够更好地对文本进行
建模,抽取出一些高层的语义特征 。 与全连接的网络结构相比 , 卷积神
经网络和循环神经网络一方面很好地抓住了文本的特性,另一 方面又减
少了网络中待学习的参数,提高了训练速度,并且降低了过拟合的风险

0.0157
0
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子