《数学之美》拾遗—潜在语义索引(LSI)-CDA数据分析师官网

热线电话：13121318867

登录

首页精彩阅读《数学之美》拾遗—潜在语义索引(LSI)

《数学之美》拾遗—潜在语义索引(LSI)

2017-03-25

收藏

《数学之美》拾遗—潜在语义索引(LSI)

一、潜在语义索引的提出

潜在语义索引(LSI)，又称为潜在语义分析(LSA)，是在信息检索领域提出来的一个概念。主要是在解决两类问题，一类是一词多义，如“bank”一词，可以指银行，也可以指河岸；另一类是一义多词，即同义词问题，如“car”和“automobile”具有相同的含义，如果在检索的过程中，在计算这两类问题的相似性时，依靠余弦相似性的方法将不能很好的处理这样的问题。所以提出了潜在语义索引的方法，利用SVD 降维的方法将词项和文本映射到一个新的空间。

二、潜在语义索引的含义

潜在语义索引依靠SVD，具体SVD的操作过程可以参见《简单易学的机器学习算法——SVD奇异值分解》。

SVD的操作过程是将词项-文本矩阵c进行分解，分解为：

其中，u为左奇异矩阵，

是对角矩阵，对角线上是奇异值，

称为右奇异矩阵。

我们取前k个奇异值，构成新的矩阵，这样就可以重构矩阵c：

这样，我们便将原来的空间映射到了新的k维空间。

我们对一个具体的问题进行处理：

横坐标表示词“ship”，“boat”，“ocean”，“wood”和“tree”，纵坐标为文章“d1”，“d2”，“d3”，“d4”，“d5”和“d6”。我们对其进行奇异值分解，得到的

矩阵为：

我们取k的值为2，k的值即为我们要隐射的空间，此时左奇异向量

为：

这表第一个词与第一维空间更接近，依次类推，同样，我们可以得到右奇异矩阵

：

这表第一列表示文章“d1”与第一位空间更接近。

中间矩阵

表示的是词和文章的相关关系。

三、实验的仿真

对于“《数学之美》拾遗——TF-IDF”中的数据：

进行奇异值分解，分解完的三个矩阵分别为：

这里可以看到9个奇异值的条状图：

我们可以看到不同奇异值的重要性程度，选取前3个奇异值。

此时得到三个修改后的矩阵：

依据不同的值，我们便可以将词和文章分到不同的维中。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SVD 条状图降维机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

更多

Copyright © 2015-2021, www.cda.cn All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有京ICP备11001960号-9

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

OK

客服在线

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册