热线电话:13121318867

登录
2020-02-22 阅读量: 878
构建非控制词汇集的常用方式

Inverse Document Frequency (IDF) 是构建非控制词汇集常用的方式。

IDF = log 2 N/n N 是指有多少篇文章 (N=5) n 是指某个词出现在多少篇文章中 (加势大周 (n=1), 的 (n=5))

IDF代表着信息量, 由IDF的大小我们可以得知一个词的重要程度

• IDF越大代表这个词越重要, 也越是我们想要的关键词

• IDF越小代表这个词的索引价值也越低

• 加势大周 (IDF=log 2 5=2.32), 的 (IDF=log 2 1=0 -> 完全无检索价值)

27.2727
4
关注作者
收藏
评论(0)

发表评论

暂无数据