2020-02-22
阅读量:
878
构建非控制词汇集的常用方式
Inverse Document Frequency (IDF) 是构建非控制词汇集常用的方式。
IDF = log 2 N/n N 是指有多少篇文章 (N=5) n 是指某个词出现在多少篇文章中 (加势大周 (n=1), 的 (n=5))
IDF代表着信息量, 由IDF的大小我们可以得知一个词的重要程度
• IDF越大代表这个词越重要, 也越是我们想要的关键词
• IDF越小代表这个词的索引价值也越低
• 加势大周 (IDF=log 2 5=2.32), 的 (IDF=log 2 1=0 -> 完全无检索价值)






评论(0)


暂无数据