2018-12-09
阅读量:
908
经验验证
我们在数字数据集或20个新闻组文本文档(TF-IDF词频)数据集上验证上述边界:
对于数字数据集,500个手写数字图片的一些8×8灰度级像素数据被随机投影到空间以用于各种更大数量的维度n_components。
对于20个新闻组数据集,使用稀疏随机矩阵将具有100k特征的大约500个文档投影到具有针对目标维数的各种值的较小欧几里德空间 n_components。
默认数据集是数字数据集。要在二十个新闻组数据集上运行该示例,请将-twenty-newsgroups命令行参数传递给此脚本。
对于每个值n_components,我们绘制:
样本对的2D分布,原始和投影空间中的成对距离分别为x和y轴。
这些距离(投射/原始)的比率的1D直方图。
我们可以看到,n_components分布的低值很宽,有许多失真的对和偏斜的分布(由于左边的零比率的硬限制,因为距离总是正的),而对于n_components的较大值,失真被控制并且随机投影可以很好地保留距离。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论