热线电话:13121318867

登录
2018-12-09 阅读量: 908
经验验证

我们在数字数据集或20个新闻组文本文档(TF-IDF词频)数据集上验证上述边界:

对于数字数据集,500个手写数字图片的一些8×8灰度级像素数据被随机投影到空间以用于各种更大数量的维度n_components。

对于20个新闻组数据集,使用稀疏随机矩阵将具有100k特征的大约500个文档投影到具有针对目标维数的各种值的较小欧几里德空间 n_components。

默认数据集是数字数据集。要在二十个新闻组数据集上运行该示例,请将-twenty-newsgroups命令行参数传递给此脚本。

对于每个值n_components,我们绘制:

样本对的2D分布,原始和投影空间中的成对距离分别为x和y轴。

这些距离(投射/原始)的比率的1D直方图。

我们可以看到,n_components分布的低值很宽,有许多失真的对和偏斜的分布(由于左边的零比率的硬限制,因为距离总是正的),而对于n_components的较大值,失真被控制并且随机投影可以很好地保留距离。

0.0000
3
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子