不知道为什么,我写的公式怎么都只剩下半个了,昨天少了一个,今天一看少了3个
答案为啥是A呢?
给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
当集合A,B都为空时,J(A,B)定义为1。
非对称二元属性的相似性
在数据挖掘领域,常常需要比较两个具有布尔值属性的对象之间的距离,Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A, B 均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
:A,B属性值同时为0的属性个数;
:A属性值为0且B属性值为1的属性个数;
:A属性值为1且B属性值为0的属性个数;
:A,B属性值同时为1的属性个数;
显然有
Jaccard 系数: Jaccard距离:
jaccard距离是通过1-jaccard系数来计算的。这是定义公式。