啊啊啊啊啊吖

2018-11-26   阅读量: 878

数据分析师 R语言 数据挖掘

实体识别

扫码加入数据分析学习群

实体识别是从不同数据源识别出现实世界的实体, 它的任务是统一不同

源数据的矛盾之处, 常见的矛盾有如下几个。

(1) 同名异义

数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订

单编号, 即描述的是不同的实体。

(2) 异名同义

数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期的, 即

A.sales_dt=B.sales_date。

(3) 单位不统一

描述同一个实体分别用的是国际单位和中国传统的计量单位。

检测和解决这些冲突就是实体识别的任务。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子