最近一个同学找到我,希望我帮忙处理一份数据。那份数据是这样的:包含了3661行,第一行为各列的名称;包含8列,第一列为专利ID,其余7列为企业ID。
这份数据截图如下所示:
一、问题描述
需要做的数据处理是,求所有专利之间的关系矩阵,这里的关系指的是:当同一个企业同时申请了两个不同的专利,那么就认为这两个专利是有关系的。也就是说,当两个专利对应的企业的集合存在交集,则认为这两个专利存在关系。需要用矩阵表达这3660个专利的相互关系,有关系的两个专利交叉的位置置为1,否则置为0。
比如,上图中的编号4和编号5对应的企业的集合显然存在交集(交集为94和115),那么最终的关系矩阵第四行第五列和第五行第四列就应当用1表示。如果数据就是上边那样的,那么最终输出的关系矩阵就应该为:
二、问题解决
可能因为有段时间没有使用R了,加上之前又正好在用awk, grep, bash这些,所以一直想使用这些工具来解决。不过,想了很久,依然进展不大(主要是许久不用大多也忘了o(╯□╰)o)。后来看到压在桌面上的《R语言实战》,想到这里需要的输出是矩阵,而且主要的逻辑判定为是否有交集,这些不正是R大展拳脚的地方吗?!
于是先用伪代码将整个逻辑梳理了一遍,然后照着伪代码开始写R脚本。由于逻辑并不复杂,所以很快便写好了,代码如下:
data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据
relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0
for (i in 1:3660)
for (j in 1:3660) {
company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合
company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合
#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1
if (i != j && length(intersect(company_set1, company_set2)) > 0)
relation_matrix[i, j] = 1
}
write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中
代码是很快写好了,不过执行速度确慢得难以忍受。无奈,找了个办法来缓解下焦急等待程序跑完的心情。到统计之都找到一个用在循环里显示进度条的程序改了改,终于好点了,也大概能算出来程序什么时候能跑完了。
包含显示进度条的程序代码如下:
data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据
relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0
#创建进度条pb <- txtProgressBar(min = 0, max = 3660, style = 3)
for (i in 1:3660)
for (j in 1:3660) {
company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合
company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合
#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1
if (i != j && length(intersect(company_set1, company_set2)) > 0)
relation_matrix[i, j] = 1
#设置进度条
Sys.sleep(0.00001)
setTxtProgressBar(pb, i)
}
write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中
显示效果如下所示:
三、解决优化
虽然比之前好些了,但还是没有解决程序运行缓慢等待时间过长的问题。毫无疑问,这段程序肯定还有很大的优化空间,于是先读取少量的数据,试着使用Rprof分析了一下耗时情况,结果发现[.data.frame 这个操作的耗时占比较大,Google搜索后在 这里 找到了一个优化的方法,即对源数据读取到到data frame之后再拷贝到一个矩阵中做取行的值的操作。优化后的版本:
data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据
relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵,所有元素初始化为0data_matrix <- data.matrix(data_test[, -1]) #将数据拷贝到一个矩阵中
#创建进度条#pb <- txtProgressBar(min = 0, max = 3660, style = 3)
for (i in 1:3660)
for (j in 1:3660) {
company_set1 = data_matrix[i, ][!is.na(data_matrix[i, ])] #读取第i个专利对应的企业编号集合
company_set2 = data_matrix[j, ][!is.na(data_matrix[j, ])] #读取第j个专利对应的企业编号集合
#如果第i个专利和第j个专利对应的企业有相同的,则将对应位置置为1
if (i != j && length(intersect(company_set1, company_set2)) > 0)
relation_matrix[i, j] = 1
#设置进度条
#Sys.sleep(0.00001)
#setTxtProgressBar(pb, i)
}
write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中
在同样的机器环境下,改进后的程序只需要10min左右,而改进前的版本则需要将近7个小时,执行效率提高了40倍!
四、补充
在做这个数据处理过程中,值得记录的还包括:
R语言程序多个语句的时候记得带上{},用缩进控制是Python的做法;
源数据读取之前要简单校验下,防止包含异常值影响数据读取的结果(这里包含了#REF!,处理很久才发现);
在Excel中比较两份格式完全一样的数据是否相同,复制其中一份选择性粘贴“减”操作到另一份数据,选择数据区域看右下角显示的总和是否为0即可。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03