京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据行业四大困惑
2017年5月末,大数据行业被媒体贴上“监管趋紧”“大洗牌”“灰色数据交易”的标签,并称多家大数据公司被列入监管的调查名单之中。
“被调查”风波
数据堂被某媒体报道“中枪”后的第4天,在全国中小企业股份转让系统(新三板)网站上发布临时公告称:“公司某一客户存在被公安机关调查的情况,公安机关为进一步了解具体情况,向公司个别业务人员及财务人员进行情况了解,不存在传闻‘公司高管被抓’的情形。”
“对于多家大数据公司被调查的报道目前还无法证实。”阿里数据经济研究中心秘书长潘永花告诉《经济》记者,但从侧面来看,个人信息保护受到监管层的重视。“被监管查出问题的企业在数据交易方面,或多或少存在违规现象。”之前,“数据灰色地带或许被行业或监管部门所容忍。但2017年6月1日《网络安全法》正式实施以后,清理不规范企业对整个产业规范化发展是有利的。”
在大数据行业15年之久的贝格大数据总裁李常青告诉《经济》记者,它出现的背景是《网络安全法》,将来无论是对不合规企业约谈还是处罚,都会促进行业的健康发展。
“一直以来,国家对数据的灰色交易打击很严厉,该抓的抓,但不能说是针对大数据行业进行的。”九次方大数据创始人王叁寿对《经济》记者表示,对于打击灰色数据交易,首先要从打击内鬼开始,我们经常看到手机号码泄密或各种账户泄密问题,“很多数据外流都是因为内鬼。”
《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》规定了非法获取或出售50条以上个人信息,以及违法所得5000元以上等均可入罪。潘永花指出,法律填补了我国个人信息保护的空白,是对打击非法数据交易的重要依据。
数据确权之困
“过去我们也有过困惑,非法交易数据很容易赚钱,但通过正常的技术采集、清洗、加工的大数据公司却赚钱不易。这很不正常。”九次方大数据创始人王叁寿说。
“几个人或几十个人的团队攒点数据就去卖钱,这些底层数据的价格便宜,很容易产生暴利,也激活了很多公司的内鬼。”王叁寿指出,这种行为对合法的数据流通会造成负面影响。
“一个人买了别人偷来的手机,这是什么性质?”王叁寿向《经济》记者透露,采购数据机构不乏保险公司和银行,包括小贷公司、互联网金融公司,他们交易的数据的确不是他们偷的,但是他们买了小偷的数据。“合规的金融机构不应该去采购没有经过确权的数据。”
“令我们最为困惑的是数据确权问题。比如,政府的数据就应该是政府,医院、电信运营商的数据也应该属于他们自己。”淘宝上的购物数据到底属于谁的,国家一直没有明确规定。王叁寿认为,国家应该尽快出台关于数据确权的法律,也有利于打击灰色数据交易。
“数据作为一种新的资产类型,哪些数据是属于个人的,哪些是属于企业的,哪些是可以交易的,未来都会有一个界定。”李常青表示,现在除了国家安全、个人信息等数据不能交易,其他数据仍是混沌状态。他建议,数据交易可以先从公开渠道披露的数据入手,比如上市公司披露的报表、行情、价格等数据进行加工整合,给客户一些预测性意见。再如,淘宝等电商积累的消费数据虽然不能交易,但由此形成的快消品报告是可以销售的。
“在产业界,非个人数据交易也很多。”某知名大数据交易平台CTO陈逸云告诉《经济》记者,我们自己采集、加工的数据,不涉及具体的人或物,甚至没有特定物体的标识,像人工智能、无人驾驶等企业对这些数据的需求量大。“但数据的版权问题至今无解。我们提供的数据被用户买走后再复制传播,我们毫无办法,唯一的生存之道就是不断地做新数据。”
数据交易之困
未来需要数据化、智能化的事物无穷无尽。张涵诚指出,产业尚未形成规模,“未来企业在数据生态中的竞争也是无穷无尽的。”
“大数据的行业规则仍不明晰,只在细分领域有所突破。”自2012年开始关注大数据行业的腾讯研究院首席经济学家、产业与经济研究中心主任孟昭莉对《经济》记者表示,整体产业没有规范化,目前还没有成熟或被大家所认可的商业模式出现,市场还没有发展起来。行业较为关注的大数据交易,其交易规则、定价、数据所有权以及数据盈利如何分配等问题仍在探索之中。
“如果卖给你不需要的数据,你1分钱都不会出。如果是你需要的数据,100元你也愿意出。”王叁寿认为,定价不是问题,也不是影响数据交易产业发展的主因。“我们最近在考虑数据拍卖的事情。一组脱敏的数据,某家公司比其他十家出的价格高,就可以独享这些数据。”
中国电子信息产业发展研究院互联网研究所副所长陆峰告诉《经济》记者,应该鼓励发展大数据交易,健全数据开放、共享、流通、交易、使用相关规章制度,以及加强对数据采集、存储、传输、交易、流通、使用等过程中数据保护技术的研究,提高技术自主可控能力。
数据交易所是一个很好的探索。张涵诚认为,但目前仍处在发展初期。“目前数据交易所仍采取传统的会员制。”它没有进一步解决数据存储、确权、脱敏等问题。
脱敏是实现敏感隐私数据的可靠保护的一种技术。“数据脱敏本身不是技术难题,但问题是数据到底要脱敏到什么程度?”李常青指出,企业拿到工商局网站上的数据做了MD5的身份验证,但很容易通过身份证号来推导,这种脱敏的意义就不大。
“底层数据好比泉水,脱敏以后可以把它变成农夫山泉或依云矿泉水。”王叁寿表示,脱敏肯定会增加成本,数据的采集、清洗、脱敏的程序,类似大数据领域的“富士康”,要依靠大量的人工成本支撑,这也是大数据分析师的由来。
“做数据生意的人丢单率比较高。”张涵诚指出,“业务谈了一段时间,谈着谈着就崩了。”
“客户买不到想要的数据,这是买方市场最大的困惑。”数据公司提供的往往不是买方真正的需求,或者能够支撑起业务的数据。卖方也很难按照买方的逻辑加工数据。“数据是多重要的资源,哪能你想要啥就给你啥?”很多数据都是在业务过程中产生的。“我们都做同样的生意,我怎么愿意把自己的数据给你呢?所以,真正有价值的数据,别人是不愿意出售的。”
“客户的确对大数据很挑剔。”陈逸云表示,“我们在数据质量、模式、交付方式以及后期数据质保等一系列流程都要考量加工完的数据是否是最终用户需要的东西,并按照他们的标准去交付。”
应用之困
“目前非盈利、匿名化,不涉及个人信息的大数据应用是公众比较接受的。”
大家越来越多地意识到,政府部门拥有很多有价值的数据。政府也意识到这一点。孟昭莉指出,政府数据在某些公共服务领域凸显出数据的应用价值。比如,通过地理位置、热地图等信息判断某地的交通状况、出行状况。去年武汉的那场暴雨,受灾面积广泛。“今年则不同,比如一个人发布某地铁站进水较深,当这些数据通过众包的模式收集起来,政府利用这些信息进行提前预警。”
“利用人脸识别技术寻找丢失小孩的应用也有价值。”孟昭莉表示,当前人脸识别率已达到98%的精准度,正是通过大数据、人工智能技术来寻找失联的孩子。
“很多时候,我们拿到的数据需要进行二次加工。”李常青表示,数据在使用的过程中需要通过它们之间的关联性发掘一些有价值的东西。譬如,某机械加工厂得知螺纹钢涨价了,过去他会觉得生产升本增加了得赶紧购买原材料。但现在他可以通过历史数据去了解行业下游的需求。“这才是大数据应用的意义。”
“好的数据产品会说话。”张涵诚指出,随着医保、社保、交通、水电煤气等政务数据不断地被政府释放出来,应该开发更有价值的数据产品。“像查询企业信用的数据产品在销售环节既有章可循,也可以产生一定的经济效益。”
“我们很早就使用大数据、云计算为客户提供服务了。”某大数据企业创始人沈立勤对《经济》记者表示,“但目前我更关注的是AI(人工智能)。”
“大数据是AI的基础。”孟昭莉表示,“我们至少需要大量的数据来喂养一个AI。”IBM的AI机器人(19.84 -1.49%,诊股)沃森可以学习各种病例,比人类学得快,积累得多。谷歌的AlphaGo也是通过大数据学习,战胜了李世石和柯杰。“没有数据,AI很难实现。可以预见,未来3-5年,大数据和AI将是高热投资区域。”
监管之困
目前数据非法交易的监管难度较大。陆峰告诉《经济》记者,一方面非法数据交易信息互联网传播渠道尚未被及时、有效切断,多部门协同打击的常态化机制尚未建立。另一方面,非法数据交易传统打击手段难以有效应对,网络化和平台化监管治理模式尚未建立。
“贵阳大数据交易所探索了两年多,交易量才突破1亿元,但是黑市交易的数据量至少是我们的99倍!”王叁寿的另一个身份是贵阳大数据交易所执行总裁。他认为,区块链技术可以有效打击数据非法流通问题。“目前交易所就采用了区块链技术,相当于给数据加了一个GPS,可以对交易的数据进行追踪。”但目前它并没有真正发挥出实力。“只有大家都用区块链技术,才能真正解决黑市交易问题。”
“打击大数据灰产交易,如果采用新的技术,监管的效果也会有明显提升。”孟昭莉表示,当短信诈骗、微信诈骗形成一定的规模时,我们也积累了打击它们的办法和技术。
如果有人把伪基站放进双肩包,然后绕着国贸大厦附近走动,伪基站的信号会覆盖大厦四周,楼内的人会收到伪伪基站推送的信息,并信以为真。如果反诈骗能力或技术的不断提高,对大数据行业的困局也会有所改变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08