
大数据行业四大困惑
2017年5月末,大数据行业被媒体贴上“监管趋紧”“大洗牌”“灰色数据交易”的标签,并称多家大数据公司被列入监管的调查名单之中。
“被调查”风波
数据堂被某媒体报道“中枪”后的第4天,在全国中小企业股份转让系统(新三板)网站上发布临时公告称:“公司某一客户存在被公安机关调查的情况,公安机关为进一步了解具体情况,向公司个别业务人员及财务人员进行情况了解,不存在传闻‘公司高管被抓’的情形。”
“对于多家大数据公司被调查的报道目前还无法证实。”阿里数据经济研究中心秘书长潘永花告诉《经济》记者,但从侧面来看,个人信息保护受到监管层的重视。“被监管查出问题的企业在数据交易方面,或多或少存在违规现象。”之前,“数据灰色地带或许被行业或监管部门所容忍。但2017年6月1日《网络安全法》正式实施以后,清理不规范企业对整个产业规范化发展是有利的。”
在大数据行业15年之久的贝格大数据总裁李常青告诉《经济》记者,它出现的背景是《网络安全法》,将来无论是对不合规企业约谈还是处罚,都会促进行业的健康发展。
“一直以来,国家对数据的灰色交易打击很严厉,该抓的抓,但不能说是针对大数据行业进行的。”九次方大数据创始人王叁寿对《经济》记者表示,对于打击灰色数据交易,首先要从打击内鬼开始,我们经常看到手机号码泄密或各种账户泄密问题,“很多数据外流都是因为内鬼。”
《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》规定了非法获取或出售50条以上个人信息,以及违法所得5000元以上等均可入罪。潘永花指出,法律填补了我国个人信息保护的空白,是对打击非法数据交易的重要依据。
数据确权之困
“过去我们也有过困惑,非法交易数据很容易赚钱,但通过正常的技术采集、清洗、加工的大数据公司却赚钱不易。这很不正常。”九次方大数据创始人王叁寿说。
“几个人或几十个人的团队攒点数据就去卖钱,这些底层数据的价格便宜,很容易产生暴利,也激活了很多公司的内鬼。”王叁寿指出,这种行为对合法的数据流通会造成负面影响。
“一个人买了别人偷来的手机,这是什么性质?”王叁寿向《经济》记者透露,采购数据机构不乏保险公司和银行,包括小贷公司、互联网金融公司,他们交易的数据的确不是他们偷的,但是他们买了小偷的数据。“合规的金融机构不应该去采购没有经过确权的数据。”
“令我们最为困惑的是数据确权问题。比如,政府的数据就应该是政府,医院、电信运营商的数据也应该属于他们自己。”淘宝上的购物数据到底属于谁的,国家一直没有明确规定。王叁寿认为,国家应该尽快出台关于数据确权的法律,也有利于打击灰色数据交易。
“数据作为一种新的资产类型,哪些数据是属于个人的,哪些是属于企业的,哪些是可以交易的,未来都会有一个界定。”李常青表示,现在除了国家安全、个人信息等数据不能交易,其他数据仍是混沌状态。他建议,数据交易可以先从公开渠道披露的数据入手,比如上市公司披露的报表、行情、价格等数据进行加工整合,给客户一些预测性意见。再如,淘宝等电商积累的消费数据虽然不能交易,但由此形成的快消品报告是可以销售的。
“在产业界,非个人数据交易也很多。”某知名大数据交易平台CTO陈逸云告诉《经济》记者,我们自己采集、加工的数据,不涉及具体的人或物,甚至没有特定物体的标识,像人工智能、无人驾驶等企业对这些数据的需求量大。“但数据的版权问题至今无解。我们提供的数据被用户买走后再复制传播,我们毫无办法,唯一的生存之道就是不断地做新数据。”
数据交易之困
未来需要数据化、智能化的事物无穷无尽。张涵诚指出,产业尚未形成规模,“未来企业在数据生态中的竞争也是无穷无尽的。”
“大数据的行业规则仍不明晰,只在细分领域有所突破。”自2012年开始关注大数据行业的腾讯研究院首席经济学家、产业与经济研究中心主任孟昭莉对《经济》记者表示,整体产业没有规范化,目前还没有成熟或被大家所认可的商业模式出现,市场还没有发展起来。行业较为关注的大数据交易,其交易规则、定价、数据所有权以及数据盈利如何分配等问题仍在探索之中。
“如果卖给你不需要的数据,你1分钱都不会出。如果是你需要的数据,100元你也愿意出。”王叁寿认为,定价不是问题,也不是影响数据交易产业发展的主因。“我们最近在考虑数据拍卖的事情。一组脱敏的数据,某家公司比其他十家出的价格高,就可以独享这些数据。”
中国电子信息产业发展研究院互联网研究所副所长陆峰告诉《经济》记者,应该鼓励发展大数据交易,健全数据开放、共享、流通、交易、使用相关规章制度,以及加强对数据采集、存储、传输、交易、流通、使用等过程中数据保护技术的研究,提高技术自主可控能力。
数据交易所是一个很好的探索。张涵诚认为,但目前仍处在发展初期。“目前数据交易所仍采取传统的会员制。”它没有进一步解决数据存储、确权、脱敏等问题。
脱敏是实现敏感隐私数据的可靠保护的一种技术。“数据脱敏本身不是技术难题,但问题是数据到底要脱敏到什么程度?”李常青指出,企业拿到工商局网站上的数据做了MD5的身份验证,但很容易通过身份证号来推导,这种脱敏的意义就不大。
“底层数据好比泉水,脱敏以后可以把它变成农夫山泉或依云矿泉水。”王叁寿表示,脱敏肯定会增加成本,数据的采集、清洗、脱敏的程序,类似大数据领域的“富士康”,要依靠大量的人工成本支撑,这也是大数据分析师的由来。
“做数据生意的人丢单率比较高。”张涵诚指出,“业务谈了一段时间,谈着谈着就崩了。”
“客户买不到想要的数据,这是买方市场最大的困惑。”数据公司提供的往往不是买方真正的需求,或者能够支撑起业务的数据。卖方也很难按照买方的逻辑加工数据。“数据是多重要的资源,哪能你想要啥就给你啥?”很多数据都是在业务过程中产生的。“我们都做同样的生意,我怎么愿意把自己的数据给你呢?所以,真正有价值的数据,别人是不愿意出售的。”
“客户的确对大数据很挑剔。”陈逸云表示,“我们在数据质量、模式、交付方式以及后期数据质保等一系列流程都要考量加工完的数据是否是最终用户需要的东西,并按照他们的标准去交付。”
应用之困
“目前非盈利、匿名化,不涉及个人信息的大数据应用是公众比较接受的。”
大家越来越多地意识到,政府部门拥有很多有价值的数据。政府也意识到这一点。孟昭莉指出,政府数据在某些公共服务领域凸显出数据的应用价值。比如,通过地理位置、热地图等信息判断某地的交通状况、出行状况。去年武汉的那场暴雨,受灾面积广泛。“今年则不同,比如一个人发布某地铁站进水较深,当这些数据通过众包的模式收集起来,政府利用这些信息进行提前预警。”
“利用人脸识别技术寻找丢失小孩的应用也有价值。”孟昭莉表示,当前人脸识别率已达到98%的精准度,正是通过大数据、人工智能技术来寻找失联的孩子。
“很多时候,我们拿到的数据需要进行二次加工。”李常青表示,数据在使用的过程中需要通过它们之间的关联性发掘一些有价值的东西。譬如,某机械加工厂得知螺纹钢涨价了,过去他会觉得生产升本增加了得赶紧购买原材料。但现在他可以通过历史数据去了解行业下游的需求。“这才是大数据应用的意义。”
“好的数据产品会说话。”张涵诚指出,随着医保、社保、交通、水电煤气等政务数据不断地被政府释放出来,应该开发更有价值的数据产品。“像查询企业信用的数据产品在销售环节既有章可循,也可以产生一定的经济效益。”
“我们很早就使用大数据、云计算为客户提供服务了。”某大数据企业创始人沈立勤对《经济》记者表示,“但目前我更关注的是AI(人工智能)。”
“大数据是AI的基础。”孟昭莉表示,“我们至少需要大量的数据来喂养一个AI。”IBM的AI机器人(19.84 -1.49%,诊股)沃森可以学习各种病例,比人类学得快,积累得多。谷歌的AlphaGo也是通过大数据学习,战胜了李世石和柯杰。“没有数据,AI很难实现。可以预见,未来3-5年,大数据和AI将是高热投资区域。”
监管之困
目前数据非法交易的监管难度较大。陆峰告诉《经济》记者,一方面非法数据交易信息互联网传播渠道尚未被及时、有效切断,多部门协同打击的常态化机制尚未建立。另一方面,非法数据交易传统打击手段难以有效应对,网络化和平台化监管治理模式尚未建立。
“贵阳大数据交易所探索了两年多,交易量才突破1亿元,但是黑市交易的数据量至少是我们的99倍!”王叁寿的另一个身份是贵阳大数据交易所执行总裁。他认为,区块链技术可以有效打击数据非法流通问题。“目前交易所就采用了区块链技术,相当于给数据加了一个GPS,可以对交易的数据进行追踪。”但目前它并没有真正发挥出实力。“只有大家都用区块链技术,才能真正解决黑市交易问题。”
“打击大数据灰产交易,如果采用新的技术,监管的效果也会有明显提升。”孟昭莉表示,当短信诈骗、微信诈骗形成一定的规模时,我们也积累了打击它们的办法和技术。
如果有人把伪基站放进双肩包,然后绕着国贸大厦附近走动,伪基站的信号会覆盖大厦四周,楼内的人会收到伪伪基站推送的信息,并信以为真。如果反诈骗能力或技术的不断提高,对大数据行业的困局也会有所改变。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09