京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据活力要靠规则保障_数据分析师培训
通过云计算,大数据在全球医疗、卫生、保险等领域得到广泛运用,它像土地、矿产一样,成为一种能够创造价值的资源。但因为是基于对人的信息的采集,大数据的利用也陷入了个人隐私的困境。如何在利用其价值的同时,规避信息安全的风险,专家认为,最重要的是要制定法律,让那些拥有大量数据的人,不去滥用数据。
“很多医院医疗水平很高,但没有数据库,导致很多患者错过最佳治疗时间”
英国邓迪大学医学院院长安德鲁·莫里斯每天都要浏览自己建立的苏格兰糖尿病研究网。这个网站的登记用户为来自苏格兰的23.9万名糖尿病患者。通过浏览网站上的信息,莫里斯跟踪患者病情,及时在患者病情加重前就拿出救治方案。经过7年的努力,这个网站建立的数据库已经使苏格兰糖尿病患者的截肢率降低了40%。
莫里斯还给每位患者配了一个随身携带的微型电子设备,以随时采集患者的身体变化数据,患者也可以24小时不间断地观察病情,这些设备被患者们亲切地称为“衣袋里的智能医生”。
莫里斯说,在大数据时代,医生的职责正在从过去的“给病人看病”转为“预测和预防病情”。“很多医院的医疗水平很高,但由于没有建立数据库,导致很多患者错过了最佳治疗时间。”
国际商业机器公司(IBM)中国开发中心首席技术官毛新生在接受本报记者采访时表示,大数据在医学领域可以比较便捷地获得,比如,可穿戴设备测量血压、心跳、血糖、血脂等指标,实时了解人体的运行情况;而手机应用程序可以收集饮食、作息等方面的数据,汇集到云端。
日本广岛县吴市是日本少子老龄化的典型,该市65岁以上人口占比高达28%,导致地方财政的70%用于支付医疗费用。为了削减医疗费用,吴市于2008年引进了“健康管理促进体系”,将医院和药房提交给医保部门的处方、医疗费用报销单据等扫描输入电脑后生成数据,筛选出就诊次数频繁、医疗费用异常的案例,医保部门再对其进行重点干预。比如,一位70岁老太太因为膝盖疼痛在一个月内去了15次医院,医保部门就派出护士对病人进行上门指导,帮助她改变生活方式,并改用疗效相同的低价药品。通过鼓励使用低价药品等手段,2011年,该市节省医疗费用约1.5亿日元(1元人民币约合16.4日元)。
目前,日本政府已经决定在全国推广“吴市模式”,通过对医疗数据的大规模分析,确定合理的药品和单病种诊疗价格,抑制过度医疗,控制医疗费用。
“大数据就像一个上帝,无所不知,所有数据都可以加以利用”
大数据应用的实质是,通过云计算强大的计算和存储能力,把所有数据都吸收进来,分析现象之间的关联度,寻找到重复性的规律。这也是为什么当你打开淘宝、京东商城等网站,经常会看到“浏览了该商品的用户还购买了这些商品”的推荐,百度也会在同一页面向不同用户精准地投放不同的广告。毛新生解释说,“这是利用大数据进行的交叉销售,即一件事情发生,另一件事情也很可能发生。交叉销售有助于减少信息不对称,用户可以减少无关广告的打扰,商家也可以降低广告成本。”
“大数据就像一个上帝,无所不知,所有数据都可以加以利用。”毛新生说, “做一个大胆假设:未来,如果你在微信上谈情说爱,微信在分析了你们的聊天内容后,就可能向你推荐一些适合情人的旅游胜地、餐厅、电影和音乐会,甚至会向你推荐一些情歌和少女约会服饰等。”
毛新生还举了大数据在生活中得到应用的一个实例: “可以在京津冀地区大量铺设用于监测空气质量的传感器,实时采集空气数据进行分析,就可以知道京津冀地区的空气粉尘的传播路径。比如,北京的雾霾是输入性的还是输出性的?如果是前者,是由哪个地区输入?在那个地区,钢铁厂、石灰厂还是造纸厂是雾霾的原生制造者?”
毛新生认为,大数据也正在重塑新闻行业的商业模式。他举例说,“有网络服务商以个性化信息推荐的方式推送新闻,提高了推荐精确度,比传统媒体更善于利用目标客户的价值。以此类推,传统媒体也可以利用大数据找出读者最感兴趣的新闻事件,然后马上派出记者就此新闻采写文章,并对热点新闻稿件的转载征收更高的费用。”
在美国斯坦福大学助理教授贾斯廷看来,随着大数据的应用范围日趋广泛,许多研究领域正在一个个变成“数据密集型学科”,其中包括政治学。像贾斯廷这样的政治学者,其日常工作模式已经转变为:对互联网上的新闻报道、受众留言、博客文章、政客演说等海量信息进行搜集、统计、分析,从而预判一段时期的政治风向和温度。
“衡量大数据的成效,不是看创造了多少数据,而在于创造了多少价值”
“正如火被发明后,既能用来煮食、照明、取暖,也可以用来纵火。大数据技术的应用可以促进经济增长与社会发展,但也可能适得其反。”中国信息安全测评中心顾问俞晓秋对本报记者说。
在大数据各种“先天缺陷”中,隐私泄漏是最令人担心的。“在社交网络上,任何人都可以看到你的国籍、婚姻状况、毕业学校、邮箱等个人信息,甚至可以翻看你发布的照片和生活感悟等。在陌生人面前你变得毫无隐私,这非常可怕。”巴西智库瓦加斯基金会技术与社会中心研究员玛里莉娅对本报记者感叹说。
“您现在是不是正考虑买车辆保险?”“我们向您介绍一款理财产品”……每天,巴西人何塞都会收到好几通这样莫名其妙的推销电话,他的邮箱里也经常堆满了各类促销邮件。
对大数据的精确分析,也可以使黑客更加精准地进行攻击,或通过仿冒社交网站域名进行病毒传播等。南非人亚伯拉罕经常在社交网站“脸谱”上炒股。最近,除了一个炒股账户以外,他的其它账户突然都拒绝访问了。“后来我才发现,原来有人盗用了我的身份,已经侵入我的账户长达两周时间,他一直盯着我的账户呢!”
在大数据时代,关乎国计民生的国家重要信息数据系统同样面临着网络恐怖主义的威胁。斯诺登揭露的美国“棱镜门”项目就体现出“数据挖掘”技术在情报领域的应用。
在毛新生看来,所有安全事故的根本原因主要在于人们自身对安全问题缺乏足够重视,有意或无意地泄露了一些入口信息。“人们需要培养保障个人数据安全的意识,包括不在邮件里写用户名和密码等个人信息。最重要的是制定法律,让那些拥有大量数据的人,不能滥用数据。”
咨询机构毕马威硅谷分部高级分析师维贾·佳卓对本报记者说,互联网公司应当建立共同的隐私标准,赋予用户更多控制个人网上信息的权利。比如,科技企业在搜集、储存用户信息时应当充分尊重用户知情权,明确告知搜集了哪些信息、如何贮存以及如何利用这些信息,此外,还应当对企业和机构可以采集的个人数据类型,作出明确、合理的限制。
中国社科院信息化研究中心秘书长姜奇平对本报记者表示,“大数据”作用的发挥,不仅有赖于数据收集、数据提纯等多重技术要素,更关键的是,大数据的应用要与人以及解决人的问题联系起来。衡量大数据的成效,不是看创造了多少数据,而应是利用这些数据,在满足人们需求方面创造了多少价值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06