京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据急需攻克的五大世界性难题
世界人民的健康记录:医学领域最急需的资源,人脑图谱:了解身体的各个部分如何运作,统筹世界范围内的铀原料供应:追踪武器化活动与能源供给等这些人们最关注的世界性难题,IBM、谷歌等巨头级企业已经开始对这类高难度挑战发起冲击,这很令人期待。
尽管计算性能、存储容量以及分析技术一直在不断进步,某些现实挑战对于大数据而言仍然过于庞大以至于无法应对。在今天的文章中,我们将探讨五个此类难题 ——看看如何才能将其解决。
如果大数据能够在传统领域之外进一步解决世界性难题,结果会怎么样?到目前为止,IBM、谷歌以及惠普等巨头级企业已经开始对这类高难度挑战发起冲击,其中包括分析繁忙的高速公路上到底会有多少车辆通过某条桥梁,或者计算会有多少用户查看网络浏览器中的一条小广告。谷歌公司甚至公布了一项雄心勃勃的计划,称将解决人类衰老这一历史性难题。
但仍有几大世界性难题等待着我们攻克。在某些情况下,分析所需要的数据根本无迹可寻。在其它情况下,足以应对如此庞大数据量的计算机还没有被发明出来。目前有五大课题值得我们关注。会有大数据技术企业站出来排忧解难吗?我们等待时间带来答案。
世界人民的健康记录:医学领域最急需的资源
大多数人都拥有一份电子健康记录(简称HER),不过其中的内容颇为有限——甚至只包含最近一次健康检查的基本结果。目前足以支撑全世界健康记录资料库的工具与技术已经到位。这样的全球性数据库一旦出现,制药企业就能对其进行分析以开发人民群众最急需的疫苗及药物——也就是说,根据供应链的实际需要进行优先选择。
既然前景一片光明,为什么我们还没有感受到由此带来的益处呢?这是由于目前还缺乏一套访问全球数据的可行机制。“健康记录被保存在一大堆彼此隔离的系统当中,而资料持有者没有足够的动力来分享这些信息,”分布式数据库供应商Cloudant公司联合创始人兼首席科学家 MikeMiller表示。“即使我们真的把所有数据都归拢在一起,也仍然需要通过机器学习算法及实时分析对其进行全面优化。这也正是我们目前正在努力钻研的课题。”
人脑图谱:了解身体的各个部分如何运作
人类大脑模型能够为科学研究带来巨大帮助。医生可以查看肿瘤的生长情况或者了解大脑如何通过一系列功能控制身体的其它器官。目前已经有包括欧洲人类大脑项目在内的多个科学项目尝试在未来十年之内创建出大脑模拟系统。
障碍何在?要完成这项工作,我们需要一台运算速度千倍于当前水平的超级计算机。大脑当中存在数以百万计的神经递质,而且它们彼此之间互相连通、共同数据我们所接触到的“数据”。
“这样的计算规模要求我们从传统的硅芯片领域脱离出来,迈向生物芯片时代——这是分子计算的前提条件,”曾任克林顿政府前副助理国务卿(负责运输体系技术政策)、现任霍华德大学教授的OliverG.McGee解释道。“从直观角度看,分子计算在数据管理方面的运算速度比传统硅芯片高750倍,只有这样的机制才能处理颅腹脑体系当中的关系认知奥秘。”
统筹世界范围内的铀原料供应:追踪武器化活动与能源供给
毫无疑问,在全球范围内收集任何数据都将是一项极为艰巨的任务,但追踪全球铀原料供应至少拥有其积极意义——当然,前提是所有信息碎片都能严丝合缝地被拼接在一起。
数据收集企业Connotate公司CEOKeithCooper指出,我们目前只能解决其中一部分难题,因为某些国家并没有公开其铀原料供应记录。“目前,很多铀储量丰富的国家虽然已经拥有便捷的互联网体系,但却仍然拒绝以标准化方式公布其资源流向。”幸运的是,计算宏观形势倒不太困难——毕竟将铀原料投入武器化领域的国家数量有限。
我们真正需要追踪并掌握的是全球可用铀原料当中最为宝贵的、仅占15%的浓缩铀,他解释道。“我们需要识别并追踪所有与浓缩铀相关的销售活动(通过黑市或者合法渠道)以及矿藏分布,并通过论坛、博客、监管机构及其它周边体系进行数据统计,包括各政府及非政府组织对于铀原料生产数据及开采活动的报道等。为了处理收集到的这些结果,我们还需要设计出一套智能化人机交流方案。”
全球实时犯罪数据:更加主动的警务处理能力
很多地方性执法机构已经掌握着非常丰富的犯罪数据,警务人员则可以在自己的警车内轻松访问犯罪记录数据库,从而根据犯罪嫌疑人的具体情况做出反应。
障碍何在?这些数据只包含过往的罪行,Cloudant公司的Miller表示,其中无法体现刚刚发生或者正在进行中的犯罪活动。由于无法在犯罪活动进行的过程中进行阻止,警方只能被迫采取更为被动的应对措施。
不过情况已经有所转变,Miller指出。举例来说,加利福尼亚州奥克兰市警方已经配备声学监控器用于识别枪声。技术人士将其称为 “ShotSpotter”,配合大数据分析机制即可用于追踪潜在的犯罪发生地点,警员则根据分析结论立即前往对应位置。实时犯罪数据所带来的易处并不局限于执法领域:TruliaLocal热点地图能够提供犯罪活动报告,从而帮助住房买家选择更友善、更安全的生活环境。
追踪儿童行踪:更好、更及时的AmberAlert
时至今日,我们已经拥有很多种通报失踪儿童的方式,例如美国所采用的AmberAlert系统。不过这些通告机制的最大问题在于,只能在事后发起提醒。追踪儿童位置所必要的技术已经存在,当下大部分智能手机都能通过谷歌位置报告功能将儿童的当前所在地发送给父母。与此同时,大众汽车的Car-Net以及福特汽车的MyKey应用也能在青少年驾车到达特殊地理位置时发送报告。
障碍何在?分析。数字营销企业RoundarchIsobar公司副总裁JaisonManian指出,预测技术能够助我们一臂之力。大数据厂商能够分析儿童的行为模式,当然前提是家长愿意分享相关数据。
“预测分析能够追踪儿童的日常行动模式,并在出现严重偏差时立即向父母发出警示,”他表示。只要满足警示条件,信息会被实时发出 ——这能有效阻止重大事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23