京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据服务还是那个大数据服务吗
2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……。”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲不好说不准工作都没了。现在大数据挖掘的技术都很成熟,更完善更系统的解决方案早已有人做得非常好。如果连数据都还没有,那就什么都不用提了。毕竟,人工智能+大数据的生态模式已经开启。
7月初,据外媒福布斯报道百度将人工智能+大数据为中国政府采集数据提供支持。7月13日,李彦宏在百度的开放云战略发布会上首度公开百度开放云“人工智能、大数据和云计算”三位一体的发展战略。为什么谷歌和百度都在人工智能领域重金发力?2015年百度投入研发创新的资金占公司总营收的16%。谷歌就不用说了,在量子计算这样离实现还遥不可及的技术上都已经投入很多研发资金。因为互联网未来向智能+发展的基础是数据。有数,有趋向完整的海量数据是现在所有巨头在布局人工智能+大数据生态模式的重点。
数据获取的最新模式:众包
众包是一种整合资源提升效率的方式,通过众包可以在集合海量数据中,筛选符合一定标准的有效数据,能够降低数据收集的成本,提高机器学习训练的效率。有个生物学家叫戴维•休斯(David Hughes),他和作物流行病学家马塞尔•萨拉斯(Marcel Salathé)将机器视觉技术和深度学习算法应用于农业病虫害智能防治上。他们将关于植物叶子的5万多张照片导入计算机,并运行相应的深度学习算法,针对在明亮的光线条件及合乎标准的背景下拍摄出植物的照片,最终程序正确识别率高达99.35%。如果在互联网上随机选取的植物叶子照片,其识别准确率将降至30%-40%,这也是目前视觉识别技术在复杂环境下尚未突破的地方。为了突破算法的限制,提高准确率,休斯和萨拉斯开发手机应用Plant VillaGE,让世界各地的农民通过Plant Village上传患病作物照片,其中包含照片如何拍摄、拍摄地点、年份等大量数据,并包含农业专家对此做出相应诊断的信息。这种方式出现之后,数据获取的难度依旧聚焦在多维度数据资源的聚合,众包可以解决从分散的个体获取目标数据的问题,但对于基础数据资源层的扩张和占领依然是一场没有硝烟的砸钱战斗。
数多了怎么办:智能计算
有些人在努力获取数据,有些人在为数据多而未能充分利用而焦虑。
数据量级达到一定程度,再利用数据优化服务需要人工智能算法。随着企业数据量的积累,挖掘数据提高效率变成了必需。比如商业应用中打车平台的应用,国内平台滴滴与快滴合并之后,业务线从出租车扩张到专车、顺风车、公交等领域,数据范围猛增,数据量包含司机行为数据、顾客行为数据及各种路线数据、实时交通情况数据,定位数据等,据滴滴官方公布,滴滴出行每天处理的数据量达到70TB,由于订单处理响应时间的要求,单纯处理数据的效率已无法满足实时服务的需求,必须借助人工智能算法才能够进一步提升服务效果。从用户体验角度,也需要实现提升定位精准度,提高接单率,缩短应答时间。目前滴滴内部基于海量数据+机器学习算法的推荐匹配系统,针对海量司机的交班时间、地点、接单/拒单情况等海量数据进行司机画像,以此为基础,针对实时的订单数据,分配订单时实时按需分配,满足服务需求。从数据应用展现更宏观价值的角度来看,基于滴滴已有数据,可整合实时交通情况数据,包括拥堵路段、集中路线、集中商圈等多维度动态数据,进行结构化处理,达到整合一个城市的车辆分布,实现统筹平衡调度的目的。
大数据服务的现在及未来:智能+生态模式
未来人工智能+大数据生态模式将更多的应用于在商业场景下。HCR慧辰TMT研究部认为,大数据服务未来将有以下四种模式:
一是形成数据资源和计算资源提供平台。当前企业数据大多仅留存于企业内部,在开发应用上一般也只有内部应用,企业之间数据各自孤立,独立计算,行业内尚未形成整合大数据,目前第三方数据采集、监测机构已经开始致力于多维数据的采集服务,包括外部数据的直接采集和企业内部数据的间接采集,已有第三方在提供基础数据库资源。未来伴随数据维度的丰富和数据量的扩大,第三方机构将采集并使用智能算法结构化处理形成相对完整的数据资源提供平台,并针对些海量数据的存储、整合及计算提供基于云端的平台式服务。
二是出现技术服务平台,包含提供Paas服务的开源平台及计算能力、大数据解决方案及技术服务支持。从目前人工智能和大数据企业发展来看,只有巨头和少数创业企业掌握核心算法及存储真正大数据,更多企业通过合作或建立产业联盟的方式获取行业或其他领域的数据。但对于数据的存储、处理和应用需要技术支撑且突破这些技术需要消耗大量人力物力财力,没必要所有企业都去做这件事。PaaS服务将数据处理能力作为模块开放出来,使得数据挖掘技术的使用门槛和成本大幅降低,更多企业有能力利用云端数据服务创造附加价值。因此形成Paas服务平台或解决方案技术服务平台,据此可以聚合数据资源,优化算法,提高准确率。另外也会形成基于数据存储、处理及挖掘技术的整体服务解决方案提供商,企业可以将数据服务完全外包给第三方机构,第三方机构也可以通过这种方式在云端整合资源并优化技术,提高准确率,同时产生推动行业发展的效果。
三是出现资讯服务平台。大数据产业相对仍是新兴产业,发展日新月异。一方面企业需要寻找大数据资源或技术服务平台,另外一方面第三方服务机构需要推广宣传自身及行业发展、技术发展现状。在这种背景下将出现起到桥梁作用的专业资讯服务平台,连接企业和第三方服务机构,同时起到发布整个行业前沿信息的作用。
四是出现交叉/垂直化服务应用。现阶段在教育、金融领域的垂直应用以及在未来智能营销、智能制造等交叉行业的应用。如在教育行业已出现利用积累的教、考、学环节的大数据结合深度学习算法推出个性化学习平台,如国外的Knewton、国内的智学网都是这种模式。未来将延伸至农业、制造业、交通、医疗等各行各业,出现如智能农业生产管理、智能交通、个性化精准医疗等创新服务。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16