
结合大数据分析技术 云端应用服务开创新价值
通讯科技的进步与普及,带动智能手机的发展,使得人们可随时随地将图片或视频上传到影音网站,而高解析度显示技术的发展,使得影音片段所须储存的数据量增加,加上近距离通讯将移动物件的数据传输便利化等,在在让全球数位数据量呈现快速成长。
另一方面,云计算(Cloud Computing)技术将分散于各地数据中心的资源加以动态组合形成服务,提供给数百亿的资通讯设备如手机、联网电视和电脑等,更让散布于全球各地的数据聚合而成数位宇宙(Digital Universe)。
数据量大爆炸 Big Data商机起飞
市场调查机构IDC指出,数位宇宙数据量自2005-2020年将成长三百倍,由2005年的130艾位元组(Exabytes,相当于109Gigabytes)激增至2020年的40,000艾位元组,相当于每年数据量成长两倍。
数位宇宙如此多元与庞大的数据量,如何连结与产生有效益的资讯,成为近年来资通讯技术与产业发展的主要议题;大数据(Big Data)技术遂于2012年继云计算技术后,成为资讯产业界最热门的话题。
IDC定义大数据技术为运用高速撷取、发现或分析技巧于各式各样型态的庞大数据中,以经济的方式萃取出价值的新一代资讯技术与架构。IDC分析师认为大数据应具有三个主要特点,分别为数据本身、分析推论,以及分析结果的表达方式,之后才能由它们组合延展为产品和服务。
市场研究机构Transparency Market Research研究报告预测,未来5年内全球大数据技术市场规模,将由2012年的63亿美元成长至2018年的483亿美元,年复合成长率为 40.5%;该报告亦指出2012年全球60%以上的大数据市场由惠普(HP)、Teradata、Opera Solutions、Mu Sigma及Splunk等五家公司主导。
大数据的发展使得传统占有商业智能(Business Intelligence)市场的大型厂商如SAP Business Objects、IBM Cognos、Oracle OBIEE和MicroStrategy,在2012年的市占率被压缩,一般认为商业智能的需求于未来将更多角化,更多新创公司会贡献创新的作法。
大数据兴起 全球IT资本支出走扬
Gartner市场研究机构分析,大数据的特性为数据集的产出量、产出样式与复杂度及产出速度,远大于超过一个机构以往所面对及处理的数据,亦简称为3Vs特性(Volume、Variety、Velocity)。
Gartner指出,目前全球于大数据的资本支出,主要需求来自于将传统的IT解决方案转为需要大数据技术的IT方案,这些需求来自于机器产生的数据、社交数据、过于多样式的数据,以及无法预测产生速率的数据。大数据技术未来将为全球IT资本支出的新驱动力,并逐渐改变传统的资讯管理实务与技术。
大数据呈现的数据格式,目前大多以影音、文字和数值等为主,样式可为结构化或非结构化,输入模式可为串流或批次。除企业拥有的商务与公开数据外,因为企业可运用收集和分析消费者资讯的创新资源增多,使得大数据技术的应用将更加广泛,更多连续性数据的来源包含如量测设备所产生的数据、射频辨识系统 (RFID)传感事件、社群网路的讯息、气象与天文数据、监控与传感数据、移动设备所产生与位置相关的数据流等。大数据技术因全球积极推动的物联网 (IoT)、智能电网(Smart Grid)和智能城市(Smart City)等重点应用领域,在2012-2018年间,大多数的数据不再是由人产生,而是由具备资通讯功能的物件如交通工具、生产设备和家电等之间的互动产生。
IDC统计显示,目前全球所有的数据约只有千分之五曾被分析过。大数据技术未来几年中仍将在商业智能应用为发展主流,虽然目前它依然是新兴且尚未发展成熟的概念。Gartner市场调查机构预测,至2015年大数据将创造全球四百四十万人的就业机会,用以解决目前大数据数据分析师与软体工具的庞大缺口问题。
2012年为数不少的美国大型公司转为使用大数据软体平台Hadoop与丛集计算架构来执行企业内部大量数据应用,许多美国资服业者亦将支援Hadoop功能整合至他们的分析与储存软体解决方案。
大数据分析平台厂商Alteryx总经理George Mathew认为,2013年由于使用云端平台的服务成长,当越来越多组织开始使用平价合理的云端服务商业模式,企业将会分析应用转换至云端服务平台来执行,以云端平台来提供使用者存取、分享与收集分析资讯的软体工具将越来越多。
除商务智能外,2012年大数据技术也被应用于运动、健康照护等领域。由于拥有过去所累积的各类运动数据纪录,运动爱好者可藉由分析找出他们最喜欢的球员和运动的资讯。体育精算师John Dewan就运用大数据结合奥运模拟软体,预测美国在2012年的夏季奥运会将得到一百零八面奖牌,而美国最后得到一百零四面。
在技术发展上,Google的MapReduce分散式平行计算架构亦为大数据处理的重要软体工具。虽然MapReduce结合Hadoop平台的解决方案已完成,但Hadoop的研发社群似乎不太重视此一方案的成长性。据推测,Hadoop社群将研发重点聚焦于以Hadoop平台的分散式特性,提供支援即时处理和其他新的功能,让Hadoop更适合下一代数据处理应用,而这些新功能已被其他平台解决方案如Storm、Druid列为研发要点。
目前有许多新创公司如Continuuity、Infochimps和Precog等,以让应用开发者可存取到大数据的发展策略进行技术扩展。另一个发展方式则为选择利基应用,如使用者行为分析、网路安全、人工智能和客户服务等使用情境做为开发标的,进而将使用案例转为服务或产品,运用此一模式的业者包括Google、脸书(Facebook)等自身拥有大数据的公司。
2013年大数据技术发展的热门应用领域为移动商务智能、物联网和机器学习等,须要垂直整合的应用领域则为能源、公用事业、健康照护和人力资源等。在技术面,则以取得与合併数据的技术、降低初始分析因数据不足的失败率(Start-Up Failure)、增加预测精确度与新平台的研发为主要发展趋势。下面将以几个案例,来说明相关技术如何运用于各应用领域。
善用智能分析工具 用户移动商务经验提升
由于智能移动设备的成长与渗透率提高,智能移动设备内建多种传感元件,例如影像传感器、卫星定位、加速度计和高度计,使得服务营运商可自智能移动设备即时取得使用者资讯,例如定位数据、移动方向、兴趣点和交易数据的方式增多,移动商务智能的获得,将促使营运商投资大数据分析软体与平台建置。
移动商务智能分析须融合使用者、智能移动设备与环境等多方资讯,才能有效地由巨量的使用者资讯中萃取出商业价值,探勘使用者于移动环境中所需服务及偏好成为价值萃取的标的,运用此价值资讯将协助服务营运商提供最适合的资讯与服务给使用者,进而提升使用者使用移动商务的经验并增进服务商获利能力。
举例而言,以位置为基础的移动商务智能分析技术,可透过多种位置资讯的传感方式来收集混合的移动轨迹数据,并增加只运用单一位置资讯传感方式的定位精度轨迹探勘精确度。研发自动丛集多源定位的移动轨迹数据,来改善定位精度容错范围,以提升轨迹可探勘率为此类应用的基础技巧,但于技术应用面须进一步考量消费者、广告商及平台商各自的商业利益,延展出具有三赢功效的轨迹样式探勘处理技术,才能提升移动服务推荐满足率及成交效益,创造大数据技术的市场价值。
除以定址服务(LBS)为商务智能分析的主要发展趋势外,另一个值得关注的发展为社群资讯服务。2012年美国运用巨量连续的社群串流资讯,即时自动发现所含的热门议题资讯,用以成功阻止流感的扩散。
2013年以社群串流资讯结合大数据分析技术的应用持续增加,巨集大量短讯息数据的微网誌(Microblog)社群网路平台如Twitter、 Plurk和微博等,成为许多厂商寻找大数据商机之处。透过微网誌,使用者可发布关于自己的日常生活琐事,以及分享每天所遭遇到的事情,亦能即时了解朋友的近况动态等。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30