京公网安备 11010802034615号
经营许可证编号:京B2-20210330
理论和实践结合下 如何从大数据中挖掘新商机?
在大数据、云计算越发被业界重视的今天,如何才能用大数据(数据分析师)帮助企业实现价值?如何才能通过大数据解决方案帮助企业解决从基础架构迁移到云的新需求?如何为用户定制适合其行业应用的新智能平台?可能是每个有责任心的IT企业所需要解决的新问题。而谈到这一话题,就必须要谈谈软件定义、融合,抛弃硬件设备的限制,越来越多的企业利用大数据平台采用开放的存储架构,提供存储的性能、可管理性,而这也是存储领域发展的大趋势。
于是,2015年,我们看到各大厂商在运用云计算和大数据技术,利用平台解决方案创新和维护这新老客户,我们也看到,企业客户在尝试着利用厂商提供的平台解决方案实现“用IT创造更多价值”的神话,“现在有很多计算平台也积累了很多数据,但是怎么样实现它的价值在摸索过程当中,用户在面临着,包括业务层面或者需求层面的新的挑战。(数据分析师培训)”
直面新挑战从数据中挖掘应用
当前,许多用户非常关注的大数据技术下的几个方面:规模弹性伸缩、业务快速上线、资源灵活分配、服务性能保障、整体运营维护等,这些都是厂商利用云计算、大数据技术将客户传统业务向云计算转型过程中亟待解决的问题,同时也是传统基础架构中相对薄弱的环节。
而谈到如此高深的大数据技术理论和现实客户需求问题的结合问题,宋怀明有着深刻的理解,实际上,曙光作为大数据处理领域的专家级企业,一直在耕耘大数据技术市场的同时,不停的在创新者数据存储新应用。而宋怀明对于在数据存储、数据处理领域的研究,要追溯到2004年,如今,在经历了大数据的成型、储备和研发阶段后的曙光,在大数据存储领域已经有了很多成功解决方案和应用,今天,曙光的专注点就在于数据的存储和处理。
应该说,大数据的关键点就在于如何挖掘有价值的数据,并合理的利用其价值。在曙光耕耘大数据领域的11年中,可以说其一直在从数据中找寻真正适用于中国客户的需求创新点, 2004年,当时大数据还没有兴起。曙光多是进行结构化数据的处理,基于无共享架构的MPP数据库的研发,直到2007年,Hadoop在中国兴起之后,曙光在2011年成立了Hadoop的研发团队,已经发行到第三版,从2013年开始,每年都会更新一个版本,也是紧跟社区的最新技术。曙光在上面做一些优化管理、安全加固等等工作。可以说这一阶段也是众多厂商的终极目标,应用的问题,实际上这一阶段要求最高,“现在有很多计算平台也积累了很多数据,但是怎么样实现它的价值在摸索过程当中,用户在面临着,包括业务层面或者需求层面的新的挑战。” 曙光大数据的总工(总经理)宋怀明博士如是说。
理论和实践总是有差距
在笔者看来,从技术角度而言,曙光对大数据的挖掘和研究,实力不容置疑,然而研发能力的提升带来的附加成本是不可预知的。而将技术转化为生产力,更需要长期的实践。如果传统企业也想像互联网企业那样玩转大数据产品,首先要组建与胡两旺同量级的研发和维护团队。在选择产品时节省下来的投资,根本揣不到兜里,只能老老实实花在开发维护环节上。
然而,曙光让记者看到了一个不一样的大数据研发方向。在同宋怀明的对话中,记者深刻感受到曙光在进行大数据平台的积累和研发是完全基于应用层的,也就是说曙光是基于大数据产品基本上是基于上层应用的研发。这些产品在今年已经在几个行业中进行了测试和数据应用模拟。例如:广电传媒领域,曙光把原有的数据库系统、机顶盒的数据抓取过来,在上面做数据结构分析(数据分析培训)、用户行为、精准推荐、智能运维等等应用。之后,珠江数码已经成为其重点客户,目前曙光也正在为其正进行二期开发,预计明年1月份产品正式上线。
从行业应用中获取价值
显然,市场化和应用的普及是促进曙光大数据存储发展的动力,只有同广大的厂商合作,通过标准的数据访问接口支撑多个行业应用开发,推动行业应用落地。然而,要从技术中挖掘这样的需求并不简单,在数据领域深耕多年的宋怀明也非常清楚这一点,于是,针对数据的探索,曙光锁定在了Hadoop技术。Hadoop发展前期是以离线计算、批处理计算为主。从曙光发展历史分析,这几年mapreduce用于日志的处理,hbase用检索数据库进行查询,显然,对于这一技术的开发,曙光已经完成从实验走向生产系统的阶段。目前,曙光已经有很多实际落地的案例,而且大的规模已经到PB级。
从产品端分析,显然曙光正在打造一套软件定义一切的超融合计算。这套解决方案将统一融合资源管理(网络,计算,存储)、统一融合服务管理(HPC,云计算,大数据)、统一融合数据管理(调度,编排,处理),并将横跨三大核心产品Gridview高性能计算操作系统、CloudView云计算操作系统、XData大数据一体机结合为一体,针对不同客户需求进行相应的解决方案部署。
技术的成熟已经预示着曙光大数据平台成为行业应用的重点,应该说曙光已经在不断创新中找到了自己的领域,而且针对不同行业,曙光的大数据存储也发挥着不同的作用。据曙光大数据研发中心经理郭庆介绍:“在广媒行业,非结构化的文本处理,像Hadoop的SOLR、ES文本检索的,在很多大型系统里也开始逐步使用。Hadoop的技术趋势逐步由离线处理越来越往前发展,包括内存计算、文本检索、流式计算,从时间来讲,延迟会越来越短,按照这个链条往前发展。广媒的大数据,除了这些基础的运维数据,还会采集机顶盒的收视行为数据,会往应用层发展。底层的技术可以复用的,就可以复用,然后再往上层发展。“
市场是检验产品的唯一标准
当然,在今天融合存储和云计算市场火热的当下,很多IT企业大数据在技术上的创新优势也同样在市场中被熟知,IBM、Oracle、EMC等一系列企业都相继推出自己的数据平台一体机,曙光如何将自主研发的大数据平台拓展到更多市场,确实需要建立一套客观的市场战略。对比几家企业大数据平台产品,宋怀明也从产品角度结合其对客户需求的分析进行了剖析,Oracle的大数据一体机,是共享磁盘的架构。对于数据量中等规模或者是偏小的是比较适合的但价格比较昂贵。曙光是用无共享架构,扩展性更好,也是更主流的架构方式,开源的组件基本上都是沿用无共享架构的方式,价格便宜。IBM大数据一体机,把应用固化的FPGA加速卡上;而曙光利用软件模块、硬件模块融合方式,在存储和数据交换方面做了优术,并未把软件固化在加速卡上。
显然,曙光今天已经对大数据平台,已经对行业市场有了很深的研究和战略部署,从XDATA系统道曙光大数据存储,从非结构化数据处理到大数据分析,从自主研发的解决方案到应用到逐渐深入到市场段的应用,曙光大数据存储正在有计划有规模的深入到市场,通过自身对行业市场的细分和精准把握造就了曙光大数据存储的成功。其正在打造的软件定义资源利用、软硬一体化趋近融合的平台,从用户角度出发,为更多的客户带来解决方案
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22