京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在大数据时代中,如何更快地即时分析巨量数据,成为新的创业契机。来自台湾的团队「核桃运算MacroData」,从最底层的数据分析架构出发,耗费两年半的时间,研发出可分析不同资料属性,以及横跨各式硬体的资料分析引擎,比起现有的资料库来说,运算速度还要快50倍到100倍,今年下半年将正式走入市场。
令人意外的是,核桃运算一开始并非瞄準大数据商机。核桃运算的灵魂人物薛文蔚,是台大资工系第一届学生,毕业取得哥伦比亚大学资工博士学位后,先到华尔街工作两年,在1995年开始创业,开发教育平台。2000年回到台湾 ,在知名的软体公司Computer Associates负责亚洲地区的合资公司业务,随后在台湾成立供应链管理公司「联合通商eBizprise」,和在中国的子公司「eBizServe」。
2011年,薛文蔚遇到一个中国大陆大型零售商的供应链预测问题。当20万个品项、上万个通路,再加上要做100週的预测时,资料共有惊人的上百亿点,如此庞大的资料量,传统的资料库无法负荷。他发现市场空缺后,找来公司裡两位同事黄怡诚和赖育骏,一同成立研发团队。
虽然本来是从供应链管理的问题切入,但深入研究后薛文蔚却发现,这是大数据的问题。他解释,现在用的资料库技术都是1970年时提出的架构,很多理论是基于当时的假设,「但当底层条件已经改变时,我们不该再用过去的模式想事情。」于是团队从非常底层的架构重新思考,适合现在使用的运算模式是什么。
其中最大的差异是,过去资料运算时,需先从资料储存的地方如硬碟,搬到记忆体运算后,再把资料放回去。但现在的资料量早已是过去的好几千万倍,薛文蔚打个比方:「Data的成长就好像房价一样,Code的成长则好像薪水一样。」
如果沿用过去搬动资料的运算方式,大多时间都是花在「搬移」上,因此核桃运算主张透过不搬动的「in-place computing」运算方式,直接把程式送到资料的所在地运算,少了搬移动作,资料运算速度就会提昇很多。目前团队已申请四项美国专利,其中叁项已被核准。
比起现有的资料库运算方式,核桃运算共同创办人陈元贞解释,以目前知名的Hadoop来说,透过分散式运算,把1部机器要算的东西放到100部机器上算,虽能提升运算速度,但却不是每个公司都能负担的起部建分散式运算系统。
若是非关联式的NoSQL资料库,数据存储没有一定的模式架构,虽然速度可以变快,但也因为不需固定模式,当要做两者的比较分析或资料採矿就有些困难。若是传统的MySQL资料库,更是无法负荷现在庞大的资料量。
从2011年下半年先在母公司联合通商旗下成立团队开始,众人花了两年半时间研发,终于在今年推出产品「Big Object」,团队也在今年2月从母公司独立。Big Object主要运行在64 bit的装置上,因为採用「in-place computing」,最大优势就是快,运算速度可快50倍至100倍,因此可做到当下的即时分析。
此外,Big Object也能分析异质性资料,不只企业本身的商务资料,也能结合open data和非结构性资料,像是零售业者可和天气预测或脸书贴文交叉比对。「就像冰山一样,本来你只看到交易资料,可是更多的是你没有看到水面底下的资料,」陈元贞说。
也因为Big Object是很轻巧的资料运算引擎,在未来物联网时代,小至眼镜、手錶,大到汽车、冰箱,每个装置都能成为分析资料的机器,因此这些装置也都可以嵌入Big Object的分析引擎,根据数据做出最优化的预测或行动,如调整车速、冰箱温度等。
Big Object主要针对BI产品(Business Intelligence,从数据分析中挖掘商业价值)或LOG分析的软体开发商,可直接将Big Object嵌入在软体裡,收入以授权年费为主。目前核桃运算已有些试用客户,像是在台湾就已和神坊资讯旗下的购物网站合作,透过Big Object计算商品间的相关性,进而做出即时的购物推荐。
产品到位后,今年下半年Big Object将开始走入市场,目前处于客户开发阶段。陈元贞表示,由于这类应用主要在美国市场居多,因此今年3月团队也在美国註册公司,预计今年在台湾和美国都要各自招募十人团队,未来台湾负责研发,美国则负责业务。
核桃运算四位共同创办人,从左至右为赖育骏、薛文蔚、黄怡诚和陈元贞
【创业教我的事】找出自己的定位,在过程中随时保有自己的判断,尤其是对产品和市场策略的看法。
Q1. 希望提供这个社会什么价值? 最主要是提供一个快速又可负担的分析引擎,帮助资料分析者或商业决策者,发掘出隐含在大量资料背后的资讯。
Q2. 长远来看,贵公司想成为何种类型的公司?
我们希望做到「资料处理界的Intel」,未来软体内可以搭载BigObject的运算核心,不管是CRM、ERP、BI或是Log分析软体,都能透过BigObject的即时分析而有更优化的软体功能。
本文来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05