京公网安备 11010802034615号
经营许可证编号:京B2-20210330
小团队如何玩转大数据
大数据之所以能称得上一个时代,来自于整个社会的集体狂欢。数据源于各行各业,这场变革带来的机遇自然蕴藏于各行各业之中。紧盯这个市场等待机遇的,无所谓IT巨头或是初创企业,无所谓团队规模是大是小。
大数据能为企业带来什么?更多的订单,更低的成本,更快捷的管理,更新的业务模式。巧妙善用互联网上的大数据, 小型创业团队就可以为自己快速积攒早期创业所需的资源,从而降低创业成本,提高收益率。然而我们却看到,在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下,我们不禁又要问小团队,你的大数据在哪里?
诚然,缺技术、缺人才、缺数据等种种现实,都将小团队置身于水深火热之中。那么大数据时代的小团队还有机会吗?
“当然有。”前小米数据工场负责人、现任火线数据创始人兼CEO、 WOT2016 讲师卢学裕在接受51CTO.com记者独家专访时,不仅给出明确的肯定答案,也结合他曾在优酷视频系统及小米数据工场的亲身实践,细细剖析面对种种问题下的小团队该如何做好技术选型,及如何权衡面临的大数据成用成本和数据隐私担忧。
小团队的大数据挑战
近几年,以Hadoop生态为代表的数据基础设施发展很快,给大数据技术的易用性提供了很大改善,也使技术门槛降低很多。
在卢学裕看来,小团队在大数据方面的挑战主要表现为人才短缺和数据来源。卢学裕讲到,为了应对这两个问题,小团队必须要在业务上下功夫,依据核心的业务形态,深入挖掘自身数据。
具体应该怎么做呢?卢学裕以视频用户数据举例。虽然用户在观看视频的过程中,没有太多的互动过程,但还是可以挖掘出价值非常大的高频数据。基于用户的拖拽、回看这样同一份数据,我们可以做到的可以有很多:
- 挖掘到不同用户对视频内容的High点,帮助视频的内容运营和内容创作找到用户兴趣点;
- 认识用户行为,找到相似用户,基于内容兴趣进行用户画像;
- 根据用户对内容上的喜好更好地进行CDN的预分发
- 根据用户行为做视频推荐
- ……
某种意义上说,视频推荐比商品推荐更容易。视频作为用户相对高频的行为,意味着我们能抓取到用户更多的行为数据,对用户的喜好反映更全面;从应用场景的角度来说,用户对于商品是否购买可能是一个很大的决定,而看不看视频相对决定很小,决定错误的损失也很小。在进行视频内容分析时,由于视频文本挖掘的维度偏少,因此进行文本分析的价值不大。
因此,同一技术在不同的业务领域上的重视程度,和起到的作用是不一样的。小团队由于自身技术能力和专业人才资源都有限,一定要更加细致地了解自己的业务形态,最大程度利用已有数据。
小米数据工场大数据平台架构
小米目前除了发展自己的公司,还投资了很多生态链企业。随着业务的快速增长,业务产生的数据量突飞猛涨。大家都知道,数据越集中,利用价值越大,由此小米数据工场应运而生。
小米数据工场主要承担着为全公司各团队及小米的生态链企业,提供数据采集、计算、存储等基础能力,以及机器学习、挖掘的工具和方法的任务。除了底层的能力,数据工场也为公司及生态链企业提供一些具体的基础数据服务,用于小米信用卡的风控和额度评估、广告精准投放、限时抢购时用数据打击黄牛等等。通过数据工场提供的数据能力,企业不仅能够对业务进行数据分析,也实实在在将数据应用到核心业务场景中。
围绕Hadoop生态构建基础平台
小米数据工场主要的工作是管理数据、元数据、数据权限,以及管理大量的计算。卢学裕强调,把数据存下来不是目的,而是要通过计算运用到各个业务领域中。小米及其生态链的业务场景丰富,因此整个计算体系是纷繁复杂的。
为了更好适应未来的需求,小米数据工场围绕Hadoop生态构建底层基础平台。虑到扩展性,数据工场天生基于Scala设计成分布式架构。由于小米及其生态链企业业务场景丰富,因此在技术选型方面全生态都会涉及,如消息流、批处理、实时计算等技术都需要用到,HBase、Hive、Spark、Storm 、Impala都在不同的场景下使用。
利用Docker解决异构和资源问题
为了管理好这些纷繁的计算框架和模型,在计算的执行方面,小米使用Docker来解决对环境的不同需求和异构问题,并且与Hive、Impala、Spark这些不同的计算模型都进行了对接,去适配不同应用场景计算不同数据的模型。另外,在不同业务场景下,同一个计算逻辑也可以选用不同的计算模型,Docker 的使用也避免了资源的浪费。比如一个计算任务每天凌晨运行,为了追求吞吐量,可以放到Hive里跑;还是同样一个计算模型,现在就要跑,可以不用更改,就放到Impala里运行。
总结看来,Docker不仅解决了环境的异构,也解决了资源问题。另外,Docker的环境适应性很强,做横向扩展会比较容易。
对于数据隐私方面,小米考虑得非常重。采用Docker与自身安全策略的综合,小米用户数据的隐私和安全性也得到了极其严格的控制。
小团队的大数据敏捷之路
选择热门的技术
小公司的时间耽误不起。选择热门的、常用的、经过大公司验证的技术,一是少踩坑,二是常用的技术人才相对好找。
按需使用,不要规划得太大
传统BI进行数据分析时通常会建立一个大而全的模型,再根据业务需求进行调整。但小团队的业务发展很快,因此在初期不要规划得太大,而是根据业务需要,细分业务场景,在每个小场景里构建小的数据模型,分析用户就建用户模型,分析产品用简单的产品模型。
另外,小团队要考虑到自己的应用场景是以分析型为主,还是应用型为主,之后再进行相关的技术选型,如Hive、Impala 、Presto等;而如果是以业务型为主,就要具体结合自身业务和技术能力综合来看。在数据量不是非常大的情况下,没必要选择HBase这样集群的存储方案,有许多产品可以替代。比如MySQL这类传统数据库能支持的数据规模也不小。根据计算要求和数据规模综合来选,不是超高量的不需要选太大规模的技术选型。
选择便捷、灵活和易于管理的技术
大公司在技术和系统使用上首先考虑的是集群的利用率和吞吐量,而小公司则要从便捷、灵活和易于管理的维度来考虑。
存储方面:建议使用以HDFS为主的存储,因为很多计算的工具所使用的存储都建立在它之上。对于业务未来的迅速发展,有比较好的兼容性;
计算方面:建议在选用常用的基础设施之外,具体计算用户交互时使用易于使用的技术:
HUE:基于web,在进行Hive 查询时可以直接在平台上完成,使用门槛更低;
Presto:适应数据源多,可以连接各种各样的数据源做计算和数据分析。由于业务数据和用户的行为数据时分开的。使用Presto这种连接器型的分析工具时,有分析能力的人就可以直接使用这种工具,我们不需要将不同的数据还要ETL导入到一起,后续还要做加工处理,只需要在物理打通就可以。
重视数据积累
小团队在前期积累数据时,一定要多花点儿功夫,不要偷懒,把数据尽可能采集全、采集准。千万不要等用到什么数据才去找数据,一旦发现你需要的数据之前没积累;或是积累的是错的;或是没有对数据进行标识,没办法区分这是哪个用户,陷入逻辑孤岛,都会非常麻烦。
比如我们需要采集用户在看一篇文章时的数据。这时我们应该将采集的维度考虑得更多,至少从用户本身的维度、文章内容、上下文关系、用互交互事件这四个维度上考虑。采集的数据可能包括文章分类、标题、内容ID、当前该文章热度、用户获取文章的渠道等等。这会让我们更全面地了解用户的喜好,也将用户的路径分析的很清楚。
哪怕未来不知道怎么用,采集更多更全的数据一定会对应用产生价值。在存储成本较低的现状下,多采集数据带来的代价并不大。真正昂贵的其实是计算,而一旦没有数据,代价将会更大。
大数据是工具
对于创业公司来说,在更短的时间内创造更大的价值,是企业得以存活的根本。大数据是工具,了解大数据的作用,结合业务的真实场据,满足用户需求,大数据才能真的帮得上你。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15