京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据分析系统应该规避的问题
大数据分析前期要做的事
其实,每一个数据都有一个ETL,就是抽取、转化,然后去加载,包括做数据的清洗。如果数据大批量进来的话,有些数据可能是有问题的,马先生举了个例子:比如说,好多地址会写得比较模糊,如果要搜索北京这个词的时候,数据仓库里可能只有一个京字,这些都要统一整理成一个,比如说北京,这样后面分析就会简单,比如山东,有人会输入“鲁”字来进行搜索,而不是山东,这就需要在大数据分析前期做好数据清理工作,做规范化,这样后面的数据分析起来就方便很多。
搭建大数据分析系统的注意事项
在搭建大数据分析系统时,有哪些需要注意的事项?马老师提到:首先要弄明白你所在企业需要什么样的数据,或者你想得到什么价值,想明白了再去做。因为做数据不像做别的东西,一定明确知道要知道你要干什么,不然这个系统搭的时候会有很多困难,不知道该怎么搭,不知道用什么技术,也不知道数据进去是否在浪费。而目前的情况是:很多企业可能会先把架构搭出来,实际上这数据每天在算,但是不知道这数据带来什么价值,所以更多是一个业务驱动的。再举个例子:比如说中国移动就想挖一挖,到底是哪一个用户老欠费,哪一个用户用得多,用的多的就给他优惠多一点……如果他有这个需求,你再把这个需求下转给下面的人,按照这个需求去开发;
其次,需要选择适当的技术。比如说你一台机器够用的,不要用两台机器,能够进来报表就不要用交互报表,因为那个都是有技术成本的,并且上线的速度会慢很多。所以建议任何一个企业在搭建数据分析以前,要特别清晰地知道其搭建的需求和目的,选择什么方案,搭它来解决什么问题,针对需求你去做一个数据分析;
再次,在没有时时性要求时,你不要自作主张,向老大提这个。因为大公司的批量已经做得非常完美了,可能批量已经带来35%的收入增加了,他要再做时时,再增加5%,而你现在什么都没有。如果说先要做时时,或者先要全部搞出来的话,可能要先一步一部把35%做好,把那个批量先做出来,然后再做时时,这样效果会更好。
不要滥搭大数据分析系统
技术这个东西都是相通的,没有一项改进都是说完全是重新造出来的,都是在改的,但是它带来的价值不一样,它带来的人的思考,就跟人从零售店买东西和网商这种不一样,但是技术,零售店也会用一些数据库,网上也可能用,要在这个上面做一些转变。马老师谈到,好多国企(这里就不点名),就是为了上项目去上项目,称自己有海量数据。当问他需要搭建的大数据系统是用来干什么,他们的答案很出乎意料:先给搭起来,先存起来,需要的时候再用,就这种思想。其实这个是没有必要的。
总结
虽然大数据现在炙手可热,大数据分析越来越火爆,很多企业都在试图拥抱大数据技术。但还是应该具体问题具体分析,因为大数据分析系统并非适合所有的企业,一些小型规模的企业在旧系统能满足需求的时候,就不要盲目地去追随潮流,舍弃旧的系统重新搭建,也可能解决了这个小缺口,但是可能会滋生其它更大的问题,这就得不偿失了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11