京公网安备 11010802034615号
经营许可证编号:京B2-20210330
企业大数据建设案例分享
大数据的重要性已毋庸置疑,但大数据的采集、存储、处理、分析、研究,却不是一朝一夕炼成的!数据平台如何建设,推荐系统如何运算,等等,都是我们所关注的话题。2013年7月27日,CTO俱乐部走进了腾讯大讲堂,来自迅雷、腾讯和桉树的三位讲师齐聚一堂,分享了各自的大数据实施案例。
首先,迅雷基础研发中心数据平台技术总监陈仕明,主要从三个方面介绍了“迅雷数据平台建设及应用案例”。
中型数据平台
数据平台可以分成中型数据平台和大型数据平台,中型数据平台的主要特点是服务器资源、技术储备和人员都比较有限。迅雷的数据分析模块目前有500多台服务器,4000多个CPU,存储20P以上的数据,磁盘有3000多块,属于中型数据平台的规模。
迅雷的大数据架构
中型数据平台主要是基于开源已有的存储和计算,做一些更上层的外延性的产品。
第一层是采集,采集分成实时采集和离线采用集,其中离线采集占了业务的大部分,主要用迅雷自己开发的Xrsync工具实现。有些数据需要涉及到实时计算,会同步发,存起来之后ETL计算全部用开源计算框架。实时采集主要是采集日志文件,这种日志文件主要对应业务服务器里边所生成的日志。
数据存储之后,依然是一个物理模型,为了降低维护成本,需要把技术人员的工作尽量抽出来,让其他岗位比如数据分析师做更多的事情。这就需要把底层数据抽象为业务人员理解的数据模型,抽完之后在最下边做了维护平台,以及报表系统,还有自主查询。
最右边有两块,一块是认证与授权,从上到下所有东西都需要经过认证和授权,作为一个公司级集中式的存储平台,每个部门存储都会在这儿做,所以你必须保障数据安全和资源合理分配。迅雷的平台认证,全部采用kerberos认证。数据存到HDFS上之后,会给每一个业务,或者每个产品,开辟一个kerberos帐号,所有帐号的数据都只能放在这个帐号的home里去,包括这个帐号的Hive或者HBase都存在该目录下,并控制存储空间。
另一块是事件驱动调度:首先,任务的依赖关系用数据打通。任务和任务之间的依赖关系其实质是任务背后的数据之间的依赖关系,某一个数据跑成功了之后依赖该数据的任务才能跑。
其次,需要把后置依赖前置改成前置驱动后置,前置任务跑成功了之后,将该任务对应的“数据事件”扔到调度总线里面去,由总线把需要依赖这个“数据事件”的其他任务调起来,当然该任务能够立即跑,还要考虑到底层计算引擎目前的负载等情况。
上图是调度引擎大体的架构:最核心部分是调度总线,数据分为是Task和Job,Task维护计算逻辑,如执行的SQL脚本等;Job维护调度逻辑,如依赖什么“数据事件”, 一个Task可以配置多个Job。最左边是Web接口,前端通过该接口查询任务状态,以及控制任务等。最右边是计算环境的适配层。
数据平台使用案例
迅雷会把收集来的数据做成数据模型,最重要的数据模型是一个用户事件模型,所有的基于用户端的这种行为数据,都可以把它抽象成模型存进去,这个模型用一句话概括就是,谁对谁的什么东西做了什么事情?
这个模型拥有很多纬度,如产品纬度,用户纬度,时间纬度,客户纬度、地域纬度,运营商纬度,终端纬度,渠道纬度,事件纬度等。
这个模型能做什么:简单的比如每个产品的上线用户数,每个用户的活跃度,用户的黏性,以及某个产品的用户的地域分布,运营商分布等,活跃用户排名,最热的资源排名,如哪些电影是最常看,发生某个事件所消耗时间是多少,或者某个商品的销售收入等。
迅雷还构建了一个用户的染色库,迅雷拥有几亿的用户,但是这些用户各有什么样的特征?比如是联通用户还是电信用户,还是某个小运营商的用户?还有兴趣类标签,如游戏类标签,影视类标签等。游戏标签描述该用户喜欢什么类型游戏,影视类标签描述用户喜欢什么类型的影视;根据这些属性我们可以更好的为用户服务。
另外一个是资源的属性库。比如一个影视文件,在资源属性库拥有该文件对应的电影的名称,演员,以及电影类型等。
染色库和资源属性库的应用主要有:比如,可以计算视频指纹,根据两个视频指纹相似度计算这两部电影是不是一部电影。染色库还会应用在会员tips推广中,迅雷会弹一些tips,为了提高tips的效果,提高点击率,需要尽量精准的投放。另外在看看里边放广告的时候,也需要尽量的精准,不能最好不要把一个女性的产品,给一个男屌丝推,这样一般点击率会很差。
接下来,腾讯数据中心数据挖掘研究员肖磊,从业务的角度为我们介绍了腾讯的大数据应用之一精准推荐。他的演讲主要包括四个部分:
腾讯做了什么
2012年的时候,腾讯赞助了KDDCup主要做了两个事情,一个是微博上面的推荐,一个是广告的推荐。具体到产品上面,包括腾讯视频的推荐系统,易迅首页上的推荐,基于社交网络广告的推荐广点通,还有朋友关系链的推荐等。这些推荐都是通过分析腾讯8亿的活跃用户做出的。
遇到的问题
肖磊认为作为一个推荐系统,首先要处理好3P之间的关系。
首先是用户,其次是ITEM,第三是场景,针对不同的场景不同位置有不同的方法做应用。
解决之道——3S
分别是数据、算法和系统。这三个是相辅相成的。
会基于用户的基本信息和历史数据构建用户画像的体系,上图中提到推荐的解决之道中,数据是排在第一位的,因为数据是做好准确推荐的立根之本。
两大核心平台
有两大核心平台做这件事情,一个平台是分布式数据仓库TDW,它基于开源的Hadoop和Hive进行了大量优化和改造。第二个是一套实时推荐的平台——APOLLO,它有一些实时介入系统、流式计算系统、一个分布式的存储系统,同时还有一个很重要的推荐引擎。
8月30-31日,肖磊会在SDCC 2013(中国软件开发者大会)上担任演讲嘉宾,更多内容请关注大会官网。
最后,来自美国桉树系统公司大中华区认证讲师杨大江,带来了“合理利用桉树-Hadoop构建大数据平台”的演讲,主要介绍了如何结合云计算平台和桉树构建一个大数据系统。
桉树+Hadoop
桉树的架构主要分为三层:第一层叫云控制器;第二层是区域,桉树分了三个数据中心,每一个数据中心都是一个可用区域;第三层是大量的虚拟化,以虚拟化技术为核心的一个云体系,桉树的虚拟化支持多种技术。当构建一个大数据平台的时候,桉树和Hadoop一个是解决分的问题,一个解决合的问题。桉树是以虚拟化为核心的,解决虚拟化资源调度问题,它和一般的虚拟化有一定区别。一般虚拟机是把单机进行虚拟化,桉树考虑把整个集群虚拟化。
云计算有一个重要的思想,单节点是不可靠的,随时可扔。要靠一个软件系统保证集群,这两个系统结合优势构建大数据系统的优势主要有:
提升Hadoop部署速度
提供Hadoop高可用和容错能力
提升Hadoop环境资源利用率
安全隔离让Hadoop落地更安全
实现Hadoop云端多租户
集群易于维护和迁移
使用异构集群实现高密度存储和计算。
应用案例
这里介绍一个期货公司的案例,这个期货公司共分三个中心,一个镇江中心、一个郑州中心,还有一个天津中心。这家公司横跨了农产品建议和重金属交易行业。他们建立这个决策系统,是为了能够实时分析用户的交易行为,预测其结果,规避可能带给公司的风险。
这个系统整体叫做数据容器,也就是说这个平台将来不仅仅给自己公司用,而是通过API给各种客户端做使用。将来在云端开发各种数据应用,都可以直接调用。系统最上面用的都是桉树的产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16