京公网安备 11010802034615号
经营许可证编号:京B2-20210330

【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线分析、分析算法、平台开发、城市人群、开发空间
【专访摘要】本次CDA持证专访邀请到江苏新网视讯软件技术有限公司平台研发部门经理王幸,他详解了大数据平台架构的分层逻辑、核心技术工具,分享了电信行业大数据的应用场景及经典案例,解读了大数据技术生态中Hadoop、Hive、Spark的关系,阐述了数据中台的落地现状与发展空间,为大数据平台研发从业者提供了实用参考。
【主持人】大家好,今天我们邀请到了王幸来参加我们CDA持证人专访,王幸可以和大家打个招呼。
【嘉宾】哈喽,大家好,我叫王幸,东南大学本科毕业,目前我就职于江苏新网视讯软件技术有限公司,现在担任平台研发部门的部门经理,目前主要负责公司电信行业大数据的平台架构以及文旅、医疗、城市管理等行业大数据分析的解决方案,还有公司数据中台产品的研发工作。
【主持人】那您作为一名平台研发部门的经理,日常的工作有哪些?需要写代码吗?
【嘉宾】日常的工作其实有几个方面,一是公司内部大数据产品的开发,这个我们公司目前在做一些数据中台的产品,包括数据的采集、同步数据的入湖的工具,还有一些数据开发、数据分析的一些平台,此外还有一些数据可视化的平台。这是第一方面的,还有一个是做大数据行业一些解决方案,我们目前主要是围绕着电信的数据去做一些智慧城市方面的一个分析,比如说怎么根据用户的手机信令有很多的位置数据,我们去分析城市人群的活动情况,还有一方面做客户大数据业务的一些需求,我去做一些数据分析平台架构设计和演进。比如说这方面我们为了增强一些实时数据的分析能力,去构建相应的数据实时计算平台,去做数据入湖方案建设,去做湖仓一体架构升级这方面的内容。
【嘉宾】平时的话,代码的话,其实我这还要写一点的,但现在写的比以前少了。现在一般是使用Python或者Scala写一些Spark或者是Flink分析的代码,有时候会使用Spring去做一些平台开发的工作,目前其实主要的时间是花在团队或者是公司的一些产品方案上,代码写的不多,但是作为一个技术出身的人,还是挺怀念能够天天写代码的日子的。
【主持人】我看您主要负责电信行业大数据平台架构这一板块,它是如何进行的?主要包括哪些方面?
【嘉宾】按照我个人的理解,其实所有大数据平台架构、整体内容和分层基本上都是一致的。包括数据的这个接入、存储、计算,还有可视化这几个方面,所以说在进行大数据这个架构的时候,我们也是按照这部分去做相应的分层和规划的。首先是这个数据的采集同步的这一块,我们一般的话就是可以选择的,比如说开源的工具,像现在很火爆的Apache Flink,或者是之前很成熟的Scoop,还有阿里的DataX等等。当然更多时候我们也会有一些个性化的需求,这时候我们可能会需要自建一些采集的一些同步的一些平台设施,去支持更多的一些同步场景。
【嘉宾】然后是存储方面。存储方面的话一般是使用开源的平台,这部分自研其实是成本比较高的,根据业务我们的需求,我们去选择相应的数据仓库,比如说离线的数仓,我们最常用的就是Hive,实时数仓的话,现在有Doris、ClickHouse去做选择。在计算这方面计算的话,数据计算在大数据里面主要分为四个部分,有四种情景,应该说一种是离线,还有个实时,还有即时分析以及AI人工智能这四种场景。离线分析的话,大多数情况下我们都可以用Spark去做。实时的话可以选择包括SUB streaming或者是Flink,即时分析这块的话选项也很多,就根据我们的需求,我们可以选择麒麟或者选择德沃一,其实如果要求的不是那么高的情况下,其实我们也可以用Circle去做大数据的AI的分析,当然如果有更多的需求,我们可以使用更专业的AI平台。最后一块的话,数据的可视化方面,这部分的话我们大家常用的可能就比如说我们的了解知名度很高的帆软,还有一些阿帕奇的Superset,我们以前或者说只用于可视化的话,Spring可以集成Echarts这种可视化的工具,这是四层,除了这些层级的内容之外,当然还有一些能够去贯穿整个全程的一些工具,比如说工作流的一些调度,我们就是常用的可能Dolphin Scheduler。还有一些数据治理方面的工具,这一块的话,比如说有数据质量、数据监控、元数据管理、资产管理这块的工具。此外的话,架构的同时我们觉得除了这些工具之外,还要结合一些业务的特点,比如说我们电信行业这个架构就有它的一些特点,比如说它的数据,它数据最常用的数据就是手机信令的数据,手机信令数据就是用户的手机上报的各类数据,这个信令数据它是有很多种,但是它基本上都有几个特点。
【嘉宾】第一的它是数据量是非常大的,比如说将某个省,某省的运营商一天它的位置信令,光一种位置信令它都可以达到千亿的级别,它如果所有的信令加起来,那可能是万亿级别的。第二的话,它一个特点的话,它记录信令数据,它是手机上报的,它记录了一个用户上报的一些位置上报的时间,所以说它这个数据跟正常的数据来说,它有一些时间和空间上的属性,那我们分析的时候也要考虑这些方面,对吧?所以说要做这些分析的话,我们就首先我们要考虑分布式的高效的存储方案,因为它的量非常大。此外我们为了提高它的效率,我们要考虑用计时的一些索引或者计时的分析算法去提高它的计算效率。比如说我们在大数据存储中,实际使用上我们使用了一些GeoMesa去进行时空数据的存储,使用GeoSpark或者其他方式去做地理的分析。在上层的一些可视化或者是一些简单分析中,其实我们也会使用Postgresql进行存储,Postgresql的SQL查询架构中其实用到了很多工具,但这些工具我们,我当时考试的时候,考CDA的时候,我感觉我都学会的,都了解到了,我就觉得这个CDA的考试其实和我们这个大数据分析是很契合的,在学习考试的同时,感觉自己的大数据这块能力有了很大的提升,这方面真的是挺感谢CDA的。
【主持人】如何用形象的比喻描述大数据的技术生态?像Hadoop、Hive、Spark之间是什么关系呢?
【嘉宾】我个人感觉大数据的生态它是非常庞大的,最早是围绕着Hadoop这个中心去建设起来的。在Hadoop之前,其实我们的一些分析一般都是单机进行的,但是想水平的扩展就是非常的困难,随着Hadoop的这个问世,它就为我们提供了一套分布式的基础环境,这个基础环境就包含几个方面,一个是分布式的存储方式ADFS,还有一个是分布式的计算方式MapReduce,还有一套分布式的资源环境Yarn,相当于给我们构建了一个分布式的一个电脑,就是我们这个电脑可以运行在很多节点上,Hadoop提供这些基础设施构建了这个分布式底座,构建分布式底座之后,其实我们后面道路就开阔多了,我们可以在这底座之上去构建更多的,比如说分布式的数据仓库、分布式的SQL计算、分布式KV存储等等,我们想要一个分布式的数据仓库,首先要存储数据,我们把数据存到ADFS上,我们要用SQL去查询数据仓库里面内容,就可以把SQL转换成MapReduce这种分布式计算,我们在查询的时候需要用到资源,我们就把任务跑到YARN上,其实这样Hive就出来了。想在Hadoop基础上对它的MapReduce做一个升级,首先我们就说我们把中间数据都不用再写到磁盘上,现在我们就更多的把数据放到内存中去进行计算,这样的话其实是通过一系列的优化,我们就有了一个新的分布式引擎Spark。
【主持人】可以给大家讲一个经典的大数据分析解决案例吗?
【嘉宾】好的。其实我们现在有一个经典的案例,也就是说在疫情中寻找一个人的时空伴随者,时空伴随者就是可能与某个人有接触的人群,就说同一时间可能在同一个地方出现,发生了一定的接触,这样他就有一定感染的一个风险。时空伴随者就是在疫情中相当于对密接的进一步扩大,他是通过一个模糊的匹配,就是说可能会接触,就进行时空伴随者分析。我们就要知道几个城市所有的人群,比如说像南京一个城市1000万人,他每天他的轨迹什么样的?他从早上到晚上他们的轨迹什么样的?这个数据量是很大的,知道了之后我们要用通过一些大数据的算法,就说通过时间和空间的一个计算去找到,比如说某一个人和某一个指定人员的轨迹,他在这部分时间和空间上,他这个维度上存在重叠的这个人群,这时空伴随者其实用处也非常有用。比如说我们发现了一个新冠感染者或者是疑似感染者之后,我们可以第一时间就是重点筛选关注他们这个时空伴随人员,对这部分人进行一个重点的一个关照,比如说通知做核酸,这样就其实提升了我们这个疫情的防控效率的。
【主持人】您在这个领域也是非常有经验了,在数据中台探索中,您有什么想法吗?
【嘉宾】数据中台目前的其实已经很成熟了。大概两三年前大家都开始做,其实现在云厂商们都已经有了一很完善这个数据中台的产品。但其实有一个问题就是说从数据中台这个概念提出来,包括实施到现在它一直存在着,就数据中台怎么样在各行业进行实际的落地,不同的行业其实它面临的问题是不一样的,比如目前来说互联网电商还有金融,还有电信这个行业算是走在前面的,它的成熟度非常高,很多数据都已经上台。但是在政府、工业这方面,数据中台的这个上台其实还在路上,还有很大的开发空间,其实我们现在关注这方面,其实我们也希望能够结合国家政务信息化、产业数字化这个进程去解决客户业务中实际面临的一些问题,推动这个客户的数字化建设,推动客户去做数据中台,做到这一点,其实我觉得我们的这个数据中台其实就没有白做了。
【主持人】大数据平台能够保障各系统之间数据的互通与共享,让数据透明化,更好的为分析及决策提供有价值的依据,同时能够提供采集、计算、存储、分析、可视化等方面的能力。因此,在有能力的情况下,构建大数据平台对企业的发展极为必要且有意义。感谢王幸今天的分享,干货满满,同样希望从事此岗位的小伙伴有所帮助,我们下期再见。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05