京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【每周一期-数据蒋堂】报表的数据计算层(附直播预告)
CDA很有幸,邀请到蒋老师来给我们做线上的直播,直播主题《集算器应对临时性计算》,时间是9月5日(周二)晚19:30。如果你有关于集算器方面的疑问,这将是你和大拿近距离接触的绝佳机会。(报名方式见下文)
我们在上一期已经解释了报表应用结构中数据计算层的必要性,以及可以使用报表工具自定义数据源接口来实现计算层。在计算层中要完成一些复杂的计算逻辑,因此要有可编程的能力,而基于自定义接口可以采用报表工具的宿主语言(即用于开发报表工具的程序设计语言)进行开发,在功能方面没有问题,不过,实际应用中却仍有不少缺陷。更好的方式是实现一个显式的数据计算层,在其中提供可解释执行的脚本功能,把数据源计算独立出来。
我们从四个方面来分析后者的优势。
代码编写
报表工具的宿主语言一般是Java、C#等高级语言,这类语言针对结构化数据集的支持很有限,虽然都能做,但却非常繁琐,简单做个求和运算都需要写数行代码的循环来实现。而报表数据源处理则大量涉及批量数据运算,采用高级语言开发时会导致动辄数百行的冗长代码,编写和调试都很困难。
专门为数据计算设计的脚本则能够提供丰富的结构化数据集运算功能,可以很方便地实现批量数据计算。代码更短不仅是工作量更少、调试方便,而且还有利于整体了解和把握算法。如果语言设计得好,大多数报表的数据源准备算法都可以在一屏内实现,整个算法过程一目了然。
应用耦合
报表的呈现式样是由报表工具绘制的模板来控制,报表模板一般以文件形式存放在文件系统中。如果数据准备采用自定义数据源实现,这部分代码将作为应用程序的一部分被一起编译和打包。呈现模板和数据集算法作为同一个报表的两个关键要素必须合理配合才能正常工作,但物理上却会分存于两处,甚至可能是不同人员开发的,这给修改维护报表带来麻烦,需要刻意去保持两处的一致性。
独立计算层的计算脚本和报表模板一样,都是解释执行的,脚本也可以文件形式与和报表模板放在一起,报表维护时很容易保证这两部分一致,这方面不存在应用耦合问题。
热切换
报表的数据集算法如果使用自定义数据源实现,那就会成为应用程序的一部分,发生修改时就需要和整个应用程序一起重新编译打包,并且在大多数情况时需要将应用停机后再重启。而报表是个业务稳定性相对较差的功能,经常会增加和修改,这样就会导致应用程序频繁重启。虽然Java等开发机制也支持热加载,但使用复杂,大多数应用程序员难以掌握。而且一旦加载后的程序就不会被清除,即使不再有用也会一直占据内存,热加载技术并不很合适应用于报表数据源。
类似地,热切换对于使用独立计算层的脚本也不再是问题,有报表修改只要修改呈现模板和相应的计算脚本。因为脚本是解释执行的,应用程序本身并不需要改变,也就没有必要停机重启。被修改的报表在访问时临时计算即可。
开发人员
使用Java等高级语言实现报表数据集准备时,需要在代码中引用数据库连接、基础类库等各种环境信息,还要了解和遵循整个应用程序的代码规范以保持协调,这常常是项目组中的专业程序员才能掌握的技能。而开发报表数据集只要了解数据结构和运算逻辑,其实用户方有不少技术人员都拥有这个能力,但苦于难以理解开发环境而很难自由实现新的报表。
有独立计算层时,报表开发需要的各种环境信息可以事先在应用程序中配置好,使用脚本编程时也不必关心整个应用的代码规范,报表开发人员只要关心数据结构和运算逻辑,可以用于开发报表的人员更多,以适应报表频繁修改的业务特性。
直播预告
直播时间:9月5日(周二)晚19:30
直播主题:集算器应对临时性计算
直播报名:扫描下方二维码或点击阅读原文报名
直播简介:
在现实业务中有大量的临时性计算需求:数据挖掘算法执行前的清理准备、生成满足一定业务规则的测试数据、实施临时想到的数据分析手段、应对业务部门提出来的取数需求、大数据计算优化方案的实验,...。这类计算需求大都有较强的随意性,缺乏可复用性,不适合由专业程序员事先写到应用程序中,而需要由当事人员临时编写代码解决。目前业界主要采用SQL(面对单数据库)和python等脚本(面对多数据库或非数据库)来处理临时性计算,在环境部署、开发简便性等多方面都有不小的局限性。
润乾集算器作为一种专门面向结构化数据计算的程序设计语言,提供了即装即用的开发环境并固化了大量外部数据源接口,精心设计的语法体系和丰富完善的基础类库使得代码编写更为简单,同时还兼顾了性能和容量问题,能够处理大数据量以及编写并行计算代码,非常适合用于解决临时性计算,超强的集成性还能方便地将临时性计算转成永久计算。
本次内容将从分析临时性计算的特性开始,引出解决方案应当具有的能力,讨论现有技术的优缺点,然后介绍集算器的结构和功能特点,并通过代码实例体会集算器在临时性计算方面的应用优势。
蒋步星,清华大学计算机硕士,著有《非线性报表模型原理》等
1989年中国国际奥林匹克数学竞赛团体冠军成员,个人金牌。
2000年创立润乾公司,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准。
2008年开始研发不依赖关系型数据的计算引擎,历经多个版本后,于2014年集算器正式发布。有效地提高了复杂结构化大数据计算的开发速度和运算效率。
2016年荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业 • 十大领军人物”。
2017年将带领润乾软件朝着拥有自主产权的非关系型强计算数据仓库、云数据库等产品迈进。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28