京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【每周一期-数据蒋堂】报表的数据计算层(附直播预告)
CDA很有幸,邀请到蒋老师来给我们做线上的直播,直播主题《集算器应对临时性计算》,时间是9月5日(周二)晚19:30。如果你有关于集算器方面的疑问,这将是你和大拿近距离接触的绝佳机会。(报名方式见下文)
我们在上一期已经解释了报表应用结构中数据计算层的必要性,以及可以使用报表工具自定义数据源接口来实现计算层。在计算层中要完成一些复杂的计算逻辑,因此要有可编程的能力,而基于自定义接口可以采用报表工具的宿主语言(即用于开发报表工具的程序设计语言)进行开发,在功能方面没有问题,不过,实际应用中却仍有不少缺陷。更好的方式是实现一个显式的数据计算层,在其中提供可解释执行的脚本功能,把数据源计算独立出来。
我们从四个方面来分析后者的优势。
代码编写
报表工具的宿主语言一般是Java、C#等高级语言,这类语言针对结构化数据集的支持很有限,虽然都能做,但却非常繁琐,简单做个求和运算都需要写数行代码的循环来实现。而报表数据源处理则大量涉及批量数据运算,采用高级语言开发时会导致动辄数百行的冗长代码,编写和调试都很困难。
专门为数据计算设计的脚本则能够提供丰富的结构化数据集运算功能,可以很方便地实现批量数据计算。代码更短不仅是工作量更少、调试方便,而且还有利于整体了解和把握算法。如果语言设计得好,大多数报表的数据源准备算法都可以在一屏内实现,整个算法过程一目了然。
应用耦合
报表的呈现式样是由报表工具绘制的模板来控制,报表模板一般以文件形式存放在文件系统中。如果数据准备采用自定义数据源实现,这部分代码将作为应用程序的一部分被一起编译和打包。呈现模板和数据集算法作为同一个报表的两个关键要素必须合理配合才能正常工作,但物理上却会分存于两处,甚至可能是不同人员开发的,这给修改维护报表带来麻烦,需要刻意去保持两处的一致性。
独立计算层的计算脚本和报表模板一样,都是解释执行的,脚本也可以文件形式与和报表模板放在一起,报表维护时很容易保证这两部分一致,这方面不存在应用耦合问题。
热切换
报表的数据集算法如果使用自定义数据源实现,那就会成为应用程序的一部分,发生修改时就需要和整个应用程序一起重新编译打包,并且在大多数情况时需要将应用停机后再重启。而报表是个业务稳定性相对较差的功能,经常会增加和修改,这样就会导致应用程序频繁重启。虽然Java等开发机制也支持热加载,但使用复杂,大多数应用程序员难以掌握。而且一旦加载后的程序就不会被清除,即使不再有用也会一直占据内存,热加载技术并不很合适应用于报表数据源。
类似地,热切换对于使用独立计算层的脚本也不再是问题,有报表修改只要修改呈现模板和相应的计算脚本。因为脚本是解释执行的,应用程序本身并不需要改变,也就没有必要停机重启。被修改的报表在访问时临时计算即可。
开发人员
使用Java等高级语言实现报表数据集准备时,需要在代码中引用数据库连接、基础类库等各种环境信息,还要了解和遵循整个应用程序的代码规范以保持协调,这常常是项目组中的专业程序员才能掌握的技能。而开发报表数据集只要了解数据结构和运算逻辑,其实用户方有不少技术人员都拥有这个能力,但苦于难以理解开发环境而很难自由实现新的报表。
有独立计算层时,报表开发需要的各种环境信息可以事先在应用程序中配置好,使用脚本编程时也不必关心整个应用的代码规范,报表开发人员只要关心数据结构和运算逻辑,可以用于开发报表的人员更多,以适应报表频繁修改的业务特性。
直播预告
直播时间:9月5日(周二)晚19:30
直播主题:集算器应对临时性计算
直播报名:扫描下方二维码或点击阅读原文报名
直播简介:
在现实业务中有大量的临时性计算需求:数据挖掘算法执行前的清理准备、生成满足一定业务规则的测试数据、实施临时想到的数据分析手段、应对业务部门提出来的取数需求、大数据计算优化方案的实验,...。这类计算需求大都有较强的随意性,缺乏可复用性,不适合由专业程序员事先写到应用程序中,而需要由当事人员临时编写代码解决。目前业界主要采用SQL(面对单数据库)和python等脚本(面对多数据库或非数据库)来处理临时性计算,在环境部署、开发简便性等多方面都有不小的局限性。
润乾集算器作为一种专门面向结构化数据计算的程序设计语言,提供了即装即用的开发环境并固化了大量外部数据源接口,精心设计的语法体系和丰富完善的基础类库使得代码编写更为简单,同时还兼顾了性能和容量问题,能够处理大数据量以及编写并行计算代码,非常适合用于解决临时性计算,超强的集成性还能方便地将临时性计算转成永久计算。
本次内容将从分析临时性计算的特性开始,引出解决方案应当具有的能力,讨论现有技术的优缺点,然后介绍集算器的结构和功能特点,并通过代码实例体会集算器在临时性计算方面的应用优势。
蒋步星,清华大学计算机硕士,著有《非线性报表模型原理》等
1989年中国国际奥林匹克数学竞赛团体冠军成员,个人金牌。
2000年创立润乾公司,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准。
2008年开始研发不依赖关系型数据的计算引擎,历经多个版本后,于2014年集算器正式发布。有效地提高了复杂结构化大数据计算的开发速度和运算效率。
2016年荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业 • 十大领军人物”。
2017年将带领润乾软件朝着拥有自主产权的非关系型强计算数据仓库、云数据库等产品迈进。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18