【每周一期-数据蒋堂】SQL像英语是个善意的错误
我们知道,SQL长得很像英语,简单的SQL语句直接可以作为英语读。除了SQL外,其它主要程序设计语言都没有这样,语法中就算有英语单词也仅仅是作为某些概念或操作的助记符而已,写出来的是形式化的程序语句(statement)而不是英语句子(sentence)。而SQL不同,它会把整个句子写成符合英语习惯的形式,还会补充很多不必要的介词,比如FROM作为语句的运算主体却被写到后面,GROUP后面要写一个多余的BY。
为什么会这样?很容易想到的理由是希望非程序设计人员也能使用。用户只要会读写英语,就可以写出SQL来查询数据。这显然是个善意的初衷,但结果却不尽如人意。绝大多数业务人员只会用SQL写非常简单的查询,而对于这类查询,应用程序常常都有更为便捷直观的可视化界面来协助,并不需要直接手写语句,这个设计初衷就失去意义。反过来, 经常使用SQL做运算的仍然是程序员,SQL还是一种编程语言,像不像英语对于程序员理解并没有多大差别,反而会带来不小的困难。
事实上,SQL是一种语法非常严格的语言,语句中任何一点不合规的地方就会被解释器拒绝,使用者必须认真学习并遵守其语法规则,这和其它程序设计语言并没什么两样。而自然语言真正的优势在于具有模糊性,可以一定程度接受不严格的语法,但SQL并没有支持这一点,在发明SQL那个年代也实现不了这个特性。
像英语的好处没有体现,坏处却很严重,将语法设计得像自然语言,看起来容易掌握,其实恰恰相反。
贴近自然语言带来的主要坏处是非过程性。程序逻辑一般是分步执行的,用变量记录中间结果,供后面的步骤使用。但自然语言不是这样,两句话之间的引用关系靠少量几个代词维系,不够用且不精确,所以更习惯的做法是把尽量多的任务写在一句话中,复杂情况下就会大量使用从句。在SQL中的表现就是一句话中配有多个动作,SELECT、WHERE、GROUP都拼进去,像WHERE和HAVING其实是一个意思,却要采用两个词以示区别,而查询需求复杂时就会出现多层嵌套的子查询。这种现象在其它程序设计语中是不常见的。
分步是降低理解和执行难度的有效法门,本来挺简单分几步能做到的事情,如果不分步就会很绕。比如要找出销售额超过平均值两倍的客户,自然思维方式就是先算出销售额的平均值,再找出销售额超这个值两倍的客户,两个语句完成。而SQL的写法就需要用子查询写成更长的一句。这个例子还算好懂,只有两层,一般自然语言的从句用来描述两层关系的理解难度还可以接受,但实际复杂的查询涉及到三五层的比比皆是,严重增加理解难度。
不提倡分步,就会导致单句SQL很长。程序员面临的复杂SQL语句,很少以行计,经常是以K计。而同样的100行代码,分成100个语句还是只有1个语句,其复杂度完全不是一个层面的。这种代码理解起来非常困难,好不容易写出来,过两个月后自己都读不懂,而且太长不分步的单句非常难以调试,开发周期也更长。
关于过程性,SQL的拥趸者一直有一个说法:写SQL时用户只要关心要什么,而不必关心怎么做,计算机会自动找解决方案,这样语法本身不需要支持过程性。
这其实是个胡扯!
任何程序语言在某种层次上都具有这个能力,写汇编语言需要关心寄存器和内存的动作,但不必关心更下层的与非门的动作。SQL中不必关心数据在物理存储层面(文件系统、内存和硬盘)的动作,但仍然要关心逻辑层面(表和字段)的运算。SQL语句事实上也在描述运算逻辑,特别是多层嵌套关联的复杂SQL,在描述问题目标的同时,实际上也指明了执行过程,或者倒过来说,在SQL中也只能用指明执行过程的方法来描述问题目标,只不过相对比较高层次一些而已。
不过,SQL只是不提倡分步计算,而并非完全不支持过程性。使用存储过程就相当于分步执行SQL,使用外部程序调用SQL也可以实现过程性,如果不考虑临时表(用于存储中间结果)和数据库IO(外部语言调用SQL时要获得运算结果)的低性能,这些方法在功能上并没什么缺失。但要考虑到数据量导致的性能问题时,还是经常需要编写长SQL才能解决问题。在数据量较小、性能问题不突出时,可以用这些方法来补充SQL的过程性。
蒋步星,清华大学计算机硕士,著有《非线性报表模型原理》等
1989年中国国际奥林匹克数学竞赛团体冠军成员,个人金牌。
2000年创立润乾公司,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准。
2008年开始研发不依赖关系型数据的计算引擎,历经多个版本后,于2014年集算器正式发布。有效地提高了复杂结构化大数据计算的开发速度和运算效率。
2016年荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业 • 十大领军人物”。
2017年将带领润乾软件朝着拥有自主产权的非关系型强计算数据仓库、云数据库等产品迈进。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14