机器理解大数据的秘密:聚类算法深度详解 在理解大数据方面,聚类是一种很常用的基本方法。近日,数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章,对一些聚类算法进行了基础介绍, ...
2017-04-03
SAS数组的使用 今天呢本想写个基于信息增益的决策树算法,突然发现把数组的使用方法给忘记了,那今天借介绍下SAS中数组的使用吧。 SAS把一组同为数值型或同为字符型的变量合在一起,使用同一个名字称呼 ...
2017-04-03
sas输出基尼方差,F检验 有时候,我们在建模前期会有一个变量探索的单变量与因变量的数据分析报告,但其实,不同的数据形式有不同的指标来衡量变量与因变量的解释能力 今天的代码介绍的就是单变量与因变量之 ...
2017-04-03
关于缺失统计函数cmiss、nmiss中的小细节 在数据清理中统计缺失变量的缺失的时候,我们经常会用到cmiss函数和nmiss函数,这两者都是用来对缺失个数进行统计,两者区别就在于前者既能用于数值型也能用于字符型, ...
2017-04-03
sas正则式之prxparse. Prxmatch 今天分享的是我这几天用到的正则式的一个小总结,这部分的内容因为比较多,所以会分成几篇文章分享。 其实我们在做数据的过程中老是会听到别人说,r处理数据比sas好用,但是 ...
2017-04-03
sas正则式之prxparen 今天还是要继续正则式的内容,这周的内容是prxparen函数,这个函数我个人觉得特别有用,是因为他和“|”结合使用可以同时容纳很多种情况的字符串。 prxparse这个函数没有什么参数,就 ...
2017-04-03
SAS DATA步之全解密 SAS DATA步对于SAS入门学习者来说是个难以理解的东西,因为SAS封装了一些过程,这种封装对于有语言基础的人来说反而是一个障碍。本文非常详细的解释了SAS 数据的编译、执行过程,对于了解SA ...
2017-04-03
SAS—format过程 format过程主要用来定义数值或符号文字的输出和输入格式。接下来看一个例子: /*format 过程定义了变量类型 income_desc*/ proc format ; value income_desc 0-<5000 = \'低收入\' ...
2017-04-02
这十个经典方法,是运营数据分析不能不会的 眼花缭乱的东西很多,真正派上用场的,却不见得是那些看起来炫酷的。很多方法朴实无华,却解决大量的问题。下面十个方法都是我这么多年做互联网运营分析时一定会用 ...
2017-04-02
SAS—freq、means过程 SAS—freq、means过程 proc means过程 means过程是SAS提供的一个数据汇总过程,单个或多个变量的简单的描述性统计分析。 means过程语法: proc means <data = 数据集名><选项> ...
2017-04-02优秀数据分析团队应该做好这些事情 Q:数据分析团队如何给自己找活干? 当业务部门没有提出分析想法,各方面数据看板已经做得很完善的情况下。数据分析团队如何给自己找活干,面对那么多业务部门,如何从一个 ...
2017-04-02SAS信用评分九步曲之第一步数据清洗 累积了一段时间的建模经验了,这次想把我在建模中用的代码分批分享出来,可能写的东西不是你能用到的,毕竟我们接触到的数据都不一样。但是譬如文本清洗之类的,看我之前的 ...
2017-04-02
SAS编程中的这些小问题你遇到过吗 在用SAS编程时,总是时不时会遇到各种各样的小问题,我本人也遇到过一些有意思的问题,在写程序的过程中,为了避免这些小问题也慢慢的积累了一些经验,那么通过这一节分享给大 ...
2017-04-02
从模型选择到超参调整,六步教你如何为机器学习项目选择算法 随着机器学习的进一步火热,越来越多的算法已经可以用在许多任务的执行上,并且表现出色。 但是动手之前到底哪个算法可以解决我们特定的实际问 ...
2017-04-01
SAS一些有用的语句 今天本想继续介绍 summary过程的,但是发现别人整理的比我更好,于是周末再更,好好整理一下描述性统计分析及评分卡建模,今天给大家介绍一些sas有用的语句吧。 1.如果在同一程序 ...
2017-04-01
SAS运算符IN在宏语句中的应用 作为一名SAS程序员,我想大家对运算符IN并不陌生,它广泛的应用于数据步或SQL条件语句中,进行条件判断或数据筛选。请看下面的示例代码: 今天我们想给大家介绍的是如何在 ...
2017-04-01
留一交叉验证及SAS代码 在数据量很少,用什么模型?我们总结过当数据量很少时如何选择模型和方法,以使得数据能够最大限度的得到利用。 其中有一个方法就是做交叉验证。 我有备选的模型G(x1, x2, x3), G ...
2017-04-01【新手必备】SAS常用函数整理 本文根据网络资源对SAS的常用函数进行了整理。主要内容包括: 1. 数学函数 2. 数组函数 3. 字符函数 4. 日期和时间函数 5. 分布密度函数,分布函数 6. 分位数函 ...
2017-04-01
SAS—基于熵的连续变量的离散化 今天介绍下整个程序逻辑及sas代码的详细介绍。 首先宏 %BinContVard调用了宏%CandSplits;然后宏%CandSplits又调用宏 %BestSplit、%GValue;最后通过宏%ApplyMap应用于数 ...
2017-03-31
sas单变量的特征分析 大炮,我有个烦恼,我领导最近老叫我单变量结合因变量分析,但是都是分段分析,我总是写proc sql然后group by ,但是这个过程好无聊啊,有木有什么新的代码,让我可以分析的快点啊。 最 ...
2017-03-31在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26