K-means算法原理与R语言实例 聚类是将相似对象归到同一个簇中的方法,这有点像全自动分类。簇内的对象越相似,聚类的效果越好。支持向量机、神经网络所讨论的分类问题都是有监督的学习方式,现在我们所介绍的聚 ...
2017-03-17数据挖掘十大算法之Apriori详解 有时候,人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。 ...
2017-03-17python中pyc和pyo的作用 pyc文件,是Python编译后的字节码(bytecode)文件。只要你运行了py文件,python编译器就会自动生成一个对应的pyc字节码文件。这个pyc字节码文件,经过python解释器,会生成机器码运行 ...
2017-03-17Python变量作用域 1、作用域介绍 python中的作用域分4种情况: L:local,局部作用域,即函数中定义的变量; E:enclosing,嵌套的父级函数的局部作用域,即包含此函数的上级函数的局部作用域,但不是全局的; ...
2017-03-17数据挖掘十大算法之决策树详解(2) ID3算法 ID3和C4.5都是由澳大利亚计算机科学家Ross Quinlan开发的决策树构建算法,其中C4.5是在ID3上发展而来的。 ID3算法的核心是在决策树各个结点上应用信息增益准 ...
2017-03-17数据挖掘十大算法之决策树详解(1) 从分类问题开始 分类(Classification)任务就是确定对象属于哪个预定义的目标类。分类问题不仅是一个普遍存在的问题,而且是其他更加复杂的决策问题的基础,更是机器学习 ...
2017-03-17数据挖掘十大算法之CART详解 CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将 ...
2017-03-16机器学习优化算法之爬山算法小结 机器学习的项目,不可避免的需要补充一些优化算法,对于优化算法,爬山算法还是比较重要的.鉴于此,花了些时间仔细阅读了些爬山算法的paper.基于这些,做一些总结. 目录 1. 爬山 ...
2017-03-16Python学习-函数、作用域 函数: 定义函数: >>> def do_nothing() pass 调用函数: >>> do_nothing() None:是Python中的一个特殊的值,它和False,空值是有区别的。 注意函数参数的传入 ...
2017-03-16Python学习-语句、语法 #: 注释,不支持多行注释 \\: 连接,当一行的程序太长时,可以使用连接符\\(反斜杠) 1、使用if、elif和 else进行标记 小于两个的选择: if 条件 : 语句段1 else : ...
2017-03-16机器学习-Cross Validation交叉验证Python实现 1.原理 1.1 概念 交叉验证(cross-validation)主要用于模型训练或建模应用中,如分类预测、pcr、pls回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来 ...
2017-03-16机器学习中概率论知识复习 1 基本概念 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。 1.1 概率空间 说到概率,通常是指一个具有不确定性的event发生的 ...
2017-03-16机器学习实现与分析之五(高斯判别分析) 高斯判别分析(GDA)简介 首先,高斯判别分析的作用也是用于分类。对于两类样本,其服从伯努利分布,而对每个类中的样本,假定都服从高斯分布,则有: 这 ...
2017-03-15机器学习实现与分析之四(广义线性模型) 指数分布族 首先需要提及下指数分布族,它是指一系列的分布,只要其概率密度函数可以写成下面这样的形式: 一般的很多分布(如高斯分布,泊松分布,二项 ...
2017-03-15斯坦福机器学习实现与分析之二(线性回归) 回归问题提出 首先需要明确回归问题的根本目的在于预测。对于某个问题,一般我们不可能测量出每一种情况(工作量太大),故多是测量一组数据,基于此数据去预 ...
2017-03-15梯度下降法分析 梯度下降法的基本思想是函数沿着其梯度方向增加最快,反之,沿着其梯度反方向减小最快。在前面的线性回归和逻辑回归中,都采用了梯度下降法来求解。梯度下降的迭代公式为: \\(\\begin{aligned} ...
2017-03-15批量梯度下降与随机梯度下降 下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。 ...
2017-03-15从导数的物理意义理解梯度下降 机器学习中常会用随机梯度下降法求解一个目标函数L(Θ)的优化问题,并且常是最小化的一个优化问题: minL(Θ) 我们所追求的是目标函数能够快速收敛或到达一个极小值点。而随机梯 ...
2017-03-155个开源Python库,点亮你的机器学习之路 机器学习令人兴奋,但实际操作却很困难也很复杂。它涉及到很多手动提升,如集合工作流,设置数据源,以及在内部部署与云部署的资源之间切换等。 Python 是一款强大的 ...
2017-03-14机器学习常用算法(LDA,CNN,LR)原理简述 1.LDA LDA是一种三层贝叶斯模型,三层分别为:文档层、主题层和词层。该模型基于如下假设: 1)整个文档集合中存在k个互相独立的主题; 2)每一个主题是词上的多项 ...
2017-03-14Power BI 热力地图制作指南:从数据准备到实战分析 在数据可视化领域,热力地图凭借 “直观呈现数据密度与分布趋势” 的核心优势 ...
2025-08-20PyTorch 矩阵运算加速库:从原理到实践的全面解析 在深度学习领域,矩阵运算堪称 “计算基石”。无论是卷积神经网络(CNN)中的 ...
2025-08-20数据建模:CDA 数据分析师的核心驱动力 在数字经济浪潮中,数据已成为企业决策的核心资产。CDA(Certified Data Analyst)数据分 ...
2025-08-20KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-20偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12