建立数据感性认识 变量类型和数据分布 变量类型 连续变量 离散变量(名义变量-有序,分类变量-无序) 数据分布 分布就是概率,研究变量无外乎就是看变量的值以及其取值的概率。此事数据由一大堆数 ...
2018-02-27数据挖掘中的分类技术 KNN(K最近邻算法) 算法核心:如果一个样本在特征空间中K个最相似的样本中的大多数属于一个类别,则该样本也属于这个类别,并具有这个类别的特征 在确定分类时只依靠最邻近的一个 ...
2018-02-27R描述性统计分析 概念 数据摘要,有损地提取数据特征的过程,包含基本统计,分布/累计统计,数据特征(相关性,周期性等),数据挖掘 数据有很多变量和观测值,可以用一些简单表格,图形和少数汇总数字 ...
2018-02-27数据结构中排序和查找各种时间复杂度 (1)冒泡排序 冒泡排序就是把小的元素往前调或者把大的元素往后调。比较是相邻的两个元素比较,交换也发生在这两个元素之间。所以相同元素的前后顺序并没有改 ...
2018-02-27大数据处理信息的六个环节 大数据按照信息处理环节可以分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。而在各个环节中,已经有不同的公司开始在这里占位。 ...
2018-02-27企业绩效管理热潮下的BI实践 一、中国企业绩效管理的“热潮” 1.绩效管理“满意度”不高 目前国内企业兴起了绩效管理的热潮,在这股热潮中绩效管理流行起KPI,但是企业在KPI的应用效果并不尽如意。据一份国际4 ...
2018-02-27各种排序算法的时间复杂度 选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。 排序算法不稳定的含义是: 在排序之前,有两个数相等. 但 ...
2018-02-27常用几种排序算法的时间复杂度和空间复杂度 常用的排序算法的时间复杂度和空间复杂度 1、时间复杂度 (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。 ...
2018-02-27大数据热中的冷思考 要学会判断数据 当前,由于大数据在社会实践与理论研究上的巨大影响,有关大数据的讨论已经渗透到每一个行业和领域之中,带来了各行各业对大数据的热捧。大数据显然具有重要价值,这一点毋 ...
2018-02-27数据科学职业生涯路径:如何在数据分析工作中找准自己的角色和定位 写在前面 全世界,企业每天都在创造更多的数据,迄今为止大多数都在努力从中受益。根据麦肯锡的说法,仅美国就将面临150,000多名数据分 ...
2018-02-26Python 面试中8个必考问题 Q1、下面这段代码的输出结果是什么?请解释。 def extendList(val, list=[]): list.append(val) return list list1 = extendList(10) list2 = extendList(123,[]) list3 = exten ...
2018-02-26【北京弘成学苑科技发展有限公司】招聘数据分析师 弘成教育集团(中华学习网www.chinaedu.net)成立于1998年,是由McGraw-hill、IDG等世界知名教育和投资机构投资成立的全面教育服务提供商。公司自成立以来,始终积 ...
2018-02-26【普华众鑫文化传播有限公司】招聘数据分析师 普华商学院是商业教育行业的改革者和推动者,学院以中国特色商业理论体系为核心理论基础,由翟山鹰教授发起并创办,师资汇集政府、投融资、资本运营、法律财务税务、教 ...
2018-02-26【北京华媒康讯信息技术有限公司】招聘数据分析师 健康界致力于打造中国医健领域第一媒体、第一智库与第一平台。从资讯入口到知识入口,从资源到商机,健康界用专业能力和创新精神演绎”互联网+“时代的专业媒体创业 ...
2018-02-26提升数据中心效率的10种方法 数据中心托管逐渐成为了一种企业信息化中的流行趋势,而虚拟化则在其中发挥了重要作用。那么,虚拟化与主机托管越来越流行的原因是什么?虚拟化与主机托管又在哪些方面得到了广泛 ...
2018-02-26简单易学的机器学习算法——K-Means++算法 一、K-Means算法存在的问题 由于K-Means算法的简单且易于实现,因此K-Means算法得到了很多的应用,但是从K-Means算法的过程中发现,K-Means算法中的聚类中心的个数 ...
2018-02-26数据挖掘中的特征选择问题 特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常 ...
2018-02-26使用R并行方式对数值型数据离散化 数据的特征按照其取值可以分为连续型和离散型。离散数值属性在数据挖掘的过程中具有重要的作用。比如在信用卡评分模型中,当自变量很多时,并非所有字段对于目标字段来说都是 ...
2018-02-26Python统计学一数据的概括性度量 一、数据的概括性度量 1、统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和 ...
2018-02-26使用Python进行描述性统计 1 描述性统计是什么? 描述性统计是借助图表或者总结性的数值来描述数据的统计手段。数据挖掘工作的数据分析阶段,我们可借助描述性统计来描绘或总结数据的基本情况,一来可以梳 ...
2018-02-26在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29