大数据处理时我们经常会遇到数据倾斜的问题,尤其是在数据量过大时,数据倾斜可能会导致各种各样的问题。Hadoop数据倾斜主要表现为:ruduce阶段卡在99.99%,而且是一直99.99%不能结束。 具体来说就是:mapreduc ...
2020-07-20numpy是一款功能强大的python库,通常被用来存储和处理大型矩阵。numpy可以支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库 。相信大家在数据分析过程中一定少不了numpy的帮助,为了帮助大 ...
2020-07-207月15日,北京文理研修学院和北京国富如荷网络科技有限公司(以下简称:国富如荷)就\"校企合作,协同育人\"签订了战略合作协议。双方在招生、配套学历、学制和培养模式、教学方式、学生管理、就业服务等具体事项 ...
2020-07-20协同过滤推荐算法是诞生时间最早,而且应用广泛的,著名的推荐算法。其最主要的功能进行是预测和推荐。协同过滤推荐算法可以通过对用户历史行为数据的挖掘,从而发现用户的偏好,并且基于不同的偏好,将用户划分为 ...
2020-07-20怎样让EXCEL表中的数字活起来,更直观、更形象的表达出数据的结果呢?答案当然是:制成图表啦。今天小编跟大家分享的就是如何使用EXCEL中的数据透视表功能,希望对大家有所帮助。 一、首先让我们了解一下什么是E ...
2020-07-20偏差与方差是我们在机器学习中经常遇到的两个概念,而且在有关机器学习的面试中,偏差与方差也经常拿来考验面试者的机器学习的基础知识。偏差与方差这两者看似简单,但要真正弄清楚两者之间的联系与区别,必须要下 ...
2020-07-20文章来源:接地气学堂 作者:接地气的陈老师 “我可能干了个假的数据分析师!”经常有同学发出这种感慨,然后到处发《数据分析师是干什么的》《数据分析师、数据工程师、数据运营、数据挖掘工程师、商业 ...
2020-07-20今天跟大家分享的是:K-s曲线,直接上干货。 一、K-s曲线是什么 K-s全称:Kolmogorov-Smirnov,中文名叫做洛伦兹曲线,Ks经常被用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。好 ...
2020-07-17扫码,扫码,大家现在见得最多的图片就是二维码了。但是,你了解二维码吗,知道怎样美化二维码?生成动态二维码吗?今天小编就给大家分享怎样用python来美化二维码。操作很简单,相信大家很快就能学会,一起来看吧 ...
2020-07-17R语言是一种用来进行数据分析、绘图的解释型语言。而我们在数据分析过程中会遇到许多缺失值,我们必须对这些缺失值进行处理,才能更好地进行下一步工作。今天小编跟大家分享R语言缺失值的判别和处理方法,希望对大 ...
2020-07-17在数据处理过程中,经常会遇到偏态数据。我们都知道数据整体服从正态分布,那样本均值和方差则相互独立。因此大家都会希望数据事成正态分布的,但是现实情况却是:大多数情况下,数据都是偏态分布的,这时候就需要 ...
2020-07-17导读:众多企业管理者都将“数字化转型”视为战略核心,那么“数字化转型”应该已经有了一个清晰的概念才对,但实际上却并非如此。经过笔者多方收集,似乎大家对“数字化转型”都有自己的理解。数字孪生具有多种定 ...
2020-07-17来源:Python猫 作者:豌豆花下猫 关于变量的命名,这又是一个容易引发程序员论战的话题。如何命名才能更具有可读性、易写性与明义性呢?众说纷纭。 本期“Python为什么”栏目,我们将聚焦于变量命名 ...
2020-07-17来源:早起Python 作者:萝卜 推荐系统将成为未来十年里最重要的变革 社会化网站将由推荐系统所驱动 --- John Riedl明尼苏达大学教授 01前言 智能推荐和泛的营销完全不同 ...
2020-07-17文章来源:接地气学堂 作者:接地气的陈老师 很多同学搞不清楚数据运营和数据分析啥区别。一提起要“搭建数据运营体系”或者“建立数据运营机制”就懵圈: 1、这跟我做一套数据指标有什么区别? 2 ...
2020-07-17据悉,从事生产经营活动的事业单位,将在2020年底前全部转企业,取消事业编制,在职职工转为签订劳动合同,不再是原有的事业单位聘用合同。 此次改革受到波及的事业单位主要有32类,如:工程建设、维修、养 ...
2020-07-17EXCEL是我们在工作中经常用到的数据统计和分析工具,我们在使用EXCEL分析数据,制作图表时经常会遇到有重复值需要处理的状况,今天小编与大家分享的就是EXCEL重复值处理的一些方法和技巧,希望对大家有所帮助。 ...
2020-07-17异常值处理是python数据清洗中重要的步骤,虽然异常值出现频率比较低,但是如果置之不理的话,还是会对实际项目的分析造成偏差,所以今天小编就跟大家分享python数据清洗中应该如何识别和处理异常值,希望对大家有 ...
2020-07-17我们都知道pandas 是一款功能强大的python库,基于Numpy,支持高性能的矩阵运算,通常在数据挖掘和数据分析领域应用较多,但是pandas 数据清洗功能也不能忽视,今天小编就为大家分享pandas是如何检测和处理缺失数 ...
2020-07-17HDFS 全称为Hadoop Distributed File System,是hadoop分布式文件系统,具体来说,是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是作为 Hadoop ...
2020-07-17DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09