一、欠拟合概念及理解 机器学习中欠拟合是一个常见的问题,简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。 图 ...
2020-07-08Kmeans算法属于无监督学习的一种聚类算法,这种算法的目的为:在数据所属类别及类别数量不明确的前提下,依据数据自身的特点对数据进行聚类。聚类过程中,对于类别数量k的选取,需要一定的先验知识,也可根据“类 ...
2020-07-08最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中,最大后验估计是通过利用经验数据获得对未观测量的点态估计。 与极大似然估计类似,不同的是,在似然函数后面多乘了一 ...
2020-07-08矩阵特征值与特征向量在机器学习算法中经常会用到,每次出现都有着其独特的意义,如果不能深入理解特征值和特征向量两个概念,对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...
2020-07-08召回率(Recall),也被称为 查全率,或者True Positive Rate,R= TP/(TP+FN) ; 反映了所有真正为正例的样本中被分类器判定出来为正例的比例。 精度,或者叫做精确率(precision):P = TP/(TP+FP);反映了被分类器 ...
2020-07-08混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是 ...
2020-07-08数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中,数据挖掘和数据分析是两个重要的方式,目 ...
2020-07-07anaconda是一个用于科学计算的python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。anaconda利用工具/命令conda来进行 ...
2020-07-07“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...
2020-07-07假设检验是根据一定的假设条件,由样本推断总体的一种方法。 假设检验问题是统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总 ...
2020-07-07重复值处理是python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。 python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重 ...
2020-07-07数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是 ...
2020-07-07虚拟机是什么?这可能对于没有一定计算机基础的小伙伴很难理解。虚拟机就是虚拟的年脑?其实这样理解也不错。虚拟机是在虚拟硬件上运行的虚拟操作系统(或应用程序环境,如JVM),它的硬盘是在一个文件中虚拟出来的, ...
2020-07-07Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,对那种对几个记录随机读写的在线事务处 ...
2020-07-07Linux与windows相比最大的不同就是,很多操作都需要命令来控制。小编整理了一些文件和目录经常会用到的Linux基本命令,希望对各位小伙伴使用Linux有所帮助。 文件和目录 cd /home 进入 \'/ home\' 目录\' ...
2020-07-07RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...
2020-07-07SQL语言,是结构化查询语言(StructuredQueryLanguage)的简称。SQL语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。下面小编整理了SQL语言的基本语法-增删改查,希望对大家 ...
2020-07-07数据分析是目前最火的行业之一,很多人都想加入,小编今天跟大家分享一些从数据分析就业指导老师那里偷师的求职小技巧,希望能帮助大家成功找到数据分析相关工作。 1. 职位搜索 我们平常搜索求职岗位的 ...
2020-07-07数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步,下面小编整理了几种常用的python数据清洗工具,希望对大家有所帮助。 目前在python中, numpy和pandas是最主流的数据清洗工具,N ...
2020-07-06缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。 python缺失的处理一般情况下有三种方法: (1)删掉缺失值数据 删除法是 ...
2020-07-06CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30探索 CDA 数据分析师在线课程:开启数据洞察之旅 在数字化浪潮席卷全球的当下,数据已成为企业决策、创新与发展的核心驱 ...
2025-06-303D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32% 编辑:LRST 【新智元导读】中科院自动化所提出BridgeVLA模型,通过将 ...
2025-06-30LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23