大话机器学习之数据预处理与数据筛选 数据挖掘和机器学习这事,其实大部分时间不是在做算法,而是在弄数据,毕竟算法往往是现成的,改变的余地很小。 数据预处理的目的就是把数据组织成一个标准的形式。 ...
2017-12-12
Python金融大数据分析-蒙特卡洛仿真 1.简单的例子 了解一点金融工程的对这个公式都不会太陌生,是用现在股价预测T时间股价的公式,其背后是股价符合几何布朗运动,也就是大名鼎鼎的BSM期权定价模型的基础。 ...
2017-12-12
数据分析基础篇(设计师都应该了解) 当今设计师还不了解数据,自身价值也将会越来越低 第1则- 前言 数据分析是一块知识领域,是一门学科性很强的科目,想要短时间内吃透并不简单,在进入这个领域之前, ...
2017-12-12
如何成为一名数据分析师:数据的初步认知 对所有从事数据相关工作的人而言,都有一个老生常谈的问题: 数据认知 !毕竟在真正开始分析、BI 报表开发或者建模前,对数据进行一定的审查和认知是必须的。今天,就 ...
2017-12-12
数据分析:Python分析学生数据 本文为优达学城数据分析入门课程的mini项目,所用数据集为优达学城某段时间内的学生数据。 数据简介 全部数据包含三个文件,其内容分别为: enrollments.csv: daily-engageme ...
2017-12-11
数据挖掘中,分类与聚类的区别 本文对数据挖掘中,极为常见的两类算法:分类与聚类,做个梳理。 首先,来看看分类和聚类各自的一些定义描述。 分类(classification ): 分类算法需要学习,它通过学习找出描述 ...
2017-12-11
数据挖掘中的分类和聚类 分类(classification ):有指导的类别划分,在若干先验标准的指导下进行,效果好坏取决于标准选取的好坏。 它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标 ...
2017-12-11
Python图像灰度变换及图像数组操作 使用python以及numpy通过直接操作图像数组完成一系列基本的图像处理 numpy简介: NumPy是一个非常有名的 Python 科学计算工具包,其中包含了大量有用的工具,比如数组对 ...
2017-12-11python对DICOM图像的读取方法详解 DICOM(Digital Imaging and Communications in Medicine)即医学数字成像和通信,是医学图像和相关信息的国际标准(ISO 12052)。下面这篇文章主要给大家介绍了关于python ...
2017-12-11
朴素贝叶斯分类算法理解及文本分类器实现 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义 ...
2017-12-11一种根据关键字进行分类的文本分类算法 这样我们可以得出这个算法的重点: 1.提取关键字 如何自动提取关键字呢?我们知道IDF值在一定程度上可以表达一个词的重要程度,像“我的”,“你的” ...
2017-12-10文本分类常用算法比较 本文对文本分类中的常用算法进行了小结,比较它们之间的优劣,为算法的选择提供依据。 一、决策树(Decision Trees) 优点: 1、决策树易于理解和解释.人们在通 ...
2017-12-10朴素贝叶斯模型:文本分类+垃圾邮件分类 学习了那么多机器学习模型,一切都是为了实践,动手自己写写这些模型的实现对自己很有帮助的,坚持,共勉。本文主要致力于总结贝叶斯实战中程序代码的实现(python)及朴 ...
2017-12-10
利用spark做文本分类(朴素贝叶斯模型) 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基 ...
2017-12-10文本分类和聚类有什么区别 简单点说:分类是将一篇文章或文本自动识别出来,按照已经定义好的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技 ...
2017-12-10数据挖掘笔记-聚类-Canopy-原理与简单实现 Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来 ...
2017-12-10python判断图片宽度和高度后删除图片的方法 本文实例讲述了python判断图片宽度和高度后删除图片的方法。分享给大家供大家参考。具体分析如下: Image对象有open方法却没有close方法,如果打开图片,判断图片高 ...
2017-12-09
数据聚类的简单应用 数据聚类data clustering:用来寻找紧密相关的事物,并将其可视化的方法。 1. 聚类时常被用于数据量很大(data-intensive)的应用中。 2. 聚类是无监督学习(unsupervised learning) ...
2017-12-09
数据分析需要权衡哪些要素 无论一个公司部署什么类型的大数据技术栈,有一些共通的因素必须加以考量,以保证为大数据分析工作提供一个有效的框架。在开始一个大数据项目之前,去审视项目所要承担的新数据需求的 ...
2017-12-09
大数据分析之聚类算法 1. 什么是聚类算法 所谓聚类,就是比如给定一些元素或者对象,分散存储在数据库中,然后根据我们感兴趣的对象属性,对其进行聚集,同类的对象之间相似度高,不同类之间差异较大。最大 ...
2017-12-09在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11