cda

数字化人才认证

首页 > 行业图谱 >

干货分享 | 推荐一个更高效的数据清洗方法,建议收藏

干货分享 | 推荐一个更高效的数据清洗方法,建议收藏
2021-12-20
来源:关于数据分析与可视化 01、导入库和读取数据 我们先来大致地看一下数据集中各个特征值的情况,通过info()这个方法 df.info() 02、去除掉缺失值和重复值 要是数据集中存在大量的缺失值, ...

2000字详解,当Pandas遇上超大规模的数据集该如何处理呢?(CDA内容分享)

2000字详解,当Pandas遇上超大规模的数据集该如何处理呢?(CDA内容分享)
2021-12-14

2000字详解,当Pandas遇上超大规模的数据集该如何处理呢?(cda干货分享)

2000字详解,当Pandas遇上超大规模的数据集该如何处理呢?(cda干货分享)
2021-12-13
作者:俊欣 来源:关于数据分析与可视化 大家好,又是新的一周。大家一般会用Pandas模块来对数据集进行进一步的分析与挖掘关键信息,但是当我们遇到数据集特别特别大的时候,内存就会爆掉,今天小编就来分享 ...

如何避免无效的数据分析结果,这六种错误不可忽视

如何避免无效的数据分析结果,这六种错误不可忽视
2021-12-08
导读:在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。 作者:宋天龙 本文转自:大数据DT( ...

用Python抓取2500份数据类岗位需求,终于发现了未来最吃香岗位

用Python抓取2500份数据类岗位需求,终于发现了未来最吃香岗位
2021-11-30
来源:关于数据分析与可视化 数据抓取的流程与步骤 数据清洗的流程与步骤 可视化的结果与分析 我们用Python当中的requests模块来发送与接收请求,然后用BeautifulSoup模块也解析返回 ...

Pandas/Sklearn进行机器学习之特征筛选,有效提升模型性能

Pandas/Sklearn进行机器学习之特征筛选,有效提升模型性能
2021-11-22
作者:俊欣 来源:关于数据分析与可视化 今天小编来说说如何通过pandas以及sklearn这两个模块来对数据集进行特征筛选,毕竟有时候我们拿到手的数据集是非常庞大的,有着非常多的特征,减少这些特征 ...

前瞻:数据科学中的探索性数据分析(DEA)

前瞻:数据科学中的探索性数据分析(DEA)
2021-11-16
CDA数据分析师 出品 作者: tukey 数据科学爱好者知道,在将原始数据输入到机器学习模型之前,需要对其进行大量数据预处理。为此,需要遵循一系列标准来准备数据,具体取决于手头问题的类型(回归或分类 ...

手把手教你用 pandas 分析可视化东京奥运会数据

手把手教你用 pandas 分析可视化东京奥运会数据
2021-09-26
作者:刘早起 数据读取 注意到上面的 df1 列名并没有完整,所以可以使用 rename 函数修改指定列的名称 df1.rename(columns={'Unnamed: 2':'金牌数', 'Unnamed: 3':' ...

机器学习如何应用于商业场景?三个真实的商业项目

机器学习如何应用于商业场景?三个真实的商业项目
2021-09-16
在国富如荷这些年的教学过程中,很多同学问到了一个问题: 在现实的商业世界中如何应用机器学习? 也就是说,虽然现在我们一直被各种算法文章和教程轰炸,但是关于企业中一个机器学习项目的“上下文”却 ...

我,一名国企数据人,决定在35岁开启自己的转型之路

我,一名国企数据人,决定在35岁开启自己的转型之路
2021-12-13
大家好,2017年我有幸成为CDA持证人,就此开启了自己数据人转型之路,一路学思维、学技术,并成为了我们公司数字化转型的推行负责人,以下是这几年工作中的一些思考。供同行参考,指正! 思考一:企业为什么要 ...
Python字典操作零基础学习,一步到位
2021-09-08
作者:阳哥 字典(dict)是 python 中的基础数据类型之一,字典的设计并不复杂,我们经常会用到这种数据类型。 学习任何一种编程语言,基础数据类型都是必备的底层基础,今天,我们来学习下 Python 中字典的 ...
一文搞懂Pandas数据排序
2021-08-13
来源:AI入门学习 作者:小伍哥 数据排序,是使用非常高频的功能,Pandas排序支持做的非常好,主要涉及两个函数,两种数据类型,组合起来四种情况。 Series排序 Series.sort_index ...

深入 Python 解释器源码,我终于搞明白了字符串驻留的原理

深入 Python 解释器源码,我终于搞明白了字符串驻留的原理
2021-04-30
英文: https://arpitbhayani.me/blogs/string-interning 作者:arpit 来源:豌豆花下猫(Python猫) 声明:本翻译是出于交流学习的目的,基于 CC BY-NC-SA 4.0 授权协议。为便于阅读,内容略有改动 ...

CDA LEVEL 1 考试,知识点汇总《市场调研》

CDA LEVEL 1 考试,知识点汇总《市场调研》
2021-03-04
1.市场调研的基本步骤 第一步:提出问题 (1) 目前企业的现状是什么样子? (3)消费者的需求是如何分布的? (5)………… 第一,收集资料的范围是什么。进一步地说,我们的成本和时间 ...

该死的端口占用!教你用 Shell 脚本一键干掉它

该死的端口占用!教你用 Shell 脚本一键干掉它
2021-03-02
来源:AirPython 作者:星安果 1. 前言 大家好,我是安果! 在 Web 开发中,经常会遇到「端口被占用」的场景 常规解决方案是: 使用 lsof -i 命令查询占用端口的进程 PID 利用 kil ...

“能干,就干”的心态,伤害性极大,你get到没?

“能干,就干”的心态,伤害性极大,你get到没?
2021-02-04
俗话说:知己知彼,方能百战百胜,你对职业发展抱着什么心态! 大四的小明近来非常沮丧,努力考研却遭遇滑铁卢,心有不甘,聊到为什么要考研时,让人有点震惊…… 他喜欢金融,偏偏本科专业差十万八千里,小 ...

不会面向对象,肯定学不好!简易的Python面向对象攻略来啦

不会面向对象,肯定学不好!简易的Python面向对象攻略来啦
2021-01-22
作者:麦叔 面向对象的概念 更好的做法是使用面向对象的技术。这个游戏无非就是一个个对象互相打打杀杀! 类 - 模板,如人类 实例 - 用模板造出的对象,如貂蝉 属性 - 是特征,如姓名 ...

mysql性能优化

mysql性能优化
2020-11-18
mysql性能优化就是通过合理安排资源,调整系统参数使mysql运行更快、更节省资源。mysql性能优化包括查询速度优化、数据库结构优化、mysql服务器优化等。 优化简介 优化数据库是数据库管理员和数据库开发人 ...

时序数据处理难题攻略(上)

时序数据处理难题攻略(上)
2020-11-10
作者:计量与统计 来源:公众号计量与统计 时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法 ...

聊聊python办公自动化之Word(上)

聊聊python办公自动化之Word(上)
2020-11-25
作者:星安果 来源:公众号AirPython 日常自动化办公中,使用python真的能做到事半功倍!在上一个系列中,我们对python操作Excel进行了一次全面总结。从本篇文章开始,我们继续聊聊另外一种常见的文档 ...

OK