数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Python可视化库——Matplotlib和Seaborn库

数据可视化库——Matplotlibimport matplotlib.pyplot as plt1默认可视化操作plt.plot()：画图plt.show()：显示设置参数plt.xticks(rotation)：变量名倾斜plt.xlable(‘变量名’)：x轴名称plt.ylabel(‘变量名’)：y轴名称plt.title()：标题名称子图fig=plt.figure()：指定默认画图空间

cxm272965

2020-07-20

27.5907 2 1

深入浅出之dtype( )和astype( )函数

NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算，ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的。1. 属性dtype用于说明数组中的数据类型的对象2. 函数dtype( )作用：结构化数组类型并加以使用语法：numpy.dtype(object, alig

cxm272965

2020-07-20

27.5907 2 4

python解决pandas处理缺失值为空字符串

pandas来做csv的缺失值处理时候发现奇怪BUG，就是excel打开csv文件，明明有的格子没有任何东西，当然，我就想到用pandas的dropna()或者fillna()来处理缺失值。但是pandas读取csv文件后发现那个空的地方isnull()竟然是false，就是说那个地方有东西。。。后来经过排查发现看似什么都没有的地方有空字符串，故pandas认为那儿不是缺失值，所以就不能用drop

cxm272965

2020-07-20

27.6360 3 4

pandas删除某一列的方法

删除sub_grade_列，输入del df['sub_grade_x'] 方法二：采用drop方法，有下面三种等价的表达式：1. df= df.drop('column_name', 1)输入:df,drop('num',axix=1),不改变内存，及输入df的时候，它还是显示原数据 2. df.drop('column_name',axis=1, inplace=True)输入:df.dr

cxm272965

2020-07-20

27.4900 1 1

Python如何将Series type：object转换为int

1）使用pd.to_numeric进行转换，而解析字符串“ None”时出错2）然后我尝试将NaN替换为None值：替换问题1.1）pd.to_numeric（df ['Var1']，downcast ='integer'）ValueError：无法在位置44816处解析字符串“ None”1.2）df.astype（{'Var1'：'int64'}）。dtypes TypeError：int（）

cxm272965

2020-07-20

27.5907 2 5

matplotlib画图和 seaborn画图的对比

#__author__ = 'Administrator'#coding:utf-8import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsdata=pd.read_csv("./dataset/test.csv")#在matplotlib中的画直方图plt.figure()plt.hist(data["Age"

cxm272965

2020-07-20

27.5907 2 1

关于数据清洗工作的理解

数据清洗是做什么的，为什么要进行数据清洗工作，什么样的数据叫脏数据，脏数据如何进行数据的处理数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看的出就是把"脏"的"洗掉"，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数

cxm272965

2020-07-20

0.1006 1 2

Mysql增删改查语句

增加：INSERT INTO 表名(字段名1，字段名2) VALUE(字段值1，字段值2)例：INSERT INTO a(id,name) VALUE(2,'李四');删除：DELETE FROM 表名 WHERE 条件例：DELETE FROM a WHERE id=1;修改：UPDATE 表名 SET 字段名=字段值 WHERE 条件例：UPDATE a SET id=1,name='张三'

cxm272965

2020-07-20

0.1006 1 1

几个SQL在线刷题的网站

https://sqlzoo.net/ SQLZOO的教程框架由浅入深，非常推荐给初学者http://xuesql.cn/ 如果你因为上面介绍的SQLZOO可以因为语言问题而劝退，那就推荐你一下中文的网站吧——XUESQL。他页面的上部分是教程手册，下部分是在线练习。写完SQL直接回车就是提交，如果正确会自动进入下一题。另外还有一个加分项，它有自己配套的B站视频（同样免费）https://www.

cxm272965

2020-07-20

27.5907 2 3

开窗函数和普通聚合函数的区别

mysql> create table order_tab(order_id int,user_no varchar(3),amount int,create_date date);mysql> insert into order_tab values -> (1,'001',100,'2019-01-01'), -> (2,'001',300,'2019-01-02'), ->

cxm272965

2020-07-20

0.1006 1 4

开窗函数和普通聚合函数的区别

mysql> create table order_tab(order_id int,user_no varchar(3),amount int,create_date date);mysql> insert into order_tab values -> (1,'001',100,'2019-01-01'), -> (2,'001',300,'2019-01-02'), ->

cxm272965

2020-07-20

0.1006 1 2

数据库内联、左联和外联的区别

在关系型数据库中，数据分布在许多相关的表中，所以有时候的查询会涉及到多表查询。INNER JOIN（内联）：两个表a,b 相连接，取出符合连接条件的字段LEFT JOIN（左联）：先返回左表的所有行，再加上符合连接条件的匹配行RIGHT JOIN（右联）：先返回右表的所有行，再加上符合连接条件的匹配行原文链接：https://blog.csdn.net/qq_38506897/article/de

cxm272965

2020-07-16

19.9033 4 1

Powerbi-时间

发现PowerBI的日期输出比较有特色，Mark一下。

cxm272965

2020-07-16

19.8876 3 1

EXCEL 学习步骤总结

EXCEL是我们日常办公经常用到的软件，用好EXCEL可以有效的提高自己的工作效率。以下是我的学习经验总结：1.数据库范式（这是指导思想）——理解了数据库范式，你就知道数据应该怎么录入你的表：原子性，有查找键值，减少数据冗余。 2.EXCEL元素的基本概念：工作簿，工作表，单元格。（网上常说玩转EXCEL，其实玩的只有这3种对象，如果你学过面向对象的编程技术，ok，恭喜你，只要你稍微下点功夫，你一

cxm272965

2020-07-16

19.8876 3 1

什么是过拟合?如何避免过拟合问题？

过拟合:所选模型的复杂度比真模型更高;学习时选择的模型所包含的参数过多,对已经数据预测得很好,但是对未知数据预测得很差的现象.过拟合一般特点:高方差,低偏差;导致过拟合原因:训练数据不够,模型进行过度训练（overtraining）等如何避免过拟合:1) Early stopping （适当的stopping criterion）: Early stopping便是一种迭代次数截断的方法来防止过拟

cxm272965

2020-07-16

19.8803 2 5

Kmeans算法的优缺点

K-means算法的优点是：首先，算法能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类；其次，为克服少量样本聚类的不准确性，该算法本身具有优化迭代功能，在已经求得的聚类上再次进行迭代修正剪枝确定部分样本的聚类，优化了初始监督学习样本分类不合理的地方；第三，由于只是针对部分小样本可以降低总的聚类时间复杂度。K-means算法的缺点是：首先，在 K-means 算法中 K 是事先给定的，这

cxm272965

2020-07-15

19.9738 2 3

机器学习--K近邻（KNN）算法的原理及优缺点

一、KNN算法原理　　K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法。　　它的基本思想是：在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据，则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。　　由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所

cxm272965

2020-07-15

13.5999 3 3

pandas中series序列与dataframe数据帧整理

Pandas数据清洗 Series带标签的一维数组，与Numpy中的一维array类似，只允许存储相同的数据类型基本概念 import numpy as npimport pandas as pd #导入全部from pandas import Series,DataFrame #只导入单个索引a 3b 4c 5d 6 s['b'] #索引，获得单个

cxm272965

2020-07-14

34.0022 2 3

Numpy科学计算整理

Numpy科学计算与Python列表比的优缺点 Python提供了array模块，它和列表不同，能直接保存数值，但是由于它不支持多维数组，也没有各种运算函数，因此也不适合做数值运算查看版本信息 import numpy as npprint(np.__version__) 数组的属性 a=np.array([1,2,3,4])#把列表转换为数组 type(a)#类型 a.shape#

cxm272965

2020-07-13

34.9468 3 1

python连接数据库错误的解决办法

1、2003和10061类错误：计算机积极拒绝，无法连接可以进行环境变量设置conn=pymysql.connect(host="127.0.0.1",port=3306或3307,user="root",passwd="数据库密码",db="库名")2、1045类错误：数据库密码输入错误，重新输入密码，或者更新密码最简单的方法是更换了root密码的认证方式解决的，新版mysql使用的cachin

cxm272965

2020-07-01

0.0096 2 4