左边是索引,不是人数。对于分箱后的结果展示,我还是不太懂。如果是想了解每个箱的人数分布可以使用value_counts()来实现。
wangxishi
2020-09-15
最终想实现的效果是?可以先使用pandas的 sort_values对数据进行排序,然后对排序后的数据使用 qcut 进行切分即可。
wangxishi
2020-09-15
https://www.pinggu.com/post/details/5f5b00e548b2b7754effa41b
wangxishi
2020-09-11
reg.coef_ 这个是编写sklearn库的人这样命名的,coef_是reg对象的一个属性,这个命名我们自己改不了。也许编写这个库的人哪天觉得coef_这个名字不好听就换掉。目前就只能这样用
wangxishi
2020-09-10
coef=reg.coef_[0]后面的[0]是切片位置从0开始对吧,那reg.coef和[0]中间为什么会有下划线呢
wangxishi
2020-09-10
id=data["序号"][i]
这行是怎么实现调取第i行数据的,我看后面没有调用id的代码呀
如果想看整个线性回归方程并画图,可以看吗?
wangxishi
2020-09-10
这是把某个斜率从斜率列表里面调出来,虽然只有一个x也就是一个斜率,但是这个斜率也是放在一个列表里,需要通过切片的方式把这个数字调出来
wangxishi
2020-09-10
id=data["序号"][i]
这行是怎么实现调取第i行数据的,我看后面没有调用id的代码呀
wangxishi
2020-09-10
#导入库
import pandas as pd
import numpy as np
#导入数据
data=pd.read_excel("C:\\Users\\Administrator\\Desktop\\1599639998_298148.xlsx")
from sklearn import linear_model
#将没有求得的斜率预设为缺失值
data["斜率"]=np.nan
#求数据行数
rows=data.shape[0]
#从第一行(第一个人)开始,进行循环,多少行数据就循环多少次,做多少个回归
for i in range(rows):
reg=linear_model.LinearRegression()
#调取第i行的x数据
id=data["序号"][i]
#要求y是一维数组
y=data.loc[i,"近6":"近1"].values
#要求x是二维数组,哪怕x只由一个变量
x=np.array([1,2,3,4,5,6]).reshape(6,1)
try:
reg.fit(x,y)
coef=reg.coef_[0]
except:
coef="异常情况"
data.loc[i,"斜率"]=coef
wangxishi
2020-09-10