热线电话:13121318867

登录
2020-04-30 阅读量: 4514
Pandas 随机选取一部分数据读取,题目详情见正文

需要处理的数据过大时,可以随机选择原数据集的一部分读入内存,例如num表如下:

随机选取部分数据读入,实现效果如下:

参考代码:

list1 = [["第一分公司","第二分公司",]
,["销售部","市场部","行政部"]]
index = pd.MultiIndex.from_product(list1, names=['公司', '部门'])
df = pd.DataFrame({"姓名":["Allen","Lucy","Tom","Alice","Tim","Lily"],"工龄":np.random.randint(1,5,6)
,"入职日期":["2017-01-30","#","2019-07-21","2020-04-02","-","2017-05-12"]},index = index)
df.to_csv('num.csv',index=False)

df0 = pd.read_csv("num.csv", skiprows = lambda x: x>0 and np.random.rand() > 0.7)
df0

代码结果:

0.0000
4
关注作者
收藏
评论(1)

发表评论
yuechuchen
2020-04-30
解题思路: 1、使用 skiprows 参数; 2、x > 0 确保首行读入; 3、 np.random.rand() > 0.7 表示30% 的数据都会被随机过滤掉,有70%的数据有机会被读取,当数据量很大时,可答复降低取值
0.0000 0 0 回复
推荐帖子
条评论