数据科学专业问答社区，好文章，一字千金--CDA答疑社区

data202007["重复次数"]=data202007["学校id"].groupby([data202007["学校id"],data202007["项目名称"]]).transform(lambda x:x.count()-1)

transform 在这的作用是？

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

可以，我试试

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

#遇到这样的问题应该把每一年的数据查清楚之后再合并数据
import pandas as pd
#如果某个学校的某个项目有重复的记录，就像现在这样，应该把他找出来并进行适当处理（具体由业务决定）
#7月A学校项目1有重复记录
data202007=pd.DataFrame([["A学校","项目1",300],
                    ["A学校","项目1",500],
                    ["B学校","项目1",200],
                    ["B学校","项目2",300]],columns=["学校id","项目名称","金额"])
#可以看到A学校项目1有一次重复，我们想要找出这样的情况。可以生成一列重复次数。    
data202007["重复次数"]=data202007["学校id"].groupby([data202007["学校id"],data202007["项目名称"]]).transform(lambda x:x.count()-1)
#通过对重复次数进行筛选，找到重复的数据
data202007[data202007["重复次数"]>0]

0 0 1

lihui15

2020-08-11

核对前后两期上报数据

学校id 实验项目经费
学校1 项目2 100
学校1 项目2 100
学校1 项目2 400

像这种

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

能举个例子吗，比如什么样的情况，用数据举例说明一下

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

还要考虑就是实验项目学校可能填的是重复的

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

还要考虑就是实验项目学校可能填的是重复的

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

要考虑一中情况，就是实验项目可能是重复的

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

这个能理解，赞

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

先解决你第一个问题：计算每个学校各个项目的金额差。

import pandas as pd
data202007=pd.DataFrame([["A学校","项目1",300],
                    ["A学校","项目2",500],
                    ["B学校","项目1",200],
                    ["B学校","项目2",300]],columns=["学校id","项目名称","金额"])


    
data202008=pd.DataFrame([["A学校","项目1",200],
                    ["A学校","项目2",500],
                    ["B学校","项目1",200],
                    ["B学校","项目2",300],
                    ["B学校","项目3",200]],columns=["学校id","项目名称","金额"])

#将两个数据框进行横向合并
data并=pd.merge(data202007,data202008,
               on =["学校id","项目名称"],how="outer",
               suffixes=("_2007","_2008"))

#计算各个项目金额差
data并["各个项目金额差"]=data并["金额_2007"]-data并["金额_2008"]

#把项目差不为0的筛选出来
data并[data并["各个项目金额差"]!=0]

看下这个问题这样解决可以吗？

1 0 2

lihui15

2020-08-11

核对前后两期上报数据

这两个都需要

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

需要详细比较每个学校的每个项目，还是只统计每个学校的项目金额之和，还有项目总个数？

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

是的

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

import pandas as pd
data202007=pd.DataFrame([["A学校","项目1",300],
["A学校","项目1",500],
["B学校","项目1",200],
["B学校","项目2",300]],columns=["学校id","项目名称","金额"])

data202008=pd.DataFrame([["A学校","项目1",200],
["A学校","项目1",500],
["B学校","项目1",200],
["B学校","项目2",300],
["B学校","项目3",200]],columns=["学校id","项目名称","金额"])

原始数据是类似于这样的数据框吗？

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

是的

0 0 0

lihui15

2020-08-11

核对前后两期上报数据

可以认为有data202007和data202008两个数据集吗，然后比较两个数据集的差异？@lihui15

0 0 1

lihui15

2020-08-11

核对前后两期上报数据

引用图片
https://my.oschina.net/u/3618644/blog/1542114
https://www.cnblogs.com/PandaHero/p/6118394.html

0 0 0

隋东芝

2020-08-11

数据库、数据库管理系统和SQL之间的关系

def calc_age(birth_year):
  age = 2020 - birth_year
  return age 
  
print(calc_age(1992)) #以1992年试验,结果正确

1 0 0

CDA助教老师

2020-08-11

如何用Python函数写一个年龄计算器?

您好，请问‘训练集与测试集准确率相差20%以上则认为是过拟合’这句话是源自哪篇论文？

0 0 0

詹惠儿

2020-08-11

训练集测试集准确率都是100%是否过拟合？

解析解：最小二乘法
数值优化方法：
①梯度下降法
②牛顿法
③拟牛顿法
④共轭梯度法
⑤坐标轴下降法

0 0 0

隋东芝

2020-08-10

data202007["重复次数"]=data202007["学校id"].groupby([data202007["学校id"],data202007["项目名称"]]).transform(lambda x:x.count()-1)transform 在这的作用是？

可以，我试试

学校id 实验项目 经费学校1 项目2 100学校1 项目2 100学校1 项目2 400像这种

能举个例子吗，比如什么样的情况，用数据举例说明一下

还要考虑就是实验项目学校可能填的是重复的

还要考虑就是实验项目学校可能填的是重复的

要考虑一中情况，就是实验项目可能是重复的

这个能理解，赞

这两个都需要

需要详细比较每个学校的每个项目，还是只统计每个学校的项目金额之和，还有项目总个数？

是的

是的

可以认为有data202007和data202008两个数据集吗，然后比较两个数据集的差异？@lihui15

def calc_age(birth_year): age = 2020 - birth_year return age print(calc_age(1992)) #以1992年试验,结果正确

您好，请问‘训练集与测试集准确率相差20%以上则认为是过拟合’这句话是源自哪篇论文？

解析解：最小二乘法数值优化方法：①梯度下降法②牛顿法③拟牛顿法④共轭梯度法⑤坐标轴下降法

data202007["重复次数"]=data202007["学校id"].groupby([data202007["学校id"],data202007["项目名称"]]).transform(lambda x:x.count()-1)

transform 在这的作用是？

学校id 实验项目经费
学校1 项目2 100
学校1 项目2 100
学校1 项目2 400

像这种

解析解：最小二乘法
数值优化方法：
①梯度下降法
②牛顿法
③拟牛顿法
④共轭梯度法
⑤坐标轴下降法