数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

点赞能量: %
点赞价值:

将0x5453的答案移至答案列，但更改了一些内容以确保不会出现任何切片错误。
df.loc[:,'diff_floor_temperature'] = df.loc[:,'floor_temperature'].diff()

0 0 0

啊啊啊啊啊吖

2019-01-24

使用前一行的diff在DataFrame中插新的行

可以这样做extract：
df =pd.DataFrame({'text':["Who would have thought this would be so 4347009 difficult",
"24 is me"]})
df['new_col'] = df['text'].str.extract(r'(\d+)')
text new_col
0 Who would have thought this would be so 434700... 4347009
1 24 is me 24

0 0 0

啊啊啊啊啊吖

2019-01-24

从列中的字符串中提取一组n个数字

如果要将数据帧转换为csv，则使用utf-8-sig作为编码。它可能工作dataframe.to_csv（filepath，encoding ='utf-8-sig'，index = False）

0 0 0

啊啊啊啊啊吖

2019-01-24

特殊字符不编码pandas

describe不会打印任何东西。它返回一个数据帧。
从它的文档：
返回：summary：摘要统计信息的Series / DataFrame
与PyCharm不同，使用的笔记本连接到自动打印语句的返回值。
更改cities.describe()到print(cities.describe())。

1 0 0

啊啊啊啊啊吖

2019-01-24

Pandas describe（）函数不会在PyCharm

原来是由于pandas merge默认为内连接，因此当您不特定方法时how，它只会在两个dfs中输出该行
例如：
df1=pd.DataFrame(['a'],columns=['names'])
df2=pd.DataFrame(['b','e','a','c','d'],columns=['names'])
pd.merge(df1.reset_index(), df2.reset_index(), on=['names'])
index_x names index_y
0 0 a 2
df1=pd.DataFrame(['a','a'],columns=['names'])
df2=pd.DataFrame(['b','e','a','a','c','d'],columns=['names'])
df1.merge(df2)
names
0 a
1 a
2 a
3 a

0 0 0

啊啊啊啊啊吖

2019-01-24

pandas合并数据长度？

在尝试获取文本之前，您需要检查项目是否为无。
for items in soup.find_all("url"):
getTitle = items.find('image:title')
if getTitle is not None:
item = getTitle.text
url = items.find("loc").text
print (item,url)

0 0 0

啊啊啊啊啊吖

2019-01-24

对象没有属性'文本'

如果用这个相当讨厌的CSS选择器选中一个复选框的周围div，你至少可以点击一个没有例外的复选框。
checkbox = driver.find_element_by_css_selector("#MainContentPlaceHolder_BaseContentPlaceHolder_pmainedge2edge4_0_ctl00_ctl14_dealerFilters > section:nth-child(1) > div:nth-child(1) > div:nth-child(1) > ul:nth-child(1) > li:nth-child(4) > div:nth-child(1)")
checkbox.click()
有很多JavaScript干扰了webdriver自动化。我还没有找到更好的解决方案，但至少你知道有一种方法可以与该复选框进行交互。

0 0 0

啊啊啊啊啊吖

2019-01-23

Python Selenium通过单击输入标记

可以使用pd.MultiIndex.from_product
这样的一些变化：
In [24]: x = pd.date_range('2019-01-01', '2019-04-01', freq='MS')
In [25]: y = ['a', 'b', 'c']
In [26]: index = pd.MultiIndex.from_product([x, y])
In [27]: for ix in index:
...: print(ix)
...:
...:
...:
(Timestamp('2019-01-01 00:00:00', freq='MS'), 'a')
(Timestamp('2019-01-01 00:00:00', freq='MS'), 'b')
(Timestamp('2019-01-01 00:00:00', freq='MS'), 'c')
(Timestamp('2019-02-01 00:00:00', freq='MS'), 'a')
(Timestamp('2019-02-01 00:00:00', freq='MS'), 'b')
(Timestamp('2019-02-01 00:00:00', freq='MS'), 'c')
(Timestamp('2019-03-01 00:00:00', freq='MS'), 'a')
(Timestamp('2019-03-01 00:00:00', freq='MS'), 'b')
(Timestamp('2019-03-01 00:00:00', freq='MS'), 'c')
(Timestamp('2019-04-01 00:00:00', freq='MS'), 'a')
(Timestamp('2019-04-01 00:00:00', freq='MS'), 'b')
(Timestamp('2019-04-01 00:00:00', freq='MS'), 'c')

0 0 0

啊啊啊啊啊吖

2019-01-23

为所有可能的组合创建一行

问题找到了，在为其分配值之前，我需要检查的密钥是否已存在。
# Not sure if str(tuple(i)) will work - regardless apply logic like this to make the Key unique
counter = 0
while((str(tuple(i)) + '_' + str(counter)) in genFit.keys()):
counter += 1
genFit[str(tuple(i) + '_' + str(counter)] = tmp

0 0 0

啊啊啊啊啊吖

2019-01-23

循环之后，字典的长度为

好吧，不用虚拟机是不可能实现的

0 0 0

啊啊啊啊啊吖

2019-01-23

如何用Pyinstaller在Windows上制作文档

使用groupby和shift，然后加入它： df.join(df.groupby('Circuit-ID').shift().add_suffix('-1')) Circuit-ID DATETIME LATE? DATETIME-1 LATE?-1 0 78899 07/06/2018 15:30 1 NaN NaN 1 78899 08/06/2018 17:30 0 07/06/2018 15:30 1.0 2 78899 09/06/2018 20:30 1 08/06/2018 17:30 0.0 3 23544 12/07/2017 23:30 1 NaN NaN 4 23544 13/07/2017 19:30 0 12/07/2017 23:30 1.0 5 23544 14/07/2017 20:30 1 13/07/2017 19:30 0.0

0 0 0

啊啊啊啊啊吖

2019-01-23

如何计算Python Pandas中的组的移位列

或更明确地： res = list() i=0 while(i
0 0 0

啊啊啊啊啊吖

2019-01-22

如何通过复制/跳过每N项来重新采样数组？

要对数组进行下采样： N =2 #downsampling by 2 new = originalArray[0:N:] 或更明确地： res = list() i=0 while(i
0 0 1

啊啊啊啊啊吖

2019-01-22

如何通过复制/跳过每N项来重新采样数组？

目前想到的办法参考：s = "The cat jumped over the moon very quickly" l = s.split() s1 = ' '.join(l[:len(l)//2]) s2 = ' '.join(l[len(l)//2 :]) print(s1) print(s2)

0 0 0

啊啊啊啊啊吖

2019-01-22

将python字符串拆分为分隔符但是特定的分隔符

问题中发布的字节文字是有效的UTF-8。前两个字符是来自CJK统一表意文字块U 683C和U 6D74，U 4E00 - U 9FFF。

0 0 0

啊啊啊啊啊吖

2019-01-22

在python中使用 com，有没有办法解决编码问题

弄懂了，这三个独立的进程彼此分开运行。并发和并行还可能取决于计算机和处理器os调度程序中的核心数。 python a.py > a.out 2>

0 0 0

啊啊啊啊啊吖

2019-01-21

从MacOS终端筛选输出并行运行多个python脚本

zip(*sorted(enumerate(listToSort), key=lambda t: listKey[t[0]]))[1] (11, 2, 12, 8, 15)

0 0 0

啊啊啊啊啊吖

2019-01-21

使用另一个列表对列表进行排序[重复]

刚刚尝试了另一种方法：block1 = df['Machine'].str.contains('_block_1') df['Block'] = block1.replace((True,False), ('1','2')) 但这已经添加2到了所有列

0 0 0

啊啊啊啊啊吖

2019-01-21

Pandas从部分字符串匹配填充列

不知是对照哪个函数使用手册，出现了什么样的错误。一般情况，如果出现错误，是数据源整理的格式没有达到标准函数的要求。一般的时间序列预测，使用固定的方法比较好，很少有用预测的数据去再预测。同时，预测的时候一定要做好检验，检验才算预测好坏的判别标准。

1 0 0

yzyz345

2019-01-20

“ugarchroll”进行滚动预测，数据报错

此处的问题是由于同一列中有不同的数字，模型会误解数据的某种顺序，0 <1 <2。但事实并非如此。为了解决这个问题，我们使用One Hot Encoder。 from sklearn.preprocessing import LabelEncoder, OneHotEncoder labelencoder_X_1 = LabelEncoder() X[:,1] = labelencoder_X_1.fit_transform(X[:,1]) labelencoder_X_2 = LabelEncoder() X[:,2] = labelencoder_X_2.fit_transform(X[:,2]) onehotencoder = OneHotEncoder(categorical_features = [1]) X = onehotencoder.fit_transform(X).toarray()

0 0 0

啊啊啊啊啊吖

2019-01-20

将pandas数据框中列的dtype对象更改为布尔值

<1…150151152…155>