CDA数据科学研究院 CDA考试中心 CDA网校 企业服务
CDA社区
CDA竞赛 CDA技术答疑 CDA俱乐部
关于CDA APP下载 新媒体帐号交易(经管新媒) 新媒体帐号交易(经管新媒)

CDA

  • 最新
  • 热门
  • 关注
  • 推荐
  • 问答
登录 注册
免密码登录
获取验证码
行为验证™ 安全组件加载中
提交 首次登录验证后自动注册

  • 创作中心
  • 我的消息
  • 我的收藏
  • 个人资料
  • 点赞能量: %
  • 点赞价值:
  • 文章
  • 问答
  • 评论
  • 粉丝
  • 关注中
  • 钱包
  • 奖励

可以这样做extract:

df =pd.DataFrame({'text':["Who would have thought this would be so 4347009 difficult",

"24 is me"]})

df['new_col'] = df['text'].str.extract(r'(\d+)')

text new_col

0 Who would have thought this would be so 434700... 4347009

1 24 is me 24

0 0 0

啊啊啊啊啊吖

2019-01-24

从列中的字符串中提取一组n个数字

如果要将数据帧转换为csv,则使用utf-8-sig作为编码。它可能工作dataframe.to_csv(filepath,encoding ='utf-8-sig',index = False)

0 0 0

啊啊啊啊啊吖

2019-01-24

特殊字符不编码pandas

describe不会打印任何东西。它返回一个数据帧。

从它的文档:

返回:summary:摘要统计信息的Series / DataFrame

与PyCharm不同,使用的笔记本连接到自动打印语句的返回值。

更改cities.describe()到print(cities.describe())。

1 0 0

啊啊啊啊啊吖

2019-01-24

Pandas describe()函数不会在PyCharm

原来是由于pandas merge默认为内连接,因此当您不特定方法时how,它只会在两个dfs中输出该行

例如 :

df1=pd.DataFrame(['a'],columns=['names'])

df2=pd.DataFrame(['b','e','a','c','d'],columns=['names'])

pd.merge(df1.reset_index(), df2.reset_index(), on=['names'])

index_x names index_y

0 0 a 2

df1=pd.DataFrame(['a','a'],columns=['names'])

df2=pd.DataFrame(['b','e','a','a','c','d'],columns=['names'])

df1.merge(df2)

names

0 a

1 a

2 a

3 a

0 0 0

啊啊啊啊啊吖

2019-01-24

pandas合并数据长度?

在尝试获取文本之前,您需要检查项目是否为无。

for items in soup.find_all("url"):

getTitle = items.find('image:title')

if getTitle is not None:

item = getTitle.text

url = items.find("loc").text

print (item,url)

0 0 0

啊啊啊啊啊吖

2019-01-24

对象没有属性'文本'

如果用这个相当讨厌的CSS选择器选中一个复选框的周围div,你至少可以点击一个没有例外的复选框。

checkbox = driver.find_element_by_css_selector("#MainContentPlaceHolder_BaseContentPlaceHolder_pmainedge2edge4_0_ctl00_ctl14_dealerFilters > section:nth-child(1) > div:nth-child(1) > div:nth-child(1) > ul:nth-child(1) > li:nth-child(4) > div:nth-child(1)")

checkbox.click()

有很多JavaScript干扰了webdriver自动化。我还没有找到更好的解决方案,但至少你知道有一种方法可以与该复选框进行交互。

0 0 0

啊啊啊啊啊吖

2019-01-23

Python Selenium通过单击输入标记

可以使用pd.MultiIndex.from_product

这样的一些变化:

In [24]: x = pd.date_range('2019-01-01', '2019-04-01', freq='MS')

In [25]: y = ['a', 'b', 'c']

In [26]: index = pd.MultiIndex.from_product([x, y])

In [27]: for ix in index:

...: print(ix)

...:

...:

...:

(Timestamp('2019-01-01 00:00:00', freq='MS'), 'a')

(Timestamp('2019-01-01 00:00:00', freq='MS'), 'b')

(Timestamp('2019-01-01 00:00:00', freq='MS'), 'c')

(Timestamp('2019-02-01 00:00:00', freq='MS'), 'a')

(Timestamp('2019-02-01 00:00:00', freq='MS'), 'b')

(Timestamp('2019-02-01 00:00:00', freq='MS'), 'c')

(Timestamp('2019-03-01 00:00:00', freq='MS'), 'a')

(Timestamp('2019-03-01 00:00:00', freq='MS'), 'b')

(Timestamp('2019-03-01 00:00:00', freq='MS'), 'c')

(Timestamp('2019-04-01 00:00:00', freq='MS'), 'a')

(Timestamp('2019-04-01 00:00:00', freq='MS'), 'b')

(Timestamp('2019-04-01 00:00:00', freq='MS'), 'c')

0 0 0

啊啊啊啊啊吖

2019-01-23

为所有可能的组合创建一行

问题找到了,在为其分配值之前,我需要检查的密钥是否已存在。

# Not sure if str(tuple(i)) will work - regardless apply logic like this to make the Key unique

counter = 0

while((str(tuple(i)) + '_' + str(counter)) in genFit.keys()):

counter += 1

genFit[str(tuple(i) + '_' + str(counter)] = tmp

0 0 0

啊啊啊啊啊吖

2019-01-23

循环之后,字典的长度为

好吧 ,不用虚拟机是不可能实现的

0 0 0

啊啊啊啊啊吖

2019-01-23

如何用Pyinstaller在Windows上制作文档

使用groupby和shift,然后加入它: df.join(df.groupby('Circuit-ID').shift().add_suffix('-1')) Circuit-ID DATETIME LATE? DATETIME-1 LATE?-1 0 78899 07/06/2018 15:30 1 NaN NaN 1 78899 08/06/2018 17:30 0 07/06/2018 15:30 1.0 2 78899 09/06/2018 20:30 1 08/06/2018 17:30 0.0 3 23544 12/07/2017 23:30 1 NaN NaN 4 23544 13/07/2017 19:30 0 12/07/2017 23:30 1.0 5 23544 14/07/2017 20:30 1 13/07/2017 19:30 0.0

0 0 0

啊啊啊啊啊吖

2019-01-23

如何计算Python Pandas中的组的移位列

或更明确地: res = list() i=0 while(i
0 0 0

啊啊啊啊啊吖

2019-01-22

如何通过复制/跳过每N项来重新采样数组?

要对数组进行下采样: N =2 #downsampling by 2 new = originalArray[0:N:] 或更明确地: res = list() i=0 while(i
0 0 1

啊啊啊啊啊吖

2019-01-22

如何通过复制/跳过每N项来重新采样数组?

目前想到的办法参考:s = "The cat jumped over the moon very quickly" l = s.split() s1 = ' '.join(l[:len(l)//2]) s2 = ' '.join(l[len(l)//2 :]) print(s1) print(s2)

0 0 0

啊啊啊啊啊吖

2019-01-22

将python字符串拆分为分隔符但是特定的分隔符

问题中发布的字节文字是有效的UTF-8。前两个字符是来自CJK统一表意文字块U 683C和U 6D74,U 4E00 - U 9FFF。

0 0 0

啊啊啊啊啊吖

2019-01-22

在python中使用 com,有没有办法解决编码问题

弄懂了,这三个独立的进程彼此分开运行。并发和并行还可能取决于计算机和处理器os调度程序中的核心数。 python a.py > a.out 2>

0 0 0

啊啊啊啊啊吖

2019-01-21

从MacOS终端筛选输出并行运行多个python脚本

zip(*sorted(enumerate(listToSort), key=lambda t: listKey[t[0]]))[1] (11, 2, 12, 8, 15)

0 0 0

啊啊啊啊啊吖

2019-01-21

使用另一个列表对列表进行排序[重复]

刚刚尝试了另一种方法:block1 = df['Machine'].str.contains('_block_1') df['Block'] = block1.replace((True,False), ('1','2')) 但这已经添加2到了所有列

0 0 0

啊啊啊啊啊吖

2019-01-21

Pandas从部分字符串匹配填充列

不知是对照哪个函数使用手册,出现了什么样的错误。一般情况,如果出现错误,是数据源整理的格式没有达到标准函数的要求。一般的时间序列预测,使用固定的方法比较好,很少有用预测的数据去再预测。同时,预测的时候一定要做好检验,检验才算预测好坏的判别标准。

1 0 0

yzyz345

2019-01-20

“ugarchroll”进行滚动预测,数据报错

此处的问题是由于同一列中有不同的数字,模型会误解数据的某种顺序,0 <1 <2。但事实并非如此。为了解决这个问题,我们使用One Hot Encoder。 from sklearn.preprocessing import LabelEncoder, OneHotEncoder labelencoder_X_1 = LabelEncoder() X[:,1] = labelencoder_X_1.fit_transform(X[:,1]) labelencoder_X_2 = LabelEncoder() X[:,2] = labelencoder_X_2.fit_transform(X[:,2]) onehotencoder = OneHotEncoder(categorical_features = [1]) X = onehotencoder.fit_transform(X).toarray()

0 0 0

啊啊啊啊啊吖

2019-01-20

将pandas数据框中列的dtype对象更改为布尔值

正在关闭foreach循环内的表。你的foreach循环完成后你必须关闭表(并打印所有行): foreach ( $myrows as $row) { echo "".$row['SrNo']."".$row['Compound']."". $row['Tc (K)']."".$row['Pc (bar)'].""; } echo "";

0 0 0

啊啊啊啊啊吖

2019-01-20

求助,表格显示在页脚下方

<1…150151152…155>
Copyright © 2015-2020, www.pinggu.com All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有 京ICP备18052299号-1