cda

数字化人才认证

首页 > 行业图谱 >

对比python字符串函数,学习pandas的str矢量化字符串函数

对比python字符串函数,学习pandas的str矢量化字符串函数
2020-06-30
文章来源:数据分析与统计学之美 作者:黄伟呢 1.概述 python字符串应该是python里面最重要的数据类型了,因此学会怎么处理各种各样的字符串,显得尤为重要。 我们不仅要学会怎么处理单个字符串, ...

分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?

分析20万条弹幕告诉你,8.9分的高分剧《隐秘的角落》到底好看在哪儿?
2020-06-30
最近这部《隐秘的角落》彻底火了,目前在豆瓣高达8.9分,有45万余人进行了评论。 一时间剧中张东升那句「爬山」、「你说我还有机会吗」 承包了6月份的梗。各种表情包和段子齐飞。 ...

9万条弹幕告诉你,《乘风破浪的姐姐》里谁才是真正的C位?

9万条弹幕告诉你,《乘风破浪的姐姐》里谁才是真正的C位?
2020-06-23
如果说最近最热门的综艺,那《乘风破浪的姐姐》(下文简称《姐姐》)可谓实至名归。30位出道多年的姐姐辈女艺人,一个个风格各异、个性鲜明。她们将通过合宿生活与舞台竞演,最终选出5位组成逆龄女团。 《乘 ...

线上服务器崩溃,线下门店破万,社交新宠「剧本杀」是如何迅速爆火的?

线上服务器崩溃,线下门店破万,社交新宠「剧本杀」是如何迅速爆火的?
2020-06-20
【导语】:今天我们来聊聊最近的社交游戏新宠--剧本杀,Python技术部分请看第三部分。 Show me data,用数据说话 今天我们聊一聊 剧本杀 如果问,线下聚会可以玩儿什么?狼人杀?密室逃脱? nonono,说 ...

pandas数据结构:Series

pandas数据结构:Series
2020-06-16
pandas有Series和DataFrame两种数据结构,我们之前已经讲过了DataFrame,接下来给大家介绍下另一种数据结构Series。 什么是Series? # 自定义Series索引 arr = np.random.rand(5) s = pd.Series(arr, ind ...

百闻不如一练:随机森林等可视化调试模型超参数

百闻不如一练:随机森林等可视化调试模型超参数
2020-06-10
以下使用scikit-learn中数据集进行分享。 如果选用随机森林作为最终的模型,那么找出它的最佳参数可能有1000多种组合的可能,你可以使用使用穷尽的网格搜索(Exhaustive Grid Seaarch)方法,但时间成本将会很 ...

加快python算法的四个方法:Dask篇

加快python算法的四个方法:Dask篇
2020-06-08
CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下python的计算时间,减少大家在算法上的等待 ...

加快python算法的四个方法:数据并行化篇

加快python算法的四个方法:数据并行化篇
2020-06-09
CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的等待 ...

pandas数据处理:常用却不甚了解的函数,pd.read_excel()

pandas数据处理:常用却不甚了解的函数,pd.read_excel()
2020-06-01
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这 ...

你了解matplotlib吗?多类别条形图篇

你了解matplotlib吗?多类别条形图篇
2020-05-29
这篇文章来探索下多类别条形图比如各学校包含语文、数学、英语三科成绩的条形图怎样绘制。在绘图之前,先来复习一下条形图函数中主要参数的含义: x控制的是每个条在x轴方向上的位置; height控制的是 ...

Kmeans优化算法:二分K-means聚类算法

Kmeans优化算法:二分K-means聚类算法
2020-05-29
算法的理解 Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代 ...

使用python来绘制漂亮的图表:pandas篇!

使用python来绘制漂亮的图表:pandas篇!
2020-05-27
使用Python绘制数据,可以使用三种不同方式,它们分别是pandas,Seaborn和Plotly。 我们将通过利用《 2019年世界幸福报告》中的数据来做到这一点。我用Gapminder和Wikipedia的信息丰富了《世界幸福报告》数据,以便 ...

超详细教程 | pandas合并之append和concat

超详细教程 | pandas合并之append和concat
2020-05-27
本篇文章主要介绍了pandas中对series和dataframe对象进行连接的方法:pd.append()和pd.concat(),文中通过示例代码对这两种方法进行了详细的介绍,希望能对各位python小白的学习有所帮助。 一、df.append(d ...

Kmeans算法精简版(无for loop循环)

Kmeans算法精简版(无for loop循环)
2020-05-27
大家在学习算法的时候会学习到关于Kmeans的算法,但是网络和很多机器学习算法书中关于Kmeans的算法理论核心一样,但是代码实现过于复杂,效率不高,不方便阅读。这篇文章首先列举出Kmeans核心的算法过程 ...

机器学习python应用,简单机器学习项目实践!

机器学习python应用,简单机器学习项目实践!
2020-05-25
上一篇文章中介绍了机器学习的简单知识,还有python中进行机器学习实践需要的生态环境,接下来将会通过鸢尾花分类这个例子对机器学习做一个简要的介绍。通过一步一步地实现这个项目来介绍以下内容。 导入和 ...

Python可视化工具推荐:图片交互性行极佳的Plotly

Python可视化工具推荐:图片交互性行极佳的Plotly
2020-05-25
1、 简单介绍 一般大家在学习python机器学习的时候,用的最多Python可视化的包就是matplot和seaborn, 这2个可视化的优点在于门槛低,代码容易理解,并且容易上手。唯一的可能的缺点就是画出来的图不能交互 ...

kmeans优化算法:二分K-means聚类算法

kmeans优化算法:二分K-means聚类算法
2020-05-21
Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢?就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代的过程中消失的 ...

sparkSQL和spark有什么区别?

sparkSQL和spark有什么区别?
2020-05-14
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 sparkSQL提供了一 ...

Python可视化工具:Plotly

Python可视化工具:Plotly
2020-05-09
一般大家在学习python机器学习的时候,用的最多的可视化的包就是matplot和seaborn, 这2个可视化的优点在于门槛低,代码容易理解,并且容易上手。唯一的可能的缺点就是画出来的图不能交互,简单来说就是matplot和se ...

全国多地新冠病例0增长,教你用Python画出当下疫情最火玫瑰图!

全国多地新冠病例0增长,教你用Python画出当下疫情最火玫瑰图!
2020-04-28
CDA数据分析师 出品 近日,新冠肺炎防控成果的好消息不断。 今天我们聊聊,惊艳的疫情直观图。 据国家卫健委数据统计, 截止至3月10日24时,31省区市累计治愈出院病历超6 ...

OK