数据科学专业问答社区，好文章，一字千金--CDA答疑社区

热线电话：13121318867

登录

dreamhappy2012

距离度量——切比雪夫距离

切比雪夫距离的定义：国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？这个距离就叫切比雪夫距离。二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离：an维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离：a

0.0000

0

4

0

关注作者

收藏

dreamhappy2012

距离度量——曼哈顿距离定义与公式

顾名思义，在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离： n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离：

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

距离度量——欧式距离定义与公式

欧氏距离是最容易直观理解的距离度量方法，我们接触到的两个点在空间中的距离一般都是指欧氏距离。源于欧式空间中两点多距离。二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离（两个n维向量）：

17.0648

1

2

0

关注作者

收藏

dreamhappy2012

K最近邻的工作原理是什么？

K最近邻的工作原理：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即每一个数据与所属分类的一一对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签一般来说，只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个

0.0000

0

1

0

关注作者

收藏

dreamhappy2012

K最近邻的核心思想是什么？

K最近邻是怎么提出的？✓ k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，每个样本都可以用它最接近的k个邻居来代表✓ kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本

0.0000

0

3

0

关注作者

收藏

詹惠儿

python如何隐藏基于某列的数据

在一个数据帧，我们可以以过滤数据过滤基于列值的数据，我们可以使用不同的算子等应用上数据帧一定的条件==， >，

0.0000

0

1

0

关注作者

收藏

詹惠儿

如何使用布尔索引访问数据框

使用布尔索引访问DataFrame：为了访问具有布尔索引的数据帧，我们必须创建一个数据帧，其中dataframe的索引包含一个“True”或“False”的布尔值。例如# importing pandas as pd import pandas as pd # dictionary of lists dict = {'name':["aparna", "pankaj", "sudhi

0.0000

0

3

0

关注作者

收藏

詹惠儿

python如何修改外循环索引

# Python program for# iterating array values# using f_index import numpy as geek # creating an array using arrange # methoda = geek.arange(6) # shape array with 2 rows and # 3 columns a =

0.0000

0

3

0

关注作者

收藏

啊啊啊啊啊吖

df.groupby一列，计算另一列中的值

我有一个这种格式的数据框（有更多的行，数百个不同的值col2）：dftest = pd.DataFrame( {'col1': ['black', 'black', 'brown', 'black', 'green', 'red', 'black', 'black'], 'col2': ['cat', 'cat', 'dog', 'dog', 'snake', 'snake'

18.2455

1

3

0

关注作者

收藏

啊啊啊啊啊吖

使用前一行的diff在DataFrame中插新的行

我有一个带有数据集的Pandas DataFrame，它看起来像这样： floor_temperature power_consumption outside_temperaturetimestamp2019-01-23 00:00:00 00:00 8.300000 0.022000

46.1538

1

3

0

关注作者

收藏

啊啊啊啊啊吖

从列中的字符串中提取一组n个数字

我在pandas数据框中有一列字符串，其中包含以下内容："AU/4347001"但另外还有其他字符串组织较少，如"Who would have thought this would be so 4347009 difficult"因此，最终，这些数字系列在字符串中的位置和方式没有连贯的模式。它们可能位于开头，中间或末尾，并且无法准确知道数字周围有多少其他字符。理想情况下，我想返回另一个长度

0.0000

0

1

0

关注作者

收藏

啊啊啊啊啊吖

特殊字符不编码pandas

0.0000

0

2

0

关注作者

收藏

啊啊啊啊啊吖

Pandas describe（）函数不会在PyCharm

我正在尝试运行这段代码：import pandas as pdcity_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])population = pd.Series([852469, 1015785, 485199])cities = pd.DataFrame({ 'City name': city_names

0.0000

0

4

0

关注作者

收藏

啊啊啊啊啊吖

如何查找列A中同样位于B列中的每个值的所有实例

使用Pandas，我试图找到A列中某些值的最近重叠出现，这也恰好出现在B列中（但不一定发生在同一行）; 对A列中的所有行都要这样做。我已经用n ^ 2解决方案完成了一些事情（通过创建每个列的列表并使用嵌套的for循环迭代），但我想尽可能使用更快的东西; 因为这需要在包含数万个条目的表中实现。（因此，Vectorized解决方案将是理想的，但我更希望采用“正确”的方式来实现这一目标。）df['

46.1538

1

3

0

关注作者

收藏

詹惠儿

python如何实现广播迭代

广播迭代：如果两个数组是可广播的，则组合的nditer对象能够同时迭代它们。假设数组a的维度为3X4，并且存在另一个维度为1X4的数组b，则使用以下类型的迭代器（数组b广播为a的大小）。# Python program for# iterating array import numpy as geek # creating an array using arrange # me

46.1538

1

2

0

关注作者

收藏

詹惠儿

python如何实现外循环

在nditer类的构造函数有一个flags参数，可以采取以下值参数描述external_loop导致给定的值是具有多个值而不是零维数组的一维数组c_index可以跟踪C_order索引F_索引追踪Fortran_order索引多指标可以跟踪每次迭代一次的索引类型代码＃1：# Python program for# iterating array values# using exter

0.0000

0

0

0

关注作者

收藏

詹惠儿

python如何修改数组的值

nditer对象具有另一个名为op_flags的可选参数。其默认值为只读，但可以设置为读写或只写模式。这将允许使用此迭代器修改数组元素。# Python program for# modifying array values import numpy as geek # creating an array using arrange # methoda = geek.arang

46.1538

1

5

0

关注作者

收藏

詹惠儿

python如何控制迭代的顺序

有时以特定顺序访问数组元素很重要，无论内存中元素的布局如何。nditer对象提供了一个order参数来控制迭代的这个方面。具有上述行为的默认值是order ='K'以保持现有订单。对于C顺序，可以使用order ='C'覆盖它，对于Fortran顺序，可以使用order ='F'覆盖它。代码＃1：# Python program for# iterating over array# us

46.1538

1

3

0

关注作者

收藏

詹惠儿

python如何迭代数组

NumPy包中包含一个迭代器对象numpy.nditer。它是一个有效的多维迭代器对象，使用它可以迭代数组。使用Python的标准Iterator接口访问数组的每个元素。# Python program for# iterating over array import numpy as geek # creating an array using arrange # methoda

46.1538

1

5

0

关注作者

收藏

啊啊啊啊啊吖

pandas合并数据长度？

我有两个数据框，每个数据框有一个列具有相同的值（和相等的长度）但是顺序不同，如简化示例;df1=pd.DataFrame(['a','b','c','d','e'],columns=['names'])df2=pd.DataFrame(['b','e','a','c','d'],columns=['names'])我想知道df2中df1中每行的相应索引和do;df= pd.merge(

0.0000

0

2

0

关注作者

收藏

<1…107010711072…1217>

CDA考试动态

CDA报考指南