函数的定义形式如下:
def
291294878
2018-10-26
int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,imag ]) 创建一个复数 str(x ) 将对象 x 转换为字符串 repr(x )
291294878
2018-10-25
str[0:4] 取0-4截断 len(str) 返回长度 str.replace("-", " ") 将'-'替换为' ' ",".join(list) 在','末尾加入list所指代字符串 "hi {0}".format('j') format格式化字符串 str.find(",")
291294878
2018-10-25
一、垃圾回收:python不像C ,Java等语言一样,他们可以不用事先声明变量类型而直接对变量进行赋值。对Python语言来讲,对象的类型和内存都是在运行时确定的。这也是为什么我们称Python语言为动态类型的原因(这里我们把动态类型可以简单的归结为对变量内存地址的分配是在运行时自动判断变量类型并对变量进行赋值)。 二、引用计数:Python采用了类似Windows内核对象一样的方式来对内
291294878
2018-10-25
order by: 可以指定desc 降序 asc 升序 order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。 sort by : 对分区内的数据进行排序 sort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置ma
291294878
2018-10-25
(1)由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言, 再无类似之处 (2)数据存储位置。 hdfs raw local fs (3)数据格式。 分隔符 (4)数据更新。hive读多写少。Hive中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。INSERT INTO … VALU
291294878
2018-10-25
倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。 解决方案 1>.参数调节:
291294878
2018-10-25
1、hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2、hive是面向行存储的数据库。 3、Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。 4、HBase为查询而生的,它通过组织起节点內所有机器的內存,提供一個超大的內存Hash表 。 5、hbase不是关系型数据库,而是一
291294878
2018-10-25
1)sigmoid:将输出实值压缩到0-1之间。 缺点:(输入非常大或非常小的时候)容易梯度消失;sigmoid函数是非0均值的,下一层的神经元将从上一层神经元得到的非0 均值的信号作为输入,再结合w计算梯度,始终都是正的。(可根据batch调节) 2)Tanh:是0均值的。 3)Relu(修正线性单元):好处:收敛快,求梯度简单。具有稀疏特性。 (相比于sigmoid:sigmoid反向传播
291294878
2018-10-25
1、首先从根节点开始递归往下找到包含x的叶子节点,每一层都是找对应的xi 2、将这个叶子节点认为是当前的“近似最近点” 3、递归向上回退,如果以x圆心,以“近似最近点”为半径的球与根节点的另一半子区域边界相交,则说明另一半子区域中存在与x更近的点,则进入另一个子区域中查找该点并且更新”近似最近点“ 4、重复3的步骤,直到另一子区域与球体不相交或者退回根节点 5、最后更新的”近似最近点“与x
291294878
2018-10-25
KD树是一个二叉树,表示对K维空间的一个划分,可以进行快速检索(那KNN计算的时候不需要对全样本进行距离的计算了) 在k维的空间上循环找子区域的中位数进行划分的过程。 假设现在有K维空间的数据集: 1、首先构造根节点,以坐标的中位数b为切分点,将根结点对应的矩形局域划分为两个区域,区域1中,区域2中 2、构造叶子节点,分别以上面两个区域中的中位数作为切分点,再次将他们两两划分,作为深度1的
291294878
2018-10-25
三要素: 1、k值的选择 2、距离的度量(常见的距离度量有欧式距离,马氏距离等) 3、分类决策规则 (多数表决规则) KNN算法的优点: 1、思想简单,理论成熟,既可以用来做分类也可以用来做回归; 2、可用于非线性分类; 3、训练时间复杂度为O(n); 4、准确度高,对数据没有假设,对outlier不敏感; 缺点: 1、计算量大; 2、样本不平衡问题(即有些类别的样本数量很多,而其它样本的
291294878
2018-10-23
优点: 1、使用核函数可以向高维空间进行映射 2、使用核函数可以解决非线性的分类 3、分类思想很简单,就是将样本与决策面的间隔最大化 4、分类效果较好 缺点: 1、对大规模数据训练比较困难 2、无法直接支持多分类,但是可以使用间接的方法来做
291294878
2018-10-23
1、直接法 直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该优化就可以实现多分类(计算复杂度很高,实现起来较为困难) 2、间接法 一对多: 其中某个类为一类,其余n-1个类为另一个类,比如A,B,C,D四个类,第一次A为一个类,{B,C,D}为一个类训练一个分类器,第二次B为一个类,{A,C,D}为另一个类,按这方式共需要训练4个分类器,最后在测试的时候
291294878
2018-10-23
聚类的基本流程 • 典型的数据聚类基本步骤如下: • 对数据进行表示和预处理,包括数据清洗、特征选择或特征抽取; • 给定数据之间的相似度或相异度及其定义方法; • 根据相似度,对数据进行划分,即聚类; • 对聚类结果进行评估
291294878
2018-10-23
1、变量,是指给定一个初始值,后期可以重新赋值的一个数; 2、在tensorflow中的函数是tf.Variable,有11个参数,分别如下所示: initial_value=None, 初始值,默认为空 trainable=True, 如果`True`,则默认值也将变量添加到图形中集合中 collections=None,图集合 validate_shape=True,是否允许变量shape
291294878
2018-10-23
数据类型的不同,将直接影响到差异显著性检验的使用方法。数据主要可以分成三类:定距变量,定序变量和定类变量。 定类变量:根据定性的原则区分总体中个案类别的变量。定类变量的值只能把研究对象分类,只能决定研究对象是同类或不同类,例如:性别分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况分为未婚、已婚、分居、离婚、丧偶等类。 定序变量:区别
291294878
2018-10-23
二项分布和多项分布 在生活中,许多行为(试验)的结果只有两个“A”和“非A”。 例如:检查产品的质量,其结果只有两个:合格与不合格;如果试验的结果多于两个,但只关心其中一个结果,也可以视为只有两个结果。 例如,调查教育程度时,结果有文盲、小学、初中、高中、大学以上,如果自关心大学以上,那么所有结果可以分成两类:大学以上和非大学以上。如果两个结果的发生概率已知,那么从总体中抽取N个个体,这N
291294878
2018-10-23
均匀分布均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。回顾古典概率分布,如图所示, 掷骰子点数结果的概率分布就是一个典型的古典概率分布,投掷的点数结果是六个离散型数值(1,2,3,4,5,6),它们的发生概率相等,都是1/6。如果将离散型数据结果(1,2,3,4,5,6)换成连续型数据结果的取值区域(1<=x<=6),
291294878
2018-10-23
可以借鉴数据库的数据存储模式。数据库之所以能够存储海量的数据,并且能够随时快速提取用户需要的数据,有其独特的结构原因。在数据库的发展过程中,有一种重要的数据存储形式,它的每一行代表一个数据单元(个案),每一列代表一个变量。如果把上方表格的数据转换成数据库的数据存储形式,则是下表的样子。 数据如果存储成上表的形式,那么就可以很方便的进行增添或删除数据的操作。例如,增添或删除数据个案,只需
291294878
2018-10-23