生活案例英国超级联赛已经成为世界上最高水平的足球联赛之一,吸引了世界球迷的目光,曼彻斯特联队与曼彻斯特城队的同城德比更是令世界瞩目。截止到2015-2016赛季,曼彻斯特联队在历史上和曼彻斯特城队交手171次,打进250球丢234球,拿到了71胜51平49负的战绩。如果在2016-2017赛季,曼彻斯特联队与曼彻斯特城队将进行6场比赛,求曼联2胜1平3负的概率是多少? 分析思路足球比赛的结果有
291294878
2018-10-23
为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 一般在机器学习中,将学习器在训练集上的误差称为训练误差或者经验误差,在新样本上的误差称为泛化误差。显然我们希望得到泛化误差小的学习器,但是我们事先并不知道新样本,因此实际上往往努力使经验误差最小化。 然而,当学习器将训练样本学的太好的时候,往往可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降,称之为过拟合,相反
291294878
2018-10-23
特征选择是一个重要的数据预处理过程,主要有两个原因,首先在现实任务中我们会遇到维数灾难的问题(样本密度非常稀疏),若能从中选择一部分特征,那么这个问题能大大缓解,另外就是去除不相关特征会降低学习任务的难度,增加模型的泛化能力。冗余特征指该特征包含的信息可以从其他特征中推演出来,但是这并不代表该冗余特征一定没有作用,例如在欠拟合的情况下也可以用过加入冗余特征,增加简单模型的复杂度。 在理论上如果没
291294878
2018-10-23
随机森林采用的是bagging的思想,bagging又称为bootstrap aggreagation,通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合。 随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个
291294878
2018-10-23
有些情况下训练集中的样本分布很不平衡,例如在肿瘤检测等问题中,正样本的个数往往非常的少。 从线性分类器的角度,在用 y = wx b 对新样本进行分类的时候,事实上在用预测出的y值和一个y值进行比较,例如常常在y>0.5的时候判为正例,否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值,阈值0.5恰好表明分类器认为正反的可能性相同。 在样本不均衡的情况下,应该是分类器的预测几率高
291294878
2018-10-23
SVM既可以用于分类问题,也可以用于回归问题,并且可以通过核函数快速的计算,LR实现简单,训练速度非常快,但是模型较为简单,决策树容易过拟合,需要进行剪枝等。 从优化函数上看,soft margin的SVM用的是hinge loss,而带L2正则化的LR对应的是cross entropy loss,另外adaboost对应的是exponential loss。所以LR对远点敏感,但是SVM对
291294878
2018-10-23
决策树基于树结构进行决策,与人类在面临问题的时候处理机制十分类似。其特点在于需要选择一个属性进行分支,在分支的过程中选择信息增益最大的属性。 在划分中我们希望决策树的分支节点所包含的样本属于同一类别,即节点的纯度越来越高。决策树计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征,但是容易过拟合,需要使用剪枝或者随机森林。 信息增益是熵减去条件熵,代表信息不确定性较少的程度
291294878
2018-10-23
SVM是最大间隔分类器 从线性可分情况下,原问题,特征转换后的dual问题,引入kernel(线性kernel,多项式,高斯),最后是soft margin。 线性:简单,速度快,但是需要线性可分 多项式:比线性核拟合程度更强,知道具体的维度,但是高次容易出现数值不稳定,参数选择比较多。 高斯:拟合能力最强,但是要注意过拟合问题。不过只有一个参数需要调整。 多分类问题,一般将二分类推广到多分类
291294878
2018-10-23
这两种方式分别是: Receiver-base 使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中,然后Spark Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写
291294878
2018-10-23
RDD中reduceBykey与groupByKey哪个性能好,为什么? reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算。
291294878
2018-10-23
读: 1、跟namenode通信查询元数据,找到文件块所在的datanode服务器 2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流 3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验) 4、客户端以packet为单位接收,现在本地缓存,然后写入目标文件 写: 1、根namenode通信请求上传文件,namenode检
291294878
2018-10-23
Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。 standalone(集群模式):典型的Mater/slave模式,不过也能
291294878
2018-10-22
设计决策的关键之一是基于以下方面关注文件格式: 使用模式,例如访问50列中的5列,而不是访问大多数列。 可并行处理的可分裂性。 块压缩节省存储空间vs读/写/传输性能 模式演化以添加字段,修改字段和重命名字段。 CSV文件 CSV文件通常用于在Hadoop和外部系统之间交换数据。CSV是可读和可解析的。 CSV可以方便地用于从数据库到Hadoop或到分析数据库的批量加载。在Hadoop
291294878
2018-10-22
提取数据,存储数据(即数据建模)和处理数据(即数据加工,数据转换和查询数据)。 提取数据 从各种来源提取数据,例如: RDBM(Relational Database Management Systems)关系数据库管理系统,如Oracle,MySQL等。 ERPs(Enterprise Resource Planning)企业资源规划(即ERP)系统,如SAP。 CRM(Customer
291294878
2018-10-22
随着数据量和复杂性的增加,提高了整体SLA(即服务水平协议)。例如,“Shared Nothing”架构,并行处理,内存密集型处理框架,如Spark和Impala,以及YARN容量调度程序中的资源抢占。 缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载
291294878
2018-10-22
Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容: HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在
291294878
2018-10-22
1. 任务:以新闻分类为例 2. 特征表示:X={昨日,是,国内,投资,市场……} 3. 特征选择:X={国内,投资,市场……} 4. 模型选择:朴素贝叶斯分类器 • P(X):待分类对象自身的概率,可忽略 • P(yi):每个类别的先验概率,如P(军事) • P(X|yi):每个类别产生该对象的概率 • P(xi|yi):每个类别产生该特征的概率,如P(苹果|科技) 5. 训练数据准备
291294878
2018-10-22
1. 层次聚类 vs 非层次聚类 – 不同类之间有无包含关系 2. 硬聚类 vs 软聚类 – 硬聚类:每个对象只属于一个类 – 软聚类:每个对象以某个概率属于每个类 3. 用向量表示对象 – 每个对象用一个向量表示,可以视为高维空间的一个点 – 所有对象形成数据空间(矩阵) – 相似度计算:Cosine、点积、质心距离 4. 用矩阵列出对象之间的距离、相似度 5. 用字典保存上述矩阵(节省空
291294878
2018-10-22
• num-executors:该作业总共需要多少executor进程执行 建议:每个作业运行一般设置5-~100个左右较合适 • executor-memory:设置每个executor进程的内存, num-executors* executor-memory代表作业申请的总内存量(尽量不要超过最大总内存的1/3~1/2) 建议:设置4G~8G较合适
291294878
2018-10-22
Spark核心—RDD( Resilient Distributed Dataset 弹性分布式数据集模型) 1.四个特征 – RDD使用户能够显式将计算结果保存在内存中,控制数据的划分 – 记录数据的变换和描述,而不是数据本身,以保证容错 – 懒操作,延迟计算,action的时候才操作 – 瞬时性,用时才产生,用完就释放 2.四种构建方法 – 从共享文件
291294878
2018-10-22