啊啊啊啊啊吖

R语言使用技巧--set.seed()函数

使用 set.seed() 函数,在同一個随机种子的设定之下,会出相同的随机输出,举例來說我们希望利用 rnorm() 函数生出 5 个符合正态分布的随机数,在沒有设定随机种子的情形之下,每次调用函数都会生成不同的 5 个随机数。> rnorm(5) [1] 1.2805549 -1.7272706 1.6901844 0.5038124 2.5283366> rnorm(5) [1] 0.5

0.0000 0 1
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R实现多重比较的函数整理

LSD检验是t检验的简单变形,对多组间的均数做检验。用法:加载agricolae包,使用LSD.test。语法为:LSD.test(y, trt, DFerror, MSerror, alpha = 0.05, p.adj=c("none","holm","hommel", "hochberg", "bonferroni", "BH", "BY", "fdr"), …)实例:li

0.0000 0 2
  • 关注作者
  • 收藏
啊啊啊啊啊吖

关联规则算法是个啥

关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支。采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。除此以外,关联规

0.0000 0 4
  • 关注作者
  • 收藏
阿抽哥哥

如何理解Series对象?

Series是Pandas两大数据结构中(DataFrame,Series)的一种,Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。Series对象本质上是一个NumPy的数组,因此NumPy的数组处理函数可以直接对Series进行处理。但是Series除了可以使用位置作为下标存取元素之外,还可以使用标签下标存取元素,只一点

0.0000 0 3
  • 关注作者
  • 收藏
291294878

Office中被阻止的Silverlight控件解决

出于安全考虑新生成的 Microsoft Office 阻止激活的 Silverlight控件上。大多数用户都不会受到影响,但某些用户这可能导致下列问题之一:1.单击嵌入的 Flash 影片在 PowerPoint 幻灯片放映时,没有任何反应尽管这之前使用过。2.在 Excel 中的 power View 不起作用再 (因为它使用 Silverlight)。您可能会看到错误消息,指出"激活失败

44.6950 1 0
  • 关注作者
  • 收藏
809669515

多元线性回归

多元线性回归(MLR)是一种用于模拟因变量(目标)与一个或多个自变量(预测变量)之间的线性关系的方法。  MLR基于普通最小二乘法(OLS),该模型拟合使得观察值和预测值的差的平方和最小化。 MLR模型基于若干假设(例如,误差通常以零均值和恒定方差分布)。如果满足假设,则回归估计器在其无偏,有效且一致的意义上是最优的。无偏意味着估计量的期望值等于参数的真值。有效意味着估计量的方差小于任

0.0000 0 4
  • 关注作者
  • 收藏
809669515

支持向量机 - 回归(SVR)

支持向量机也可以用作回归方法,保持表征算法的所有主要特征(最大边距)。支持向量回归(SVR)使用与SVM相同的原则进行分类,只有一些细微差别。首先,因为输出是实数,所以很难预测手头的信息,这些信息具有无限的可能性。在回归的情况下,容差裕度(epsilon)被设置为近似于已经从问题请求的SVM。但除此之外,还有一个更复杂的原因,算法更复杂,因此需要考虑。然而,主要思想始终是相同的:为了最大限度地减少

0.0000 0 2
  • 关注作者
  • 收藏
809669515

人工神经网络

人工中性网络(ANN)是基于生物神经网络(例如大脑)的系统。大脑有大约1000亿个神经元,通过电化学信号进行通信。神经元通过称为突触的连接点连接。每个神经元接收数千个与其他神经元的连接,不断接收输入信号到达细胞体。如果得到的信号总和超过某个阈值,则通过轴突发送响应。人工神经网络尝试重建生物神经网络的计算镜像,尽管它不具有可比性,因为神经元的数量和复杂性以及生物神经网络中使用的数量和复杂性是人工中

232.9437 1 1
  • 关注作者
  • 收藏
809669515

K最近邻

K最近邻是一种简单的算法,其存储所有可用情况并基于相似性度量(例如,距离函数)对新情况进行分类。KNN已经在1970年代初作为非参数技术用于统计估计和模式识别。 算法案例通过其邻居的多数票进行分类,案例被分配给由距离函数测量的其K个最近邻居中最常见的类。如果K = 1,则将该情况简单地分配给其最近邻居的类。 还应注意,所有三个距离测量仅对连续变量有效。在分类变量的情况下,必须使用

0.0000 0 1
  • 关注作者
  • 收藏
809669515

Logistic回归

逻辑回归预测结果的概率只能有两个值(即二分法)。预测基于使用一个或多个预测变量(数值和分类)。线性回归不适合预测二元变量的值,原因有两个:线性回归将预测超出可接受范围的值(例如,预测0到1范围之外的概率)由于二分法实验对于每个实验只能具有两个可能值中的一个,因此残差将不会正常地分布在预测线附近。另一方面,逻辑回归产生逻辑曲线,其限制在0和1之间的值。逻辑回归类似于线性回归,但曲线是使用目

0.0000 0 3
  • 关注作者
  • 收藏
809669515

线性判别分析

线性判别分析(LDA)是最初由RA Fisher于1936年开发的分类方法。它简单,数学上稳健,并且通常产生的模型的精度与更复杂的方法一样好。 算法LDA基于搜索最佳分离两个类(目标)的变量(预测变量)的线性组合的概念。为了捕捉可分性的概念,Fisher定义了以下得分函数。 给定得分函数,问题是估计最大化得分的线性系数,其可以通过以下等式求解。 评估歧视有效性的一种方

0.0000 0 1
  • 关注作者
  • 收藏
809669515

分类型模型——OneR

OneR是“一个规则”的缩写,是一种简单但准确的分类算法, 它为数据中的每个预测变量生成一个规则,然后选择总误差最小的规则作为其“一个规则”。 为了为预测器创建规则,我们为每个预测器构建一个针对目标的频率表。已经表明,OneR产生的规则仅比现有技术的分类算法稍微不准确,同时产生了易于人类解释的规则。OneR算法对于每个预测变量, 对于该预测变量的每个值,按如下方式制定规则;

0.0000 0 1
  • 关注作者
  • 收藏
809669515

分类模型——ZeroR

ZeroR是最简单的分类方法,它依赖于目标并忽略所有预测变量。ZeroR分类器只是预测大多数类别(类)。尽管ZeroR中没有可预测性,但将基线性能确定为其他分类方法的基准非常有用。算法构建目标的频率表并选择其最常用的值。示例:“Play Golf = Yes”是以下数据集的ZeroR模型,精度为0.64。 预测者的贡献关于预测器对模型的贡献没有什么可说的,因为ZeroR不使用它们

0.0000 0 1
  • 关注作者
  • 收藏
809669515

交叉分解

交叉分解模块包含两个主要的算法族:偏最小二乘法(PLS)和典型相关分析(CCA)。算法这些家庭都是有用找到两个多元数据集之间的线性关系:在X与Y该论点fit的方法是二维数组。 交叉分解算法找到两个矩阵(X和Y)之间的基本关系。它们是对这两个空间中的协方差结构进行建模的潜变量方法。他们将尝试在X空间中找到多维方向,解释Y空间中的最大多维方差方向。当预测变量矩阵的变量多于观测值,并且X值之间存

0.0000 0 1
  • 关注作者
  • 收藏
809669515

朴素贝叶斯

朴素贝叶斯方法是一组监督学习算法,基于贝叶斯定理应用给定类变量值的每对特征之间的条件独立性的“天真”假设。在给定类变量y和从属特征向量x1到xn,贝叶斯定理表明了以下关系: 使用条件独立假设 对于所有i,这种关系被简化为 由于P(x1,…,xn)在输入时是常数,我们可以使用以下分类规则: 我们可以使用最大后验(MAP)估计来估计 P(y)和P(xi∣y) ; 前者是

0.0000 0 5
  • 关注作者
  • 收藏
809669515

非参数监督学习方法——决策树(DT)

决策树(DT)是用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。例如,在下面的示例中,决策树从数据中学习以使用一组if-then-else决策规则来近似正弦曲线。树越深,决策规则越复杂,模型越适合。 决策树的一些优点是:易于理解和解释。树木可以看到。需要很少的数据准备。其他技术通常需要数据规范化,需要创建虚拟变量并删除

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

pandas 读写MySQL数据

一、 写入MySQL数据库import numpy as npimport pandas as pdimport pymysqlfrom sqlalchemy import create_engine#连接数据库的参数db_info = { 'user': 'root', 'password': 'emtf', 'h

44.6950 1 3
  • 关注作者
  • 收藏
PGC123

No module named 'MySQLdb'

python 链接mysql时报错,提示No module named 'MySQLdb',怎么解决?这是缺少MySQL与python连接驱动导致的,在windows系统上需要安装python 软件包mysqlclient。安装命令:conda install mysqlclient安装完成后就可以正常使用了。

0.0000 0 2
  • 关注作者
  • 收藏
wangjuju123

爬虫反爬虫的未来

与竞争对手和解之后,我们去拜访对方,大家坐在了一起。之前网上自称妹子的,一个个都是五大三粗的汉子,这让我们相当绝望。在场唯一的一个妹子还是我们自己带过去的(就是上面提到的实习生),感觉套路了这么久,最终还是被对方套路了。好在,吃的喝的都很好,大家玩的还是比较 high 的。后续就是和平年代啦,大家不打仗了,反爬虫的逻辑扔在那做个防御,然后就开放白名单允许对方爬取了。群里经常叫的就是:xxx

0.0000 0 4
  • 关注作者
  • 收藏
wangjuju123

爬虫反爬虫套路现状

那么一旦有发现对方数据造假怎么办?早期的时候,大家都是要抽查数据,通过数据来检测对方是否有造假,这个需要人工核对,成本非常高。可是那已经是洪荒时代的事情了。如果你们公司还在通过这种方式来检测,说明你们的技术还比较落伍。之前我们的竞争对手是这么干的:他们会抓取我们两次,一次是他们解密出来 key 之后,用正经方式来抓取,这次的结果定为 A。一次是不带 key,直接来抓,这次的结果定为 B。根

0.0000 0 4
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
CDA持证人阿涛哥
480.0000
02
85691082
320.0000