啊啊啊啊啊吖

皮尔逊相关系数和余

在做聚类分析时,我发现用余弦相似度和皮尔逊相关系数作为相似性度量所得到聚类结果有一定差异。请问,这两者有什么区别1.如果数据密集(所有数据几乎都有属性值,属性值量级重要),就用欧几里德算法2.数据受级别膨胀影响(不同的用户使用不同的评分标准),就用皮尔逊相关系数算法3.数据稀疏性强,就考虑用夹角余弦相似度算法

0.0000 0 4
  • 关注作者
  • 收藏
啊啊啊啊啊吖

R如何实现欧式距离等计算

如何计算每列间的距离,假如计算第一列与其他列之间的距离,并求出距离最小的那一组,在R中能否实现欧氏距离和马氏距离的计算?请求解答。在R中计算距离的函数为dist(),比较直接的用法是dist(x,method="euclidean")即为计算欧式距离,其余可选的参数还有"maximum", "manhattan", "canberra", "binary" ,"minkowski",lz调整这个

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

数据过滤的过程

数据过滤的过程主要是建立区隔化模型的过程。有些单一变量虽对整体客群有鉴别力,但不一定对特定客群亦具有鉴别力。举例来说,在银行申请者评分中,“年龄”这个变量在判定绩效指针上具有一定程度之鉴别力,如下图所示,年龄越大,坏件率(Bad%)越来越低。但若将申请样本依照收入区分成“高收入分群”与“低收入分群”,如下图所示,可看出坏件率(Bad%)在高收入分群中,各年龄区间的差异并不显著。因此,若能建立区隔化

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

数据预处理的首要步骤

数据预处理的首要步骤是要对数据进行字段选择(Attribute Selection),字段选择包括数据整合(Data Integration)和数据过滤两个方面(Data Filtering)。数据整合是将不同来源的数据整合在一个数据库中的过程。因为数据的来源不同,数据可能会出现不一致的情况,包括数据结构不一致、属性名不一致和属性值不一致。例如:不同来源的收入表,可能以人民币做单位,也可能以美元做

0.0000 0 4
  • 关注作者
  • 收藏
zxq997

Profit Chart与Gain Chart

Profit Chart与Gain Chart和Lift Chart不同,其主要表示的是模型可能带来的收益,而不是模型的正确率。故要想将Gain Chart等转换为Profit Chart,即必须知道营销活动的收入与成本。假设ACME(型录邮购公司)促销活动的固定成本为20000美元,邮寄一单位型录的成本是1美元,卖出一件商品的净利是45美元,则下图4-9表示的是ACME促销活动的成本矩阵。

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

Lift Chart

Lift Chart是在Gain Chart的基础上,保持横轴不变,即营销人数的百分比,而纵轴换为绩效的增益,如下图所示。可见绩效的增益呈下降趋势,最后当营销人数占总客户人数的100%是,绩效的增益为1,即没有增益。

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

Gain Chart

Gain Chart主要用来评估模型的好坏,如下图所示,横轴为营销人数的百分比,纵轴为有回应人数的百分比。①表示在向所有客户进行营销的情况下有回应人数的百分比为100%。图中的直线表示随机挑选的一定量的客户进行营销活动所对应的有回应人数的百分比数值,该直线的斜率为45°。而曲线表示根据数据挖掘结果所呈现的营销对象名单进行营销所得到的有回应人数的百分比数值。根据图示数据,假定营销人数被限定在总客户人

0.0000 0 2
  • 关注作者
  • 收藏
阿抽哥哥

DataFrame中对某列数据修改属性失败

问题报错图: 解决办法:首先,使用DataFrame的某列数据时用中括号只能列名,其次,这里不能直接astype的原因是数据中含有字符",",不能直接转成int,改成一下代码即可data["总金额_美元"].map(lambda x:x.replace(",",""))astype(int)

0.0000 0 5
  • 关注作者
  • 收藏
zxq997

模型的评估

预测型数据挖掘,需要评估模型的性能,评价指标的构建基本都是基于混淆矩阵。如下图所示: 正确率(Accuracy)、响应率(Precision)、查全率(Recall)以及F-指标(F-Measure)都是从不同方面对数据挖掘模型进行评估的指标,是数据挖掘技术绩效增益的一种表现形式,其评估依据是模型预测结果与真实结果之间的差异。正确率表示的是模型预测的准确程度,即模型预测的准确数目占总预测数目

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

python简单画图(二)

0.0000 0 2
  • 关注作者
  • 收藏
zxq997

python简单画图

0.0000 0 1
  • 关注作者
  • 收藏
zxq997

数据挖掘技术的绩效增益

数据挖掘技术的绩效增益与营销的绩效增益有着极大的关联性。一般来说,提高营销的绩效有三种方法,即创意、优惠和名单。就创意而言,其指的是营销活动是否有一个很好的创意,如有创意的宣传文字、标题等等;就优惠而言,其指的是营销活动是否有相关的优惠,如试用包、分期付、货到付、买一赠一、售后服务等等;就名单而言,其指的是营销活动是否有具体的对象名单,如根据名单向客户进行营销活动,提高客户的购买几率,进而提高营销

0.0000 0 3
  • 关注作者
  • 收藏
zxq997

数据挖掘技术简介

数据挖掘技术的功能主要可以分为两大类,即描述型数据挖掘和预测型数据挖掘。一般情况下,描述型数据挖掘不需要有目标字段,而预测型数据挖掘需要有目标字段。目标字段具有监督作用,能够揭示输入字段与其之间的联系。因此,描述型数据挖掘也被称作无监督数据挖掘,而预测型数据挖掘则也称为有监督数据挖掘。描述型数据挖掘任务在于刻画数据的一般性质,学习过程是没有监督的,因为输入实例没有类标记,因此也成为无监督学习,常

0.0000 0 2
  • 关注作者
  • 收藏
wangjuju123

模块re的内容

如果没有用武之地,知道如何书写正则表达式也没多大意义。模块re包含多个使用正则表达 式的函数,表10-9描述了其中重要的一些。 表10-9 模块 re中一些重要的函数 函 数 描 述 compile(pattern[, flags]) 根据包含正则表达式的字符串创建模式对象 search(pattern

0.0000 0 2
  • 关注作者
  • 收藏
wangjuju123

贪婪和非贪婪模式

重复运算符默认是贪婪的,这意味着它们将匹配尽可能多的内容。例如,假设重写了 前面的突出程序,在其中使用了如下模式: >>> emphasis_pattern = r'\*(. )\*' 这个模式与以星号打头和结尾的内容匹配。好像很完美,不是吗?但情况并非如此。 >>> re.sub(emphasis_pattern, r'\1', '*This* is *it*!') '

0.0000 0 5
  • 关注作者
  • 收藏
wangjuju123

正则表达式是什么

 二选一和子模式 需要以不同的方式处理每个字符时,字符集很好,但如果只想匹配字符串'python'和'perl', 该如何办呢?使用字符集或通配符无法指定这样的模式,而必须使用表示二选一的特殊字符:管 道字符(|)。所需的模式为'python|perl'。 然而,有时候你不想将二选一运算符用于整个模式,而只想将其用于模式的一部分。为此, 可将这部分(子模式)放在圆括号内。对于前面的示例,可重写

0.0000 0 3
  • 关注作者
  • 收藏
wangjuju123

字符集中的特殊字符

一般而言,对于诸如句点、星号和问号等特殊字符,要在模式中将其用作字面字符而不 是正则表达式运算符,必须使用反斜杠对其进行转义。在字符集中,通常无需对这些字符进 行转义,但进行转义也是完全合法的。然而,你应牢记如下规则。  脱字符(^)位于字符集开头时,除非要将其用作排除运算符,否则必须对其进行转 义。换而言之,除非有意为之,否则不要将其放在字符集开头。  同样,对于右方括号(])和连字符(

0.0000 0 3
  • 关注作者
  • 收藏
wangjuju123

正则表达式是什么

正则表达式是可匹配文本片段的模式。简单的正则表达式为普通字符串,与它自己匹配。 换而言之,正则表达式'python'与字符串'python'匹配。你可使用这种匹配行为来完成如下工作: 在文本中查找模式,将特定的模式替换为计算得到的值,以及将文本分割成片段。  通配符 正则表达式可与多个字符串匹配,你可使用特殊字符来创建这种正则表达式。例如,句点与 除换行符外的其他字符都匹配,因此正则表达式'

0.0000 0 2
  • 关注作者
  • 收藏
wangjuju123

time

模块time包含用于获取当前时间、操作时间和日期、从字符串中读取日期、将日期格式化为 字符串的函数。日期可表示为实数(从“新纪元”1月1日0时起过去的秒数。“新纪元”是一个随 平台而异的年份,在UNIX中为1970年),也可表示为包含9个整数的元组。表10-6解释了这些整 数。例如,元组(2008, 1, 21, 12, 2, 56, 0, 21, 0)表示2008年1月21日12时2分56秒。这

0.0000 0 1
  • 关注作者
  • 收藏
dreamhappy2012

更新表中的数据

update 语句可用来修改表中的数据, 基本的使用形式为:update 表名称 set 列名称=新值 where 更新条件;使用示例:将id为5的手机号改为默认的"-": update students set tel=default where id=5;将所有人的年龄增加1: update students set age=age 1;将手机号为 13288097888 的姓名改为

0.0000 0 2
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据