wangjuju123

python错误解析(三)

代码如下:>>> seq = [1, 2, 3, 4] >>> sep = ' ' >>> sep.join(seq) Traceback (most recent call last): File "", line 1, in sep.join(seq) TypeError: sequence item 0:

0.0000 0 1
  • 关注作者
  • 收藏
wangjuju123

python错误解析(二)

代码如下:>>> from math import sqrt >>> exec "sqrt = 1" >>> sqrt(4) Traceback (most recent call last): File "", line 1, in sqrt(4) TypeError: 'int' object is not

0.0000 0 1
  • 关注作者
  • 收藏
wangjuju123

python错误解析(一)

>>> D1 = {'x':1, 'y':2} >>> D1['x'] 1 >>> D1['z'] Traceback (most recent call last): File "", line 1, in D1['z'] KeyError: 'z' 【错误分析】这是Python中字典键错误的提示,如

0.0000 0 4
  • 关注作者
  • 收藏
旧人拾荒

小白成长为数据分析师需要读哪些书?

本人刚刚入行数据分析,有简单的python基础,想要继续深入学习数据分析的各种技能,发现市面上相关书籍鱼龙混杂。各位大佬能否分享学习书单?

0.0000 0 5
  • 关注作者
  • 收藏
809669515

使用python创建RFM模型

RFM是客户分析及衡量客户价值的重要模型之一,其中的R表示最近一次消费(Recency),F表示消费频率(Frequency),M表示消费金额(Monetary)。依据这三个指标RFM可以将客户动态分组,并进一步指导客户运营的下一步工作。本篇文章使用python的聚类算法创建一个粗糙的RFM模型。 1. 开始前的准备工作首先是开始前的准备工作,这里除了常用的numpy和pandas以外,

96.2725 3 1
  • 关注作者
  • 收藏
809669515

RFM模型分析

会员的价值体现在持续不断的为企业带来稳定的销售和利润,同时也为企业策略的制定提供数据支持。所以零售企业总是想尽一切办法去吸引更多的人成为会员,并且尽可能提高他们的忠诚度。忠诚度高的顾客表现为经常光顾购买,有较高的价格忍耐度,愿意支付更高的价格,也愿意向其他人推荐,对品牌满意度较高等。会员忠诚度高不一定会员价值就高,还得看他的实际消费金额,也就是消费力。忠诚度高、消费力强的顾客才是企业最优质的会员顾

0.0000 0 2
  • 关注作者
  • 收藏
809669515

监督学习和无监督学习(通俗理解)

机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等。在这里,主要理解一下监督学习和无监督学习。监督学习(supervised learning)从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和

0.0000 0 3
  • 关注作者
  • 收藏
809669515

划分训练集、测试集的三种方法

一、为什么要分开训练集与测试集在机器学习中,我们是依靠对学习器的泛化误差进行评估的方法来选择学习器。具体方法如下:我们需要从训练集数据中产出学习器,再用测试集来测试所得学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似,来选取学习器。通常我们假设训练集、测试集都是从样本集中独立同分布采样得到,且测试集、训练集中的样本应该尽可能互斥(测试集中的样本尽量不在训练集中有出现、尽量不

0.0000 0 1
  • 关注作者
  • 收藏
wangjuju123

常见的聚类算法

1. K-Means(K均值)聚类算法步骤: (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。 (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。 (3) 计算每一类中中心点作为新的中心点。 (4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可

57.9135 1 1
  • 关注作者
  • 收藏
809669515

机器学习中训练集,验证集,测试集比例配比

当数据量比较小时,可以使用 7 :3 训练数据和测试数据(西瓜书中描述 常见的做法是将大约 2/3 ~ 4/5 的样本数据用于训练,剩余样本用于测试)或者 6: 2 : 2 训练数据,验证数据和测试数据当数据量非常大时,可以使用 98 : 1 : 1 训练数据,验证数据和测试数据 传统机器学习阶段(数据集在万这个数量级),一般分配比例为6:2:2而大数据时代,这个比例就不太适用

57.9135 1 0
  • 关注作者
  • 收藏
wangjuju123

忘记数据库密码怎么办??

一、问题描述很多用户在安装mysql数据库时会忽略一个初使密码的弹窗或者设置了后面许久不用会忘记,从而在后面使用时需要密码又不记得时大部分人会选择重装。这里有一个不需要重装就可以重置密码的方法。二、方法描述在windows中 1、以系统管理员身份运行cmd 2、停止mysqlnet stop mysql.3、切换到MySQL安装路径下:D:\WAMP\MySQL-5.6.36\bin

57.9135 1 1
  • 关注作者
  • 收藏
kejiayuan0806

MySQL限制查询LIMIT的使用

LIMIT 子句可以被用于强制 SELECT 语句返回指定的记录数。语法:SELECT columns FROM table LIMIT [offset,] rows | rows OFFSET offset;LIMIT 接受一个或两个数字参数。参数必须是一个整数常量。1、第一个参数指定第一个返回记录行的偏移量2、第二个参数指定返回记录行的最大数目3、如果只给定一个参数,表示返回最大的

57.9135 1 2
  • 关注作者
  • 收藏
kejiayuan0806

MySQL中UNION联合查询

UNION联合查询要求1、由两条或两条以上SELECT语句组成,语句之间用UNION操作符分隔。2、每条SELECT语句必须包含相同的字段、表达式或聚集函数,各个字段不需要以相同的次序列出。3、字段的数据类型必须兼容:类型不必完全相同,但必须是DBMS可以隐含转换的类型,如不同的数值类型或不同的日期类型。 UNION操作符合并的结果集不会允许重复值,如果需要保留重复值,可以使用UNIO

57.9135 1 4
  • 关注作者
  • 收藏
kejiayuan0806

MySQL中WHERE与HAVING的区别

WHERE 子句作用于表和视图,HAVING 子句作用于组。两者显著的区别是WHERE子句条件查询的作用域是针对数据表进行操作,而HAVING条件查询则是对查询结果进行操作。WHERE在分组和聚集计算之前筛选行,而HAVING 在分组和聚集之后筛选分组的行。因此WHERE子句不能包含聚集函数,相反HAVING 子句总是包含聚集函数。(严格说来,也可以写不使用聚集的 HAVING 子句,但这种情

57.9135 1 2
  • 关注作者
  • 收藏
kejiayuan0806

如何处理分类中的训练数据集不均衡问题

什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。②在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占5%。最

0.0000 0 2
  • 关注作者
  • 收藏
291294878

spark集群运算的模式?

Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。standalone(集群模式):典型的Mater/slave模式,不过也能

0.0000 0 6
  • 关注作者
  • 收藏
291294878

文件格式存储和处理数据有哪些?

  设计决策的关键之一是基于以下方面关注文件格式:使用模式,例如访问50列中的5列,而不是访问大多数列。可并行处理的可分裂性。块压缩节省存储空间vs读/写/传输性能模式演化以添加字段,修改字段和重命名字段。  CSV文件  CSV文件通常用于在Hadoop和外部系统之间交换数据。CSV是可读和可解析的。 CSV可以方便地用于从数据库到Hadoop或到分析数据库的批量加载。在Hadoop

0.0000 0 1
  • 关注作者
  • 收藏
291294878

大数据解决方案的关键步骤是什么?

提取数据,存储数据(即数据建模)和处理数据(即数据加工,数据转换和查询数据)。  提取数据 从各种来源提取数据,例如: RDBM(Relational Database Management Systems)关系数据库管理系统,如Oracle,MySQL等。ERPs(Enterprise Resource Planning)企业资源规划(即ERP)系统,如SAP。CRM(Customer

0.0000 0 2
  • 关注作者
  • 收藏
291294878

基于Hadoop的数据中心的好处是什么?

随着数据量和复杂性的增加,提高了整体SLA(即服务水平协议)。例如,“Shared Nothing”架构,并行处理,内存密集型处理框架,如Spark和Impala,以及YARN容量调度程序中的资源抢占。  缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载

0.0000 0 1
  • 关注作者
  • 收藏
291294878

什么是Hadoop?

Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:  HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在

0.0000 0 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据