HBase简介 HBase是一个高性能、列存储、可伸缩、实时读写的分布式存储 系统,同样运行在HDFS之上。与Hive不同的是,HBase能够在数据 库上实时运行,而不是跑MapReduce任务,适合进行大数据的实时查 询。 画像系统中每天在Hive里跑出的结果集数据可同步到HBase数据 库,用于线上实时应用的场景。
ID-MAP 开发用户标签的时候,有项非常重要的内容——ID-MApping,即 把用户不同来源的身份标识通过数据手段识别为同一个主体。用户的属性、行为相关数据分散在不同的数据来源中,通过ID-MApping能够 把用户在不同场景下的行为串联起来,消除数据孤岛。用户与设备间可以是多对多关系。用户在未登录App的状态下,在App站内访问、搜索 相关内容时,记录的是设备id(即cookieid)相关的
分区存储 如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类 型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便 于向这张宽表中新增标签类型。要解决这种ETL花费时间较长的问题,可以从以下几个方面着手:·将数据分区存储,分别执行作业; ·标签脚本性能调优; ·基于一些标签共同的数据来源开发中间表。 下面介绍一种用户标签分表、分区存储的解决方案。 根据标签指标体系的人口属性、行为
累计快照事实表:用于查看不同事件之间的时间间隔,例如分析 用户从购买到支付的时长、从下单到订单完结的时长等。一般适用于 有明确时间周期的业务过程。
·周期快照事实表:在一个确定的时间间隔内对业务状态进行度量。例如查看一个用户的近1年付款金额、近1年购物次数、近30日登录天数等。
事务事实表:用于描述业务过程,按业务过程的单一性或多业务 过程可进一步分为单事务事实表和多事务事实表。其中单事务事实表 分别记录每个业务过程,如下单业务记入下单事实表,支付业务记入 支付事实表。多事务事实表在同一个表中包含了不同业务过程,如下 单、支付、签收等业务过程记录在一张表中,通过新增字段来判断属 于哪一个业务过程。当不同业务过程有着相似性时可考虑将多业务过程放到多事务事实表中。
用户性别用户性别可细分为自然性别和购物性别两种。 自然性别是指用户的实际性别,一般可通过用户注册信息、填写 调查问卷表单等途径获得。该标签只需要从相应的表中抽取数据即 可,加工起来较为方便。 用户购物性别是指用户购买物品时的性别取向。例如,一位实际 性别为男性的用户,可能经常给妻子购买女性的衣物、包等商品,那 么这位用户的购物性别则是女性。
常见用户属性有哪些?用户属性是刻画用户的基础。常见用户属性指标包括:用户的年 龄、性别、安装时间、注册状态、城市、省份、活跃登录地、历史购 买状态、历史购买金额等。 用户属性维度的标签建成后可以提供客服电话服务,为运营人员 了解用户基本情况提供帮助。
用户画像建设项目开发流程第一阶段:目标解读 在建立用户画像前,首先需要明确用户画像服务于企业的对象, 再根据业务方需求,明确未来产品建设目标和用户画像分析之后的预 期效果。 一般而言,用户画像的服务对象包括运营人员和数据分析人员。 不同业务方对用户画像的需求有不同的侧重点,就运营人员来说,他 们需要分析用户的特征、定位用户行为偏好,做商品或内容的个性化 推送以提高点击转化率,所以画像的侧重点就落在
搭建一套用户画像方案整体来说需要考虑8个模块的建设1·用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。 这些都是框架,大方向的规划,只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。2·数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。
机器学习挖掘类标签 该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。 该类标签需要通过算法挖掘产生。 在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一
规则类标签 该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像 的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结 构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;
统计类标签 这类标签是最为基础也最为常见的标签类型,例如,对于某个用 户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天 数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据 中统计得出。该类标签构成了用户画像的基础。
标签类型 用户画像建模其实就是对用户“打标签”,从对用户打标签的方式 来看,一般分为3种类型:①统计类标签;②规则类 标签;③机器学习挖掘类标签。
用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽 象出用户的信息全貌,用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要
安慰剂检验结果图式与代码
-- 4.6 各分类用户数量和占比, 销售贡献额和贡献额占比,以及累计销售贡献额和累计贡献额占比#方法一select 用户价值分类, count(user_id) 人数 ,count(user_id)/ (select count(user_id) 总人数 from RFM1) 人数占比, sum(M) 销售贡献额, sum(M)/ (select sum(M) 总销售额 from RFM1)
-- 4.5 各分类用户数量和占比, 销售贡献额和贡献额占比 select 用户价值分类, count(user_id) 人数 , count(user_id)/ (select count(user_id) 总人数 from RFM1) 人数占比, sum(M) 销售贡献额 , sum(M)/ (select sum(M) 总销售额 from RFM1) 销售
-- 4.5 RFM用户价值create VIEW RFM1 AS select *,case when R程度='高' and F程度='高' and M程度='高' then '重要价值用户' when R程度='高' and F程度='低' and M程度='高' then '重要发展用户' #重要发掘, 提高F when R程度='低' and F程度='高' and M程
-- 4.4 RFM重要程度select *, if(R评分>3.5984,'高','低') as R程度, if(F评分>2.1039,'高','低') as F程度, if(M评分>2.2051,'高','低') as M程度from (select user_id,timestampdiff(day,max(日期),'2014-12-19') as R,co
关注