维克多阿涛

如何解决数据倾斜问题?

解决数据倾斜问题的方案方案一:过滤掉倾斜数据 当少量key重复次数特别多,如果这种key不是业务需要的key, 可以直接过滤掉。方案二:引入随机数 数据按照类型group by时,会将相同的key所需的数据拉取到一 个节点进行聚合,而当某组数据量过大时,会出现其他组已经计算完 成而当前任务未完成的情况。可以考虑加入随机数,将原来的一组key 强制拆分为多组进行聚合。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

数据倾斜是什么?

数据倾斜是开发画像过程中常遇到的问题,当任务执行一直卡在 map 100%、reduce 99%,最后的1%花了几个小时都没执行完 时,这时一般是遇到了数据倾斜。 问题出现的原因是当进行分布式计算时,由于某些节点需要计算 的数据较多,导致其他节点的reduce阶段任务执行完成时,该节点的 任务还没有执行完成,造成其他节点等待该节点执行完成的情况。比 如两张大表在join的时候大部分key对应10条

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​数据服务层开发

数据服务层开发 数据最终的目的是走出数据仓库,应用到业务系统和营销场景 中。一般在开发完画像后,还需要打通标签数据和各业务系统之间的 通路,通过产品化的方式将标签数据应用到业务中去。这里需要打通 的服务层包括离线服务层和在线服务层,其中离线服务层将ETL后的用 户群数据推送到对应业务系统,在线服务层以RESTful API方式提供接 口服务,可支持个性化推荐、营销推送、在线特征库等场景。几个典型的

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

用户特征库开发

用户特征库开发 为进一步从多个维度丰富用户特征,挖掘用户的相关行为,除了开发用户标签体系外,一般还会开发用户的特征库。一方面为个性化 推荐、精准营销、商业分析等应用提供中间层数据,另一方面也可以削减不同算法在特征构建时的冗余加工。 简单来说,用户特征库就是对用户每一次的不同行为(如浏览、 收藏、搜索、购买等)及该行为对应的标签(或商品品类)进行详细 的记录,以便从用户的行为特征中挖掘用户的偏好。与

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

Elasticsearch简介

Elasticsearch简介 Elasticsearch是一个开源的分布式全文检索引擎,可以近乎实时地存储、检索数据。而且可扩展性很好,可以扩展到上百台服务器, 处理PB级别的数据。对于用户标签查询、用户人群计算、用户群多维 透 视 分 析 这 类 对 响 应 时 间 要 求 较 高 的 场 景 , 也 可 以 考 虑 选 用 Elasticsearch进行存储。Elasticsearch是面向

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​HBase简介

HBase简介 HBase是一个高性能、列存储、可伸缩、实时读写的分布式存储 系统,同样运行在HDFS之上。与Hive不同的是,HBase能够在数据 库上实时运行,而不是跑MapReduce任务,适合进行大数据的实时查 询。 画像系统中每天在Hive里跑出的结果集数据可同步到HBase数据 库,用于线上实时应用的场景。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

ID-MAP 是什么?

ID-MAP 开发用户标签的时候,有项非常重要的内容——ID-MApping,即 把用户不同来源的身份标识通过数据手段识别为同一个主体。用户的属性、行为相关数据分散在不同的数据来源中,通过ID-MApping能够 把用户在不同场景下的行为串联起来,消除数据孤岛。用户与设备间可以是多对多关系。用户在未登录App的状态下,在App站内访问、搜索 相关内容时,记录的是设备id(即cookieid)相关的

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​分区存储

分区存储 如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类 型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便 于向这张宽表中新增标签类型。要解决这种ETL花费时间较长的问题,可以从以下几个方面着手:·将数据分区存储,分别执行作业; ·标签脚本性能调优; ·基于一些标签共同的数据来源开发中间表。 下面介绍一种用户标签分表、分区存储的解决方案。 根据标签指标体系的人口属性、行为

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​累计快照事实表

累计快照事实表:用于查看不同事件之间的时间间隔,例如分析 用户从购买到支付的时长、从下单到订单完结的时长等。一般适用于 有明确时间周期的业务过程。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

周期快照事实表

·周期快照事实表:在一个确定的时间间隔内对业务状态进行度量。例如查看一个用户的近1年付款金额、近1年购物次数、近30日登录天数等。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

事务事实表

事务事实表:用于描述业务过程,按业务过程的单一性或多业务 过程可进一步分为单事务事实表和多事务事实表。其中单事务事实表 分别记录每个业务过程,如下单业务记入下单事实表,支付业务记入 支付事实表。多事务事实表在同一个表中包含了不同业务过程,如下 单、支付、签收等业务过程记录在一张表中,通过新增字段来判断属 于哪一个业务过程。当不同业务过程有着相似性时可考虑将多业务过程放到多事务事实表中。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​ 用户性别

用户性别用户性别可细分为自然性别和购物性别两种。 自然性别是指用户的实际性别,一般可通过用户注册信息、填写 调查问卷表单等途径获得。该标签只需要从相应的表中抽取数据即 可,加工起来较为方便。 用户购物性别是指用户购买物品时的性别取向。例如,一位实际 性别为男性的用户,可能经常给妻子购买女性的衣物、包等商品,那 么这位用户的购物性别则是女性。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​常见用户属性有哪些?

常见用户属性有哪些?用户属性是刻画用户的基础。常见用户属性指标包括:用户的年 龄、性别、安装时间、注册状态、城市、省份、活跃登录地、历史购 买状态、历史购买金额等。 用户属性维度的标签建成后可以提供客服电话服务,为运营人员 了解用户基本情况提供帮助。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

用户画像建设项目开发流程

用户画像建设项目开发流程第一阶段:目标解读 在建立用户画像前,首先需要明确用户画像服务于企业的对象, 再根据业务方需求,明确未来产品建设目标和用户画像分析之后的预 期效果。 一般而言,用户画像的服务对象包括运营人员和数据分析人员。 不同业务方对用户画像的需求有不同的侧重点,就运营人员来说,他 们需要分析用户的特征、定位用户行为偏好,做商品或内容的个性化 推送以提高点击转化率,所以画像的侧重点就落在

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

如何搭建一套用户画像方案?

搭建一套用户画像方案整体来说需要考虑8个模块的建设1·用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。 这些都是框架,大方向的规划,只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。2·数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​机器学习挖掘类标签

机器学习挖掘类标签 该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。 该类标签需要通过算法挖掘产生。 在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​规则类标签

规则类标签 该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像 的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结 构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

统计类标签

统计类标签 这类标签是最为基础也最为常见的标签类型,例如,对于某个用 户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天 数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据 中统计得出。该类标签构成了用户画像的基础。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

​用户画像的标签类型

标签类型 用户画像建模其实就是对用户“打标签”,从对用户打标签的方式 来看,一般分为3种类型:①统计类标签;②规则类 标签;③机器学习挖掘类标签。

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

什么是用户画像?

用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽 象出用户的信息全貌,用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要

0.0000 0 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
CDA117556
480.0000
02
维克多阿涛
320.0001
03
ermutuxia
320.0000
04
85691082
180.0000
05
CDA118954
120.0000
06
dufrense.l
60.0000
07
mistook
60.0000
08
cainiaofei
60.0000