数据科学专业问答社区，好文章，一字千金--CDA答疑社区

图像数据不足时的处理方法

根据上述讨论，对应的处理方法大致也可以分两类，一是基于模型的方法，主要是采用降低过拟合风险的措施，包括简化模型（如将非线性模型简化为线性模型）、添加约束项以缩小假设空间（如 Ll/L2正则顶）、集成学习、 Dropout 超参数等；二是基于数据的方法，主要通过数据扩充（ Data Augmentation ），即根据一些先验知识，在保持特定信息的前提下，对原始数据进行适当变换以达到扩充数据集

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

Word2Vec 与 LDA 的区别和联系

Word2Vec 与 LDA 的区别和联系，首先， LDA 是利用文挡中单词的共现关系来对单词按主题聚类，也可以理解为对“文挡－单词”矩阵进行分解，得到“文档－主题”和“主题－单词”两个概率分布。而 Word2Vec 真实是对“上下文－单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的 Wor

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

Word2Vec

谷歌 2013 年提出的 Word2Vec 是目前最常用的词嵌入模型之一。 Word2Vec 实际是一种浅层的神经网络模型，它有两种网络结构，分别是 CBOW (Continues Bag of Words ）和 Skip-gram。

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

有哪些文本表示模型？

1，词袋模型和 N-gram 模型最基础的文本表示模型是词袋模型。顾名思义，就是将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体地说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个主要词，而该维对应的权重则反映了这个词在原文章中的重要程度。可以将连续出现的 n 个词( n <= N ）组成的词组（ N-gram ）也作为一个单独的特征搬到向量表示中

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

什么是组合特征？

为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。以广告点击预估问题为例，原始数据有语言和类型两种离散特征，表 1.2 是语言和类型对点击的影响。为了提高拟合能力，语言和类型可以组成二阶特征，表 1.3 是语言和类型的组合特征对点击的影响。

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

在对数据进行预处理时，应该怎样处理类别型特征？

在对数据进行预处理时，应该怎样处理类别型特征？1，序号编码序号编码通常用于处理类别间具有大小关系的数据。例如成绩 ,可以分为低、中、高三挡，并且存在“高＞中＞低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值 ID ，例如高表示为 3 、中表示为 2 、低表示为 1 ，转换后依然保留了大小关系。2，独热编码独热编码通常用于处理类别间不具有大小关系的特征。例如血

CDA持证人阿涛哥

2021-03-30

0.0157 1 0

类别型特征

类别型特征（ Categorical Feature ）主要是指性别（男、女）、血型（ A 、 B 、 AB 、 0 )等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式，除了决策树等少数模型能直接处理字符串形式的输入，对于逻辑回归、支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

CDA持证人阿涛哥

2021-03-30

18.8654 2 0

数据归一化并不是万能的

数据归一化并不是万能的。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用。

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

归一化最常用的方法

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要有以下两种。( 1 ）线性函数归一化（ Min-Max Scaling ）。它对原始数据进行统性变换，使结果映射到［ 0, 1 ］的范围，实现对原始数据的等比缩放。( 2 ）零均值归一化（ Z-Score Normalization ）。它会将原始数据映射到标准差为 l 的分布均值归一化（ Z-S

CDA持证人阿涛哥

2021-03-30

59.5849 1 0

为什么需要对数值类型的特征做归一化处理？

为了消除数据特征之间的量纲影响我们需要对特征进行归一化处理，使得不同指标之间具有可比性。例如，分析一个人的身高和体重对健康的影响，如果使用米（ m)和干克（ kg ）作为单位，那么身高特征会在 1.6 ～1.8m 的数值范围内，体重特征会在50 ～ 1OOkg 的范围内，分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果，就需要进行特征归一化（ N

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

结构化数据和非结构化数据

（1）结构化数据。结构化数据类型可以看作关系型数据库的一张表，每列都有清晰的定义，包含了数值型、类别型两种基本类型；每一行数据表示一个样本的信息。( 2 ）非结构化数据。非结构化数据主要包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没离清晰的类别定义，并且每条数据的大小各不相同。

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

数据产品与大数据的关系非常不想写这样的踩着三俗概念的解释性文字，因为大数据是一个被所有人提起，但几乎所有人又不明白的概念。我在这里写什么概念解释都是错的，徒增搜索引擎的“负荷”。所以，还是回溯到核心价值角度来看：前面提到数据产品最大的价值在于辅助使用者优化决策，以及辅助决策价值的实现。如果把数据产品比作一台机器的话，那数据就像这台机器运转的原材料。“原材料”+“处理过程”+“结果展示与应用”≈数据

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

数据产品的三个关键要素

数据产品的三个关键要素我认为，要成就一个数据产品，需要关注三个关键要素：1).数据、2).决策逻辑、3).行动流程。数据的价值，毋庸置疑。它就像整体产品内部流淌的血液。具备什么样的数据类型、数据周期、数据粒度，往往会决定你的数据产品可以提供什么服务。决策逻辑是很多平庸的数据产品所欠缺的，它们只是简单的、响应式的展示了需求方的报表。好的数据产品，应该可以帮助用户思考，尤其是将平时用户遇到业务痛点师的

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

数据产品需求把握的特殊性

数据产品需求把握的特殊性一个真正好的数据产品要首先把握一个核心——找到用户的真正核心需求、痛点。这句话对于非数据产品的产品经理来说简直就是天经地义的废话。但对于一个数据产品经理而言，得来却不那么容易，有其特殊性。第一个特殊性，是需求层次特殊性，数据产品的用户中往往会有很多内部用户，他们对数据、数据分享、数据处理的理解和熟练程度各有不同，因此会提出各种不同层次的需求，概况起来大致包括：1).业务/管

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

数据产品的分类

在狭义的范畴里，从使用用户来看，可以是企业内部用户，外部企业客户，外部个人客户等。从产品发展形态来看，从最初的报表型（如静态报表、DashBoard、即席查询），到多维分析型（OLAP 等工具型数据产品），到定制服务型数据产品，再到智能型数据产品、使能型数据产品等。由于报表型数据产品过于苍白、可视化能力有限，而多维分析型数据产品更适合于专业的数据分析师而不是业务或运营人员，使用局限

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

为什么会有数据产品?

为什么会有数据产品?人们日常的商业活动都是“决策”和“行动”的螺旋上升过程及交织在一起的子过程，主过程里的"决策"表示内心拿定一个主意要怎么做，要达到什么样的目标，行动是具体的执行过程，比如用户要解决出行不方便的问题，他的主决策可能是“买一辆适合自己的轿车代步”，而在具体行动过程中，马上又会面临“买什么车”、“在什么渠道买”等子决策问题。所有的决策以及行动中的子决策过程都是基于“某种参考”的，最简

CDA持证人阿涛哥

2021-03-30

0.0000 0 0

什么是数据产品?

要谈清楚数据产品，首先不可回避的“俗套问题”便是数据产品的定义认知。广义来看，数据产品是可以发挥数据价值去辅助用户更优的做决策（甚至行动）的一种产品形式。它在用户的决策和行动过程中，可以充当信息的分析展示者和价值的使能者。从这个角度讲，搜索引擎、个性化推荐引擎显然也是数据产品，由于产品形态已经比较成熟，所以很少被人划分到数据产品的概念里，另外，这类产品往往大都在数据外面穿了一层外衣，使非专业的用户

CDA持证人阿涛哥

2021-03-29

0.0000 0 0

AARRR模型的线性顺序

AARRR模型，它是一个线性顺序，最终形成一个用户漏斗分析模型。首先，你可以从任意广告/媒体渠道去拉新获客。其次，你通过用户引导Onboarding去“激活”他们，并且让你的产品向用户传递“啊哈时刻”（备注：啊哈(AHA)时刻就是提炼出产品的最大特点、优势，能使用户眼前一亮的时刻，是用户真正发现产品核心价值的时刻）。然后，一旦用户被激活，剩下来的工作就是尽量提高用户留存率。再次，你利用产品的特点生

CDA持证人阿涛哥

2021-03-29

0.0000 0 0

什么是AARRR模型?

AARRR模型代表：用户拉新Acquisition用户激活Activation用户留存Retention用户推荐Referral商业收入Revenue

CDA持证人阿涛哥

2021-03-29

47.6492 1 0

怎么做恶意刷单检测?

怎么做恶意刷单检测?分类问题用机器学习方法建模解决，想到的特征有：1）商家特征：商家历史销量、信用、产品类别、发货快递公司等2）用户行为特征：用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号3）环境特征（主要是避免机器刷单）：地区、ip、手机型号等4）异常检测：ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等5）评论文本检测：刷单的评论文本可能套路较为一致，计算与已标

CDA持证人阿涛哥

2021-03-29

0.0000 0 0