詹惠儿

推荐系统的CB有什么优缺点?

基于内容的过滤技术的优缺点 CB过滤技术克服了CF的挑战。即使没有用户提供评级,他们也可以推荐新商品。因此,即使数据库不包含用户首选项,也不会影响推荐准确性。此外,如果用户首选项发生变化,则可以在短时间内调整其推荐。他们可以管理不同用户不共享相同项目但根据其内在特征仅相同项目的情况。用户可以在不共享其个人资料的情况下获得建议,这可以确保隐私。CBF技术还可以解释如何向用户生成推荐。然而,这些技术遭

詹惠儿

2018-11-26

0.0000 0 3
  • 关注作者
  • 收藏

基于内容的过滤

基于内容的技术是一种依赖于域的算法,它更多地强调了对项的属性的分析,以便生成预测。当建议使用网页,出版物和新闻等文档时,基于内容的过滤技术是最成功的。在基于内容的过滤技术中,使用从用户过去评估的项目的内容中提取的特征,基于用户简档进行推荐。建议用户使用与积极评价项目相关的项目。 CBF使用不同类型的模型来查找文档之间的相似性,以便生成有意义的建议。它可以使用矢量空间模型,如术

詹惠儿

2018-11-26

0.0000 0 3
  • 关注作者
  • 收藏

推荐系统的反馈是什么?

明确的反馈 系统通常通过系统界面提示用户提供项目的评级,以便构建和改进他的模型。推荐的准确性取决于用户提供的评级数量。这种方法的唯一缺点是,它需要用户的努力,而且用户并不总是准备好提供足够的信息。尽管显式反馈需要用户付出更多努力,但它仍然被视为提供更可靠的数据,因为它不涉及从操作中提取偏好,并且还为推荐过程提供透明度,从而导致感知推荐质量略高对建议更有信心。 隐含的反馈 系统

詹惠儿

2018-11-26

0.0000 0 2
  • 关注作者
  • 收藏

推荐系统的信息收集阶段

这收集用户的相关信息以生成用于预测任务的用户简档或模型,包括用户访问的资源的用户属性,行为或内容。在用户配置文件/模型构造良好之前,推荐代理无法准确运行。系统需要尽可能多地了解用户,以便从一开始就提供合理的推荐。推荐系统依赖于不同类型的输入,例如最方便的高质量显式反馈,其包括用户关于他们对项目的兴趣的显式输入或通过观察用户行为间接地推断用户偏好来隐式反馈。也可以通过显式和隐式反馈的组合来

詹惠儿

2018-11-26

0.0000 0 4
  • 关注作者
  • 收藏

什么是推荐系统的冷启动?

与基于内容的过滤技术相关的一些问题是有限的内容分析,过度专业化和数据的稀疏性。此外,协作方法表现出冷启动,稀疏性和可伸缩性问题。这些问题通常会降低建议的质量。为了减轻所发现的一些问题,已经提出了混合滤波,它以不同的方式组合了两种或更多种滤波技术,以提高推荐系统的准确性和性能。这些技术结合了两种或多种过滤方法,以便在平衡其相应弱点的同时发挥其优势。它们可以基于它们的操作分类为加权混合,

詹惠儿

2018-11-26

0.0000 0 5
  • 关注作者
  • 收藏

怎么定义推荐系统?

推荐系统被定义为复杂信息环境下用户的决策策略。此外,从电子商务的角度定义推荐系统作为一种工具,帮助用户搜索与用户的兴趣和偏好相关的知识记录。推荐系统被定义为一种辅助和增强社会过程的手段,当没有足够的个人知识或替代方案经验时,使用他人的建议做出选择。推荐系统通过向用户提供个性化的,独有的内容和服务建议来处理用户通常遇到的信息过载问题。最近,已经开发了用于构建推荐系统的各种方法,其可以利

詹惠儿

2018-11-26

0.0000 0 1
  • 关注作者
  • 收藏

推荐系统在数字化时代怎么运用?

推荐系统对服务提供商和用户都有益。它们降低了在线购物环境中查找和选择项目的交易成本。推荐系统也证明可以改善决策过程和质量。在电子商务环境中,推荐系统可以增加收入,因为它们是销售更多产品的有效手段。在科学图书馆中,推荐系统通过允许用户超越目录搜索来支持用户。因此,不能过分强调在系统内使用有效且准确的推荐技术的需要,该系统将为用户提供相关且可靠的推荐。 可用数字信息量和互联网访

詹惠儿

2018-11-26

0.0000 0 6
  • 关注作者
  • 收藏

评估模型的常用指标

基尼系数 基尼系数有时用于分类问题。基尼系数可以从AUC ROC数得出。基尼系数只是ROC曲线与诊断线之间的面积与上述三角形的面积之比。以下是使用的公式: 基尼= 2 * AUC - 1 基尼系数高于60%是一个很好的模型。对于手头的情况,我们得到基尼系数为92.7%。 协调 - 不和谐比率 对于任何分类预测问题,这也是最重要的指标之一。要理解这一点,我们假设我们有3名学生今年有可能通过。以下

詹惠儿

2018-11-23

0.0000 0 0
  • 关注作者
  • 收藏

评估模型的均方根误差(RMSE)

RMSE是回归问题中最常用的评估指标。它遵循一个假设,即误差是无偏的并遵循正态分布。以下是RMSE需要考虑的要点: “平方根”的功效使该指标能够显示大量偏差。 此度量标准的“平方”特性有助于提供更强大的结果,从而防止取消正负误差值。换句话说,该度量恰当地显示了错误术语的合理幅度。 它避免使用绝对误差值,这在数学计算中是非常不希望的。 当我们有更多样本时,使用RMSE重建误差分布被认为更可靠。 R

詹惠儿

2018-11-23

0.0000 0 2
  • 关注作者
  • 收藏

Roc要注意什么?

让我们以阈值= 0.5为例(参考混淆矩阵)。这是混淆矩阵: a 如您所见,此阈值的灵敏度为99.6%,(1-特异性)为~60%。该坐标在我们的ROC曲线中成为点。为了将该曲线降低到单个数字,我们找到该曲线下的面积(AUC)。 注意,整个正方形的面积是1 * 1 = 1.因此AUC本身是曲线下面的比率和总面积。对于手头的案例,我们将AUC ROC定为96.4%。以下是一些拇指规则: .90-1

詹惠儿

2018-11-23

0.0000 0 1
  • 关注作者
  • 收藏

ROC曲线怎么使用?

ROC曲线下的面积(AUC - ROC) 这又是业界常用的指标之一。使用ROC曲线的最大优点是它与响应者的比例变化无关。在以下部分中,此声明将更加清晰。 让我们首先尝试了解什么是ROC(接收器工作特性)曲线。如果我们看下面的混淆矩阵,我们观察到对于概率模型,我们得到每个度量的不同值。 因此,对于每种敏感性,我们得到不同的特异性。两者的变化如下: ROC曲线是灵敏度和(1-

詹惠儿

2018-11-23

0.0000 0 1
  • 关注作者
  • 收藏

Kolomogorov Smirnov图表

KS或Kolmogorov-Smirnov图表测量分类模型的性能。更准确地说,KS是衡量正负分布之间分离程度的指标。如果分数将人口分成两个独立的组,其中一组包含所有正数而另一组包含所有负数,则KS为100。 另一方面,如果模型不能区分正面和负面,那么就好像模型从总体中随机选择案例。KS将为0.在大多数分类模型中,KS将介于0和100之间,并且值越高,模型在分离正面和负面情况时越好。 对于手头的情况

詹惠儿

2018-11-23

0.0000 0 2
  • 关注作者
  • 收藏

如何区分增益和提升图表(二)

在第一个十分位数中我们可以达到的最大升力是多少?从本文的第一个表中,我们知道响应者的总数是3850.第一个十分位数将包含543个观测值。因此,第一个十分位数的最大升力可能是543 / 3850~14.1%。因此,我们对此模型非常接近完美。 现在让我们绘制升力曲线。提升曲线是总升力与%人口之间的关系曲线。请注意,对于随机模型,它始终保持100%不变。以下是手头案例的情节: 您还可以使用十

詹惠儿

2018-11-23

0.0000 0 7
  • 关注作者
  • 收藏

如何区分增益和提升图表(一)

增益和提升图表 增益和提升图主要用于检查概率的等级排序。以下是构建提升/增益图表的步骤: 步骤1:计算每次观察的概率 步骤2:按降序排列这些概率。 步骤3:构建十分位数,每组具有近10%的观察结果。 步骤4:计算Good(响应者),Bad(非响应者)和总数的每个十分位数的响应率。 您将获得下表,您需要从中绘制增益/提升图表: 这是一个非常有益的表。累积增益图表是累积%权利和累计%人口之

詹惠儿

2018-11-23

0.0000 0 3
  • 关注作者
  • 收藏

混淆矩阵

混淆矩阵是NXN矩阵,其中N是预测的类的数量。对于手头的问题,我们有N = 2,因此我们得到一个2×2矩阵。以下是一些定义,您需要记住混淆矩阵: 准确性:正确的预测总数的比例。 阳性预测值或精确度:正确识别的阳性病例的比例。 负面预测值:正确识别的负面案例的比例。 敏感度或召回率:正确识别的实际阳性病例的比例。 特异性:正确识别的实际阴性病例的比例。 手头问题的准确率

詹惠儿

2018-11-23

0.0000 0 3
  • 关注作者
  • 收藏

为什么要用模型评估指标?

介绍 预测建模致力于建设性反馈原则。你建立了一个模型。获取指标的反馈,进行改进并继续,直到达到理想的准确度。评估指标解释了模型的性能。评估指标的一个重要方面是它们区分模型结果的能力。 许多天才的分析师,甚至不检查模型的准确性。一旦他们完成了模型的建立,他们就会急忙将预测值映射到看不见的数据上。这是一种不正确的方法。 简单地说,建立一个预测模型不是你的动机。但是,创建并选

詹惠儿

2018-11-23

0.0000 0 2
  • 关注作者
  • 收藏

PCA是指什么?

PCA是主成分分析的英文缩写,主成分分析是指什么呢? 因子分析有两种基本方法:主成分分析(PCA)和公因子分析。总体而言,因子分析涉及帮助在变量上产生较少数量的线性组合的技术,以便减少的变量解释并解释相关矩阵模式中的大多数方差。 主成分分析是一种因子分析方法,它考虑数据中的总方差,这与公因子分析不同,并将原始变量转换为较小的线性组合。相关矩阵的对角线由统一性组

詹惠儿

2018-11-23

10.2408 1 2
  • 关注作者
  • 收藏

k-means聚类的分析原理是什么?

通常,对原始数据表执行k -means聚类分析,其中每行表示对象,列表示对象的定量特征。这些定量特征称为聚类变量。例如,表中有18个对象,并且有两个聚类变量x和y。在实际应用程序中,通常会有更多对象和更多变量。例如,在市场细分中,其中k-means用于查找具有相似需求的消费者群体,每个对象是一个人,每个变量通常是对各种事物对消费者的重要程度(例如,质量,价格,客户服务,便利性)的评级。 步骤1:

詹惠儿

2018-11-22

0.0000 0 2
  • 关注作者
  • 收藏

朴素贝叶斯的EM算法是什么?

EM算法即期望最大化算法。 期望最大化(EM)算法是一种迭代方法,用于在统计模型中找到参数的最大似然或最大后验(MAP)估计,其中模型取决于未观察到的潜在变量。EM迭代在执行期望(E)步骤和最大化(M)步骤之间交替,期望(E)步骤创建用于使用参数的当前估计评估的对数似然的期望的函数,最大化(M)步骤计算最大化预期对数的参数。在E步骤中发现的可能性。然后使用这些参数估

詹惠儿

2018-11-22

0.0000 0 1
  • 关注作者
  • 收藏

随机森林有什么作用?

已知树模型是高方差,低偏差模型。结果,他们倾向于过度拟合训练数据。如果我们重新概述树模型的作用,如果我们不修剪它或引入早期停止标准,如每个叶节点的最小实例数,那么这是很吸引人的。好吧,它尝试沿着要素分割数据,直到实例纯粹关于目标要素的值,没有剩余数据,或者没有剩余的要素来吐出数据集。如果以上之一成立,我们会生成一个叶节点。结果是树模型生长到最大深度,并且试图尽可能精确地重塑训练数

詹惠儿

2018-11-22

0.0000 0 3
  • 关注作者
  • 收藏
<1156157158165>