可以使用不同类型的测量来评估推荐算法的质量,所述测量可以是准确度或覆盖率。使用的度量类型取决于过滤技术的类型。准确度是总可能建议中正确建议的一小部分,而覆盖率则衡量系统能够为其提供建议的搜索空间中的对象比例。用于测量推荐过滤系统准确性的度量标准分为统计和决策支持准确度度量。每个指标的适用性取决于数据集的特征和推荐系统将执行的任务类型。
统计准确度度量通过直接将预测的评级与实际用户评级进行比较来评估过滤技术的准确性。平均绝对误差(MAE),均方根误差(RMSE)和相关通常用作统计精度度量。MAE是最受欢迎和最常用的; 它是推荐偏离用户特定值的度量。计算如下:
其中Pui是项目i上用户u的预测评级,ru,i是实际评级,N是项目集上的评级总数。MAE越低,推荐引擎就越准确地预测用户评级。此外,均方根误差(RMSE)由Cotter等人给出。
均方根误差(RMSE)更强调绝对误差越大,RMSE越低,推荐精度越高。
通常使用的决策支持准确度指标是反转率,加权误差,接收器操作特性(ROC)和精确回收曲线(PRC),精度,召回和F-测量。这些指标可帮助用户从可用的项目集中选择质量非常高的项目[86]。度量将预测过程视为二元操作,其将好项目与那些不好的项目区分开。在对某些特定算法的性能进行全面评估时,ROC曲线非常成功。精确度是实际与用户相关的推荐项目的一部分,而召回可以定义为相关项目的一部分,也是推荐项目集合的一部分[87]。它们的计算方法是
下面定义的F -measure有助于简化精度并将其召回到单个指标中。结果值使得算法和跨数据集之间的比较非常简单和直接[83]。
覆盖范围与推荐系统可以提供预测的项目和用户的百分比有关。如果没有用户或少数用户对项目进行评级,则实际上可能无法进行预测。通过为用户或项目定义小的邻域大小,可以减少覆盖范围。








暂无数据