浅谈利用逻辑回归来解决文本分类时的模型调优-CDA数据分析师官网

热线电话：13121318867

浅谈利用逻辑回归来解决文本分类时的模型调优

2018-01-18

浅谈利用逻辑回归来解决文本分类时的模型调优

想和数据挖掘沾点边，所以最近在复习一些算法，因为又学了点R，深感这是个统计分析挖掘的利器，所以想用R实现一些挖掘算法。

朴素贝叶斯法大概是最简单的一种挖掘算法了，《统计学习方法》在第四章做了很详细的叙述，无非是对于输入特征x，利用通过学习得到的模型计算后验概率分布，将后验概率最大的分类作为输出。

根据贝叶斯定理，后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) * 先验概率P(Y = ck) / P(X=x)，取P(X=x | Y=cx) * P(Y = ck)最大的分类作为输出。
下面是一个小数据集下使用R进行朴素贝叶斯分类的例子,代码如下：
    #构造训练集
    data <- matrix(c("sunny","hot","high","weak","no",
                     "sunny","hot","high","strong","no",
                     "overcast","hot","high","weak","yes",
                     "rain","mild","high","weak","yes",
                     "rain","cool","normal","weak","yes",
                     "rain","cool","normal","strong","no",
                     "overcast","cool","normal","strong","yes",
                     "sunny","mild","high","weak","no",
                     "sunny","cool","normal","weak","yes",
                     "rain","mild","normal","weak","yes",
                     "sunny","mild","normal","strong","yes",
                     "overcast","mild","high","strong","yes",
                     "overcast","hot","normal","weak","yes",
                     "rain","mild","high","strong","no"), byrow = TRUE,
                   dimnames = list(day = c(),
                   condition = c("outlook","temperature",
                     "humidity","wind","playtennis")), nrow=14, ncol=5);

    #计算先验概率
    prior.yes = sum(data[,5] == "yes") / length(data[,5]);
    prior.no = sum(data[,5] == "no") / length(data[,5]);

    #模型
    naive.bayes.prediction <- function(condition.vec) {
        # Calculate unnormlized posterior probability for playtennis = yes.
        playtennis.yes <-
            sum((data[,1] == condition.vec[1]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(outlook = f_1 | playtennis = yes)
            sum((data[,2] == condition.vec[2]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(temperature = f_2 | playtennis = yes)
            sum((data[,3] == condition.vec[3]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(humidity = f_3 | playtennis = yes)
            sum((data[,4] == condition.vec[4]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(wind = f_4 | playtennis = yes)
            prior.yes; # P(playtennis = yes)

        # Calculate unnormlized posterior probability for playtennis = no.
        playtennis.no <-
            sum((data[,1] == condition.vec[1]) & (data[,5] == "no")) / sum(data[,5] == "no") * # P(outlook = f_1 | playtennis = no)
            sum((data[,2] == condition.vec[2]) & (data[,5] == "no")) / sum(data[,5] == "no") * # P(temperature = f_2 | playtennis = no)
            sum((data[,3] == condition.vec[3]) & (data[,5] == "no")) / sum(data[,5] == "no") * # P(humidity = f_3 | playtennis = no)
            sum((data[,4] == condition.vec[4]) & (data[,5] == "no")) / sum(data[,5] == "no") * # P(wind = f_4 | playtennis = no)
            prior.no; # P(playtennis = no)

        return(list(post.pr.yes = playtennis.yes,
                post.pr.no = playtennis.no,
                prediction = ifelse(playtennis.yes >= playtennis.no, "yes", "no")));
    }

    #预测
    naive.bayes.prediction(c("rain",     "hot", "high",   "strong"));
    naive.bayes.prediction(c("sunny",    "mild", "normal", "weak"));
    naive.bayes.prediction(c("overcast", "mild", "normal", "weak"));
最后一个分类预测结果如下：
$post.pr.yes
[1] 0.05643739

$post.pr.no
[1] 0

$prediction
[1] "yes"

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

朴素贝叶斯先验概率条件概率逻辑回归文本分类特征概率分布数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

浅谈利用逻辑回归来解决文本分类时的模型调优

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

【CDA干货】一文搞定数据透视表两列相互计算：从基 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

浅谈利用逻辑回归来解决文本分类时的模型调优

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

【CDA干货】Power BI函数大全：分类、实操与实战全 ...

【CDA干货】次日留存率计算公式：原理、实操与应用 ...

指标的基本概念：CDA数据分析师的实操根基与洞察抓 ...

【CDA干货】随机森林特征重要性：原理、实操与应用 ...

【CDA干货】MySQL按日期分组：保证每天都有数据，无 ...

描述性统计：CDA数据分析师的入门必修课，让数据特 ...

【马年宠粉｜集赞0元领】转发CDA真题海报，水杯/颈 ...

【CDA干货】Anaconda下载库慢？3种实操方法，彻底解 ...

【CDA干货】Tableau两表未连接部分显示0而非Null： ...

统计基本概念：CDA数据分析师的实操根基与价值落地 ...

【CDA干货】一文读懂如何规避数据滥用风险：全流程 ...

【CDA干货】小样本配对数据：Wilcoxon检验与配对样 ...

透视分析方法：CDA数据分析师的核心实操工具与价值 ...

【CDA干货】一文搞定SQL字段varchar转double：语法 ...

【CDA干货】一文搞定数据透视表两列相互计算：从基 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...