数据分析实例--R语言如何对垃圾邮件进行分类-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读数据分析实例--R语言如何对垃圾邮件进行分类

数据分析实例--R语言如何对垃圾邮件进行分类

2017-07-07

数据分析实例--R语言如何对垃圾邮件进行分类

Structure of a Data Analysis

1 数据分析的步骤

l Define the question

l Define the ideal data set

l Determine what data you can access

l Obtain the data

l Clean the data

l Exploratory data analysis

l Statistical prediction/model

l Interpret results

l Challenge results

l Synthesize/write up results

l Create reproducible code

2 A sample

1) 问题.

Can I automatically detect emails that are SPAM or not?

2) 具体化问题

Can I use quantitative characteristics of the emails to classify them as SPAM/HAM?

3) 获取数据

http://search.r-project.org/library/kernlab/html/spam.html

4) 取样

#if it isn't installed,please install the package first.

library(kernlab)

data(spam)

#perform the subsampling

set.seed(3435)

trainIndicator =rbinom(4601,size = 1,prob = 0.5)

table(trainIndicator)

trainSpam = spam[trainIndicator == 1, ]

testSpam = spam[trainIndicator == 0, ]

5) 初步分析

a) Names：查看的列名

names(trainSpam)

b) Head:查看前六行

head(trainSpam)

c) Summaries：汇总

table(trainSpam$type)

d) Plots:画图,查看垃圾邮件及非垃圾邮件的分布

plot(trainSpam$capitalAve ~ trainSpam$type)

上图分布不明显，我们取对数后，再看看

plot(log10(trainSpam$capitalAve + 1) ~ trainSpam$type)

e) 寻找预测的内在关系

plot(log10(trainSpam[, 1:4] + 1))

f) 试用层次聚类

hCluster = hclust(dist(t(trainSpam[, 1:57])))

plot(hCluster)

太乱了.不能发现些什么。老方法不是取log看看

hClusterUpdated = hclust(dist(t(log10(trainSpam[, 1:55] + 1))))

plot(hClusterUpdated)

6) 统计预测及建模

trainSpam$numType = as.numeric(trainSpam$type) - 1

costFunction = function(x, y) sum(x != (y > 0.5))

cvError = rep(NA, 55)

library(boot)

for (i in 1:55) {

lmFormula = reformulate(names(trainSpam)[i], response = "numType")

glmFit = glm(lmFormula, family = "binomial", data = trainSpam)

cvError[i] = cv.glm(trainSpam, glmFit, costFunction, 2)$delta[2]

}

## Which predictor has minimum cross-validated error?

names(trainSpam)[which.min(cvError)]

7) 检测

## Use the best model from the group

predictionModel = glm(numType ~ charDollar, family = "binomial", data = trainSpam)

## Get predictions on the test set

predictionTest = predict(predictionModel, testSpam)

predictedSpam = rep("nonspam", dim(testSpam)[1])

## Classify as `spam' for those with prob > 0.5

predictedSpam[predictionModel$fitted > 0.5] = "spam"

## Classification table 查看分类结果

table(predictedSpam, testSpam$type)

分类错误率：0.2243 =(61 + 458)/(1346 + 458 + 61 + 449)

8) Interpret results（结果解释）

The fraction of charcters that are dollar signs can be used to predict if an email is Spam

Anything with more than 6.6% dollar signs is classified as Spam

More dollar signs always means more Spam under our prediction

Our test set error rate was 22.4%

9) Challenge results

10) Synthesize/write up results

11) Create reproducible code

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析聚类 R语言层次聚类

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析实例--R语言如何对垃圾邮件进行分类

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】力导向图与桑基图的叠加艺术：解锁 “结 ...

【CDA干货】Tableau index()/size()实战解析 ...

CDA 数据分析师：假设检验实战指南 —— 用数据验证 ...

【CDA干货】运营指标：从定义到实战，驱动业务增长 ...

【CDA干货】卷积层之后：归一化与激活函数的取舍之 ...

CDA 数据分析师：可视化驱动的数据探索与统计分析实 ...

【CDA干货】Python 实践：神经网络与卡尔曼滤波融合 ...

【CDA干货】神经网络与卡尔曼滤波的融合：突破传统 ...

CDA 数据分析师：数据清洗实战指南 —— 筑牢数据分 ...

【CDA干货】神经网络越大越好吗？—— 规模选择的辩 ...

【CDA干货】MySQL 更新数据对读操作的影响：原理与 ...

CDA 数据分析师：数据整合实战指南 —— 打破数据孤 ...

【CDA干货】神经网络隐藏层个数怎么确定？从原理到 ...

【CDA干货】特征单变量筛选：从原理到实战，高效精 ...

CDA 数据分析师：数据读取实战指南 —— 筑牢数据分 ...

【CDA干货】偏态分布的置信区间：从原理到实战，破 ...

【CDA干货】用户行为序列驱动的大模型推理：机制、 ...

CDA 数据分析师：数据采集方法实战指南 —— 筑牢数 ...

京东图书热卖榜TOP1，CDA数字化人才认证，是哪些地 ...

【CDA干货】数据清洗如何守住真实性？从方法到落地 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载