热线电话：13121318867

网站用户行为分析案例

2021-03-08

一、案例综述

案例编号：101001

案例名称：互联网行业——网站用户行为分析

作者姓名（或单位、或来源）：刘莎莎

案例所属行业：G6020 互联网信息

案例所用软件：

MYSQL、 Sas EG、 TOAD、 SAS EM

案例包含知识点：

数据导入 txt导入mysql 数据导出 mysql导出为txt txt导入SasEG SAS数据格式修改频数统计相关分析相关系数相关系数矩阵 RFM模型聚类分析关联规则 数据挖掘 频数统计

案例描述：

根据中国互联网络信息中心发布第36次《中国互联网络发展状况统计报告》显示，截至2015年6月，我国网民规模达6.68亿，互联网普及率为48.8%。我国互联网的高速发展普及为互联网企业带来了巨大的发展机遇。

相对于传统的工业领域，互联网领域的入门门槛较低，这一特点有利于更多的企业加入互联网浪潮，以便为人民生活提供更好的服务，但也正是互联网企业的服务模式易于拷贝的原因，导致了同质化竞争激烈的互联网企业发展格局。

为了解决这一问题，通过对网站用户行为进行数据分析，有利于互联网企业准确把握网站发展的实际情况以及网站用户心理需求和心理习惯，从而更有效地利用企业资源，以便在激烈的同质化竞争中找到属于自己的服务特点，获得比较优势，最终赢得竞争。

此案例所用数据集来自于一个互联网企业，属于论坛性质。共有三个数据集。member.txt、tiezi.txt 、bankui.txt分别是会员个人信息表（包括会员的一些属性：出生日期，专长，关注领域等）、浏览帖子信息表（四个字段，第一个是会员id，第二个是会员浏览时间，第三个是会员浏览帖子的链接代码，第四个变量为浏览的为该帖子的第几页），浏览板块信息表（三个字段，第一个是会员id，第二个是会员浏览时间，第三个是会员浏览板块的链接代码）。数据缺陷无法提供板块和帖子的对应情况。其中member.txt数据集中共包含106745条记录，bankuai.txt数据集中共包含765015条记录，tiezi.txt数据集中共包含3832002条记录。

各知识点介绍如下：

第1个知识点介绍的是如何借助于第三方数据库管理软件toad把三个txt数据文件导入到MYSQL数据库中。

第2个知识点介绍的是如何借助于第三方数据库管理软件toad把三个txt数据数从MySQL数据库forum中导出为三个txt文件，将导出的三个txt文件保存为member.txt,tiezi.txt,bankuai.txt，然后在这个基础之上对本章后面的小节进行操作。

第3个知识点是将三个txt文件导入到SAS-EG中，保存为sas格式的数据集放在建立的逻辑库test中，并且对日期时间变量进行输出格式的修改，使其显示为正确的日期时间格式。三个sas数据文件分别为member.sas4bdat，bankuai.sas7bdat，tiezi.sas7bdat。

第4个知识点是对论坛数据进行一些描述性分析，在tiezi.sas7bdat基础之上寻找到最火的帖子。

第5个知识点是对论坛数据进行一些描述性分析，是在member.sas7bdat基础之上对论坛用户的男女比例进行描述性分析。

第6个知识点是在tiezi.sas7bdat基础之上通过生成查询生成器的方式计算每个人浏览的帖子总数，并且进行用户名字的去重。然后将查询结果和member.sas7bdat数据集进行横向合并,从而将用户年龄和浏览贴子数放在了一个表中。然后进行两个变量的相关性分析。

第7个知识点是在tiezi.sas7bdat数据集的基础之上进行进一步的计算，然后用RFM模型对客户进行画像分析，从而找到最有价值的客户。

第8个知识点在bankuai.sas7bdat数据集的基础之上用sasEM模块对数据进行板块的关联规则分析，从而可以发现一些推荐规则。

第9个知识点是在member.sas7bdat基础之上用SasEM模块的文本挖掘部分对关注领域字段进行关键词频数分析，从而找到关注度最高的关键词。

案例执行形式：单人上机

二、案例知识点

知识点1

知识点名称：将txt数据文件导入到 mysql数据库中

知识点所属工作角色：数据导入

知识点背景：我们通常会获取各种类型的数据文件，比如txt，excel等，通常需要将这些文件导入到数据库中，从而方便进行长期存储和调用。

知识点描述：将txt数据导入到mysql中。

知识点关键词：数据库的建立、新建表、数据导入

知识点所用软件：MySQL5.6 Toad for MySQL 6.7

操作目的：将txt数据导入到mysql中。

知识点素材（包括数据）：Member.txt,tiezi.txt,bankuai.txt

操作步骤:

Ø 安装Toad for MySQL编辑器，成功设置权限；

Ø 在逻辑库下选择forum数据库，界面如下图所示；

Ø 单击工具栏中的“Tools”选项，执行“Import”，“Import Wizard”命令，如图4.21，弹出数据导入向导窗口，如下图所示，点击Next。

导入数据

Ø 点击“Next”，如下图，继续进行；

导入数据

Ø 点击“Add File”，选择文件所在位置添加文件，如下图；

导入数据

Ø 选择“Comma”（即以逗号为分隔符），选择“Column names as head”（即将原文件中的第一行作为列名）及Empty files are n（即将缺失的数据也插入新表中），点击“Next”继续进行，如下图；

导入数据

Ø 再次点击“Next”继续进行，在数据导入向导窗口的Select Target步骤中，选择“A single new table”（即新建一个表），在Schema下拉列表中选择创建的数据库forum，在“Table name”中输入新表的名称“member”，根据事先对数据的大致了解，将field6、field7、lingyu的数值类型改为VARCHAR(200)，将zhuanchang的数值类型改为VARCHAR(500)，同时选中memberid，将光标定位在memberid前面，点击“Set Primary Key”，即将memberid设置为主键，如下图所示，点击Next按钮。

图导入数据

Ø 再次点击Next，Finish按钮，等待一段时间后会出现如下图的窗口，可以看到读取数据行数为106745行，导入数据行数也为106745行，因此数据全部导入。

图数据导入结果汇总

Ø 点击OK，在Viewer Table forum.member窗口下点击Data选项，数据如下图，可以看到中文字符也完全显示出来。

图数据导入成功

在MySQL命令窗口下，执行下列语句同样可实现上述操作：

create table forum.member

(

gender int(11),

birthyearm int(11),

constellation varchar(255),

zodiac varchar(255),

resideprovince varchar(255),

field6 varchar(255),

field7 varchar(255),

lingyu varchar(255),

zhuanchang varchar(255),

readad int(11),

viptype int(11),

memberid int(20),

count int(11),

PRIMARY KEY(memberid)

)engine=innodb charset=utf8;

上述代码将新建一个名为forum.membe的新表，包含13个字段及其属性，定义memberid为主键，engine=innodb为指定数据引擎，charset=utf8为编码格式，int表示数据格式为整型，varchar表示数据为可变字符型。

Ø 重复上述操作步骤同样可以将bankuai.txt和tiezi.txt导入至数据库。

其中tiezi.txt在读入时，采用默认设置读入，发现并未读取全部记录，原因是time的字段类型为int不合适，time字段的一些取值超过了int类型所涵盖的范围，需要在导入时将该字段类型改为bigint。这样就可以将全部记录导入。由于tiezi的数据量（行数）非常庞大，我们将processing row count改为10000以加快读取速度。如下图所示。最终在图4.30中显示读取数据为3832002条，导入条数也为3832002条。

图导入数据

图数据导入结果汇总

操作结果：

这个知识点操作结束之后，在你的电脑的mysql的forum数据库中将会存在三张表。

知识点小结：

数据库管理员的其中一个工作就是将各种形式的数据录入或者导入到mysql数据库中，注意toad和mysql的版本要相互配合。

知识点2

知识点名称：mysql数据库中数据的导出

知识点所属工作角色：数据库数据导出

知识点背景：我们通常需要将数据库中的表格导出成文本格式从而方便提交给数据分析人员进行后续的统计分析与计算。

知识点描述：将mysql数据库中的表导出成txt文件。

知识点关键词：Mysql toad 数据库数据导出

知识点所用软件：MySQL5.6 Toad for MySQL 6.7

操作目的：将数据库中的表格导出为txt文件。

知识点素材（包括数据）：一个mysql数据库forum,并且该数据库下有三张表member、tiezi、bankuai。