数据挖掘工程师笔试及答案整理-CDA数据分析师官网

数据挖掘工程师笔试及答案整理

2021-02-03

数据挖掘工程师笔试及答案整理

2013百度校园招聘数据挖掘工程师

《数据分析专项练习题库》

《CDA数据分析认证考试模拟题库》
《企业数据分析面试题库》

一、简答题（30分）
1、简述数据库操作的步骤（10分）

步骤：建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。

经萍萍提醒，了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外，对实时性要求不强时，可以使用数据库缓存。

2、TCP/IP的四层结构（10分）

3、什么是MVC结构，简要介绍各层结构的作用（10分）

Model、view、control。

我之前有写过一篇《MVC层次的划分》

二、算法与程序设计（45分）
1、由a-z、0-9组成3位的字符密码，设计一个算法，列出并打印所有可能的密码组合（可用伪代码、C、C++、Java实现）（15分）

把a-z,0-9共（26+10）个字符做成一个数组，然后用三个for循环遍历即可。每一层的遍历都是从数组的第0位开始。

2、实现字符串反转函数（15分）

3、百度凤巢系统，广告客户购买一系列关键词，数据结构如下：（15分）
User1 手机智能手机 iphone 台式机 …
User2 手机 iphone 笔记本电脑三星手机 …
User3 htc 平板电脑手机 …
（1）根据以上数据结构对关键词进行KMeans聚类，请列出关键词的向量表示、距离公式和KMeans算法的整体步骤

KMeans方法一个很重要的部分就是如何定义距离，而距离又牵扯到特征向量的定义，毕竟距离是对两个特征向量进行衡量。

本题中，我们建立一个table。

只要两个关键词在同一个user的描述中出现，我们就将它在相应的表格的位置加1.

这样我们就有了每个关键词的特征向量。

例如：

<手机>=（1,1,2,1,1,1,0,0）

<智能手机> = （1,1,1,1,0,0,0,0）

我们使用夹角余弦公式来计算这两个向量的距离。

夹角余弦公式：

设有两个向量a和b，，

所以，cos<手机，智能机>=（1+1+2+1）/(sqrt(7+2^2)*sqrt(4))=0.75

cos<手机，iphone>=(2+1+2+1+1+1)/(sqrt(7+2^2)*sqrt(2^2+5))=0.80

夹角余弦值越大说明两者之间的夹角越小，夹角越小说明相关度越高。

通过夹角余弦值我们可以计算出每两个关键词之间的距离。

特征向量和距离计算公式的选择（还有其他很多种距离计算方式，各有其适应的应用场所）完成后，就可以进入KMeans算法。

KMeans算法有两个主要步骤：1、确定k个中心点；2、计算各个点与中心点的距离，然后贴上类标，然后针对各个类，重新计算其中心点的位置。

初始化时，可以设定k个中心点的位置为随机值，也可以全赋值为0。

KMeans的实现代码有很多，这里就不写了。

不过值得一提的是MapReduce模型并不适合计算KMeans这类递归型的算法，MR最拿手的还是流水型的算法。KMeans可以使用MPI模型很方便的计算（庆幸的是YARN中似乎开始支持MPI模型了），所以hadoop上现在也可以方便的写高效算法了（但是要是MRv2哦）。

（2）计算给定关键词与客户关键词的文字相关性，请列出关键词与客户的表达符号和计算公式

这边的文字相关性不知道是不是指非语义的相关性，而只是词频统计上的相关性？如果是语义相关的，可能还需要引入topic model来做辅助（可以看一下百度搜索研发部官方博客的这篇【语义主题计算】）……

如果是指词频统计的话，个人认为可以使用Jaccard系数来计算。

通过第一问中的表格，我们可以知道某个关键词的向量，现在将这个向量做一个简单的变化：如果某个分量不为0则记为1，表示包含这个分量元素，这样某个关键词就可以变成一些词语的集合，记为A。

客户输入的关键词列表也可以表示为一个集合，记为B

Jaccard系数的计算方法是：

所以，假设某个用户userX的关键词表达为：{三星手机，手机，平板电脑}

那么，关键词“手机”与userX的关键词之间的相关性为：

J("手机"，“userX关键词”)=|{三星手机，手机，平板电脑}|/|{手机，智能手机，iphone，台式机，笔记本电脑，三星手机，HTC，平板电脑}| = 3/8

关键词“三星手机”与用户userX的关键词之间的相关性为：

J("三星手机"，“userX关键词”)=|{手机，三星手机}|/|{手机，三星手机，iphone，笔记本电脑，平板电脑}| = 2/5

三、系统设计题（25分）
一维数据的拟合，给定数据集{xi,yi}(i=1,…,n)，xi是训练数据，yi是对应的预期值。拟使用线性、二次、高次等函数进行拟合
线性：f(x)=ax+b
二次：f(x)=ax^2+bx+c
三次：f(x)=ax^3+bx^2+cx+d
（1）请依次列出线性、二次、三次拟合的误差函数表达式（2分）

误差函数的计算公式为：