
给师弟师妹们学习数据挖掘的一些建议
看着刚进实验室的师弟师妹们的迷茫,虽然也与他们进行过一些零散的交谈,但是都不够系统。因此,根据自己的经历给出学习数据挖掘的一些建议,大家可以根据自身的情况,具体问题具体分析,作为参考。希望在上一届的基础上,走的更深,走的更远。
一. 读研与数据挖掘基础
首先介绍一下大家都比较关心的几个问题,包括我们组的研究方向是什么,论文相关问题,大数据与工作相关问题,上海户口问题几个方面。
1. 我们组的研究方向是什么
我们组大的研究方向是数据挖掘,论文的研究方向是推荐算法。要注意大的研究方向,论文的研究方向与工作方向的区别和联系。
2. 论文相关问题
读研究生免不了会思考一个问题,读研的意义是什么?我自己认为读研的最大意义是训练自己系统化的严谨的分析思维能力。在导师给定论文研究方向后,如何确立更细的研究方向,如何检索资料,如何阅读英文论文,如何提出自己的创新点,如何做实验,如何写论文,如何修改论文,如何投稿,如何退修,如果是国际会议,还要去做英文口头报告,与同行交流等,这些问题都是需要自己去思考的。
3. 大数据与工作相关问题
数据挖掘属于大数据专业吗?当然属于。现在大数据找工作相对还是比较理想的。关键是要学习哪些课程呢?以前给大家推荐了很多的书籍,但是效果却恰恰相反,因为实在太多了根本看不完,更不知阅读书籍的顺序,浅尝辄止,最后一本书也没有看完,研究生就结束了。
(1)最低保障书籍
无论将来做什么,熟练掌握一门编程语言,一个数据库,数据结构,算法都是必备的。
《高性能MySQL》
《数据结构与算法分析:Java语言描述》
《算法》:http://book.douban.com/subject/19952400/
(2)Python与机器学习
《集体智慧编程》
《社交网站的数据挖掘与分析》
《数据挖掘:概念与技术》
Python官方文档:https://www.python.org/
Scikit-Learn官方文档:http://scikit-learn.org/stable/
(3)Java相关书籍
《Java开发实战经典》
《Java Web开发实战经典》
《Java虚拟机规范》
Java SE:http://docs.oracle.com/javase/8/docs/api/
Java EE:http://docs.oracle.com/javaee/6/api/
(4)Hadoop与Spark书籍
《大数据日知录:架构与算法》
《Hadoop权威指南》
《大数据Spark企业级实战》
《Scala编程》
Hadoop官方网站:http://spark.apache.org/
Spark官方网站:http://spark.apache.org/
Scala官方网站:http://www.scala-lang.org/
说明:认准目标,耐住性子,一步一步往前走。要把上面推荐的书籍硬着头皮读完,数据挖掘基本也就算是入门了。
4. 上海户口问题
上海户口属于积分制,如果想要在校期间就拿到,那么唯一的方式就是参数每年的研究生数据建模比赛,并且获奖。获奖比例还是很高的。其实,好好学习Python,买本数学建模的书籍看完,看几篇近些年来的获奖论文,比赛时硬着头皮钻研一道题目并且写好论文,基本上都可以获奖。
二. 数据挖掘进阶
数据挖掘涉及多个方向,但是通常从数学统计,数据库和数据仓库,机器学习三个方向来进行研究。当我想学习一个方向的时候,最希望做的事情就是让别人给我列出一个书单。因为我也会给你们列出一个书单,让你们慢慢研究吧。
1. 数学统计
(1)理论数学:复变函数,实变函数,泛函分析,拓扑学,积分变换,微分流形,常微分方程,偏微分方程等。
(2)应用数学:离散数学(集合,逻辑,组合,代数,图论,数论),具体数学,张量分析,数值计算,矩阵论,逼近论,运筹学,凸优化,小波变换,时间序列分析等。
(3)概率:概率论,测度论,随机过程等。
(4)统计:统计学,多元统计,贝叶斯统计,统计模拟,非参数统计,参数统计等。
2. 数据库和数据仓库
《数据库系统概念》
《数据库系统实现》
《数据仓库》
《分布式系统:概念与设计》
3. 机器学习
通信原理;数据挖掘;机器学习;统计学习;自然语言处理;信息检索;模式识别;人工智能;图形图像;机器视觉;语音识别;机器人学等。(这方面的经典书籍都可以看看,后面慢慢补充)
4. 其它书籍
(1)Linux
(2)网络原理,编译原理,组成原理,
(3)JVM
(4)UML
(5)软件工程
(6)设计模式
(7)云计算与Docker
(8)并行计算
(9)需求分析
三. 学习与方法
作为一名软件工程师,需要熟练掌握的工具,如下所示:
(1)博客
除了学习之外,更要思考和总结,把还没有忘却的记忆缓存序列化成为文字,记录在博客中。
(2)语言
大数据常用的语言包括Java,Scala,Python。如果一定要选择精通一门语言,自己选择Scala,同时深度学习JVM。(3)开发工具
自己选择IntelliJ IDEA用于Java和Scala的开发,Eclipse用于Python的开发。
(4)GitHub
每天都要坚持编程,主动参与开源项目。
(5)Linux
工作常用的是Ubuntu 12.04 LTS。
由于时间原因,上面总结的还比较粗糙,算是第一个版本吧,后面还会继续深度总结和完善。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23