概述
数据分析包括数据分析、机器学习
人工智能包括数据分析、机器学习、深度学习
机器学习主要处理结构化数据
深度学习主要处理非结构化数据
深度学习和机器学习都是进行回归分类等算法
0数据基础
1、高等数据
求导、链式法则、凸优化,梯度,KKT条件,泰勒公式
2、线性代数
全部(矩阵运算,特征值,特征向量),矩阵分解,矩阵论
3、概率统计
条件概率,线性回归,常见几种分布,最大似然估计,隐马尔科夫模型(HMM),条件随机场(CRF)
4、信息论
一、数据分析
1.Python语言(Anaconda软件:jupyter notebook+spyder+一系列的库)
2.numpy科学计算库
3.pandas数据分析库
4.可视化库:
小可视化:matplotlib、seaborn、pycharts
大可视化:PowerBI Tableau
5、网络爬虫
二、机器学习/数据挖掘(每个里面都有很多的算法,scikit-learn库)
0、机器学习基础
有监督学习/无监督学习
分类和回归
训练集、测试集、验证集
数据预处理和特征工程
网络搜索和学习曲线
欠拟合、过拟合、正则化
代价函数/损失函数
泛化性能-偏差,方差和误差
分类打分:准确率/召回率/F1/roc/ruc
回归打分:r^2、mse、rmse、mae
1、有监督学习(机器学习)
回归(连续型):线性回归、SVR、集成学习回归、决策树回归
分类(离散型):逻辑回归、决策树分类、贝叶斯、SVC、神经网络、集成学习(bagging、boosting、stacking、voting、随机森林、gbdt、xgboost、lightgbm)。占比约80%以上
案例+竞赛:国内天池、国外kaggle
2、无监督学习(机器学习)
聚类:kmeans、DBSCAN
3、推荐系统(数据挖掘)
关联规则、协同过滤、基于内容、SVD分解、隐语义模型、深度学习
三、深度学习(非结构化数据:图像、语音、文本、视频,tensorflow库,pytorch库)
1、卷积神经网络(图像)
2、图像/视频预处理
数据来源:摄像头、传感器、收集
图像预处理:pil、opencv
图像分类:imagenet模型
目标检测
图像分割
场景文字识别
图像生成
视频分类
3、语音
4、文本/自然语言处理
中文分词,文本聚类








暂无数据