热线电话:13121318867

登录
2020-06-29 阅读量: 859
Python数据分析与机器学习知识梳理

概述

  • 数据分析包括数据分析、机器学习

  • 人工智能包括数据分析、机器学习、深度学习

  • 机器学习主要处理结构化数据

  • 深度学习主要处理非结构化数据

  • 深度学习和机器学习都是进行回归分类等算法

0数据基础

1、高等数据

  • 求导、链式法则、凸优化,梯度,KKT条件,泰勒公式

2、线性代数

  • 全部(矩阵运算,特征值,特征向量),矩阵分解,矩阵论

3、概率统计

  • 条件概率,线性回归,常见几种分布,最大似然估计,隐马尔科夫模型(HMM),条件随机场(CRF)

4、信息论

一、数据分析

1.Python语言(Anaconda软件:jupyter notebook+spyder+一系列的库)

2.numpy科学计算库

3.pandas数据分析库

4.可视化库:

小可视化:matplotlib、seaborn、pycharts

大可视化:PowerBI Tableau

5、网络爬虫

二、机器学习/数据挖掘(每个里面都有很多的算法,scikit-learn库)

0、机器学习基础

  • 有监督学习/无监督学习

  • 分类和回归

  • 训练集、测试集、验证集

  • 数据预处理和特征工程

  • 网络搜索和学习曲线

  • 欠拟合、过拟合、正则化

  • 代价函数/损失函数

  • 泛化性能-偏差,方差和误差

  • 分类打分:准确率/召回率/F1/roc/ruc

  • 回归打分:r^2、mse、rmse、mae

1、有监督学习(机器学习)

  • 回归(连续型):线性回归、SVR、集成学习回归、决策树回归

  • 分类(离散型):逻辑回归、决策树分类、贝叶斯、SVC、神经网络、集成学习(bagging、boosting、stacking、voting、随机森林、gbdt、xgboost、lightgbm)。占比约80%以上

  • 案例+竞赛:国内天池、国外kaggle

2、无监督学习(机器学习)

  • 聚类:kmeans、DBSCAN

3、推荐系统(数据挖掘)

  • 关联规则、协同过滤、基于内容、SVD分解、隐语义模型、深度学习

三、深度学习(非结构化数据:图像、语音、文本、视频,tensorflow库,pytorch库)

1、卷积神经网络(图像)

2、图像/视频预处理

  • 数据来源:摄像头、传感器、收集

  • 图像预处理:pil、opencv

  • 图像分类:imagenet模型

  • 目标检测

  • 图像分割

  • 场景文字识别

  • 图像生成

  • 视频分类

3、语音

4、文本/自然语言处理

  • 中文分词,文本聚类


19.1182
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子