CDA数据分析研究院 CDA考试中心 AIU人工智能学院 企业服务 关于CDA

cda

全国校区

您的位置:首页 > 课程列表 > Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用

难度系数:

课程系列:A3


周期: 2020.3.27

5500

现场班老学员九折优惠

立即报名 咨询老师

Python爬虫及文本分析学术应用

 姓名:

 电话:

 邮箱:

   备注:

邀请码:

提交信息
  • WHAT 课程简介

    本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的用户,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。
  • WHY 学习目标

    包括5天的线下现场教学+20小时以上的线上辅助教学视频,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。
  • WHO 学习对象和基础

    从事经济学、资源环境、地理科学、城市、人口、房地产、数理统计、管理科学、计量经济等方面研究的教师、研究员
    相关领域的硕士、博士研究生
    不要求学过Python操作

01概述 爬虫与文本分析概述

01-01结构化数据/文本数据的获取方法概述
01-02高效的编程语言实现结构化数据处理与文本分析的价值

02编程基础

02-01python编程基础(标准数据类型,控制流,自定义函数,类,os文件处理模块)
02-02python重要数据科学计算库(Numpy,Pandas,Matplotlib,Pyecherts,wordcloud)

03数据获取

03-01爬虫基础(网络爬虫简介,爬虫的基本原理,HTML 简介,数据存储)
03-02网页抓取(使用 Urllib网页抓取,requests实战)
03-03BeautifulSoup4(简介,安装,BS 对象的种类,遍历文档树,搜索文档树)
03-04Xpath(什么是Xpath,Xpath开发工具,Xpath常用规则)
03-05动态渲染页面抓取(Selenium的安装,基本使用,声明浏览器对象,访问页面,定位元素,节点交互,动作链,执行 JavaScript,获取节点信息,延时等待,前进后退,Cookies,选项卡管理,异常处理)
03-06爬虫实战(网站的爬取,基电商评价文本爬取)

04数据存储与读取

04-01可供读取数据类型介绍(excel、pdf、txt、html、mysql数据库文件介绍)
04-02数据的存储(将数据存储到excel表,txt文本,word文档)
04-03数据的读取(python批量读取多个多子表excel,python读取txt文件,word文档)

05数据处理

05-01正则表达式(什么是正则表达式,正则表达式匹配规则,re模块的使用)
05-02文本处理常用方法(字符串的不变性,排序行,段落格式化,二进制转化为ASCII,重复字词过滤,提取邮件地址,提取URL地址,大写转换,符号化,删除停用词,同义词与反义词处理,文本翻译,单词替换,拼写检查,WordNet接口,语料访问,标记单词,块和裂口,块分类,文本分类,双字母组,文字改写,文字换行,频率分布,文字摘要,词干算法,约束搜索)
05-03结构化数据处理--数据清洗(numpy数值计算要点串讲,Pandas数据处理串讲,python统计图表展示)

06文本分析实战

06-01重要的库(jieba库简介)
06-02关键词提取(关键词任务概述,TF-IDF算法原理,相似文章推荐原理介绍,实例:红楼梦文本分析的实现,文件与词库的读取,完成分词与词云图的绘制)
06-03文本分类(新闻素材介绍,新闻内容的关键词提取,词向量转化与ngram模型,朴素贝叶斯算法完成新闻分类)

硬核服务

  • 朝九晚九全程跟班答疑

    助教线上服务时间由原先的上课期间答疑调整为课程持续期间答疑,包括中途休息时间;同时,每日答疑时间由原先的“朝九晚六”调整为“朝九晚九”,全面覆盖同学晚自习时间。
  • 一对一督学

    每个班级、每位同学、每月都会进行至少一次一对一辅导,询问同学学习状态、解决学员学习问题;同时,针对每个模块测试结果后10%的学员进行额外辅导,以确保学员能够跟上学习进度。
  • 定期直播串讲

    对于重难点知识和同学普遍反应的问题,助教将进行每周1-2次的晚自习串讲,串讲时常为2小时左右,且相关内容需要重新制作、有别于课程内容,帮助同学攻克重难点知识。
  • 五分钟内有问必答

    助教线上服务要求5分钟内有问必答,并能真正做到解决所有课程中遇到的问题。在原先每个班一个助教+一个班主任的配置下,调整为每个班2名助教+项目服务团队的模式,以确保快速、高质量的解决线上提问。
  • 出勤率和进度监督

    在课程持续期间,助教还需实时统计学员出勤情况,监督课堂纪律,跟进学习进度。除正常答疑外,服务团队会与班级同学保持沟通、给予正确指引,从而营造积极学习氛围。
  • 作业与测试

    在远程授课期间,每个课程会安排相关课后作业,确保同学课下能够进行适当练习,提升同学实时参与感、保证当日学习效果。除了作业,服务团队还会组织学员进行阶段性测试,以考试性质为主,主要考察学员对本阶段知识掌握程度。

来自业界的数据领袖团队

  • 陈远翔

    北京邮电大学副教授

    2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术,智能信号处理,以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇,其中第一或通讯作者论文40余篇,申请发明专利4项。主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,OpticsExpress, IEEE Photonics Technology Letters,PhotonicsJournal,Applied Optics等多个SCI期刊审稿人。
权威 经管之家CDA LEVEL Ⅲ数据科学家认证证书,行业顶尖人才认证,已获得IBM大数据大学,中国电信,苏宁,德勤,猎聘,CDMS等企业的认可。
专业 CDA认证是根据商业数据分析专业岗位设立的一套体系化、科学化、正规化的人才标准。全国统考、专家命题、评分公平、流程严格,更具含金量。
权益 持证人享有系列特殊权益。证书皆绑定考生真实身份,可在CDA官网查询,确保唯一性与防伪性。证书三年审核一次,保证持证人的实力与权益。

认证介绍:
CDA数据分析师认证”是一套专业化,科学化,国际化,系统化的人才考核标准,分为CDA LEVELⅠ ,LEVEL Ⅱ,LEVEL Ⅲ,涉及金融、电商、医疗、互联网、电信等行业大数据及数据分析从业者所需要具备的技能,符合当今全球大数据及数据分析技术潮流,为各界企业、机构提供数据分析人才参照标准。经管之家为中国区CDA数据分析师认证考试唯一主办机构,于每年6月与12月底在全国范围举办线下数据分析师考试,通过考试者可获得CDA数据分析师认证证书。
CDA持证人福利
1.可吸纳为CDA Institute、中国数据分析师(CDA)俱乐部会员,活动中具有优先报名参与权。
2.可优先获得CDA内部就业及职业发展推荐。
3.免费参与CDA举办的中国数据分析师行业峰会、大数据峰会、研讨会等各项活动,Level Ⅱ与Level III持证人享受特权位置。
4.可申请加入CDA数据分析项目组,参与项目合作(提供项目给持证人演练)。
5.CDA Level Ⅰ持证人免费享受Peixun.net会员服务6个月(价值588 RMB),Level Ⅱ与Level III持证人免费享受peixun.net会员服务1年 (价值998 RMB);
6.其他特权皆以各类活动公告为主。
进入考试报名系统
  • Q:学员课下如何与老师进行互动?

    A:CDA数据分析员课程每期都会建立QQ群和微信群,工作日有老师和助教负责答疑;同时学员单独给老师发邮件或者在论坛讨论区以帖子的形式向老师提问,老师会在工作日的48小时内回复。
  • Q:学员课下如何与老师进行互动?

    A:CDA数据分析员课程每期都会建立QQ群和微信群,工作日有老师和助教负责答疑;同时学员单独给老师发邮件或者在论坛讨论区以帖子的形式向老师提问,老师会在工作日的48小时内回复。

OK