
本文由CDA数据分析师小编根据中国人民大学教授吴喜之在“2015年中国数据分析师行业峰会”的演讲整理而成,如需转载请注明出处
上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么也没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位。
这是一些调查的结果,数据科学家的年薪是多少,这是美国的。
程序员的平均年薪不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?我说的可能有点过分,但是我必须这么说,现在的统计,特别数据统计问题很严重。
美国的一个调查报告说人才缺口很多,说明在美国培养这样的人数也不够,可以用大数据来做的缺少的更多。美国是这样,中国将来肯定也是这样,现在实际上有很多缺口。现在就怕跳槽,怕找不着(工作),我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,谁都想要你,这才是价值。我们要的是价值,而不是所谓的成功。
如果你擅长数学,有很清晰的逻辑思维能力(文科的人是没有的,但是可以训练,因为大部分知识都是自学的),并且对某个行业了如指掌,如果你有这样的技能组合,就可能当上数据科学家。曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是人才,你们就是要把自己做变成被需要的人才。
数据科学家专业人才干什么呢?对公司来说,他们可以挖掘新的信息,帮助公司开源节流,所以它需要的是人才,关键是人才。我们说数据科学,科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。
数据科学有很多很多定义,最基本的定义就是这个,就是Computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。
对于现在的你们来说,一般不会细到那种程度。我们应该变成一个通才,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。
主要是三部分:数学、统计、知识。
数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你是学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。
统计学的是批判性思维。你们在统计学课本上学到的是70年前、100年前的知识,是前计算机时代的东西。那时候没有那么多计算机,数据量不大,所以他做什么都用假定来做结论。中国在数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。
所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗?能认为这是小概率吗?区间估计就更难说了。
这是我们所要学学习和了解的,最近20年发展而且仍然在发展的最新的经济学方法,这是最根本的。像我现在正在寻找经典方法,比经济学法好的方法,我每天都在算数据,我就想找这样的例子。我举个例子,对于做出贡献性的方法,回归什么的那一大堆方法,我如果做的话,我没找到一个例子说用这些方法比神经网络做的更好的。所以说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从数据出发。
有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,那么研究生们说,这个系数有什么意义啊?他说贡献的变量的系数,没有任何意义,只要这个方法对预测好,那就是好。中国人学呆了。像回归分析,在别的变量不变的时候,我这个量增加不增加?别的变量肯定不变的,特别经济统计,没有两个变量是完全不变的。
计算机科学,不是一两个盗版傻瓜软件+点鼠标就是计算机科学了。还加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念,我用了很多编程理念没有一个是在课堂上学的,就是自己在编的时候自己领会。一切东西依赖于自学,而不是依赖老师,这可能跟我的经历有关。
这是2015年的一个网站调查,用的最多的是R,这是2014年的,R在图片当中也是最多的,其他的软件加起来是17%,底下这个是2014年,也是R,为什么是这样?第一,它们是开源的,它们的代码是公开的。
这是计算机的亲和性,还有SQL,亲和性很大,就是它的语言你懂一个,再学一个,直到后来一天一个就学下来了,真是这样的,不是开玩笑。我不想说SAS,我在美国的第一个研究就是SAR,它的亲和力小。实际上现在很多R,很多会R的都可以去做东西。这也是转换性的,就是R跟Python转化的多,所以第一学的编程语言应该是R,然后Python,然后是其他的语言。其他点鼠标的语言是用不着学的。
最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,就不会了解实际问题。
原来在医学杂志发表的一个很有名的文章讲,如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。所以用数据来说话,其他的一切都是废话,不要做一些莫名其妙假定,我每年看到很多很多的文章,包括一些大赛,好多比赛题目都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。
科学,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了。你离得越远看得越清楚,站得越高对全局的了解越好,不要太具体了,不要迷信这些炒作的新名词、新概念。用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,如果你要跟风就意味着永远是跟随,也绝对不会有出息。
个人要有快速的自学能力和对数据分析的爱好,我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我看到觉得有价值,第二天就放到课堂上了。只有这样,只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,只能显示你的记忆力好,那不是好老师。
另外是不是做数据科学家的材料?你专长于任何特定变成语言相比,泛型变成技巧更重要。最重要的素质就是能快速学习东西,在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧?但是硬盘没有创造力。
如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,你对这样的工作感兴趣,你就适合干这行。现在我没事就处理变成数据。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣,这个不是玩儿的。
真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心里也应该这样想。
还需要什么呢?刚才我说了,学习能力比知识更重要,欢迎挑战、乐于攀登。有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长。
不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。
什么人最快乐?被人需要,这是很重要的,就是你得有价值。因为你的专长,能力、善良、尊重、爱心、品质、性格、智力、分享。在公司里跟人家能相处,至少你得是可爱的。还要关心他人,能让别人快乐的人是快乐的。尊敬别人的人是快乐的,诚实坦荡的人是快乐的,心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18