京公网安备 11010802034615号
经营许可证编号:京B2-20210330
本文由CDA数据分析师小编根据中国人民大学教授吴喜之在“2015年中国数据分析师行业峰会”的演讲整理而成,如需转载请注明出处
上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么也没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位。
这是一些调查的结果,数据科学家的年薪是多少,这是美国的。
程序员的平均年薪不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?我说的可能有点过分,但是我必须这么说,现在的统计,特别数据统计问题很严重。
美国的一个调查报告说人才缺口很多,说明在美国培养这样的人数也不够,可以用大数据来做的缺少的更多。美国是这样,中国将来肯定也是这样,现在实际上有很多缺口。现在就怕跳槽,怕找不着(工作),我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,谁都想要你,这才是价值。我们要的是价值,而不是所谓的成功。
如果你擅长数学,有很清晰的逻辑思维能力(文科的人是没有的,但是可以训练,因为大部分知识都是自学的),并且对某个行业了如指掌,如果你有这样的技能组合,就可能当上数据科学家。曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是人才,你们就是要把自己做变成被需要的人才。
数据科学家专业人才干什么呢?对公司来说,他们可以挖掘新的信息,帮助公司开源节流,所以它需要的是人才,关键是人才。我们说数据科学,科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。
数据科学有很多很多定义,最基本的定义就是这个,就是Computer science,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。
对于现在的你们来说,一般不会细到那种程度。我们应该变成一个通才,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。
主要是三部分:数学、统计、知识。
数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你是学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。
统计学的是批判性思维。你们在统计学课本上学到的是70年前、100年前的知识,是前计算机时代的东西。那时候没有那么多计算机,数据量不大,所以他做什么都用假定来做结论。中国在数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。
所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗?能认为这是小概率吗?区间估计就更难说了。
这是我们所要学学习和了解的,最近20年发展而且仍然在发展的最新的经济学方法,这是最根本的。像我现在正在寻找经典方法,比经济学法好的方法,我每天都在算数据,我就想找这样的例子。我举个例子,对于做出贡献性的方法,回归什么的那一大堆方法,我如果做的话,我没找到一个例子说用这些方法比神经网络做的更好的。所以说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从数据出发。
有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,那么研究生们说,这个系数有什么意义啊?他说贡献的变量的系数,没有任何意义,只要这个方法对预测好,那就是好。中国人学呆了。像回归分析,在别的变量不变的时候,我这个量增加不增加?别的变量肯定不变的,特别经济统计,没有两个变量是完全不变的。
计算机科学,不是一两个盗版傻瓜软件+点鼠标就是计算机科学了。还加上网络漫游能力和泛型编程能力,我说的这个泛型编程能力是计算机编程理念,我用了很多编程理念没有一个是在课堂上学的,就是自己在编的时候自己领会。一切东西依赖于自学,而不是依赖老师,这可能跟我的经历有关。
这是2015年的一个网站调查,用的最多的是R,这是2014年的,R在图片当中也是最多的,其他的软件加起来是17%,底下这个是2014年,也是R,为什么是这样?第一,它们是开源的,它们的代码是公开的。
这是计算机的亲和性,还有SQL,亲和性很大,就是它的语言你懂一个,再学一个,直到后来一天一个就学下来了,真是这样的,不是开玩笑。我不想说SAS,我在美国的第一个研究就是SAR,它的亲和力小。实际上现在很多R,很多会R的都可以去做东西。这也是转换性的,就是R跟Python转化的多,所以第一学的编程语言应该是R,然后Python,然后是其他的语言。其他点鼠标的语言是用不着学的。
最根本的就是领域知识,你必须了解领域知识,你才能够知道该怎么做。如果你仅仅是一个干巴巴的统计学家,就不会了解实际问题。
原来在医学杂志发表的一个很有名的文章讲,如果父母在婴儿房间内睡觉总是开着灯,婴儿就会有高度近视。后来再发现,凡是父母高度近视的,往往有给小孩开灯的习惯。到底什么造成小孩高度近视,现在你们知道的,但是当时的人不知道,所以要有很深刻的领域知识,只有明白目标领域知识的人才能明白它的意义,知道往哪个方向努力,去判断分析结果的可能性。所以用数据来说话,其他的一切都是废话,不要做一些莫名其妙假定,我每年看到很多很多的文章,包括一些大赛,好多比赛题目都是莫名其妙的假定,就连31个省市自治区的数据都假设是正态分布,这31个省市自治区的就不是样本,更不用说是正态分布。
科学,对年轻人来说就是要明白这些基本的东西,太花哨的东西就没意义了。你离得越远看得越清楚,站得越高对全局的了解越好,不要太具体了,不要迷信这些炒作的新名词、新概念。用自己的大脑,用常识判断,想想合不合理。过去某个人的经验是他的经验,不是你的经验,他在特定环境、特定时间有作用,如果你要跟风就意味着永远是跟随,也绝对不会有出息。
个人要有快速的自学能力和对数据分析的爱好,我从来没学过计算机,也没学过计算机编程。英文都没学过,全都是自学的,所以我对自学很相信。现在我教的东西都是最近这几年的东西,我现在实际上比一个全职教师教的课还多,但是我教的东西好多都是前一天网上才出现的,我看到觉得有价值,第二天就放到课堂上了。只有这样,只有不断的自学,不断的学习才能当老师。如果你不断的跟学生演示80年前的推导过程,只能显示你的记忆力好,那不是好老师。
另外是不是做数据科学家的材料?你专长于任何特定变成语言相比,泛型变成技巧更重要。最重要的素质就是能快速学习东西,在这个时代技术发展的突飞猛进,语言很快会过时,新的语言会迅速普及,所以学习东西快的人比单独领域的专家更有前途。我要看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘吧?但是硬盘没有创造力。
如果你每天花大量的时间编程,分析控制面板上的数据,获得相关知识和信息,你对这样的工作感兴趣,你就适合干这行。现在我没事就处理变成数据。如果仅仅是想拿高工资,那可能觉得这样的日子就很苦了。实际上不光是这个工作,干任何工作,即使是坐牢你也要把它当成乐趣,这个不是玩儿的。
真正适合干这一行的人,会在业余时间里编程序、分析数据,他的目的就是自娱自乐,而不是为了要拿着什么学位,拿到什么样的头衔,最终他自己把自己的价值就提高了。如果你爱的不是数据本身,而是它给你带来的高薪,那你很难跟上来的人来竞争了。要学会干一行爱一行,每个人都应该学会热爱数据,即使是为了自己的事业前途也应该这样想,为了自己的心里也应该这样想。
还需要什么呢?刚才我说了,学习能力比知识更重要,欢迎挑战、乐于攀登。有点挑战的我就很高兴,我相信很多人都这样,这样活着才有意义,像猪一样的活着没有意义。你像富二代开着宝马到处飙车,他是找不到活着的意义啊,穿名牌什么的,是让别人觉得你有点价值,实际上别人一看你更没有价值了。马克思的座右铭怀疑一切,在怀疑中成长。
不要给自己贴标签,就是我学什么方向的,别的不搞,岁数大了,学不会了,很多人都有这样的借口,这实际上是借口,我现在每天都在网上学东西,所以我现在教的东西总是新的,我的书一版再版,我现在大概写了有30本书了,为什么再版,因为我发现原来的有错或者不全面,我一定要把事情说的更透彻一点,说的更好一点。
什么人最快乐?被人需要,这是很重要的,就是你得有价值。因为你的专长,能力、善良、尊重、爱心、品质、性格、智力、分享。在公司里跟人家能相处,至少你得是可爱的。还要关心他人,能让别人快乐的人是快乐的。尊敬别人的人是快乐的,诚实坦荡的人是快乐的,心胸开阔,不去计较一些小事情。最关键的就是爱人如己,你爱人不是因为他能爱你回来,也不是因为他可爱,而是对任何事情都尊重,这是最根本的一点。如果这点你要做到了,人人都能做到,那世界就太理想了。不管怎么样,我希望大家能够快乐。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21