京公网安备 11010802034615号
经营许可证编号:京B2-20210330
百度高级副总裁王劲: 一朵花的大数据之旅_数据分析师
百度正在传统的搜索技术之外,利用“大数据+云计算”打造另一个驱动公司发展的新引擎——百度高级副总裁王劲接受21世纪经济报道记者采访时如是说。
百度大脑是“云计算+大数据”的载体:其由硬件和软件两部分组成,硬件部分是由云计算中心和服务器组成,软件部分是由大数据和人工智能算法组成。无论百度推荐引擎、BaiduEye,还是百度面对商家的直达号,均依赖百度大脑作为技术基础,是一切前端应用的backoffice。
王劲认为,百度的核心竞争力在于人工智能和大数据的结合。可能的场景是:用手机拍一朵花的照片,上传给百度,百度大脑把它转化成“0101”的数字流,然后输入到深度神经网络里,经过层层的分析、复杂的学习算法和大数据比对,最后还原并识别出它是一朵花,并告诉用户这朵花的名字,随后在百度百科里找到花的属性。
如何获得大数据?在百度看来,与第三方伙伴合作是较快获取大规模数据的方式之一。此前百度曾和中科院花卉研究所对接,获得花卉种类等近二十万条的数据。在电商领域,国内京东、当当、蘑菇街等电商平台伙伴向百度提供消费数据,同时获得百度入口的流量。当然,目前百度尚没有阿里巴巴系统的数据。
《大数据时代》作者舍恩伯格的判断是,目前正处在大数据时代的早期。对于百度来说,其通过搜索引擎积累了大量的数据“金矿”,人工智能则给予百度“挖矿”的能力。
百度做大数据,更是通过搜索引擎在为人工智能铺路。但并非所有的数据金矿都在百度手中,微信、微博等社交数据是一个例子,阿里巴巴手中的电商数据是另一个例子。
“百度在革自己的命”
《21世纪》:百度大脑研究现在进展如何?目前人工智能的研究方面在国际上处于什么位置?
王劲:人工智能一直到2010年都没有什么突破,当它的准确率不高的时候,它就无法应用。一直到这两年有了深度学习的新算法,这个新算法才被用到人工智能上,突破了以前很多瓶颈。在这个方面,百度是做得最早的,百度在全球都是在这方面进行投入的最早公司之一,我们跟国际最领先的公司在同一个起跑线上。
《21世纪》:人工智能从70年代、80年代末初就开始做了,为什么一直就没做起来?
王劲:在那个时候确实面临技术的瓶颈。人工智能在我读书的时候是规则制定阶段,人工智能要制定很多规则。深度学习以及机器学习的好处是,只要把模型建起来以后,就可让计算机自主学习、拼命去迭代。
百度现在拥有10亿规模的连接,人最多只能用几百个参数,我们没办法做人工的判断。百度就把大数据,把规则制定好,数学模型和算法做好,得出结果,人不需要知道为什么是这个结果。人工智能好就好在不需要程序员是每行每业的专家。这是为什么人工智能在这两年有一个飞速的发展。
另一个原因则是语音识别技术的飞速发展,过去两年,语音识别率从70%提高到了95%。今天两个自然人在讲话,其识别准确率差不多是98%。去年百度才刚刚到90%,现在就可以达到95%以上,接近自然人对话。
《21世纪》:推荐引擎的功能,现在的搜索引擎是不是也能做到?
王劲:搜索引擎也可以看成是一种推荐引擎,过去的搜索引擎给用户提供很多的结果。那时候搜索引擎都认为,搜得的结果越多越好。推荐引擎跟它做的正相反,最好只给用户一个最相关的结果。推荐引擎需要在人工智能再上一个台阶以后才可以做到。只有对用户有了更多了解,如时间、地点、人物的更多数据,才可以真正实现个性化推荐,成为真正的推荐引擎。
你可以看到这是新一代的技术,也可以看到百度是在革自己的命。
越开放会越强
《21世纪》:百度如何和线下的商场合作?也就是说,百度的大数据怎样考虑应用场景?
王劲:拿银泰和百度的合作来说,戴上Baidu Eye到银泰的人,年龄、性别、在哪一些货架停留的时间最长,商品有多少人买了,有多少人不买,这些银泰需要的数据,百度就可以帮它拿到并做出分析。
百度投资了一家室内定位的公司。通过室内定位,知道消费者在这个商场里面的走动轨迹,上述数据也都能够用百度大脑算出来。银泰可以通过数据进行商业决策,比如说,该怎么安排消费者在商场的路线,怎么导航能够让这个商场最优化,再把到商场里面的购买行为全部打通,未来购物体验会非常不一样。
大数据、百度大脑、推荐引擎是环环相扣的,最根本的是你要有基础架构,软硬件能力都要很强,数据要足够多,还有关键的是人才。大数据+百度大脑+推荐引擎,这三件要素加起来,百度就能够和传统产业合在一起,打开一个局面。
《21世纪》:很多公司对人工智能前景的描绘都非常好,以后它服务于企业还要克服哪些困难?
王劲:例如数据安全和用户隐私,这些是我们跟传统企业要一起来努力的。百度希望把技术和平台都开放出来,各行各业可以把他们的服务跟百度对接,形成共赢。
百度大数据可以变得越来越大,人工智能和大数据引擎是越用越好用。计算机里叫深度学习,通过数据把它训练得越来越准。我们希望越来越多的人能用人工智能,这是我们这些大数据引擎开放出来的一个重要的原因。另外,越开放它也会越强。
《21世纪》:百度将如何跟政府机构进行合作?
王劲:百度有很多的机会跟政府机构合作,包括和全球的机构。在公益事业上,如医疗,百度能够政府降低疾病的发生率,减少污染,找到污染源,对流行病,以及其他各样疾病的防控等等。再有中小企业景气指数预测,找出它的规律来,这可以帮助我们政府调整政策。
百度刚刚与联合国在一些绿色产业方面进行了大数据方面的合作。
人工智能刚刚起步
《21世纪》:你怎么看待百度在PC时代的数据优势,以及在移动互联时代面临的挑战?
王劲:我们认为移动互联网是一个机会。有一个证据,百度今天在移动端获得的收益超过30%,在中国互联网企业当中这是相当高的。我们有非常多的数据,这些数据加起来我们能够做精准的推荐,这种推荐就是不搜即得。这方面,百度的技术有优势。
移动互联网在生产非常大量的数据,百度数据处理能力和人工智能能力很强,这对我们又是一个很好的机会,这个时代才刚刚开始,这对大家来说既是挑战,也是机会。
百度依托在人工智能、大数据技术上的优势,打造核心竞争力,即人工智能与大数据的结合。
《21世纪》:目前来看,深度学习技术如何改善百度的用户体验和客户的投资回报率?
王劲:百度今天的盈利建立在推广技术上,绝大部分的收入也是从这上面来的。它有一个指标是点击率,如何做到推广的东西人们更需要,推荐的东西更靠谱,非常大比例的是由我们百度大脑实现的。
《21世纪》:人工智能最大的发展障碍是安全和隐私?
王劲:这不一定是最大的障碍,技术能力也需要不断提升。百度有一个通用的技术平台,还需要跟每一个传统行业学习。比如说我们跟海底捞合作,他是行业专家,我们给他一个数据,这个数据对他来说很有价值,而我只知道这是数据。
今天很多东西刚刚开始,它像滚雪球一样越滚越大,越早跟百度合作会越好,百度如果把这个技术越早完善,快速迭代,这其实也是一个机会。
人工智能还在刚刚起步的阶段,但是它有一个美好的未来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04