京公网安备 11010802034615号
经营许可证编号:京B2-20210330
百度高级副总裁王劲: 一朵花的大数据之旅_数据分析师
百度正在传统的搜索技术之外,利用“大数据+云计算”打造另一个驱动公司发展的新引擎——百度高级副总裁王劲接受21世纪经济报道记者采访时如是说。
百度大脑是“云计算+大数据”的载体:其由硬件和软件两部分组成,硬件部分是由云计算中心和服务器组成,软件部分是由大数据和人工智能算法组成。无论百度推荐引擎、BaiduEye,还是百度面对商家的直达号,均依赖百度大脑作为技术基础,是一切前端应用的backoffice。
王劲认为,百度的核心竞争力在于人工智能和大数据的结合。可能的场景是:用手机拍一朵花的照片,上传给百度,百度大脑把它转化成“0101”的数字流,然后输入到深度神经网络里,经过层层的分析、复杂的学习算法和大数据比对,最后还原并识别出它是一朵花,并告诉用户这朵花的名字,随后在百度百科里找到花的属性。
如何获得大数据?在百度看来,与第三方伙伴合作是较快获取大规模数据的方式之一。此前百度曾和中科院花卉研究所对接,获得花卉种类等近二十万条的数据。在电商领域,国内京东、当当、蘑菇街等电商平台伙伴向百度提供消费数据,同时获得百度入口的流量。当然,目前百度尚没有阿里巴巴系统的数据。
《大数据时代》作者舍恩伯格的判断是,目前正处在大数据时代的早期。对于百度来说,其通过搜索引擎积累了大量的数据“金矿”,人工智能则给予百度“挖矿”的能力。
百度做大数据,更是通过搜索引擎在为人工智能铺路。但并非所有的数据金矿都在百度手中,微信、微博等社交数据是一个例子,阿里巴巴手中的电商数据是另一个例子。
“百度在革自己的命”
《21世纪》:百度大脑研究现在进展如何?目前人工智能的研究方面在国际上处于什么位置?
王劲:人工智能一直到2010年都没有什么突破,当它的准确率不高的时候,它就无法应用。一直到这两年有了深度学习的新算法,这个新算法才被用到人工智能上,突破了以前很多瓶颈。在这个方面,百度是做得最早的,百度在全球都是在这方面进行投入的最早公司之一,我们跟国际最领先的公司在同一个起跑线上。
《21世纪》:人工智能从70年代、80年代末初就开始做了,为什么一直就没做起来?
王劲:在那个时候确实面临技术的瓶颈。人工智能在我读书的时候是规则制定阶段,人工智能要制定很多规则。深度学习以及机器学习的好处是,只要把模型建起来以后,就可让计算机自主学习、拼命去迭代。
百度现在拥有10亿规模的连接,人最多只能用几百个参数,我们没办法做人工的判断。百度就把大数据,把规则制定好,数学模型和算法做好,得出结果,人不需要知道为什么是这个结果。人工智能好就好在不需要程序员是每行每业的专家。这是为什么人工智能在这两年有一个飞速的发展。
另一个原因则是语音识别技术的飞速发展,过去两年,语音识别率从70%提高到了95%。今天两个自然人在讲话,其识别准确率差不多是98%。去年百度才刚刚到90%,现在就可以达到95%以上,接近自然人对话。
《21世纪》:推荐引擎的功能,现在的搜索引擎是不是也能做到?
王劲:搜索引擎也可以看成是一种推荐引擎,过去的搜索引擎给用户提供很多的结果。那时候搜索引擎都认为,搜得的结果越多越好。推荐引擎跟它做的正相反,最好只给用户一个最相关的结果。推荐引擎需要在人工智能再上一个台阶以后才可以做到。只有对用户有了更多了解,如时间、地点、人物的更多数据,才可以真正实现个性化推荐,成为真正的推荐引擎。
你可以看到这是新一代的技术,也可以看到百度是在革自己的命。
越开放会越强
《21世纪》:百度如何和线下的商场合作?也就是说,百度的大数据怎样考虑应用场景?
王劲:拿银泰和百度的合作来说,戴上Baidu Eye到银泰的人,年龄、性别、在哪一些货架停留的时间最长,商品有多少人买了,有多少人不买,这些银泰需要的数据,百度就可以帮它拿到并做出分析。
百度投资了一家室内定位的公司。通过室内定位,知道消费者在这个商场里面的走动轨迹,上述数据也都能够用百度大脑算出来。银泰可以通过数据进行商业决策,比如说,该怎么安排消费者在商场的路线,怎么导航能够让这个商场最优化,再把到商场里面的购买行为全部打通,未来购物体验会非常不一样。
大数据、百度大脑、推荐引擎是环环相扣的,最根本的是你要有基础架构,软硬件能力都要很强,数据要足够多,还有关键的是人才。大数据+百度大脑+推荐引擎,这三件要素加起来,百度就能够和传统产业合在一起,打开一个局面。
《21世纪》:很多公司对人工智能前景的描绘都非常好,以后它服务于企业还要克服哪些困难?
王劲:例如数据安全和用户隐私,这些是我们跟传统企业要一起来努力的。百度希望把技术和平台都开放出来,各行各业可以把他们的服务跟百度对接,形成共赢。
百度大数据可以变得越来越大,人工智能和大数据引擎是越用越好用。计算机里叫深度学习,通过数据把它训练得越来越准。我们希望越来越多的人能用人工智能,这是我们这些大数据引擎开放出来的一个重要的原因。另外,越开放它也会越强。
《21世纪》:百度将如何跟政府机构进行合作?
王劲:百度有很多的机会跟政府机构合作,包括和全球的机构。在公益事业上,如医疗,百度能够政府降低疾病的发生率,减少污染,找到污染源,对流行病,以及其他各样疾病的防控等等。再有中小企业景气指数预测,找出它的规律来,这可以帮助我们政府调整政策。
百度刚刚与联合国在一些绿色产业方面进行了大数据方面的合作。
人工智能刚刚起步
《21世纪》:你怎么看待百度在PC时代的数据优势,以及在移动互联时代面临的挑战?
王劲:我们认为移动互联网是一个机会。有一个证据,百度今天在移动端获得的收益超过30%,在中国互联网企业当中这是相当高的。我们有非常多的数据,这些数据加起来我们能够做精准的推荐,这种推荐就是不搜即得。这方面,百度的技术有优势。
移动互联网在生产非常大量的数据,百度数据处理能力和人工智能能力很强,这对我们又是一个很好的机会,这个时代才刚刚开始,这对大家来说既是挑战,也是机会。
百度依托在人工智能、大数据技术上的优势,打造核心竞争力,即人工智能与大数据的结合。
《21世纪》:目前来看,深度学习技术如何改善百度的用户体验和客户的投资回报率?
王劲:百度今天的盈利建立在推广技术上,绝大部分的收入也是从这上面来的。它有一个指标是点击率,如何做到推广的东西人们更需要,推荐的东西更靠谱,非常大比例的是由我们百度大脑实现的。
《21世纪》:人工智能最大的发展障碍是安全和隐私?
王劲:这不一定是最大的障碍,技术能力也需要不断提升。百度有一个通用的技术平台,还需要跟每一个传统行业学习。比如说我们跟海底捞合作,他是行业专家,我们给他一个数据,这个数据对他来说很有价值,而我只知道这是数据。
今天很多东西刚刚开始,它像滚雪球一样越滚越大,越早跟百度合作会越好,百度如果把这个技术越早完善,快速迭代,这其实也是一个机会。
人工智能还在刚刚起步的阶段,但是它有一个美好的未来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16