登录
首页精彩阅读引入机器学习技术最好是效果导向
引入机器学习技术最好是效果导向
2017-11-30
收藏

引入机器学习技术最好是效果导向

第四范式联合创始人、首席架构师。曾任职于百度,作为系统架构负责人,主持了百度商业客户运营、凤巢新兴变现、商业“知心”搜索、阿拉丁生态等多个核心系统的架构设计工作。作为链家网创始团队,从0开始完成了链家网新主站、经纪人新作业系统、绩效变革系统的整体架构设计以及研发团队的建设管理,参与规划及推动了链家系统和研发体系的互联网化转型。

现任第四范式研发总工程师,带领产品研发团队打造出国内首款人工智能全流程平台“第四范式·先知”,“先知”平台2016年荣获中国智能科技最高奖——“吴文俊人工智能科学技术奖”创新奖一等奖。
在采访中,给记者留下深刻印象的是胡时伟反复强调了人工智能落地要以用户业务价值提升为目的,而不是为了炫技,在引入相关技术时要注重性价比,坚持效果导向。他认为第四范式的目的就是要降低人工智能技术的入手门槛,让更多企业可以从创新中收益。
CSDN:作为第四范式联合创始人,你们创建这家公司的初衷是什么?
胡时伟:文渊(第四范式创始人、首席执行官)很早就开始从事AI行业,致力于以技术创新来为行业创造价值。在百度的时候,公司有海量的数据积累,文渊带领团队所搭建的基于人工智能技术的百度凤巢系统使其广告变现能力提升了8倍。从百度离开后,他又到了华为,验证了人工智能技术在金融、电信等领域所能创造的价值。文渊在百度和华为用近十年的经历证明了“AI”是可以“for someone”的,但他也坚信“AI”终将“for everyone”,于是就有了创建第四范式团队专注做人工智能的想法。
从另一个层面,随着大数据技术和计算能力的发展,人工智能技术已经到了工业化的阶段。我们见证了百度、今日头条等公司通过人工智能技术所带来的巨大经济利益。但目前这项技术的产品化往往还需要一个技术能力很高的团队来做,第四范式所做的事情就是把门槛降低,技术产品化、平台化,让更多公司可以用上人工智能技术,享受业务价值的提升。
对于我来说,也希望把自己在系统架构和产品化方面的能力通过AI技术影响更多的企业。文渊、雨强(第四范式联合创始人、首席研究科学家)和我都有着同样的愿景,于是创立公司的事比较自然。
CSDN:第四范式和业界其他做机器学习平台的公司相比有哪些特点?
胡时伟:先抛开技术的比较。我们最大的特点就是特别在意客户价值,尤其是能否利用我们的技术能力为客户带来实际的业务价值提升,甚至在这件事上第四范式还吃过亏。有时候,客户需要一个人工智能系统,但对部署这个系统能带来多大价值难以描述,但是我们就绞尽脑汁的去想,这件事情为客户带来价值究竟存不存在,条件满不满足?如果带不来价值,我们就不太敢去做,所以也因此丢掉了一些(单子)商业利益。
但后来,我们慢慢想明白了,只要这件事的长远价值是正确的,我们就会去做。我们致力于客户价值本身也有一个好处,能够得到客户的信任和商业方面顺利推进。我们一直有个理念,如果提供的技术无法为客户核心业务价值带来提升,(人工智能)只做为一个形式,或者一个华而不实的东西,这就不是一个企业服务公司适合直接切入的。
CSDN:从技术层面看,你觉得第四范式更像大数据还是人工智能公司?
胡时伟:人工智能是面向目标,而大数据是基础技术架构。人工智能是解决问题,比如营销、风控、或者下围棋,只要这个问题不是由人来解决,由机器来直接替代人去解决或者相当大程度的辅助人解决,它就是一种智能,而大数据是实现人工智能的基础和手段。
大数据分为两部分,一部分是海量数据本身,机器学习从数据中学习,因此需要海量的数据作为输入;另一部分是指大数据平台,也就是分布式的数据处理架构。第四范式是人工智能公司的原因是我们最核心的技术是机器学习。在大数据平台上运行机器学习程序,从而把这个大数据变成一个具备决策能力的应用,或者API(将能力开放出来)。
一个成功的人工智能应用要把数据、机器学习、分布式等组合起来,才是一款完整的产品。我是比较实用主义的一个人,没那么在意所做的是属于人工智能或者大数据领域,如果能解决客户问题,各种技术都需要去理解和采用,这是目标导向的一个选择。
CSDN:第四范式成立后,你们所做的第一款人工智能产品是什么?
胡时伟:我们真正向客户交付的第一款产品是为某银行信用卡业务提供的交易分期智能营销系统。信用卡的主要盈利模式是客户分期还款的利息。对于信用卡公司来说,是希望客户能够办理分期还款的,但它不知道哪些人希望办分期,有的消费者也不知道可以办分期,所以需要用短信提醒,哪些人要提醒?哪些人不需要提醒?这是一个要决策的问题。
传统的解决办法是用专家规则,依靠人工去决策,把客户分群处理。而通过第四范式搭建的系统,只要通过源源不断的往系统里输入营销记录(购买和以往分期记录)数据,系统就可自动生成一个可以代替人去判断的决策,告诉系统是否需要给此人发提醒短信。这个系统一上线,就为客户(信用卡公司)带来了业务收益。
CSDN:能不能谈谈先知平台的初衷和设计过程?
胡时伟:先谈谈先知平台设计的初衷。一方面,人工智能领域的技术专家还是比较贵的,企业服务的事情如果都让人工智能的专家去做的话,成本会很高,最关键的是真正的人才是稀缺的,不是有钱就可以找到的,因此可复制性很差。第二,做(先知)平台的话可以避免客户担心被某固定服务商绑架的问题,使客户也拥有对模型和应用的控制能力;第三,我们公司的主要团队都来源于互联网公司,天生就希望产出效率更高的产品,希望能以更先进的方式解决问题。
所以在很早期的时候,我们就希望做一个平台类的产品,能将第四范式顶尖专家的能力赋予到几种人。第一种是客户自己的员工,他们对业务了解,又拥有数据,期望把数据转换成智能决策引擎,先知平台可以让某些具备一定水平的客户依靠自身力量就能做到这一点;第二种是第四范式做项目交付的同事,先知平台可以降低构建企业AI应用的上手门槛,让更多的人具备数据科学家的能力,提升利用这个平台交付实施的效率,最终提升服务规模和服务水平,为更多更广泛的客户创造价值。
此外,对于企业来说,还是希望有更多合作伙伴一起来做落地的工作,人工智能涉及的内容和行业都很广泛,第四范式不可能自己去做所有的行业,所以更希望把核心技术能力包装成产品,让合作伙伴们用先知平台(去落地),达成自身、合作伙伴、客户共赢的目的。
CSDN:能否介绍下先知平台在架构设计上的特点?
胡时伟:从产品上,目前版本的先知平台分为三大子平台,调研平台、自学习平台和预估平台。调研平台供业务人员或者数据科学家通过简单拖拽的方式寻求最合适的从原始数据产生模型的路径,覆盖了数据引入、清洗、拼接、特征工程、模型训练、特征解释、模型评估等完整环节,调研平台的产出是一个机器学习的Pipeline。自学习平台是生产系统里的离线部分,负责将源源不断产生的新数据输入到机器学习的Pipeline里,从而使模型具备自我进化能力。预估平台则负责将不同算法训练出来的模型方便的转化为可伸缩的在线服务(API),对接下游系统。
从系统架构上,先知平台分为UI与API层、分布式调度层、分布式计算引擎、在线预估引擎四大部分。在分布式计算引擎层面上,我们拥有自主研发的分布式机器学习框架GDBT和统一高性能特征工程框架。GDBT和Spark处于同一位置,可以运行在Yarn上,是一个抽象并封装高维机器学习算法的运算框架,类似于Tensorflow。
在这个框架上,第四范式拥有多种专利算法,其中包括高维的LR/GBDT等经典算法的高维高性能实现,也包括HE-Treenet/Linear Fractal等低门槛算法。另外还有一些机器学习辅助工具比如自动特征组合、自动调参等也是基于GDBT框架的。GDBT的运算架构专门为机器学习设计和优化,对比基于Spark算法的加速比有指数级提升,在海量数据情况下达到数百倍到数万倍。
比起基于Parameter Server等机器学习专有架构的其他开源算法相比,由于独到的工程和算法优化技术,也有数倍到数十倍提升。高性能特征工程框架和在线预估引擎也是先知系统的重要组成部分,其主要特点也是集成了丰富的处理方法,包括数据在时间维度和地理空间维度的多种特征生成算法,并且具备非常高的性能。高性能的架构对于计算非常密集,耗费资源极大的机器学习过程来说是非常重要的。
另外,门槛的降低和广泛的通用性离不开优秀的产品设计,先知提供了基于Web的UI交互以及基于Python的SDK接口,配合能够适配不同Hadoop发行版以及操作系统的分布式调度层,使得底层的优秀算法与架构能够满足企业级运维、管理等需求的同时,大大降低了基于先知二次开发业务应用的门槛。
整个系统所有计算部分(在线、离线)均基于节点数和性能可线性扩展的分布式架构,而平台应用本身则基于互联网常用的技术实现了可伸缩的高可用架构。我们在云上提供的多租户服务则采用了容器化的架构,确保多个租户之间的充分隔离。
最后,先知平台整体上是一个插件机制,特别是对底层的运算单元做了充分的抽象和二次开发接口。这种架构使得先知平台也易于集成Tensorflow等开源算法,使企业客户拥有更多的对比和选择。
CSDN:目前第四范式的用户主要分布在金融、电商、媒体等领域较多,你认为现阶段什么样的场景下使用机器学习技术的潜力最大?
胡时伟:机器学习应用场景可以先套用杨强教授(第四范式联合创始人、首席科学家)的人工智能成功的五个必要条件:清晰的商业模式、高质量的大数据(持续反馈)、清晰的问题定义和领域边界、懂人工智能的跨界人才(擅长应用和算法)、计算能力。
具体而言,机器学习应用比较好的是有海量数据、(人工)服务不足,且能带来实际商业价值或社会价值的应用场景。因为机器本身解决的就是人力不足的问题,代替人去做决策。例如前面提到的信用卡分期营销以及我们最近在做的反欺诈案例,行业内没有那么多人工对每个客户每笔交易进行筛查;直播、广告领域也是非常适合用机器学习的领域,因为访问和请求的数量是巨大的而每一个决策的单个价值又是相对微小的;此外,零售、医疗、游戏等行业,第四范式也有涉足。
CSDN:如今不少企业考虑引入机器学习等人工智能技术,你认为在使用或部署机器学习技术(平台)的时候有哪些注意事项?
胡时伟:最重要的是思路的转变。机器去解决事情的思路和以往依靠人工完全不同。机器考虑问题是怎么复杂怎么来,怎么累怎么来。而人更擅长于抓大放小、考虑问题是怎么简单怎么来。从这个思路来讲,人解决问题是通过划分客群,因为人不可能对每个客户一个一个去看。但是对于机器来说是千人千面。这是经营思路的变化,而不仅仅是个技术问题。
其次,在引入机器学习技术的时候最好是效果导向。经常会有客户问,市面上有那么多开源产品,一些算法也已经被巨头企业开源了,为何还要用商业产品?这件事判断起来很简单,开源并不等于免费,相反有时候是更贵的。人才、机器、试错成本、时间成本、最终的效果都是要考量的因素,对企业经营者来说,要重视投入产出比以及抢时间,而要做出效果是一个系统工程。引入机器学习,需要明白哪些是企业要做的,哪些可以借助外部力量来做。
此外,要重视技术的适用性和性价比。目前来看,深度学习在某些领域已经有了较成熟的解决方案,例如图像特征提取、语音识别、文本翻译等,这些领域深度学习做的很好。但企业级应用涉及各个范围,以上只是企业经营过程中的一小部分。在其他领域如营销、反欺诈、广告等行业应用,就需要一些其他的算法和技术,比如说超高维的特征工程和算法,因此企业选用技术还要考虑成本和适用性的问题。
CSDN:对于正在或想从事机器学习行业工作的开发者来说,你有什么经验或建议?
胡时伟:首先一定要从业务和价值本身出发,而不是说觉得技术比较炫酷、比较火,或者简单说现在工资高了就去做。这和前两年的iOS和安卓开发一样,经过时间的洗礼和供需平衡的过程,现在优秀的移动开发大牛还是千金难求,但是大量平庸的开发人员会很快回归到价值本身甚至难于寻找到机会。

  另外,机器学习和人工智能行业其实非常广阔,不只是算法研究,也可以做AI相关产品、工程架构、解决方案、甚至是培训、市场类的工作。这里面对大多数有兴趣的朋友来说,切忌扎堆,以为从事机器学习就只做算法。90年代末期互联网只有两个岗位,一个是做网站,一个是做网管。AI技术给社会带来的变化将会是深远的,机会也是广阔的,还是跟着自己擅长的方向和兴趣走,会更容易获得成绩,也会更开心更有成就感一点

数据分析咨询请扫描二维码

客服在线
立即咨询