达摩院这一年:科学家上山新技术下海
发布日期:2018/6/28 7:26:00 访问次数:1400
王海
[2017年10月,马云将新成立的研究院命名为“达摩院”,同时宣布,未来3年内阿里巴巴在技术研发上的投入将超过1000亿元。]
达摩院,在金庸小说中是少林寺最高等级的武学研究机构,若非有精深的武学造诣,是没资格加入的。
或许是缘于对武学的痴迷,2017年10月,风清扬(指阿里巴巴董事局主席马云的花名)将新成立的研究院命名为“达摩院”,同时宣布,未来3年内阿里巴巴在技术研发上的投入将超过1000亿元,主要研究自然语言处理、人机自然交互、量子计算、机器学习、基础算法等多个产业领域。
为了能够达到精深的“武学造诣”,达摩院初期计划引入数百名顶尖科学家和研究人员。同时,达摩院与全球顶级高校开展多学科、多领域、多模式的学术合作,以联合科研基地和开放式阿里巴巴创新研究计划为载体,构建全球产学研技术合作生态。
作为阿里巴巴向科技型公司加速进化的结晶,成立9个月以来,达摩院对外界而言,一直披着一层神秘面纱,这个机构有多少人?他们做过哪些事?他们怎么让前沿技术从实验室步入到公众的日常生活中?
“皇冠”下的科学家群体
第一财经记者了解到,目前达摩院已囊获了大数据专家金榕、视觉识别和搜索领域国际级权威学者华先胜、世界级量子科学家施尧耘、计算机视觉专家任小枫等为代表的一批技术带头人,在人工智能、量子计算、芯片、自然语言处理等多个领域有所建树。
司罗领导的是达摩院自然语言处理团队。自然语言处理(NaturalLanguageProcessing,简称“NLP”)是一种使机器理解人类语言的AI技术,处于人工智能中最高层次——认知智能,因此被誉为人工智能皇冠上的明珠。
尽管“NLP”这一术语并不如大数据或云计算那样耳熟能详,但人们每天都在使用或受益于它,其应用场景包括搜索引擎、智能客服、商业智能和语音助手等。NLP和人工智能其他层面一样,需要技术+场景+数据的三要素积累。
“阿里拥有大量的数据、计算资源以及应用场景,相对于学术界有更多优势,在世界范围也领先同类技术公司。这是吸引我加入达摩院的最重要原因之一。”司罗告诉第一财经记者。
作为最早一批从学术界转向企业界的人工智能科学家之一,司罗并没有感到任何不适。“我在普渡大学任教期间就对技术的应用场景以及产品化、商业化的工作非常感兴趣,当时也有很多和企业界的合作。”他体会最深的是,在学校他是一个赋能学生的角色,但跟产业界的人在一起,他能感受到自己的作用和影响力被放大了。
其实,很多大企业原来都尝试过建立一个自然语言平台,但成功的并不多。其原因不只是技术因素,还有业务甚至是组织架构的因素。以NLP为例,公司很多其他的业务部门都有自己的一部分NLP的能力和团队,如果用了平台的功能,会对原有的组织架构造成冲击。
“在设计平台的时候我们已经考虑到了上述问题,平台做一些通用性的工作,这些通用性的工作可以服务好广大的业务方,把他们比较难做的一些基础能力承担下来,他们去做更多和业务更贴合的创新。”司罗表示,团队在一些重点技术上花了比较大的时间和精力,在重点项目上作出的成绩非常突出,不仅解决了准确性,而且还在运行效率、占用的资源等方面都有比较大的提升。
第一财经记者了解到,在时间分配上,达摩院的很多科学家都是三三制。比如司罗和鄢志杰,跟业务的紧密沟通占到三分之一的工作时间,还有三分之一是用来带领团队,另外三分之一用来跟踪全球最新、最前沿的技术发展趋势,为团队规划研发方向。
一位阿里巴巴内部人士透露,虽然阿里科学家们每天的工作非常繁忙,但大多数同事都能保证生活与工作的平衡,很多同事还生了第二个孩子,家庭也很幸福。
目前,阿里巴巴在资本、技术、人才等方面已具备了探索科技未来的基础。阿里巴巴已拥有25000名技术研发工程师、近千名博士学者和多名入选MITTR35杰出青年创新人才,形成了集产品、研发、研究于一体的创新人才梯队。
在研发体系上,达摩院已经构建了短中长三个层次的研发体系,面向未来3~5年前沿应用技术、面向未来5~10年原创性基础技术,以及面向未来10~20年前瞻性基础技术的研究,并在不同类型的技术领域采用多种不同的合作模式。
科学家的新上山下乡
“此前在学校主要是跟学生打交道,处理一些相对学术性的研究工作;现在在企业界可以跟更多非常优秀的同事交流,有机会跟更大的、更强的技术团队去合作。”阿里达摩院机器智能实验室NLP首席科学家司罗告诉记者,在阿里巴巴工作的侧重点不只是脚踏实地,更要让技术在应用场景中产生影响力。
这也与阿里巴巴的研发文化相匹配。第一财经记者了解到,包括司罗在内的新入职科学家大多被要求深入一线,到一线技术部门去锻炼,向业务同事学习商业模式,向产品同事学习产品理念,向客服同事学习用户喜好。
司罗就曾被派往阿里巴巴的搜索事业部,甚至很多研发人员成了“猪倌”。
为了探索智慧农业,阿里人工智能养猪团队的十几名研发人员,在猪场陆陆续续待了几个月。平时吃猪场食堂,住集体宿舍上下铺。通过阿里的AI技术,给每一头猪建立了自己的档案。机器算法团队的视频图像分析技术,记下了猪的体重、进食情况、运动强度等等。如果一只猪长卧不起,那人工智能就会判断它是怀孕还是病了;如果只是猪想偷懒,饲养员就会让它多走走。
这种下一线的做法,也被达摩院机器智能技术实验室主任金榕戏称为“上山下乡”。
“很多同事刚来(阿里巴巴)的时候,可能技术思维多一些,但达摩院更希望技术能与产品、业务共舞。”司罗解释道,阿里本身希望技术能够在业务中真正地发挥价值,上述到一线学习的机会能够让科学家们更深入地了解一些重要业务部门和一些重大的业务需求,可以更好地将技术能力和业务需求连接起来。
记者了解到,达摩院已经成功搭建了包括自然语言处理、语音识别在内的多个通用技术平台,用于支撑阿里巴巴整个核心技术体系。而在司罗所领导的NLP团队中,有近百人的团队分布在中国、美国、新加坡等实验室,其中30%以上人员有博士学历。
达摩院NLP团队肩负着构建阿里巴巴整个经济体的自然语言处理技术体系的使命,支撑整个阿里巴巴这个大经济体语言智能技术和应用。司罗团队的自然语言处理技术现已经应用于淘宝、天猫等几乎阿里所有的产品线上。
全球化是阿里集团未来20年三大核心战略之一。越来越多的人开始在阿里经济体上进行全球买和全球卖,但“语言”成为了一道门槛。
以阿里巴巴国际站为例,七成买家以英语沟通,还有30%为西班牙语、土耳其语、俄语等小语种。而卖家端的调研数据显示,大约96%的卖家对小语种无能为力。这一现状,也催生了对机器翻译的巨大需求。
“目前团队聚焦的还是阿里经济体和阿里生态所涉及的语言,主要包括英语、西班牙语、土耳其语、法语、俄语等相对有比较多人来讲的语言。”司罗告诉第一财经记者,阿里现在主要采用神经网络机器翻译技术。
神经网络机器翻译技术的核心在于数据,司罗解释称,只有在海量数据的前提下才能获得更好的人工智能模型效果。而数据正是阿里的优势,这也促进了阿里机器翻译技术近年来的突破性发展。
阿里巴巴方面称,现在每日的机器翻译调用总量已经达到7.5亿次。除了应用于电商全链路服务之外,阿里的机器翻译技术还广泛应用于菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译等一系列产品。
目前,国内发力自然语言处理领域的科技公司不在少数,它们大多是基于固有业务进行升级,提高服务质量,无论是阿里、百度、腾讯三巨头,还是华为、科大讯飞、搜狗、今日头条等,无一不是结合自身固有业务优势,以AI为催化剂,加速业务变革与升级。以今日头条为例,主要通过写稿机器人进行创作;通过AI实现数据进化从而进行个性化推荐。而早于国内发展的国外NLP技术已实现产品商业化,并拥有规模庞大的数据库和众多实用的语言处理工具。以微软小冰为例,小冰已拥有超过1亿人类用户,对话数据超过300亿,覆盖范围超过5个国家。
技术创新绝不是为了发论文
除了自然语言处理,达摩院还在构建围绕语音识别的智能语音交互平台。
未来在家庭、工作场景的智能设备会越来越多,这些设备没有键盘和触摸屏,需要比较便捷的方式跟互联网连接,它们本身会成为互联网的入口,这当中语音识别就是一个重要的入口,通过这项技术人类才能与设备交互。
作为达摩院机器智能实验室智能语音交互首席科学家,鄢志杰告诉第一财经记者,相比其他AI技术,语音识别虽然相对成熟,但要突破现有技术门槛,并与应用场景深度融合,难度非常大。很多中国公司也缺乏自主创新的战略耐心,但他从阿里看到了这种决心,于是在2015年加入了达摩院机器智能技术实验室的前身,iDST。
此前,鄢志杰在微软亚洲研究院工作了近8年。“研究院的工作主要偏重学术研究,比如写论文、在公开标准数据集上做一些算法方面的提升。”鄢志杰称,一直想有一个机会让自己的研发成果更早落地成为产品,从而能够被更多人使用,听到来自用户的直接反馈。
在阿里,达摩院并不是一个纯研究部门,它与业务和商业是紧密相关的,即使是前沿技术研发也是为未来的业务与商业研发。这意味着,实验室除了学术以外,还有自己的产品以及商业逻辑。
“我们(实验室)其实有三类人,一类是纯做算法研究的,一类是做算法落地的,还有一类是推动产品化落地的技术人员,这三类人我们力图把他们放到一个组织底下,这样算法的研究成果可以迅速被产品化,被消费者所使用。”鄢志杰告诉记者,这是从“算法—产品—商业”融合的方向,还有一种是从“商业—产品—算法”的方向,即从产品一侧或者从商业一侧直接收到市场的反馈,这些反馈就能直接给到算法团队里面,业务为研发提供丰富的数据与场景,一旦做出来就能够创造巨大产品价值和商业价值。
“阿里的技术研发与创新,绝不是为了发论文,而是要成为业务发展的眼睛,为未来的业务指引方向。”鄢志杰说。
与一般公司在研究部门、产品部门等不同组织之间进行知识交换不同,达摩院的知识交换效率更快。以阿里自主研发的语音识别模型DFSMN为例,鄢志杰称,从算法的验证结束到最后铺开到阿里云上开放给开发者使用,整个过程只用了约1个月的时间。
语音识别中有一个很重要的模型叫声学模型,声学模型可以理解为建模学习人们的发音,它是语音识别准确率的一个核心模型。历史上很多准确率的提升都是因为声学模型的换代,从GMM(高斯混合)模型到DNN(深度神经网络)模型,以及后续的CNN(卷积神经网络)、RNN(循环神经网络)等模型应用。
DFSMN是阿里巴巴达摩院机器智能实验室语音识别团队推出的新一代语音识别模型,对比目前业界使用最为广泛的LSTM(长短期记忆网络)模型,DFSMN语音识别模型训练速度更快、识别准确率更高。阿里巴巴称,采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提高了3倍,语音识别速度提高了2倍。
当前,语音助手是潜在的语音交互控制中枢,巨头纷纷抢滩。亚马逊Alexa通过运行独立的程序,称为“技能”(Skills)来实现不同功能应用,极度类似手机里在操作系统上运行APP。Alexa后端整合内容及服务,前端整合触及用户的各类终端设备,用户数和服务数都在快速生长,具备了语音交互控制中枢的属性。在亚马逊Alexa打开智能语音市场空间后,谷歌Assistant、微软Cortana和苹果Siri都在积极拓展生态系统,三星、Facebook等更多巨头预计也将入局。