文/机器之心
图1 机器之心AITalk
「AI Talk」 是机器之心最新出品的视频访谈栏目,旨在邀请国内外人工智能顶级专家分享对技术和行业的观点,为大家呈现更为直观、丰富的内容。
这个世界上的研究,总会有一些人去坐冷板凳,而坐冷板凳的人,他今天去坐明天不一定去坐。就像深度学习现在这么热,之前也有过很冷的阶段。
创业的这个过程中能够义无反顾,这是思必驰团队非常有特色的一个点。当然不是傻的义无反顾,如果说大家都没有学习能力,只是撞南墙是肯定不行的。但是如果没有这种义无反顾的决心,遇到困难就放弃,我不认为是一个合格的创业者。
对于创业者来讲,如果说他在很多事情上,不能够拿自己底层的东西去拼的话,这个创业,恐怕一遇到困难就会垮掉。
从研究到创业,这是俞凯在机器之心 AI Talk 节目中发表的感想。在学界,俞凯教授现任上海交大计算机科学与工程系研究员,智能语音技术实验室主任;在产业界,他是思必驰创始人、首席科学家。他还是国家优秀青年科学基金获得者;IEEE高级会员;IEEE语音语言技术委员会委员;入选国家「青年千人计划」;入选上海市「东方学者」特聘教授。
在下面的专访中,俞凯教授从对研究、技术的思考,谈到了个人经历以及创业。
图2 机器之心专访思必驰首席科学家俞凯现场
关于研究方向和技术解读
机器之心:成立于 2007 年,目前思必驰在市场上的定位是什么?
俞凯:思必驰 2007 年成立于英国,回国是在 2008 年。期间经历了几个阶段,之前一个阶段是以口语教育作为主要方向,利用智能语音技术来实现口语的发音评估和口语综合能力的评估;第二个阶段 2012 年我回到国内之后,整体方向向移动互联网和智能硬件转移,以全面的端到端口语对话系统作为最终极、完整的系统解决方案。现在思必驰整个的定位是在做以口语为主体的自然人机交互的智能解决方案的平台。
机器之心:思必驰主要的研究方向是哪些?
俞凯:主要的研究方向包括了自然口语交互所能涉及到的各个方面。典型的包括语音识别、合成、理解和交互控制,我们一般把它叫做对话管理。还包括了语言的表述、一些背景自然语言文本的处理,也包括了一些丰富音频的分析,比如说声纹。总之就是人和人之间所需要进行语音和语言交互的各个阶段的模块,以及整体系统的架构等。思必驰未来的目标就是要让机器能够像人一样,人性化的去做交互。
机器之心:思必驰的研发技术是怎样应用到产品中去的?
俞凯:一般来说,首先会有基础算法的研发阶段。自身的研究积累以及在国际上所能够碰到的最好的技术,我们会结合非常实际的场景,做出评估。技术本身存在的算法壁垒、数据壁垒,或其它一些技巧性的壁垒,这些是需要在基础研究阶段解决的。解决之后,结合公司自身的实际情况,把相应的技术转化成实际产品当中。
此外,思必驰是一个具有基础研发能力的企业。真正有意义的很多科学问题,是从现实世界中的难题提炼的。真正在做人机口语自然交互过程中,碰到的各种各样的难题会倒过来,再把它变成科学问题,继而去做基础性的研究,再反哺到现有的基础上。
举个典型的(纠正)例子。如果把它看成一个产品设计,单纯从纠正号码这个角度讲,谁都可以把它做出来。但如果把它看成是一个技术问题,比如动态规划的推理,比如去做架构层面的一般性的设计。不单单是大家看到的现实产品,还要把背后的所以然搞清楚。这就是从现实问题,再到研究再回去。这是思必驰比较特殊的一个地方。
机器之心:目前自然口语对话领域,最值得关注的方向有哪些?
俞凯:首先从文本性的对话交流来讲,未来一定是要走向文本和口语结合的。纯文本在 PC 互联网时代比较容易获得重视,因为大家天天都是在看。但是在移动互联网时代,无论是现在的手机,还是未来的智能硬件,更多时候大家是在交互。
未来自然语言的信息交互,它是以口语通道为主,辅以其它通道。从这个角度上讲,未来的方向从我来看,有两大部分:一部分是通过以深度学习为主的方式来解决语义本身的表达和分析,当然这也包括知识的表达和分析;另一部分就是解决交互问题。交互是一个新领域,在过去 10 年,才逐步得到大家的重视,交互要做的就是让机器可以像人一样去做决策。
机器之心:深度学习的出现,给自然对话领域带来了哪些改变呢?
俞凯:最大的改变就是可以用大数据自动提取一些上层的抽象的特征,能够使得传统的自然语言处理的任务,在深度学习框架下,性能得到非常大的提升。这个改变意味着在传统的科学范式里所要解决的几类机器学习问题,几乎都可以得到比较好的解决。举个例子,比如说分类问题,比如说回归问题,只要你能把它,我们叫 formulate,就是把这个问题变成这两种格式,那么采用深度学习,再加上辅助有比较大的数据量,几乎都可以很好地解决,相当于提供了非常厉害的通用方法。
机器之心:NLP 领域要继续发展,应该去探索哪些新的方法?
俞凯:深度学习的潮流,从现在来看种类越来越多。它的意思是,大主流可能还叫深度学习,但它里面出现了很多新的小的分支。不再是像以前以神经网络为主要方法,以大数据为主要的燃料,主要方法加上燃料,它就能造出很多很好的结果和火花。
第一个例子就是关于迁移学习和深度学习之间的关系。深度学习是需要大数据的,传统的问题范式下,它能解决得很好。在很多时候无监督的时候,你是没有标签的,或者说你只有很少量的标签。在你已经区分了男人和女人之后,我下面再让你去区分小孩和女人,怎么去区分?这个时候就可能是要解决一个,既有很大量的数据,但又不满足传统问题范式,或者是你又要去到一个新的领域,那个时候迁移学习和深度学习的结合就变得很重要。
第二个例子就是现在的深度学习,已经比较好地解决一些问题,主要还是大数据驱动。但随着我们越来越向认知这个方向去进发的话,知识和数据的联合驱动就变成一个特别明显的方向。像这样一类新的范式,它都会使深度学习本身又产生很多小的分支,不再是单纯的深度学习,而是在我们解决问题的方法上,甚至是在我们发现问题的方法上有非常大的变化。
机器之心:GAN 和强化学习结合来做序列产生是最近研究的一个热点,被视为 GAN 进入 NLP 的一个开端,请您谈一谈 GAN 在解决 NLP 问题上的前景和挑战。
俞凯:实话实说,我到现在为止没看到很成功的 GAN 的例子。
转载请注明出处。