社会焦点

思必驰首席科学家俞凯:深度绑定研究和产业问题(3)

字号+ 作者: 来源: 2017-05-25

机器之心:当前基于深度学习的语音算法和传统基于统计模型的方法有很大的区别,特别是在特征设计和提取上呈现明显的简化趋势,而这样的趋势会误导一部分学生和从业人员,使其轻视传统的语音基础研究。请您谈一谈对

  机器之心:当前基于深度学习的语音算法和传统基于统计模型的方法有很大的区别,特别是在特征设计和提取上呈现明显的简化趋势,而这样的趋势会误导一部分学生和从业人员,使其轻视传统的语音基础研究。请您谈一谈对这个问题的看法。

  俞凯:两个角度。第一就是从业者的角度,从我的看法上来看,更多是关注比较实用的技术,所以我认为这是非常自然的。什么有用,就应该向什么方向走。但是它是有瓶颈的,现在深度学习就已经到了一个瓶颈。首先它整体水平很高 90%,甚至更高,但是想把它做到 95%,做到 97%,你想在不太配合的环境下去做,这个时候纯深度学习的东西就会出现一些问题,那么势必就要去考虑,深度学习本身的扩展它很可能就是符号主义和连接主义之间的一个结合。

  第二个角度就是从研究的角度。这个世界上的研究,总会有一些人去坐冷板凳,而坐冷板凳的人,他今天去坐明天不一定去坐。就像深度学习现在这么热,之前也有过很冷的阶段。80 年代神经网络很火,后来 SVM 出来之后神经网络也冷了一段时间。那么那个时候是不是它就没用了呢?其实不是。

  从研究的角度上看,反而应该更鼓励多元化,传统的基于符号处理的一些东西,它有它固定的一些优势,只是现在深度学习的影响力,明显要更大一些而已。两者都还要向前发展,没准再过了一段时间,符号主义又会卷土重来,但我相信跟以前的也不会一样,一定是某种层面的一个否定之否定的结合。

关于个人经历和思必驰

  机器之心:您大学本科选择了清华大学自动化系,为什么选择这个方向?

  俞凯:在高中考大学时,不会想得那么清楚,只会有一个模糊的大方向,主要是选择这个信息大类。而我自己选择自动化系,其中一个很重要的原因,不是专业原因,是在当时招生的过程当中,系里大概聊到,除学习之外,还有好多社会工作、文体活动等。

  机器之心:从博士期间一直到现在,你一直在做语音和语言处理方面的研究,你看到行业有哪些明显的变化?

  俞凯:我在剑桥待了 10 年,前 5 年做的是语音识别,后 5 年做的是对话系统。我在博士毕业的时候,同学都不想找语音的工作,我同级毕业的很多同学去了金融公司。那个时候,相对来说是语音发展的一个低谷。

  我看到一个特别特别大的一个变化,是从 2010 年左右,尤其是 siri 出来之后,整个语音在机器学习和人工智能领域里,应用这个层面的地位,就是变得非常非常的高,而且技术的更新迭代也特别快。

  第二个感觉就是,很多事情可能在你开始做的时候,你没有意识到它是那么前瞻。我在开始做口语对话系统的时候,只是认为语音识别本身是不够的,需要在闭环里面去做优化。2007 年刚开始做的时候,感觉这是未来的方向,心里也不是那么有底。但是到了 2013 年 2014 年之后就非常明显,语音识别本身由于它的快速发展,很快接近饱和,那么越来越明显的问题就是怎样做交互。尤其是到了 2015 年 2016 年到现在交互式的对话,这个方向已经俨然成了整个业界都非常关注的。所以从基础研究的角度上讲,没有办法太功利,而且也不能太功利,但是如果整体方向判断是对的话,那么终将还是会有一些结果。

  机器之心:在剑桥合作项目的导师 Steve Young(剑桥大学皇家工程院院士)教授是自然对话和语音领域的权威人物,也有着传奇的经历,他在您的研究生涯中扮演着怎样的角色?有哪些值得回忆的故事?

  俞凯:Steve 是一个非常有意思的人,他确实有着比较传奇的经历,他是最早开始做语音识别基础技术研究,也是最早来做语音识别的开源软件。那个时候剑桥推出一套开源软件叫 HTK,HTK 曾是全球使用最多的这个语音识别方面的开源软件。他最开始是先做理论的研究,他还是一个很有商业头脑的人,他就把这个事做了产业化。

  当时在 90 年代的时候把他的语音识别技术产业化之后卖给了微软,成为现在微软的最早的语音识别的基础。到了 21 世纪的第一个十年,他又和另外一些 Top 研究者合作去做了语音的合成,在 21 世纪的第一个 10 年来卖给了 Google,是现在 Google 的整个语音合成的基础,位于伦敦。在语音合成之后他又把自己的重心又放在对话上,这就是后来我们曾经一块儿做的一家公司,叫包括 VocalIQ,2015 年被苹果收购了。

  在产业上面,他是比较有传奇色彩的。当时我们在一起工作时,就感觉到这是非常 energetic 的人。他同时在做以上这些事情的同时,还是剑桥大学的常务副校长,还是 IEEE SLTC 的主席。最有趣的事情,是在剑桥我们所有人既做工程又做理论。所以我自己肯定是要编程的,但是他会和我一块编程,会编程查我的代码。想象一下 60 多岁,这么一个人在做着刚才我所说的这些事儿,真的是非常传奇。

  机器之心:在清华大学就读期间,您曾经从北京骑车到西安,骑行 1500 公里做社会调查考察国情民生,甚至在骑行之前写下遗书,为希望工程做网页时 60 多个小时没有睡觉。是怎样的内驱力使得您有这样的经历?有哪些故事可以分享。

  俞凯:在我自己的本科学生时代,我回忆的不是科研,一定是我在年轻的时候,这些比较有意思有价值的事情。比如骑车这件事。1997 年,Google 还没成立,没有网络,我们想在中国骑车,就是要认识自己的国家,要做社会调研。男生都比较喜欢闯,要试试自己的极限。当时条件是比较艰苦的。如果我问你,我能不能过黄河这个事儿,你能回答我吗?你会怎么回答我,你怎么证明黄河上有桥。这个在现在看起来很天真的问题,但是在当时,却很难解决。但我们当时就是要去做一点事,一定要做成,真的非常锻炼自己的能力。所以当时就打电话到当时的交通局去问,河水的涨落,是不是有桥会被淹了的情况。包括在我们出去的时候,要写遗书。你必须要考虑有什么样的危险,那个时候就像推公式一样要去写,会有哪些危险,哪种危险你该怎么应对?身上该带多少钱等等。

  当年的这些事情锻炼了我,让我意识到,当你迫不及待想把一件事做成的时候,不管是做科研还是做其他事情,都必须要有方法,必须要有意志,必须要有理想。方法是支撑你的工具,意志和理想可能是支撑你的精神动力。这些东西都必须要有,这是我在大学期间,自己去做这些活动特别明显的一个感受。

  机器之心:您和创始人高始兴高总,从同学变创业伙伴,你们之间有哪些故事可以分享?

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章