自然语言是一个序列,那么之前 GAN 它是放在图像的生成上,放在自然语言序列上面的话,就需要满足序列生成的一些特定条件。因为自然语言处理是一个离散的东西,它不像 image,它是个连续的值。比如说一个 density,那么它的灰度 156 和灰度 155,这两个肯定是接近的。但如果放在自然语言处理里,虽然可以把它向量化,但很难讲那个向量里面,156 这个值和 155 这个值在语义上或者是在其他的语言学的度量上,它是接近的,很难很难去规定。所以从现在看到的实践结果,GAN 有一些结果,但都不是在主流任务上面,所以对 GAN 是不是能很好的应用,我本人还是打了问号。
未来 GAN 要产生影响,至少从我的观点,自然语言处理中,如果要有巨大的飞跃,那么先验知识的放入是不可避免的。而如何比较巧妙的用少量的先验知识结合无监督的大数据,或者是在这个先验知识本身的结构形态上面,有很好的深入的通过机器学习的方式做解构,这个可能是未来能够产生突破的一个很重要的方向。
机器之心:完全数据驱动的端到端训练方法是目前流行的解决方案,但完全脱离先验知识或者其他相关资源似乎并不可取,您如何看这个问题?
俞凯:首先我不认为端到端是个趋势。就算有很多人都同意,我自己的学术观点就不是这样。很简单的道理,你看一看现在真正业界用的系统,有谁敢说是完全端到端的。端到端最大的问题,最大的好处是,你不需要去设计中间每一个模块的架构,它可以使得你用统一的架构去解决一个问题。
这就使得在简单的大数据驱动框架下,它能够做得很好。但假如你所面临的这个任务本身它是需要可解释的,它甚至是需要可调整的,那么端到端它只给了你一个黑箱子,可能很难去调它,而自然语言处理恰恰是这样一类问题。
不论你能把翻译做得多好,我现在给了你另外一些新的数据,比如说是个新的领域,我请你来帮我改变一下,那你怎么做。即使是用端到端的做法,那也是要结合一定的知识架构,去做迁移性的端到端。所以我不认为简单的端到端,是一个目标。重要的事情,核心的点还是在于与应用的结合。在具体到真正的应用领域当中,它会有自身的一些特性,而那些特性反过来又会促进新类型的机器学习方法的产生。即使叫端到端,也是有语音语言背景的,这样一些特殊的端到端,它要做到可解释,它要做到可调整。这样的东西才是真正有发展潜力的。
机器之心:那怎样利用好常识、已有知识来解决现在的实际问题?类似「最强大脑」语音识别比赛中的监督学习。
俞凯:在过去的四五年,我大概探索这么几类。一类就是把先验知识以某种方式变成向量化的表达,然后输到你的网络里,这一类思路主要研究先验知识怎么表达。Word2vec 这是最典型的一个。但如果我问你,假如你想要表达一下你的语义,你怎么表达呢?这一类思路是研究一些复杂现象的表达,然后把它输到传统模型,放到它的输入或是输出。
第二类,就是从模型结构层面,把一些先验知识放进去。在我们做语言模型训练的时候,我是给定了前面的文字,然后去预测下一个文字。这是基本的一个概念,我们给定的文字是什么呢?比如前面给定了 5 个词,你去预测第 6 个词,但在这个时候你就会发现,中文还有一个单元是字,字和词之间其实是有组合关系的,有一些时候单字是没有意义,组合成词才有意义。但更多的时候是单字本身,它对于词的意义甚至对词的预测是有帮助的,那么你如何把单字和词放在一起呢。
我们当时做一个工作,在一个基于词的神经网络回归模型里,我们加了一个词分解成字的结构。在预测输出的时候又把字再自动合成词,相当于内嵌了对字结构的描述,这种情况使得在一些低频词上面的预测概率变得非常的好,这就是在模型结构上去做预测。
第三类,就是传统的机器学习问题。我们当时做了另外一类思路,就是说可不可以把一些先验的知识,通过约束条件的办法放进去,我既不改模型,我也不改输入输出,但是我加一些比较特殊的约束条件。在我们做这个对话状态跟踪的时候,就曾经做过这样的一些例子,取得了比较好的效果。
机器之心:在交互的场景下,该如何针对人们不同的这种知识背景进行学习并反馈正确的内容?
俞凯:现在基本上是采用迁移学习的一些思路来做。比如所谓在多任务的情况下,做语义任务的分解。然后共享中间比较共同的网络结构,在比较特殊的结构上,再去进行一些小规模参数的协调,大概是这样一些方法。
我觉得在交互的时候,不同人的说话的方式不太一样。有一个前提是,要想做这件事,总需要有这个人的少量数据才能做。我认为在方法上,还有很多其他类语音的自适应方法也可以放到自然语言处理中是没有问题的。但瓶颈不在这,瓶颈在于根本拿不到这种交互数据,这是目前产业界和研究界都比较困惑的事。
机器之心:目前科技巨头都在致力于发展语音交互的机器人如 Alexa、 Siri、 Cortana 等,未来是否可能会有公司或是会议牵头制定语音行业的标准?
俞凯:我相信人工智能的标准一定会在很多地方都会被制定,这个我相信。但具体是说,行业联盟的形式还是什么这个我们还需要看。包括思必驰自己,因为我们在做的东西,是端到端的交互,而且我刚才也提到,从我来推动的一个方向,把它推到所以然方面,会比较有架构的方式,系统性的方式来观察它。所以我们自己也在做一些这种标准化的工作,这对未来和这个行业的一些同行,我们一块来做这个标准我相信都是有帮助的。
机器之心:在语音训练数据的选择上,思必驰会进行数据的筛选和预处理么?是如何进行预处理的?
俞凯:一定会做的。现在就是这种预处理,绝大部分肯定都是自动来做的。这种就涉及到一个具体的技术,就是基于这种置信度这样的技术。我们会采用一些快速的,半人工的手段来做的。
转载请注明出处。