社会焦点

【谷歌I/O李飞飞】计算机视觉下一个突破在“Vision + X”,我要发明AI 杀手级应用(2)

字号+ 作者: 来源: 2017-05-20

Franoise Beaufays:我 12 年前加入谷歌时,我们一帮人有个梦想,就是用语音识别做一些既有用又好玩的东西。语音识别实际上很早就有了,但我们想做一些与众不同的东西,这在当时很困难,因为那时候的语音数据没有今

  Françoise Beaufays:我 12 年前加入谷歌时,我们一帮人有个梦想,就是用语音识别做一些既有用又好玩的东西。语音识别实际上很早就有了,但我们想做一些与众不同的东西,这在当时很困难,因为那时候的语音数据没有今天这么多。于是,我们从很小的产品开始做起,不能识别太复杂的东西。我们不断尝试去拓展,但又不能往前推进太多,毕竟我们需要作出让人想用的成功的产品,然后开始收集数据,构建模型,再不断迭代。

  我不知道你们还记不记得一款叫“Google 411”的产品,当时只是一个很简单的电话应用,你拨打一个号码,系统会告诉你这是哪个州哪个城市,然后你说你对什么东西感兴趣,系统会问你具体对什么公司(business)感兴趣,你告诉系统一个具体的名字,它就会自动将那个州那个城市的那家公司跟你连接起来。

  要知道那是 12 年前,没有 iPhone 也没有安卓手机,只有翻盖机,能做的事情非常有限。但好在谷歌领导层对这一技术针对是非常有远见,很积极地鼓励我们研发,我们才得以继续探索。

  后来,iPhone 和安卓手机的出现让一切都变了样。很显然,视觉反馈成为最主要的,于是我们开始设想其他的应用,最后想到的就是语音搜索。

  所以,谷歌语音搜索是那个时候起,才真正开始有专人全心投入。随着手机上的麦克风位置不断变化,能用声音做的事情也变得越来越多。最近,我们开始研发将手机上的语音识别转移到 Google Home 这样的家居设备上,因为人们对使用语音完成任务的需求越来越多。这可以说是打开了整个语音助理行业的入口。能用语音完成的任务越来越多,你可以用自然语言与机器交互,不再需要很麻烦的键盘输入。

  Diane Greene:谢谢。Fernanda,你之前提到想要普及将数据可视化,这跟数据之间有着密切的关联。如何实现你的目标?你是怎么看数据可视化分析的?

  Fernanda Viegas:我 10 多年前开始从事数据可视化,当时条件要艰苦困难得多,无论是机器的性能,还是可以获得的公开数据,都不能与现在同日而语。但如今,人们似乎处处都通过数据可视化的方法沟通交流,我看见新闻业中使用数据可视化真的很开心,当说起很复杂的与统计学相关的故事时,我们总是开玩笑说,数据可视化就像是统计学“入门毒品”(gateway drug),就好像你正在做统计学但完全没有意识到你在做统计学一样,因为我们人类实在是太擅长在通过视觉识别模式、看出重点等等。

  所以数据可视化的方法渐渐得到推广普及,而且我认为我们在将数据可视化的能力和工具方面也不断提升。例如 AI 在数据可视化的发展当中就起到了飞跃性的作用,像 Hinton 和他的学生在可视化方面取得的巨大成功。

  这让我明白了高维空间系统中的数据对人类而言很难理解,因此,数据可视化是试图去理解在这些系统里发生了什么的一种方法。例如 Hinton 发明的技术能够让我们明白数据是怎么聚集在一起的,不同的概念之间有什么区别,这些系统是如何吸收数据的。这一点我认为是十分重要的进步。

  所以,我觉得我们正处于一个开始,可视化能够帮助我们更好地理解 AI。

  【谷歌I/O李飞飞】计算机视觉下一个突破在“Vision + X”,我要发明AI 杀手级应用

  李飞飞:计算机视觉的下一个突破在“Vision + X”

  Diane Greene:接下来我们的话题会转向技术层面。Françoise 你先说一下在语音识别中最大的技术转变是什么吗?目前最大的技术挑战又是什么?

  Françoise Beaufays:好的。要知道语音识别是很复杂的,每个人都有不同嗓音、不同口音,在不同环境中每个人说话,这导致了语音数据多种多样。我认为很大程度上语音识别一直是基于机器学习的,也不是说哪种机器学习,总之随着机器学习的发展,语音识别也在不断进步。过去 10 年很重要的一点,我认为是使用了神经网络,大约在 8 年前的样子吧,或者更早。

  实际上神经网络很早就出现了,有很多相关的研究,也取得了一些不错的结果,但当时的计算力不足以支撑得到现在这样好的结果,所以神经网络被抛弃了一段时间。与此同时,语音识别继续使用更加基础的方法,比如高斯混合模型。

  当我们真正涉及深度神经网络后,在工程的角度上我们需要全新的视角,应对延时问题,还有训练等等。再后来,当深度神经网络变成现实,我们开始实际使用并真正在产品上应用的时候,打开了一条全新的通道,因为现在我们有强大的计算能力,能够快速的将一个神经网络转移到另一个架构上。于是,我们开始探索递归神经网络(RNN),比如 LSTM,还有CTC 建模,我们有了一系列的序列建模。

  因此,转向神经网络开启了全新的可能,让我们从技术的核心去创新,驱动系统,持续优化,比如提供多种语言,提升识别的精确度。

  Diane Greene:好的,说完了深度神经网络对语音识别的影响,Daphne 你能谈谈神经网络在让我们更健康、延长寿命方面有什么作用吗?这是个相当开放的问题了。

  Daphne Koller:你知道为什么 Calico 需要全世界最好的分子生物学研究人员的。Calico 虽然宣传不多,但我们的目标是理解衰老这个问题,从而帮助人们更加健康长寿。衰老实际上可以说是致死率最高的原因。想起来或许很好笑,但实际上很多疾病都是在 40 岁以后出现的,并且在这之后发病率呈指数级增长。每年死于糖尿病、心血管疾病或癌症有多少人?没有人知道为什么 40 岁以后,每年我们患病的几率就会成倍增长。

  为此,我们真的需要去研究衰老从分子层面到系统层面在生物中是如何展现的,并且弄清楚衰老的真正原因。

  我不认为我们会长生不死,但或许我们可以通过干预措施活得更长更健康。从 UCSF 来到 Calico 的科学家 Cynthia Kenyon 证明了,单个特定基因的突变可以将寿命延长 30% 到 50%。而且,实验中的线虫不仅仅是活得更久了,也更年轻了,这可以从繁殖健康和运动水平上观测出来。

  如果我们能在人类身上实现这一点,那就真的酷极了。但为了能实现这一点,我们必须一大堆我们还不明白的东西。所以,我们需要收集各种生物系统的数据,线虫的也好、苍蝇的、大鼠的、人类的。我们在分子层面上有很多共同点,所以科学家才有幸在过去 20 年开发设备、测量模型,让我们有所了解,或者说至少得到了有关生物系统衰老的数据,比如基因测序、低水平微流体,以及所有健康检测仪、可穿戴设备。

转载请注明出处。


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章