机器之心原创
作者:微胖、吴攀
李佳,谷歌云机器学习/人工智能研发负责人(Head of R&D, AI/ML, Senior Director at Cloud,Google)。本科毕业于中国科大自动化系。新加坡南洋理工大学硕士。在伊利诺伊大学香槟分校、普林斯顿大学与斯坦福大学跟随李飞飞从事计算机视觉研究。2011 年获斯坦福大学计算机科学博士。曾在谷歌实习,2011 年加入雅虎,2014 年成为雅虎资深研究员,开始领导雅虎实验室的视觉计算和机器学习部门。2015 年 2 月,Snapchat 聘请李佳担任公司研发主管。2016 年加入谷歌。
在结束乌镇的活动之后,李佳将亮相机器之心 GMIS 2017,分享精彩的主题演讲。
在乌镇,中国媒体首次见到被李飞飞描述为「斯坦福大学、计算机科学和人工智能领域里另一位女性狠角儿(Another badass woman in Stan, CS and AI)」的李佳。她参与了一场名为「AI 的未来」活动。「看到自己的技术成果能影响到各行各业,让我感觉非常兴奋。」李佳对机器之心说。之所以加入谷歌云,是因为看到很多优秀的人工智能人才聚集在几家高科技公司或者独角兽公司中,其他传统公司没有这个机会,谷歌云能够把机器学习和人工智能带给更多的公司。
去年 11 月,在谷歌 CEO Sundar Pichai 宣布谷歌战略转型后不久,作为谷歌云业务改组的一部分,公司宣布李飞飞和李佳加入谷歌,负责云业务机器学习/人工智能研发工作。公司表示,李飞飞和李佳是谷歌正式将人工智能集团业务正式化的一部分。该团队不会只专注于人工智能研究,而是致力于将尖端技术融入各种 Google Cloud 产品。
当时,人们对李佳的印象来自谷歌云业务负责人 Diane Greene 一句分量不轻的评价上——「世界领先的研究科学家,从业人员和领导者」,但相比李飞飞,她并不太善于在公开场合侃侃而谈。不过,对于人工智能技术应用的使命感,她们想法相似——云平台的数据资源和计算资源都是最大的,希望能把人工智能带到千家万户。
一
和李飞飞加入谷歌不同,李佳的选择并不让人感到意外。2011 年获得斯坦福大学计算机科学博士学位后,李佳一直在公司从事研究工作。人工智能领域产生的科技与人类生活的方方面面都有关。因此,人工智能业界人士应该让这个技术关系到每个人的生活,这十分重要。
2011 年,李佳加入雅虎担任研究员。雅虎拥有当时全球最有趣、最大资料库之一——相片社群网站 Flickr,网站图片数量足够拿来训练人工智能。作为 ImageNet 主要参与者之一,李佳深知数据对于深度学习技术的重要性。
2012 年,AlexNet 在 ImageNet 中获胜,惊艳世人。雅虎也在尝试不是靠图片描述或是用户输入的关键词来搜索图片,而是教会计算机如何识别照片的某种特征。李佳的工作开始有了显著进展。2013 年,李佳研发了一个算法,可以让用户从大规模 Flickr 图片集中发现具有视觉审美性的天气图片。2014 年,李佳担任雅虎实验室的计算机视觉和机器学习部门负责人。这一年,因为对台湾电子商业产品推荐和产品图像搜索所做出的贡献,李佳荣获 2014 年 Superstar Inpidual Award,这也是公司设立的最高奖项。每年,公司会从 1 万多名员工选出 11 名获奖者。
这一年,正好是深度学习丰收的一年。VGG、GoogLeNet 接连出现,深度学习模型在图像内容分类方面和视频分类方面有了极大的应用。深度学习不再是海市蜃楼,越来越接地气。许多曾对深度学习和神经网络都保持怀疑态度的人开始涌入深度学习。2015 年,在 1000 类的图像识别中,ResNet 超过人类水平。很多拥有丰富数据的公司开始组建自己的人工智能团队。
Snapchat 就是其中之一。这家以不断创新著称的公司打算建设一支研发团队(亦即后来的 Snap Research),通过复杂的算法对图片和视频等用户数据进行深入分析,做出更多更好玩的应用产品。李佳成为这家公司启动研发的关键人物。2015 年 2 月,李佳担任公司研发主管并领导该团队。
Snapchat 的创新
2015 年,Snap 分别上线了「滤镜」、「赞助滤镜」(sponsored lenses)等一系列新功能都离不开 Snap 在人脸识别、3D 建模等方面获取的技术。
2015年,Snapchat 为 Live Stories 增加 Story Explorer 功能,用户观看某个视频时,可以通过不断滑动视频,借助其他用户的拍摄,从多个角度来观看同一事件或场景,比如,一场秀的其他情况或者一辆车的,而不仅仅局限在自己的拍摄角度里。功能的实现需要很多昂贵的计算机分析视频,进而选择要在 Story Explorer 里展示的内容。这些算法会考虑视频中的物体、递交时间和定位等数据。
期间,李佳团队的 ACM 论文 Multi-view face detection using deep convolutional neural networks提出了一个新的多角度面部检测方法 Deep Dense Face Detector(DDFD),这个方法不需要标注,单个基于 CNN 的模型就可以实现多角度检测面部,比当前最新的方法方便很多。
2016 年 4 月份,Snap 又推出了一种新功能 3D stickers,用户可以将 emoji 贴到视频中任何一个目标物体上,emoji 还可以一直跟踪移动的目标物体,技术也出自李佳团队。
担任 Snapchat 研究负责人期间,李佳还担任了 2016 CVPR 产业关系(Industrial Relationship)主席,以及 Springer 的International Journal of Computer Graphics的计算机副主编。
二
技术融入产品固然重要,但是研究成果也需要肥沃的土壤。
1998 年,贝尔实验室,LeCun 首次将 CNN 用于实践,打造出一个可以识别手写数字的系统 LeNet5。不过,后来一段时期,模型没能火起来。20 世纪 90 年代末,神经网络和反向传播被机器学习社区大量遗弃,同时也被计算机视觉和语音识别领域忽略。人们普遍认为,学习有用的、多层级的、几乎不靠先验知识的特征提取器并不现实可行。此时,李佳正从重庆一所中学进入中科大自动化系学习。
2006 年,Hinton 在深层神经网络训练上取得了突破,向学界了展示了深度学习的可靠性。他发表在Science上的 Reducing the Dimensionality of Data with Neural Networks 成为深度学习史上一个里程碑。此时,李佳已经在美国跟随李飞飞从事计算机视觉学习和研究。
这些研究人员引入无监督学习程序——无需标记数据便可创建特征检测器层。各层特征检测器的学习目标便是在下一层重构或模拟特征检测器(或原始输入)的活动。利用这种重构学习目标来「预训练(pre-training)」几层复杂度递增的特征检测器,深层网络的权重可以被初始化为合理值。接着,最终层的输出单元可被添加到网络顶端,整个深度系统可被微调至使用标准的反向传播。在识别手写数字或检测行人时,特别是当标记的数据量非常有限的时候,这一程序非常有效。
深度学习正值爆发前夜,剩下要做的就是让世人看到深度学习的实际效果。但是,又遇到数据集这个老问题。
早在 1986 年,Rumelhart、Hinton 等人就在Nature上发表 Learning Internal Representations by Error Propagation,将反向传播算法用于训练神经网络,使得神经网络的训练变得简单可行。但是,由于训练数据集规模太小,加上计算资源有限,训练一个较小的网络也需要很长的时间。与其它模型相比,在识别准确率上也没有明显优势,更多的学者更青睐浅层机器学习模型,比如支持向量机、Boosting。
幸运的是,与二十年前不同。2000 年以来,互联网开始大量产生各种各样的图片数据。大规模数据集也相伴而生,这为通过机器学习的方法来做计算机视觉提供了土壤。2007 年,在普林斯顿大学,李飞飞等研究人员开始着手一项庞大的任务。他们通过众包的方式,标注了 1400 万张图片,分了大概 2 万多个类别,这些类别包罗万物,比如像动物,里边可能分为鸟类、鱼类等;植物,里面可能会分为树和花。他们希望提供一个数据集,为计算机视觉算法提供一个数据土壤,让未来的机器能够认识世界上一切物品。
李佳是这个项目的主要参与者。2009 年,在斯坦福大学读博士期间,李佳以第四作者发表了论文ImageNet: A large-scale hierarchical image database,被 CVPR 2009 接收。论文开创了迄今为止被应用最广泛的图像数据集 ImageNet,它也是全球最大的图像识别数据库。这篇论文也是李佳本人(到目前为止)影响力最大、引用率最高的论文。
2012 年,ImageNet 遇见深度学习,结果几乎重新定义了计算机视觉研究。这一年,Hinton 和学生 Alex Krizhevsky 参加了 ImageNet。在此之前,卷积神经网络在很大程度上并未获得主流计算机视觉和机器学习团体青睐。Alex Krizhevsky 用 GPU 做出一个 Deep Learning 模型,摘取 ILSVRC 2012 桂冠,在 ImageNet 上,效果大幅度超过传统方法,从传统的 70% 多提升到 80% 多。这个 Deep Learning 模型就是 AlexNet。AlexNet 的突破,除了得益于 GPU 和算法改进,大量数据也功不可没,Deep Learning 领域应该感谢 ImageNet。在 AlexNet 获得冠军后,第二年 ImageNet ILSVRC 2013 大赛上,排名前 20 的小组使用的都是深度学习技术。如今,卷积神经网络几乎覆盖所有识别和检测任务。
李佳的领英中写着这样一句话「人工智能民主化(Democratize AI)」,或许为她在数据集建设方面的工作做了最好的总结。正如李飞飞所说,数据是民主化的另一部分,像人类一样,人工智能需要大量数据为自我发展提供洞见。因此,数据集是人工智能需要克服的最大障碍中的一个。
三
当被问及如何评价 Visual Genome 时,李佳说「这是升级版的 ImageNet。」数据集的搭建,往往包含着参与者对所处领域现状和未来的思考。
2010 年到 2017 年,计算机视觉研究的主要进步发生在感知领域,比如物体识别、图像标注、物体检测等,我们也有了应用产品,比如谷歌照片、行人检测系统等。接下来,更重要的课题是认知方面。如果说 ImageNet 是参与者对 2016 年之前深度学习研究状态的思考和判断,那么,接下来计算机视觉的研究方向是什么?
李飞飞认为,语言中的很大一部分都是有关描述视觉世界的。视觉在交流和语言等方面占据着很重要的地位,我们讲故事、辨别事物、区分视频类别都是在进行图像识别。因此,将计算机视觉和语言结合在一起会非常有趣。「一个人坐在办公室里,但布局是怎样的,那个人是谁,他在干什么,周围有什么物体,在发生着什么事?」
在分析更复杂场景的任务中,深度学习很有可能将扮演关键角色。但是,技术会对数据提出更多的要求。因为理解一个视觉场景(visual scene)不只是要理解单独的一个个物体。物体之间的关系也能提供丰富的有关这个场景的语义信息(semantic information)。
尽管感知任务方面进展显著,比如图像分类,但是,计算机仍无法很好完成认知任务,比如图像描述以及问答。认知不仅仅是识别任务的核心,对视觉内容进行推理也离不开认知。但是,在认知任务中,被用来理解图像丰富内容的模型的训练数据集,仍然是那些被设用来解决认知任务的数据集。然而,要在漂亮完成认知任务,模型就要搞理解图像中物体之间的关系。比如,当被问道「这个人骑的什么交通工具?」,计算机需要识别出图像中物体,以及骑(人,车)与牵引(马,车)的关系,这样才能做出正确的回答:人坐马车。
谷歌、Facebook 和其它公司正在推进人工智能算法解析视觉场景的能力。2014 年,谷歌发布的研究展示了一种能够在多种精度上为图像提供基本说明的算法。Facebook 也展示过一个能够回答有关图像的基本问题的问答系统。有趣的是,2017 年 IJCAI 计算机和思想奖获得者 Devi Parikh 也是从事 VQA 研究。
「我们也正在搭建(从理解)到语言的桥梁,因为交流的方式并不是将数字分配到像素上——你需要将感知和认知与语言连接起来。」2016 初,李佳参与了 Visual Genome 项目(Visual genome: Connecting language and vision using crowdsourced dense image annotations),旨在帮助研究人员为这种关系建模。研究人员收集了物体、特征、以及关系的密集标注,用来学习这些模型。较之于 ImageNet(也由 Stanford 大学维护),Visual Genome 图像标签更为丰富,包括名字、图片的不同细节,以及在对象和动作信息之间的关系,语义信息更丰富,可用以拓展更加丰富的基于图像及语义信息的人工智能应用。
目前,这个数据集包括 108249 张图片、420 万区域内容描述(Region Deions)、170 万图像内容问答(Visual Question Answers)、210 万对象案例(Object Instances)、180 万属性(Attributes)、180 万关系(Relationships)。我们规范转化了从物体、属性、关系、区域描述里的名词短语和问答对到 WordNet 同义词集的关系。这些注释代表了图像描述、物体、属性、关系和问答里最密集、规模最大的数据集。
这是第一个能够提供结构化地对图片进行形式化表示的数据集,在这种形式下能够大量用于 NLP 的基于知识的展示中。「这个数据集为两种模式结合与新模型测试提供了一个新的可扩展的方法。」
可以想见,它们还能训练计算机了解物理可能的概念或不可能发生的概念,从而让计算机拥有更多常识。Richard Sochar 说,这可能就是这一项目中最重要的一面。
转载请注明出处。