李佳发表过的其它一些重要论文,涉及高层特征分析、场景理解等多个方向。尤其是在 2010 年,带有李佳的姓名的论文出现在了 NIPS、ECCV、CVPR 等顶级学术会议上,其中一些研究结果达到了当时的最佳水平,甚至有的已经成为了后来进一步研究的常用方法。
比如在 NIPS 2010 上,李佳等人(其他作者包括李飞飞、邢波)在论文 Object Bank: A High-Level Image Representation for Scene Classification and Semantic Feature Sparsification 中提出的 Object Bank 描述方法。这种方法的主要思想是在更高的层面上提取出一张图片中尽可能多的物体的信息,将其组合起来,使其有助于场景的分类(尽管低水平特征在场景分类以及物体识别中有着比较好的应用,但其包含的语义信息却更少)。用 Object 作为特征,计算图像对不同特征的响应,并根据其响应情况进行分类。该方法不仅能够用于图像分类,还能说明图像中存在哪些种类的 Object。
而在复杂场景理解方面,李佳等研究者的另一项 NIPS 2010 研究 Large Margin Learning of Upstream Scene Understanding Models 试图带来一些进步。在这篇论文中,研究者提出了一种最大边界(max-margin)和最大似然学习(max-likelihood learning)的联合方法来解决复杂场景的理解问题,其中隐主题发现和预测模型估计是紧密耦合的,并且得到了很好的平衡。通过使用一个变分 EM 流程,这个优化问题得到了有效的解决,其能迭代式地解决在线损失增强的 SVM。
另外在场景分类方面。李佳等研究者在 ECCV 2010 的论文Objects as Attributes for Scene Classification 中提出了将物体用作场景属性以进行场景分类的方法。这些表征带有高层面语义信息,使其更加适合高层面的视觉识别任务。该研究表明我们可以使用支持向量机等已有的分类器来在物体层面上进行场景分类等高层面的视觉任务。在当时的标准下,该方法的表现超越了之前的其它方法。
场景中的内容也是李佳的研究目标之一。在 CVPR 2010 上,李佳第一作者的论文 Building and Using a Semantivisual Image Hierarchy 提出了一种通过整合图像和标签信息来自动发现「语义视觉(semantivisual)」图像层次的新方法。该方法可结合图像的语义和视觉信息来有效创建图像层次,且相对于其它的分层方法,本论文所提出的语义视觉层次更有意义、更精确。
结语
在刚刚结束不久的谷歌 I/O 开发者大会上,Google Lens 引发不少关注。除了拍照识物,还能随便扫描一家餐馆,然后自动在 Google 的数据库里找到对应资料显示出来,包括点名、菜式、评分、打烊时间等。Google Photos 也变得更加聪明。利用机器学习技术,它能提醒用户自动与照片中的人共享照片 ,据说未来还将整合 Google Lens 的图像识别能力,提供一系列新特性,比如识别照片中的电话号码。
这些技术的发展和应用会继续改善我们的生活,李佳为计算机视觉领域所做出的基础性贡献也仍然将继续推动这一领域的发展,其女性身份也在激励着新一代女性进入计算机科学等前沿研究领域和更广泛地参与到科技领域的发展进步中。
谷歌云业务负责人 Diane Greene 曾说,最令人欣喜的一点是李飞飞和李佳均为女性。在人工智能领域,各大高校和技术公司的重要研究岗位上一直缺乏女性。她们两人代表着人工智能热门领域的、世界领先的研究科学家、实践者和领导者。
在机器之心即将于 5 月 27-28 日举办的全球机器智能峰会 GMIS 2017 上,李佳将在大会第二天 17:30-17:50 发表主题演讲。离 GMIS 2017 大会开幕还有 3 天,你准备好了吗?
↓↓↓
相关阅读:
相关推荐:
转载请注明出处。