去年11月,一篇“看脸识罪犯”的论文令学术界和舆论界炸开了锅。
这篇上传在预印本网站arXiv上的论文题为《基于面部图像的自动犯罪概率推断》(Automated Inference on Criminality using Face Images)。在实验中,上海交通大学教授武筱林及其博士生张熙选取了1856张中国成年男子的面部照片,其中730张是已经定罪的罪犯身份证照片(330张来自网上的通缉令,400张由一家签署过保密协议的派出所提供),其余1126张是在网络上抓取的普通人照片。经过机器学习,算法鉴别出犯罪嫌疑人的准确率达到89%。
此后,武筱林收到了雪片般飞来的邮件,有些就学术问题进行了交流,有些则直接敦促他“撤稿”。而在半年之后,三名美国作者撰写万字长文,向武筱林隔空喊话,指责其研究在搞“科学种族主义”。
上述三名作者中,Blaise Agüera y Arcas是机器学习领域的著名工程师,2013年从微软跳槽到谷歌;Margaret Mitchell同样是谷歌的人工智能研究员;Alexander Todorov则是普林斯顿大学的神经科学教授。
这篇洋洋洒洒的万字长文,从提出“天生犯罪人”理论的意大利外科医生龙勃罗梭,写到对犹太人进行面相研究的纳粹教材,暗指武筱林的研究是这些“前辈”的继任者。
在文章中,三名美国作者在技术层面提出了一些质疑,譬如实验样本数据集过小,容易造成过拟合;罪犯组照片的着装更为随意,而非罪犯组的照片很多都穿着衬衫;此外,非罪犯组照片更多地在微笑。但文章最核心的担忧是,由于人类司法系统中存在一些歧视(譬如美国司法对白人和黑人存在量刑歧视),用这些带有歧视的人类数据训练机器,机器得到的结果也会是歧视性的。而若将这些内嵌歧视的算法用作司法工具,那么就会形成一个歧视性的反馈循环,让歧视在社会中更为巩固。
“基于面部特征的深度学习绝不该应用为‘加速’司法公正的工具,如果真的这么做的话,反而会让不公正长存于世。”文章这样结尾道。
5月14日,武筱林撰文向澎湃新闻(www.thepaper.com)进行了独家回应。他指责这种隔空点名的方式并非“我们所熟悉的学术交流”,而是政治斗争上扣帽子的手法。武筱林提到,他们在论文中明确声明“没有兴趣也不够格去解读实验结果”,却“被”解读了。三位美国作者无视声明,将论文原话断章取义,凑成主观臆断强加于他们,扣上了一顶大帽子。
在文章中,武筱林还回应了许多网友提出的“把教授自己的脸放进去试试”的问题,澄清了一种常见的“基础概率谬误”,再次强调他们的研究无意也无法用于实践。
此外,武筱林也对外界的几点技术质疑作出回应。他总结道,“我们感谢所有针对论文的问题和讨论,但坚决反对歪曲我们的初衷”,“这既不专业,也很傲慢。”
“仅仅在文章中用到(面相学)这个词,就足够贴一个科学种族主义的标签了吗?”这是武筱林的疑问。
人工智能伦理讨论无需扣帽子和歪曲事实
(原文为英文,由澎湃新闻记者翻译)
2016年11月,我和我的博士生张熙在arXiv上贴出了一篇题为 “Automated Inference on Criminality using Face Images”的论文。该论文在各国学术界,尤其是互联网上引起了广泛的关注和争议。近日,Arcas等三人在Medium网站上发表了《相面术的新外衣》(Physiognomy’s New Clothes)一文。我们赞同三位作者的观点,即AI研究要有益于社会,但我们也发现,他们对于我们的工作,尤其是我们的研究动机和目标存在诸多误读。
扣帽子(name calling)
该文章(即《相面术的新外衣》,下同)的作者暗示我们有恶意的种族主义动机。他们认为这种暗示很明显,导致我们立马在网络上,尤其是中国网民那里成了千夫所指。我们论文里从未宣称要把我们的研究方法用作司法工具,我们对相关性的讨论也从未延伸到因果关系。任何以客观心态读过我们论文的人,都会明白我们只是想知道,机器学习是否有潜力像人类一样,对人脸形成社会性的看法。要知道,这种同时基于观察者和被观察者的看法是很复杂、很敏锐的。
我们的研究是在挑战机器学习的上限,并将人脸自动识别从生物学维度(比如种族、性别、年龄、表情等)拓展到社会心理学维度。我们只是好奇,能否教会机器复制人类对陌生人的第一印象(个性、风格、器宇等),通过图灵测试。正如我们在论文中所述,直觉上,我们认为对于面部的犯罪性印象是个比较容易测试的选择,事后证明,这是个不幸的选择。
“为了验证我们的假设,即一个人面部的物理特征与其内在特质、社会行为间存在相关性,运用现代自动分类器去区别罪犯和非罪犯,测试其准确率是非常有说服力的。如果面部特征和社会属性真的相关,这两类人群应该是最容易区分的。这是因为,犯罪需要人格中存在很多不正常(离群值)。如果分类器的区别率很低,那么我们就能有把握地否定对面部进行社会性推定的做法。
令人震惊的是,来自谷歌的作者们将上述段落断章取义,凑成了下述臆断强加于我们。
“那些上唇更弯曲,两眼间距更窄的人在社会秩序上更低级,倾向于(用武和张的原话说)‘人格中存在很多不正常(离群值)’,最终导致在法律上更可能被判定犯罪。”
我们认同“犯罪性”(criminality)这个词有点尖锐,我们应该打上引号的。在使用这个词的字面意思,把它作为机器学习的参考标准(“ground truth”)的同时,我们没有警告读者,输入的数据存在噪点。这是我们的严重疏忽。然而,在论文中我们始终保持了一种严肃的中立性;在引言部分,我们声明道:
“在本文中,我们无意也不够格去讨论社会偏见问题。我们只是好奇,全自动的犯罪性推定能有多高的准确率。一开始,我们的直觉是机器学习和计算机视觉会推翻面相学,但结果是相反的。”
我们清楚地声明了无意也不够格去解读,但却被来自谷歌的作者们过度解读了。这不是我们习惯的学术交流方式。此外,我们还后悔不该选择使用“physiognomy”这个词。它最接近的中文翻译是“面相学”。我们对这个词在英语国家里固有的负面涵义不够敏感。但是,仅仅在文章中用到这个词就足够贴一个科学种族主义的标签了吗?
“基础概率谬误”(base rate fallacy)
来自谷歌的作者们是“为广大的受众,不只是为研究者”写这篇文章的,但他们随意地忽视了一些非技术流的博客和媒体报道里出现的“基础概率谬误”迹象。
转载请注明出处。