“有的细节,人无法辨认,不等于机器也不行;比如通过脸部的细微特征来判断这个人的性取向。”斯坦福研究员 Michal Kosinski 如是说。他和同僚 Yilun Wang 一起写了个深度学习算法:仅凭一个人的照片,就能判断他或者她,是否是同性恋。
Michal Kosinski
这个算法的准确度并不低:
获知, 只有一张正面照的情况下,有 81% 的准确率成功判断“直男”还是“Gay” ;判断是否为“百合”的准确率则是 74%。在有五张对方照片的情况下,准确率被提升到 91%(男)和 83%(女)。
相比之下,人类仅凭相貌猜测一个人性取向的准确率通常为 61%(男),54%(女)。
一张图告诉你美国的 Gay 和百合“长什么样”
两位研究人员根据该约会网站的数据样本,制作出了美国直男、直女、男同、女同四个人群的合成照片,即典型相貌:
左上为“典型美国直男”,左下为“典型美国直女”,右上为“典型的美国 Gay”,右下则是“典型的美国百合”。至于最右边的两张线条图,上图是直男、Gay 的主要面部轮廓区别(红线表示 Gay,绿线为直男);下图则是直女、百合的主要面部轮廓区别(红线为百合,绿线为直女)。
总结起来,两位研究人员在“同性恋 vs 异性恋面部轮廓区别”这个话题上,总结出的结果可概括为:
Gay 倾向于拥有被划分为“非典型男性”的特征、表情和打扮。简单来说,Gay 看起来更女性化,下颌更窄,鼻子更长,额头面积更大。
女百合则相反,一般下颌会更宽,额头更小。
研究目的
两位研究人员表示,开展该研究不是为了分辨同性恋人群。
在对方不知情的情况下获取其性取向信息,在伦理上肯定站不住脚。而在技术上,即便该算法的准确率很高,在不能消除假正例(比如把某直男错误判断为 Gay)的前提下,也不能用于在现实中辨别某个人群(“辨别”特定人群的动机,本身很值得讨论与批判)。
另外,《经济学人》指出,该研究在数据集上有一个非常大的局限性:
其数据集是来自美国某约会网站的 36630 名男用户的 130741 张照片,以及38593 名女用户的170360 张照片。同性恋和异性恋群体的样本大小基本一致。
众所周知,一个人在约会平台上发布的照片通常经过精挑细选,往往会化妆打扮以及对照片进行 PS。这些照片和一个人真实的生活状态应该是有区别的。因而,若把该算法应用于普通生活照片,其准确性极有可能会大幅降低。
其实,研究员 Michal Kosinski 表示, 这项研究的真正目的是警告大家和政府——每个人的隐私究竟面临着多大的威胁。