AI 决策更具理性 , 但是否更正确呢 ?

还记得在准备大学入学面试时,老师总会警告:「记得千万不要搞怪!」不要搞怪的意思很简单,将五颜六色的头发染回黑色,或将时下流行的潮T改回西装,总之去回想想阿嬷的乖孙该长怎样,面试那天打扮成那样就对了!如果今天面试官从人类换成无法被窥见喜怒哀乐的 AI ,那又该如何成功达阵呢?

想要解释AI ,先从容貌开始

比起观察情人间的爱恨纠葛,或者宗教里时而令人摸不着头绪的教义,似乎AI的决策更可能让人了解其中道理。演讲中,黄从仁教授希望回归心理学中最基本的观察法和实验法,思考到底AI的决策标准在哪里?万事起头难,要回答这个问题,黄教授希望先从「容貌」开始。

于2016年举办的Beauty.AI,是第一个由AI担任评审的国际选美比赛,规则很简单,只要将网站( http://beauty.ai/ )提供的App下载入手机并自拍上传,AI评审就会针对容貌进行评分,被认证的帅哥美女将有被世界看见的机会。「你是忘记参加,还是怕比赛会输?」每次被问到是否参加比赛,身边的朋友总会如此调侃。因此,黄教授毅然决然地将自己的照片上传。只是,他那张带有黑框眼镜、嘴唇紧闭的标准「理工男」脸孔似乎不是AI的菜。不过,我们能够了解AI青睐怎样的脸孔,依照哪些特征来做颜值的判断吗?

心理学也来参一脚:观察法和实验法

为了要示范如何透过心理学的研究法来了解”类人”的AI之决策标准与倾向,

黄教授使用了具有500位亚洲女性脸孔的SCUT-FBP颜值资料库来训练一「卷积神经网路」(Convolutional Neural Network),使这个类神经网路能学习在看到一张输入照片(x)后能够输出一个近似人类评审所给的颜值分数(y)。经过一段时间的网路训练后,AI和人类评分的一致性可以来到皮尔森相关系数(Pearson correlation coefficient)为r = 0.82 ± 0.03的水准。换句话说,这个AI评审和人类评审虽有很高的一致性,但两者的评价并非总是相同(即r = 1.0)。

有了图片素材(x)和人为评审分数(y),黄教授想要用观察法回答进一步回答:人/机器为何会偏好一个人?心理研究法中的观察法指的是在环境刺激不可受研究者控制时,研究者观察人类行为如何根据刺激(x)做出反应(y),并对所记录的结果进行分析,进而推演出人类心理活动中的规律。简单来说,就是将AI视为一个正在牙牙学语的儿童,丢给他毛笔、滑鼠、锅铲等物品,观察儿童的选择并推论其喜好。这种方法的缺点在于只能根据结论得到相关性的解释,而非因果推论。

具体来说,黄教授将一大批的图片输入给训练好的AI评审来得到对应的颜值分数(y),并将这些图片按照其颜值分数从小到大来做排序。接着,他将高分组和低分组的整体特征进行平均,得到高分组和低分组的代表性脸孔。仔细检查高分组和低分组脸孔差异,黄教授发现:比起低分组,高分组具有脸较细长、眼睛较大、鼻梁较长、嘴角上扬等特征。此外,若再将资料库中的最高分和最低分的脸孔图拉出比较,可观察到AI在给出低分时是将注意力集中于大鼻孔和黑眼袋等部位,而在给出最高分时(照片正好是中国艺人章子怡)则是将注意力集中于脸部中较白皙的部分。因此,根据观察便得到了AI偏好皮肤较白皙脸孔的假说。

依据过去人际吸引的文献与观察法的结果,黄教授进一步利用实验法来测试两个假说:一是脸愈对称愈讨喜,二是脸愈白分数愈高。心理研究法中的实验法指的是在实验刺激可受研究者控制时,研究者观察人类行为如何根据刺激(x)做出反应(y),并藉由实验的结果推论因果关系。相较于先前的观察法是将脸孔图片按照颜值分数(y)来做排序以探索高低分的脸孔特征差异,这里的实验法是将脸孔图片按照对称性或白的程度等脸孔特征(x)来做排序以验证特定的脸孔特征是否真会影响颜值分数。

上述的两个假说总共透过三个实验来验证。第一个关于脸对称性的实验目的是要确认这样对AI评审的”模拟实验法”是否能复制过去对人类评审的真实实验结果。黄教授发现,一张脸的对称性与由AI评审而来的颜值分数有r = 0.35 的正相关,这和过去透过真实实验所发现的r = 0.33 有很高的一致性。然而,整体来说这个AI评审比人类评审给分更为苛刻,例如同样是评断中国女星范冰冰,人类评审的平均评分将近4.5分(满分为5分),但AI评审则是吝啬地给出将近3.5的分数。至于「一白遮三丑」的假说则需要两个实验来验证,因为有一种白是与打光差异有关的亮白(即HSV色彩空间中的高明度V),而另一种白则是与脸色红润差异有关的惨白(即HSV色彩空间中的低饱和度S)。最后,两个实验的结果发现:明度(value)愈大的脸得分愈高( r = 0.38)但饱和度(saturation)则不会影响颜值分数。

在摸清楚AI的底细后,黄教授秉持着「世界上没有丑男人,只有懒男人」的信念,将自己的图片修改后再次让AI评审来评分。若只将脸调整成对称,分数只得到微幅进步,从2.34分来到2.47分。然而,若将脸部抹白修饰地像麦当劳叔叔,只留下原本的双眼、鼻子和嘴巴,最后竟然得到3.53的高分。对于AI评审来说,这是个连范冰冰都比不上的极致美颜!藉由这个范例,我们可以看到AI评审与人类评审的审美标准不尽相同,但若能了解AI评审的决策模式就可以任意地操弄评判结果来反败为胜。

真的能够了解AI的想法吗?

一位与会者在演讲结束后提问:「这种用结果去推论的方式,真的能知道AI做决策的逻辑吗?」这是个有意思的问题,经济学的世界中,理性经济人衡量各种行为所对应的满足程度,结合主观的发生机率,对结果做出选择;心理学的世界中,学者更近一步加入情感、记忆、思维等等条件,试图描述个体具体的决策过程。黄教授提到,本演讲主要是利用行为学派的方法,根据外显的行为来解释AI的决策标准与倾向。这种行为研究法的好处在于对各种机器学习系统都一体适用。不过,的确也有类似脑科学研究的方法可以直接观察与纪录内隐的类神经网路活动来帮助了解其认知或决策历程。若对这些方法的细节有兴趣可以进一步去参考黄教授的论文:

黄从仁(2019)。理解使用监督式学习而潜在有偏误的人工代理者:认知心理学与认知神经科学的观点。中华心理学刊,61卷3期,97-208页。http://doi.org/10.6129/CJP.201909_61(3).0002

本文来自CASE报科学,本文观点不代表沙鸥科讯立场,转载请联系原作者。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

16 + 3 =

联系我们

Email: editor01@scieau.com