2018年11月9日星期五

Nov.12 2018 合成图像:当视觉不再可靠,我们应该相信什么?

Afterimage by Joshua Rothman

2011年,照片鉴识专家Hany Farid收到了一位父亲的求助。三年前,这位父亲的儿子搭了一辆陌生人的顺风车,竟被司机开枪打死。虽然监控拍下了这辆车,但摄像头分辨率有限,最关键的车牌只是一团模糊不清的像素。

在侦探剧中,电脑专家只要按几个键,就能轻而易举地提高画面分辨率,但在现实中这是不可能做到的。摄像头捕捉的信息有限,技艺高超如Farid也无能为力,他只能对那位伤痛中的父亲说了声抱歉。

几个月后的一天,Farid突然灵机一动:就算画面是一团像素,不同的车牌呈现的像素图案也是不一样的。如果用同样的摄像头拍摄许多车牌照片,就有可能找出其中规律。但这么做需要拍摄大量车牌,几乎是一项不可完成的任务。

还好,随着人工智能和神经网络的成熟,不可完成的任务终于也成为了可能。Farid派自己的学生在校园中拍了几百张车牌的照片。在这些照片的基础上,人工神经网络合成了几百万张模拟真实车牌的照片,并处理得看上去和摄像头拍摄的模糊图像一样。

接下来,Farid将所有照片输入神经网络中,找出有迹可循的模式和规律。经过数次尝试,神经网络确定了当时那张车牌的最后三个字母。今年夏天,Farid将这一结果告知负责此案的警官。

有了车牌的最后三个字母,加上知道车的型号和颜色,要锁定嫌疑车辆就容易多了。警官找到了与这辆车相关的人,并发现他正卷入另一起犯罪案件中。虽然最终结果还未确定,但在科技的帮助下,这件沉寂十年的案子终于有了进展。



Farid用最先进的科技来合成车牌照片,但实际上,照片合成技术并不是什么新鲜玩意儿。可以说,从有照片出现开始,合成照片也出现了。

比如在一张1860年代的照片中,林肯的头就被拼接到了鼓吹奴隶制的John Calhoun身上。在斯大林时代的苏联,政治风云变幻,历史书和档案中的照片被一再修改,一些人今天还在照片里,明天就不知所踪。

Photoshop出现后,合成照片更是普及。不过,对大部分人来说,想用Photoshop合成出天衣无缝的照片,依然是个技术活。但现在,在新技术和软件的协助下,一般人也能轻而易举地合成看上去十分可信的照片。

加州大学伯克利分校的计算机专家Alexi Efros就是一位研究图像合成的专家。读研究生时,他开始研究“纹理合成(texture synthesis)”问题。

纹理合成并不是简单的复制黏贴那么简单。就拿电子游戏中常见的由大量石块搭建的地牢场景来说吧。如果只是将同一石块复制成无数块,搭建出来的场景必然不够真实,因为人类的视觉系统对重复是十分敏感的。

Efros发明的技术可以智能采样一幅图像中的一小部分,经过计算重新构建,得出无限近似又不相同纹理。现在,Photoshop里有一个叫“内容感知填充(content-aware fill)”的工具就是以这个技术原理运作的。

比如说,你想抹去照片中站在一堆树叶前的一个人的影像,内容感知填充工具会根据这堆树叶的纹理,自动产生真实连贯的树叶图像,填充到被抹去的部分。

纹理合成不仅可以应用于静态的照片,也可用于动态的视频。Efros说,视频的一帧可以被视为锁链上的一环,这条锁链可以无限循环、交叉。使用计算机计算每一帧变化的概率,就可以制造出自然可信的视频图像。许多好莱坞大片和电脑游戏的特效,都是利用这样的原理制作出来的。

就像Farid需要大量车牌照片来训练人工神经网络一样,制作真实可信的合成照片和视频也需要大量真实的图像元素作为基础。这在以前是个难题,但在如今手机和社交网络横行的时代就太容易解决了。

计算机科学家们建设了图片网站ImageNet,上面收集了1400多万张人们上传到网上的照片。Youtube则成为了非官方的视频“ImageNet”。有了足够多的照片和视频,万物都可以被视为一种纹理。不管是河流、山川,还是建筑、道路,甚或是人的脸,有足够多的数据就可找出规律,进行模拟与合成。


纹理合成的技术是开源的,照片和视频资源唾手可得,家用电脑性能不断增进,别说专业人士,就是普通人也有能力制作出可信的合成照片和视频。对我们这个本就被网络谣言所困惑的社会来说,自然更添了一重麻烦。

人类天生是视觉动物。图像是最有说服力的,传播效果也最惊人。今年,一段“金鹰抓走小孩”的虚假视频便在Youtube上获得了1300多万的观看量(我看这段视频时,观看量已经有4500多万人次了)。

2016年,美国国防部高级计划研究局着手开展名为MediForMedia Forenscis,媒体鉴识的缩写)的项目,来应对虚假照片和视频。他们正在建设一个可以自动鉴别有过处理痕迹的照片和视频。

但是,人工智能和神经网络可以不断学习进化,能被系统鉴别出来的照片和视频,也就能被完善。最终,这种鉴别系统反而可能训练出能制造完美虚假图像的神经网络。Farid在他今年发表的一篇文章中就呼吁研究者暂时不要急于分享最新成果,以免出现类似风险。

似是而非的合成照片和视频不仅可能散布不实信息,还有另外一个负面影响:人们会倾向于怀疑那些原本真实的图像也是假的。以后,就算有了照片和视频证据,一句“这可能是合成的”,就能抹杀证据的合理性。

Farid说:“为什么斯大林要抹掉照片上的人?他为什么要费这番功夫?因为视觉图像威力无穷。改变图像,就改变了历史。人类是完完全全的视觉动物,我们依靠视觉生存。在过去很长一段时间里,视觉都是可靠的,所以我们认为照片和视频也是可靠的。”


但随着越来越真实的合成照片与视频的出现,“一张照片胜过一千个字(A pictures worth a thousand words)”, “眼见为实(Seeing is believing)”这样的俗语,在今后的世界里可能再也不适用了。当视觉渐渐不再可靠时,我们又还能相信什么呢?

没有评论:

发表评论