你知道吗?马赛克也不安全了!
欸,朋友们好啊,我是极果网最能吃的键盘侠极果君。刚才有个朋友问我,极果君发生什么事啦?我说怎么回事,给我发了几张截图。我一看,哦——
原来是上个月,世界最大同性交友平台GitHub网站火了一个项目,名叫Depix。这个名字很好理解,“反像素”嘛,也就是利用AI技术去除马赛克。
这事有好有坏。好处是虽然各路老司机们早就练成了“眼中有码,心中无码”的神技,但直接看没码的显然更加方便舒适;坏处就是诸位的密码和设备IMEI码等私密信息很可能就此被扒光了呀!
有码真变无码了!
这时候就有小伙伴要问了,马赛克横行霸道和谐界这么多年,怎么是几行代码能治得了的?
还真治得了!原作者在原帖中直接给出了效果示例图:
这张图片丢进去Depix里运算,在闻到显卡的香味之后,就会输出AI去马赛克的图像:
人工整理一下,就得到了打码文字的内容:Hello from the other side.
这是原图:
看吧,不能说相差仿佛,简直就是一模一样。
原理:简单粗暴
Depix算法这么神奇,那作者岂不是当代大数学家?其实也不是。我们要理解Depix的原理,首先要明白马赛克是怎么实现的:
图片的每一个像素都是一组数据(通常RGB三原色都用0-255的值来表示),马赛克本质上就是把一张图片分成一个个小格子,然后给每个格子算出它里面所有像素值的RGB平均值。
举个最简单的例子,黑白平均一下,就会得出灰色。根据黑色所占单个小格子比例不同,灰色的深浅也有区别。
彩色图像的马赛克相对复杂,但原理一致:还是根据不同颜色的RGB值和该颜色所占小格子面积求得加权平均值,也就是平均颜色。
因此,马赛克被广泛用于私密信息保护和敏感内容遮蔽,包括但不限于密码覆盖、采访对象人脸打码和色情信息屏蔽,甚至央视还干出过给大卫打码的骚操作:
具体是因为遮羞还是嫌小,就不得而知了。
作为知名反马赛克算法,Depix的对策十分简单粗暴:直接反向推算,利用AI让小格子不断跟数据库里已有的字符组合做匹配。不仅如此,Depix的作还十分周到地考虑到了字符间距的不同,所以同时做了“宽字距”和“窄字距”的数据库,让多种段落格式都能够被识别。
那么就有同学要问了,作者只建了文字的数据库,我朋友用它来破解图形打码岂不是就行不通了?
别以为你的那点小心思极果君不知道!想当初极果君刚知道这个消息也是兴冲冲地打开了P……呸!忧心仲仲可能存在的信息泄露。但是根据depix在github上介绍,该项目的目的根本不是去码,而是做密码恢复使用,是对于手机或其他类马赛克处理图片的恢复密码工具。
所以说,非文字的打码图像就只能靠想象了(正色)。
弱点突出,反制轻而易举
虽然Depix仅仅对文字的恢复相对出色,但这么一来大家的密码就容易被泄露了呀!
莫慌!马赛克能被抓取的信息也就仅仅是一个像素值,就相当于:
已知1+2+1+3+2+1,我们很容易得出结果10。但是已知10,就很难确定原始数据的构成。也就是说,数据库里没有的文字就识别不了,比如同是英文,花体字啥的就不行。
不仅如此,作者还没建立中文的数据库。这个也好理解,26个字母+10个数字的工程量,咋跟成千上万的汉字比嘛!
综上,目前Depix最多也就做到这:
如果你实在不放心信息安全,可以在英文字母上盖一层画笔再打码:
或者直接放大马赛克的色块,这还能识别个鬼:
只要有所防备,想要反制这种密码的破解实在是容易得很。
人脸去码:算法很美,翻车惨烈
除了针对文字去码的Depix算法外,比较知名的算法还有杜克大学推出的Pulse算法。该算法针对人脸去码优化,可以将模糊的照片秒变清晰,效果出奇的好。
这项研究曾经在CVPR 2020上发表,论文标题为《PULSE:通过对生成模型的潜在空间探索实现自监督照片上采样》
当然,杜克大学开发的算法,最初也都是用本国人的脸作为模型来训练的,所以如果针对亚洲人脸来去码,出纰漏也是难免的。比如,这是修复后的图:
或许你觉得修复效果还可以?但是原图是它:
人脸库对不上,直接翻车到奶奶家了。
打码仍可靠,但…别手残啊!
对于我们来说,当前的技术条件下打码还是相对可靠的。所以现在还不用担心不法分子利用你打过码的密码或照片图像还原来做坏事,一来是现有算法成功率仍然不高,另一方面如果真想获取你的人脸信息,直接获取你的前置摄像头权限不是更方便?
实在怕信息泄露的话,厚码(多重大色块)也能保你无忧。
但有一种马赛克是比较令人无语的:
生怕别人看不清呗?