从困在系统里的外卖骑手到让人无法自拔的社交媒体,2020年,关于算法的讨论终于进入了主流话语当中。
这仅仅是个开始。随着数据在生活各个角落不断生根发芽,算法的应用也变得越来越广泛:小到选择一个10秒的短视频,大到审判刑事案件。但算法究竟是怎么成形的、它将如何影响我们行为、社会生活又会相应地产生什么改变……面对这些如同黑箱般的问题,很多人可能都还未意识到,更不要说去理解,甚至是质疑。
大体上来讲,算法的形成主要包括两个部分:训练数据的收集和算法的设计训练应用。澎湃新闻总结了关于这两大部分的2020年大事件,并采访了三位相关领域的专家和从业者,看看他们是如何理解算法对我们生活产生的影响。
算法离不开数据,但有数据就会有泄
算法的形成离不开训练数据。如上一张图所示,在实现算法、搭建模型之前,我们需要收集大量的数据。
这些数据来自我们生活的方方面面,比如授权app收集的身份数据、使用app所产生的行为数据,甚至是寄快递、住酒店等过程中记录的数据。
“我们已经进入了隐私的透明人时代”,上海交通大学数据法律研究中心执行主任何渊在接受澎湃新闻采访时提到。“网络比你还了解你自己……不管你愿不愿意,这些企业都已经掌握了我们的数据。”
这并不代表用户就束手无策了,比如可以避免使用来源不明的app、不轻易授权app获取隐私信息等等。
不过在此之前,还有两个问题需得弄清楚:
第一,个人信息和个人隐私并不是一个概念。隐私是每个人不能放弃的私密信息。如果这些信息被允许交易,我们将不再是一个完整的人。
而个人信息则更注重身份识别性,这些信息结合在一起后,有助于识别个人的身份。
第二,权利和义务是对等的。用户免费使用手机应用的同时,就在出让部分个人信息,接受精准广告的投放,再由广告商付钱给手机应用,这就是现在的互联网免费模式。
“法律不是说绝对地保护你的个人信息权益”,何渊解释道。
但随着相关制度的逐步健全,公民将拥有更多保护个人信息安全的途径,比如集体诉讼、公益诉讼,以及基于《通用数据保护条例》(GDPR)等法规而开出的高额罚单,虽然“对于大企业来说,他们更怕的其实不是赔偿,而是一种品牌的损失。”
技术是中立的,吗?
算法在为我们提供极大生活便利的同时,也引发了不小的争议。因此公众又开始讨论这个经典的议题:技术是中立的吗?
“我始终认为技术本身是中立的,它产生的时候就是为了单纯地解决一个技术难题”,互联网资深软件工程师Justin在接受澎湃新闻采访时说道:“至于未来会变成什么样,这并不是技术在发展的过程中会去考虑的。”
但也有不同的观点。
“任何所谓‘中立’的东西,实际上都是有一些预定的功能指向性,尤其是人工制品”,复旦大学哲学学院徐英瑾教授举了一个例子:“比如刺刀用来切菜肯定不合适,因为它的功能指向并不是用来切菜的。”
无论中立与否,和算法有关的争议事件确实越来越多地走进了我们的视野,尤其是在新冠疫情的背景下。
比如,英国政府为了解决疫情无法举办高考的问题,决定采用算法对学生成绩进行评定,但经过算法评定的学生成绩出现了许多争议。其中,英格兰地区约40%的考生成绩至少被调降了一个级别。2020年8月25日,英国的考试监管机构主任萨莉·科利尔宣布引咎辞职。
还有,2020年3月,一些网友指出,自己的健康码莫名变成红色。一名网友在知乎上写道:全部行程轨迹正常、未与确诊或疑似病例接触、未去过疫区,但因为健康码莫名变红,当天没地方住,在街边过了夜。
这些算法与我们的日常生活息息相关,但很少人能了解背后的运行逻辑,“造成很强的技术屏障和知识屏障,不利于大众对这样的一套系统进行监督……构成某种意义上权力的不对等”,徐英瑾解释道。
但算法不应该完全为这些争议背锅。正如前文所说,算法的形成离不开大量的训练数据,这些数据就是人们的历史行为。
2020年2月VOX的一篇文章写道:“当电脑接触到大量的数据,它会察觉到数据中反复出现的模式,然后依照这些模式形成自己判断、评价、预测的逻辑。”换句话说,算法的运用,会放大社会中的歧视和偏见。
比如,墨尔本大学在2020年12月发表的一份研究表明,人工智能招聘软件存在的性别歧视,可能源自于招聘者本身潜意识的歧视。这些研究人员在完全相同的简历上,一些标注性别,一些则抹掉性别,分发给40位招聘者。结果显示,尽管男女应聘者的能力和经历完全一致,招聘者还是给了男性更高的评分。甚至在抹掉性别的简历中,招聘者也更偏爱男性。
VOX的那篇文章认为,将各种算法背后的黑箱解释清楚,是摆脱这些偏见争议的第一步。一些学者认为,算法使用方最起码应该公开他们的训练数据、验证数据和测试数据的人口特征。
徐英瑾的建议是,在训练算法时,研究人员不应该只重复演算数据,而需要不断汲取新的知识,然后手动修正相关的理解和预测。“因为没有任何哲学上的理由告诉我们,未来发生的事情就一定和过去的事情是类似的。”
而且“人”的角色很重要。比如,Justin认为,推荐算法的弱点之一是“机器的目标通常是非常明确的,而我们想学到的东西,常常是不可量化的”,因此现在很多内容平台会加入除机器推荐之外的策略。
不管怎么说,这条修正算法的道路将会很漫长,毕竟公司的利益往往是驱使算法发展的最大动力,而且我们身上人性的弱点也并非一朝一夕可以改变的。
但算法问题总算是进入了主流议题,这是我们社会迈出的一大步。