作者 | 汪昊
文化研究是发展数百年的人文学科。然而,因为数据规模受限,以及地理区域等因素的限制,文化研究一直都是使用小规模数据的研究学科。随着大数据时代的到来,互联网用户行为数据等公开数据集因为数据量大,包含信息丰富,成为了人文学科领域最新的金矿。2022 年,研究人员在国际学术会议MHEHD 2022 发表了一篇介绍计算文化研究的文章,讲述了如何通过人工智能算法进行文化研究。
这篇论文主要分析了一个名为 ZeroMat 的零样本机器学习算法的社会学效应。ZeroMat 算法是人工智能领域首个真正不利用任何数据进行推荐的算法。众所周知,现有的零样本学习算法基本都是迁移学习和元学习的变体而已。而ZeroMat 是首个与众不同的算法。
ZeroMat 算法假设用户物品评分矩阵服从如下分布:
将上述公式带入概率矩阵分布模型,得到如下公式:
取对数之后利用随机梯度下降计算 U 和 V,并设置方差为常数 1,得到如下公式:
从公式中我们发现这个算法本质上是个零样本学习算法。该算法的社会学效应是我们的文化已经被锁死,因为我们不需要任何数据就可以非常准确的预测电影等文化消费品的用户评分数据,也就是可以不用历史数据就知道用户的个人文化喜好。而因为用户评分数据的高度不均衡性,我们知道,人类的文化不仅被锁死了,而且被锁死在了一个极不平等的极端状态,而这一切发生仅仅需要很短的时间。
其实不仅仅是文化领域存在着这一现象,在其他社会领域也广泛的存在着这一现象。而中国政府的许多举措,已经在一定程度上缓解了这一问题。例如大城市集群战略,利用了马太效应有助于提高效率的原理,促进了经济的发展。另外一个例子是政府对互联网大V的监管,有效降低了信息传播的马太效应,避免信息传播陷入锁死状态。
人类文化被锁死的根本原因在于幂律分布在各种社会现象中的效应。而幂律分布之所以存在的原因就是因为能让效率最大化,并且与多样性有关。认真的研究幂律分布,能够让我们更好的认识各种社会现象,并且帮助我们更好的研究算法和其他自然科学。
Is Human Culture Locked by Evolution : https://www.atlantis-press.com/article/125975737.pdf
作者介绍
汪昊,互联网老兵,前趣加游戏 AI Lab 负责人,在豆瓣、新浪、网易等互联网公司有超过 11 年的技术和技术管理经验,成功上线 10 余款科技产品。在推荐系统、风控和自然语言处理领域有丰富的经验和独到的见解。在国际学术会议和期刊发表论文 30 篇,3 次获得国际学术会议最佳论文奖/最佳论文报告奖。2006 年 ACM/ICPC 国际大学生程序设计竞赛北美落基山区域赛金牌。