撰稿 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
提及编程语言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它们更新的频率也相对固定。但最近,这家号称编程语言榜单天花板的RedMonk似乎“放鸽子”了。
RedMonk一般一年发布两次榜单,上次更新的榜单是在5月,按惯例第二次发布应该是在今年的11月,但今年却迟迟没有动作。
今日,官网终于公开了没有发布语言排行榜的原因:他们之前从Stack Overflow和Github上获取到的样本数量大大减少,已经显著影响到榜单排名的评估!背后的罪魁祸首,竟是AI编程助手!
一、RedMonk排名离不开社区样本
根据官方介绍,RedMonk通过追踪编程语言在GitHub和Stack Overflow上的代码使用情况与讨论数量,统计进行分析后进行排序,进而深入了解潜在的语言采用趋势。
图片
具体讲,RedMonk 榜单的数据收集方式包含两部分:使用GitHub Archive作为数据源对GitHub数据进行分析;Stack Overflow部分则直接使用其提供的实用工具 data explorer。
具体排序算法官方也给出较详细的介绍,这里不再赘述。
图片
二、ChatGPT推迟了编程榜单的进行
今年大家都见证了一个增长奇迹:ChatGPT推出后,两个月就做到了一个亿的用户。
1.Stack Overflow首当其冲
随后,Stack Overflow流量下降的速度开始陡生,以致于其CEO宣布对数据获取方开始收费的决定。
Stack Overflow 的网站访问量显著下滑到原来的一半,不仅如此,还有分析师指出“用户花在 Stack Overflow 上的时间比去年同期下降了 40%,比此前网站峰值期下降了约 2 亿小时”。
图片
此外,Stack Overflow在网站上的问题和答案也减少了五成,投票也减少了。原因也很明显,开发人员已经可以即时向人工智能助手提问,并在上下文中给出答案,而无需再去Stack Overflow中查询答案。
那么由Stack Overflow提供的公共数据集的实用性的价值就会大打折扣。
图片
上图是Stack Overflow 上使用排名前20种编程语言标签的问题数量,可以看出比前一时期减少了近20%。这还只是是RedMonk在ChatGPT爆火之后第一次完整地运行这些数字,粗略查询下整年的变化,就会发现结果更加明显。
2.Github同样也没有摆脱数据下降的影响
RedMonk对于Stack Overflow数据的下降是有预料到的,但令其万万没没想到的是,Github也被AI代码助手打击到了,数据上也出现了非常严重的异常。
Redmonk使用的数据集是BigQuery上的公共数据集,为此,Redmonk会向谷歌和GitHub团队询问了数据是如何提取的,以及是否在内部数据中看到了类似的变化。
“得到的结果非常意外,我们从GitHub Archive中看到的数据显示,与2022年下半年PR相比,2023年上半年的拉取请求下降了约25%。”
ChatGPT写代码能力太强了,后果很严重。各种Copilot的出现,已经严重影响到了编程问答社区的提问数量。样本量的减少,意味着RedMonk赖以进行的排名变化统计似乎面临着不小的挑战,因为这些样本数据似乎已经不足以完全、真实地反映语言的受欢迎程度了。
三、下一步,编程排行榜怎么办
因此,RedMonk无奈地表示,基于人工智能的代码助手的出现和兴起已经影响了RedMonk语言排名的数据。
随着问题和知识共享从公共的社区论坛转移到私人的AI聊天工具,他们从公开数据中确定有意义趋势的能力也将无限期地改变。
接下来,RedMonk会继续跟踪这些趋势,并确定样本量的变化将如何影响他们进行排名,同时预告2024年1月发布新榜单。
写在最后:新的数据霸主正在诞生
大模型时代的到来,已经在慢慢改变人们原来的互联网习惯。以前大家遇到问题,可能想到的是访问门户、访问社区,而生成式AI爆发后,取而代之的是各种“ChatGPT”的私人聊天界面。
而由此带来的,就是人机交互数据的源头发生了迁移。知识问答社区的形态又会发生怎样的改变?会不会朝着“弱问答、轻社交”的方向演进?又或者是其他哪些方向?
再比如依赖这些数据的下游企业,又该如何适应新的数据生产霸主?
这些都是一个个亟待回答的问题。且让我们看看几周后,RedMonk是如何思考和解决这个问题的。
参考链接:https://redmonk.com/rstephens/2023/12/14/language-rankings-update/