谷歌也干了?Bard被曝使用ChatGPT的数据进行训练 大模型真是一步落后步步落后

人工智能
据The Information报道,前谷歌人工智能研究员Jacob Devlin最近离开公司加入了OpenAI,但在此之前,他爆料曾向谷歌母公司Alphabet的CEO 桑达尔·皮查伊(Sundar Pichai)警告,谷歌的聊天机器人Bard正在以一种间接的方式从ChatGPT获取数据。

还记得百度文心一言被质疑是"套壳"事件吗?近日外媒爆料,谷歌似乎也这么干了。 

据The Information报道,前谷歌人工智能研究员Jacob Devlin最近离开公司加入了OpenAI,但在此之前,他爆料曾向谷歌母公司Alphabet的CEO 桑达尔·皮查伊(Sundar Pichai)警告,谷歌的聊天机器人Bard正在以一种间接的方式从ChatGPT获取数据。

据Devlin描述,Bard的开发团队访问了一个名为ShareGPT的网站,该网站分享发布了大量用户通过ChatGPT获取的聊天内容。这意味着,Bard使用了ChatGPT现成的数据来“武装”自己,相当于窃取了ChatGPT的早期成果。

对此,谷歌发言人 Chris Pappas 很快向媒体发布声明,坚决而明确地表示,"Bard没有使用任何ShareGPT或ChatGPT的数据进行训练。(“Bard is not trained on any data from ShareGPT or ChatGPT.”)"

对于媒体追问谷歌Bard此前是否曾经利用过ChatGPT的数据,Pappas拒绝回答,坚称自己能说的只是如上声明内容。

这一事件不由得令人想起日前百度文心一言遭遇的类似质疑。

3月下旬,有网友发文质疑百度文心一言作画实质上是“把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能Stable Diffusion生成了图画,再返给你,说是自己画的。”

当时网友举的例子包括在文心一言输入指令,要求其画出“鼠标和总线”,文心一言作出的画面是“老鼠和公共汽车”,因为“鼠标”和“总线”对于的英文是“mouse”和“bus”。

对此百度方面也是紧急回应。3月23日,百度发布声明称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,百度使用的是全球互联网公开数据,符合行业惯例。同时表示文心一言正在使用过程中不断学习和成长,希望大家给自研技术和产品一点信心。

随后,百度对类似问题做了修正,用户很快发现相关问题已经不存在,表明类似情况正随着用户反馈而被修正。

对于百度文心一言的问题,业界专家也表示使用网络公开数据是行业基本操作。这个行业存在一批专门为AI应用训练数据的中间服供商,它们基于公开数据标注训练的AI数据集确实存在同时被多个AI应用采用的情况。

不过业内基本操作在消费者层面可能不会得到同样的理解和认同,此番谷歌Bard被曝使用ChatGPT的数据进行训练也在国外引发轩然大波,不少网友指责谷歌是在盗窃OpenAI的成果。

包括网站信息在内的网络公开数据很容易被技术手段抓取,这对搜索引擎出身的谷歌更是小菜一碟。加之这样的爆料来自谷歌刚离职的员工,可信度自然提升了一大截。

不过也有网友指出,Devlin离开谷歌AI团队后转而就加入了竞争对手OpenAI,其爆料难免涉及商业利益,真实度有待进一步确认。

不过在极客网看来,不管这样的事件真实度如何,都充分表明一个“铁律”:AI大模型领域真是一步落后步步落后,后来者想要赶上先发者是水平,非常不容易。

这背后的影响因素有很多,包括算法、算力,以及训练数据的质量等。更重要的是,先发的AI大模型在探明成功之路后,便会一直训练、一直进化,不会停下来等待追赶者。

正因为如此,OpenAI的GPT已经很快由GPT-3升级到了GPT-4时代,为此还引发了包括马斯克在内的多位名人联名发布公开信,呼吁大公司暂停大模型的研发速度,避免威胁人类。

 

李彦宏此前面对媒体采访时也表示,尽管在某些领域表现更出色,总体看百度文心一言与OpenAI ChatGPT的水平还有一两个月的差距。他同时指出,ChatGPT早期刚推出时外界反馈比文心一言还要糟糕。

对于谷歌Bard来说,还有一个不利消息是据传谷歌的 Brain 人工智能团队正在与另一家隶属于 Alphabet 的人工智能公司 DeepMind 合作,共同进行一个代号为 Gemini 的新项目,目标是开发出一个能与 OpenAI的GPT竞争的产品。这似乎在暗示,谷歌对Bard并不自信,希望开发更领先的AI大模型,打造更先进的AI聊天机器人。

责任编辑:庞桂玉 来源: 极客网
相关推荐

2023-11-14 17:53:39

模型训练

2023-05-15 12:11:24

2023-03-31 08:11:04

2024-06-27 08:30:36

内存扩容堆区

2018-04-23 14:23:12

2017-01-19 21:08:33

iOS路由构建

2024-04-11 13:23:07

2024-02-04 12:32:04

模型数据

2023-04-12 16:12:09

2015-07-27 16:06:16

VMware Thin虚拟化

2013-01-08 10:01:44

计算模式企业计算HPC

2019-03-05 14:09:27

Docker存储容器

2019-07-09 15:23:22

Docker存储驱动

2018-12-24 10:04:06

Docker存储驱动

2015-05-04 09:59:31

资深工程师双目失明

2023-09-07 11:09:59

连接池本地端口号

2024-09-30 09:56:59

2024-08-30 08:30:29

CPU操作系统寄存器

2023-09-06 12:11:21

ChatGPT语言模型

2009-08-14 11:35:01

Scala Actor
点赞
收藏

51CTO技术栈公众号