本月初,OpenAI 官宣了其首届开发者大会「OpenAI DevDay」将于两个月后召开,引发热议。很多网友猜测 OpenAI 将在大会上发布多模态大模型,比如 GPT-4-Vision。
今天,关于 OpenAI 的多模态大模型又有了新的消息。
多模态大模型「Gobi」能成真吗?
根据外媒 The Information 的说法,OpenAI 与谷歌正陷入一场旷日持久的大模型竞赛,瞄准了下一代多模态大模型。这类模型可以处理文生图任务、生成代码或者输出可视化图表等。
OpenAI 联合创始人兼总裁 Greg Brockman(左)与谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis(右)
在这场竞赛中,谷歌几天前被传开始小范围测试多模态 ML 工具 Gemini,比训练 GPT-4 算力大 5 倍,多模态能力大大提升。谷歌希望借此扭转与 OpenAI 在大模型领域的劣势。但很显然,OpenAI 不希望看到这一幕在将来发生。
据一位知情人士透露,OpenAI 正紧锣密鼓地将 GPT-4 与类似于 Gemini 提供的多模态功能结合起来。OpenAI 虽然在 3 月份发布 GPT-4 的时候预览了相关多模态功能,但并没有推广开来。几个月后,OpenAI 又准备在更大的范围内推出 GPT-Vision 功能,但也没有正式发布。
至于为何迟迟没有推出,OpenAI 主要担心视觉功能会被人不当地使用,比如通过面部识别来跟踪人或者冒充人类自动解决验证码。但随着时间推移,OpenAI 似乎终于有能力解决由这类问题引发的技术担忧了。
因此,在 GPT-Vision 之后,OpenAI 被曝可能会推出更加强大的多模态大模型,名为 Gobi。与 GPT-4 不同的是,Gobi 一开始就被设计为多模态。不过 OpenAI 还没有开始训练该模型,所以 Gobi 最终能成为 GPT-5 的定论下的还为时尚早。
此外,OpenAI 还希望抢在谷歌发布 Gemini 之前推出 Gobi。
图源:推特 @amir
至于在这场多模态大模型之争中,究竟谁能先拔头筹,我们拭目以待。
OpenAI 还发布了新模型
与此同时,除了被曝出多模态大模型之外,OpenAI 还「悄咪咪」地发布了新的模型。
不少网友都收到了这封来自 OpenAI 团队的信件。OpenAI 推出了 GPT-3.5-Turbo-Instruct,用来替代原先的一些模型,如 text-davinci-003。
该模型是 InstructGPT 3.5 类模型,并且训练方式与之前的 Instruct 型号类似,如 text-davinci 系列,同时保持了与 turbo 模型相同的速度。该模型的定价与 GPT-3.5-turbo 4K 相同。
推特用户 @hwchase17 说到,该版本模型可以在就旧的完成端点使用,并表示这个版本很「健谈」,但是作为智能体的话并不理想。
有网友在使用过程中表示,该模型在一些情况下能更好的完成工作。例如,用户想让它生成较大的代码块时,它不会只是给出一个示例,而是直接生成一个很长的代码。