OpenAI开发者大会:GPT-4炸裂更新,用了下是真强!

人工智能
任何人都可以轻松创建自己的GPT,无需编程。您可以为自己创建一个GPT,仅用于公司内部使用,或与他人分享。创建一个GPT就像开始对话一样简单,只需给它指示和额外的知识,并选择它可以做的事情,比如搜索网页、制作图像或分析数据。

11月7日凌晨2点,历史上第一次的OpenAI开发者大会正式开始,被戏称为AI春晚 ,OpenAI终于迎来了这一重要时刻。

大会介绍:OpenAI DevDay[1]

大会视频:OpenAI DevDay, Opening Keynote[2]

本次有多项面对普通用户,开发者,企业用户的炸裂更新。

面向普通用户

图片图片

现在可以创建自定义版本的ChatGPT,结合说明、额外的知识和任意组合的技能。

自定义GPT

任何人都可以轻松创建自己的GPT,无需编程。您可以为自己创建一个GPT,仅用于公司内部使用,或与他人分享。创建一个GPT就像开始对话一样简单,只需给它指示和额外的知识,并选择它可以做的事情,比如搜索网页、制作图像或分析数据。

可以在这个地址创建GPTs:。chat.openai.com/create[3]

现在GPTs已经可以供ChatGPT Plus和企业用户使用。一些可用的示例包括和。Canva[4]

图片图片

奥特曼现场通过对话几分钟就做出了个GPTs创业导师应用,大大降低了应用开发门槛。

做AIGC应用层的创业公司真是太难了,AI让世界变化更快了!

GPT Store

任何人都可以创建并公开分享GPTs。本月晚些时候,将推出GPT Store,展示经过验证的构建者的作品。一旦进入商店,GPTs将可以被搜索,并且可能在排行榜上上升。还将重点推荐在生产力、教育和“只是为了好玩”等类别中遇到的最有用和令人愉悦的GPTs。在接下来的几个月里,还可以根据使用您的GPT的人数来赚取收入。

ChatGPT的iPhone时刻到来了!即使不是开发者的普通人都可以创建自己的应用并发布到GPT Store(类似苹果的APP Store),需求为王,创意为王的时代来了!

以后所有跟数字世界交互入口是不是从APP都变成了ChatGPT了?

面向企业

自从几个月前推出ChatGPT企业版以来,早期客户表达了希望能够更多定制化以符合他们的业务需求的愿望。GPTs通过允许用户为特定用例、部门或专有数据集创建ChatGPT的版本来回应这一需求。像Amgen、Bain和Square等早期客户已经开始利用内部的GPTs来完成一些任务,比如制作体现品牌的营销材料,帮助支持人员回答客户问题,或者帮助新的软件工程师进行入职培训。

企业用户可以在周三开始使用GPTs。现在用户可以让公司内部的用户无需编程就设计内部专用的GPTs,并将其安全发布到工作区。管理控制台可以让用户选择如何共享GPTs以及是否允许在企业内部使用外部GPTs。与ChatGPT企业版上的所有使用一样,OpenAI不会使用用户与GPTs的对话来改进模型。

现在可以直接基于企业私有数据集训练一个私有的ChatGPT。OpenAI的手伸向企业服务这块蛋糕了!

面向开发者

图片图片

更新了具有 128K 上下文和更低价格的 GPT-4 Turbo、新的 Assistant API、具有 Vision 的 GPT-4 Turbo、DALL·E 3 API 等等。

API大幅升级

GPT-4支持128K上下文

GPT-4 Turbo的能力更强,了解到2023年4月的世界事件。它具有128k上下文,可以在单个提示中容纳相当于300多页的文本。我们还优化了其性能,因此我们能够以比GPT-4更低3倍的价格提供GPT-4 Turbo的输入标记,并以比GPT-4更低2倍的价格提供输出标记。

Function calling更新

允许您描述应用程序或外部API的函数,并使模型智能地选择输出一个包含调用这些函数参数的JSON对象。我们今天发布了几项改进,包括在单个消息中调用多个函数的能力:用户可以发送一个消息请求多个操作,例如“打开车窗并关闭空调”,这在以前需要多次与模型的交互。我们还改进了函数调用的准确性:GPT-4 Turbo更有可能返回正确的函数参数。

更多信息:Function calling[5]

改进JSON返回格式

GPT-4 Turbo在需要仔细遵循指令的任务中表现优于以前的模型,例如生成特定格式(例如“始终以XML响应”)。它还支持新的JSON模式,确保模型将以有效的JSON响应。新的API参数response_format使模型能够约束其输出,生成一个语法正确的JSON对象。JSON模式对于在函数调用之外的Chat Completions API中生成JSON的开发人员非常有用。

可复现输出和对数概率

新的seed参数通过使模型大部分时间返回一致的完成来实现可复现的输出。这个测试版功能对于重放请求进行调试、编写更全面的单元测试以及对模型行为具有更高程度的控制等用例非常有用。OpenAI在自己的单元测试中一直在使用这个功能,并发现它非常有价值。很期待看到开发人员如何使用它。

全新的GPT-3.5 Turbo

除了GPT-4 Turbo之外,还发布了一个新版本的GPT-3.5 Turbo,默认支持16K上下文窗口。新的3.5 Turbo支持改进的指令遵循、JSON模式和并行函数调用。例如,在生成JSON、XML和YAML等格式遵循任务中,改进了38%。开发人员可以通过在API中调用gpt-3.5-turbo-1106来访问这个新模型。使用gpt-3.5-turbo名称的应用程序将在12月11日自动升级到新模型。旧模型将继续通过在API中传递gpt-3.5-turbo-0613来访问,直到2024年6月13日。

GPT-4 API大幅降价

整体价格:OpenAI Pricing[6]

我们正在全平台降低多个价格,以将节省成本传递给开发者(下面的所有价格均以每1,000个标记计算):

  • GPT-4 Turbo的输入标记比GPT-4便宜3倍,为0.01美元,输出标记比GPT-4便宜2倍,为0.03美元。
  • GPT-3.5 Turbo的输入标记比先前的16K模型便宜3倍,为0.001美元,输出标记比先前的16K模型便宜2倍,为0.002美元。之前使用GPT-3.5 Turbo 4K的开发者在输入标记上享受到了33%的降价,为0.001美元。这些更低的价格仅适用于今天推出的新GPT-3.5 Turbo。
  • 经过微调的GPT-3.5 Turbo 4K模型的输入标记降低了4倍,为0.003美元,输出标记降低了2.7倍,为0.006美元。微调还支持与新的GPT-3.5 Turbo模型相同价格的16K上下文。这些新价格也适用于经过微调的gpt-3.5-turbo-0613模型。

图片图片

发布Assistant API

这个助手功能真是大杀器!Assistant API现在可以开启多种工具,编排出复杂的应用。

工具包括

  • 代码解释器(Code Interpreter):在受限执行环境中编写和运行Python代码,可以生成图表、处理具有多样数据和格式的文件。它使您的助手可以迭代运行代码,解决具有挑战性的代码和数学问题等。
  • 检索(Retrieval):通过外部模型以外的知识增强助手,例如专有领域数据、用户提供的产品信息或文档。这意味着您无需为文档计算和存储嵌入,也无需实现分块和搜索算法。ChatGPT的助手API根据我们在知识检索方面的经验优化了检索技术的使用。
  • 函数调用(Function calling):使助手能够调用您定义的函数,并将函数响应纳入其消息中。

Playground页面调用

官方示例:

代码解释器示例:

我上传了一个文本文件。让他「帮我按---分割截取第一段内容,进行返回」。

这里自动调用了代码解释器,运行了python代码帮我进行字符串切割最终返回。

图片图片

检索示例:

问了一个「什么是八爪鱼」的问题。

这里我投喂了一个私有数据的文档,所以GPT可以知道「八爪鱼」是一个爬虫工具而不是一种动物。

图片图片

函数调用示例:

函数调用基本概念参考我之前文章:OpenAI API进阶-Function Calling实现插件![7]

我问了一个「北京今天天气如何的」问题。

  1. 触发了函数调用get_weather,返回了我函数中定义的城市和单位。

图片图片

  1. 模拟调用本地函数,进行第二次GPT调用,返回给我最终结果

图片图片

API调用

API文档:Assistant API[8]

上面Playground演示的过程就是API的调用过程。这个API特别复杂,后续单独写一篇专门讲解。

多模态API发布

GPT-4 Turbo和带有视觉的GPT-4 Turbo可以在Chat Completions API中接受图像作为输入,实现生成标题、详细分析现实世界图像以及阅读带有图表的文档等功能。例如,BeMyEyes利用这项技术帮助视力障碍或低视力的人们完成日常任务,如识别产品或导航商店。开发者可以在API中使用gpt-4-vision-preview来访问这个功能。对于GPT-4 Turbo,定价取决于输入图像的尺寸,例如将一个1080×1080像素的图像传递给GPT-4 Turbo的成本为0.00765美元。

价格对比

图片图片

API实战

API文档:Vision API[9]

需要在正常的chat接口中增加一个image_url类型的图片url,model选择gpt-4-vision-preview ,目前我的转发站还没有兼容,有4.0key的小伙伴可以试试。

不仅可以传单张图片,还可以传多张图片并对比他们的区别。

请求

我把用DALLE3生成的水獭图片让GPT-4v描述其中的内容

curl https://proxy.hehanwang.com/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer sk-xxx"   -d '{
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What’s in this image?"
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://s2.loli.net/2023/11/07/ejyY8AFt1pbIWzH.png"
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

响应

{
    "id": "chatcmpl-8IBLbpTkWbnHKoRSqw7ONSseETh8n",
    "object": "chat.completion",
    "created": 1699344215,
    "model": "gpt-4-1106-vision-preview",
    "usage": {
        "prompt_tokens": 778,
        "completion_tokens": 115,
        "total_tokens": 893
    },
    "choices": [
        {
            "message": {
                "role": "assistant",
                "content": "This image features an adorable baby otter floating on water. The otter looks like it's resting its chin on its crossed paws, with a playful and innocent expression on its face. The background consists of a beautiful blue sky with light wisps of clouds, a bright sun, and a landscape that might suggest a coastal environment. The water is a clear blue, suggesting a serene aquatic setting. The image has a very vibrant and sharp quality, likely indicating it is a digital creation or significantly enhanced photograph aimed at showcasing the otter in a particularly cute and engaging manner."
            },
            "finish_details": {
                "type": "stop",
                "stop": "<|fim_suffix|>"
            },
            "index": 0
        }
    ]
}%

对图片内容的描述质量我理解还是非常不错的(形容词比我用的溜呀)。

这张照片描绘了一只可爱的水獭宝宝漂浮在水面上。这只水獭看起来像把下巴放在交叉的爪子上,脸上带着一种顽皮而天真的表情。背景是美丽的蓝天和缕缕白云,明亮的太阳,以及可能让人联想到沿海环境的景观。水是清澈的蓝色,暗示着宁静的水生环境。这张照片非常生动、清晰,很可能表明这是一张数码作品,或者是一张经过显著增强的照片,旨在以一种特别可爱和迷人的方式展示水獭。

文生图 DALL·E3

DALL·E2的图片生成质量一直很差,被大家诟病。DALL·E3的文字理解程度和图片质量有很大的提升。之前是只能在ChatGPT的页面上使用,现在终于有API版本了!DALL·E3每张图价格$0.040,相比DALL·E2的$0.020增加了一倍

价格对比

图片图片

API实战

API文档:DALL·E API[10]

  • DALL·E2

请求

curl https://key.wenwen-ai.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-NYsoG3VBKDiTuvdtC969F95aFc4f45379aD3854a93602327" \
  -d '{
    "model": "dall-e-2",
    "prompt": "A cute baby sea otter",
    "n": 1,
    "size": "1024x1024"
  }'

响应

{
  "created": 1699339572,
  "data": [
    {
      "url": "https://oaidalleapiprodscus.blob.core.windows.net/private/org-iS1RHGfXtfuzTMR23GkMXCkA/user-9IbPVG6plCvypz0hG8Srcc25/img-VkyOb9Kl3RdrHeVHcdFVMePi.png?st=2023-11-07T05%3A46%3A12Z&se=2023-11-07T07%3A46%3A12Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-11-06T14%3A06%3A55Z&ske=2023-11-07T14%3A06%3A55Z&sks=b&skv=2021-08-06&sig=Yx3VF2CF%2BTquwjVM27%2BFZ4oY/BD9HmvulgE6dguHntg%3D"
    }
  ]
}
  • DALL·E3

请求

curl https://key.wenwen-ai.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-NYsoG3VBKDiTuvdtC969F95aFc4f45379aD3854a93602327" \
  -d '{
    "model": "dall-e-3",
    "prompt": "A cute baby sea otter",
    "n": 1,
    "size": "1024x1024"
  }'

响应

{
  "created": 1699339510,
  "data": [
    {
      "revised_prompt": "Visualize a baby sea otter resting adorably on top of a water's surface. The otter should look extremely cute with its small, rounded body covered with rich, dark brown fur. The otter's eyes are wide and sparkling with curiosity, while its tiny claws are curled up under its chin as if it's trying to hold onto something. The backdrop comprises of a calm, clear blue sea under a radiant sky. The whole image emits a sense of peace and innocence.",
      "url": "https://oaidalleapiprodscus.blob.core.windows.net/private/org-iS1RHGfXtfuzTMR23GkMXCkA/user-9IbPVG6plCvypz0hG8Srcc25/img-G39CYL0CxO5idBvylELrIdb6.png?st=2023-11-07T05%3A45%3A10Z&se=2023-11-07T07%3A45%3A10Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-11-06T18%3A46%3A53Z&ske=2023-11-07T18%3A46%3A53Z&sks=b&skv=2021-08-06&sig=vtruEBg63opqFoPEeI0ae/ScUU1QdXoZsmErSICFHD4%3D"
    }
  ]

可以看到DALL·E3画出来的小水獭确实比DALL·E2好不少!

声音合成 TTS

通过文本到语音 API 生成高质量的人类语音。新的 TTS 模型提供了六种预设声音可供选择,以及两种模型变体,tts-1 和 tts-1-hd。tts 优化了实时使用情况,tts-1-hd 优化了音质。定价从每输入 1,000 个字符的 $0.015 开始。

价格对比:

图片图片

API实战

API文档:Audio API[11]

请求

curl https://proxy.hehanwang.com/v1/audio/speech \
  -H "Authorization: Bearer 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" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
  }' \
  --output speech.mp3

责任编辑:武晓燕 来源: 程序员鹤涵
相关推荐

2023-04-11 14:13:23

阿里AI

2023-05-04 06:28:51

GPT-4OpenAI

2023-11-26 17:50:00

AI模型

2023-11-08 13:05:37

AI训练

2023-11-08 07:55:48

2023-05-10 17:33:56

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-07 09:32:57

GPT-4OpenAI

2023-06-14 14:57:38

模型AI

2023-12-17 22:04:04

微软GPT-4

2024-05-28 14:40:00

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-03-16 17:28:59

技术AI

2023-06-19 08:19:50

2011-03-08 14:08:22

MongoDB

2024-01-23 07:33:12

PolarDB开源数据库云原生

2023-04-04 09:09:10

GPT-4编程程序员

2023-03-16 08:13:56

人工智能​OpenAI

2023-03-30 08:03:29

代码GPT-4编辑器
点赞
收藏

51CTO技术栈公众号