Zero-Shot提示的局限性
在日前举办的Snowflake数据云峰会上,LandingAI公司创始人兼首席执行官Andrew Ng博士进行精彩的演讲。他分享了他对人工智能代理工作流程的潜力的见解,以彻底改变人工智能领域。Andrew Ng博士认为,这些迭代的、多步骤的方法可能会比开发更强大的基础语言模型带来更大的进步。
传统的语言模型,例如GPT-3.5和GPT-4,已经在零提示方面展示了非凡的能力,其中模型根据单个提示生成输出,而无需任何修改。然而,这种方法类似于要求一个人从头到尾写一篇文章,不允许他们退格或做任何编辑。尽管结果令人印象深刻,但这种方法也有局限性。
代理工作流的承诺
相比之下,代理工作流使人工智能模型能够以更迭代和类似人类的方式解决问题。这些工作流允许模型将任务分解为更小的步骤,收集信息,生成草稿,然后修改和改进其工作。这种方法在编码和计算机视觉应用中都显示出重大的前景。
Andrew Ng博士展示了比较GPT-3.5和GPT-4在Human Eval编码基准上的性能的数据。虽然GPT-4在零射击提示方面优于GPT-3.5,但真正的突破是将GPT-3.5包裹在代理工作流中。这种组合获得了与GPT-4相当的结果,表明迭代过程可能与底层模型的能力一样重要。
Landing AI的视觉代理
Landing AI最近开源了它的视觉代理(Vision Agent),展示了代理工作流程在计算机视觉任务中的潜力。通过提供提示,例如“计算这段冲浪视频中与鲨鱼的距离”,视觉代理可以生成一系列指令,检索必要的工具(函数),并生成代码来分析视频并输出所需的结果。
视觉代理由两个组件组成:代码代理和测试代理。代码代理首先运行计划器来分解任务,检索所需工具的详细描述,然后生成代码。然后,测试代理为生成的代码编写测试,执行测试,并向代码代理提供反馈以进一步细化。
例子和限制
Andrew Ng通过几个例子展示了Vision Agent的能力,包括分析一段车祸视频,突出显示闭路电视镜头中有趣的部分,以及在图像中检测蒙面和未蒙面的人员。虽然视觉代理并不完美,有时会遗漏对象或需要及时改进,但它展示了代理工作流程的潜力,可以简化复杂的计算机视觉任务。
代理工作流的含义超出了编码和计算机视觉。通过使人工智能模型能够计划、研究、生成和修改其输出,这些工作流程可以在自然语言处理、数据分析和创造性应用等各个领域取得重大进展。
人工智能发展的未来
随着人工智能的不断发展,探索能够释放这些技术全部潜力的新方法至关重要。虽然像GPT-4这样的基础模型已经突破了可能的界限,但代理工作流可能是推动该领域取得更大进展的关键。
Andrew Ng的演讲呼吁开发人员和研究人员采取行动,拥抱代理工作流并为其发展做出贡献。通过协作和构建开源项目,例如LandingAI的Vision Agent,AI社区可以加速采用和改进这些强大的技术。
总之,Andrew Ng博士在DevDay上的演讲强调了人工智能代理工作流程在推动人工智能进步方面的巨大潜力,甚至可能超过下一代基础模型的影响。通过使人工智能模型能够以更迭代和类似人类的方式解决问题,这些工作流程可能会在编码、计算机视觉等方面取得突破。随着人工智能社区继续探索和完善这些方法,可能正处于人工智能新时代的风口上,这个时代有望改变行业,重塑我们对人工智能可能性的理解。