预测未来模型能力!微调揭示LLM涌现能力的关键在加州大学伯克利分校的智慧殿堂中,一群天才研究者们正试图解开现代大型语言模型(LLM)扩展中的一个根本性难题:涌现能力的不可预测性。想象一下,你正在训练一个语言模型,它的预训练损失随着计算量的增加而可预测地下降,就像一个乖巧的学生按部就班地学习。但当涉及到下游任务时,情况就变得复杂了——有时模型会在某个看似随机的点上突然“开窍”,这种“涌现”现象让预测未...
2024-12-09 09:10:30 427浏览 0点赞 0回复 0收藏
预测未来模型能力!微调揭示LLM涌现能力的关键在加州大学伯克利分校的智慧殿堂中,一群天才研究者们正试图解开现代大型语言模型(LLM)扩展中的一个根本性难题:涌现能力的不可预测性。想象一下,你正在训练一个语言模型,它的预训练损失随着计算量的增加而可预测地下降,就像一个乖巧的学生按部就班地学习。但当涉及到下游任务时,情况就变得复杂了——有时模型会在某个看似随机的点上突然“开窍”,这种“涌现”现象让预测未...
2024-12-03 15:46:55 458浏览 0点赞 0回复 0收藏
在3D世界中,寻找任何物体的一部分听起来像是科幻小说中的情节,但加州理工学院的ZiqiMa、YisongYue和GeorgiaGkioxari却将其变成了现实。他们开发的FIND3D模型,不仅能够根据任何文本查询分割任何物体的任何部分,还能在开放世界中零距离应用。想象一下,你只需说“汽车的轮子”,FIND3D就能精确地找到并分割出这个部分,无论是从网络上的3D资产,还是从iPhone拍摄的照片中重建的3D模型。FIND3D的背后是一个由2D基础模型(如SAM...
2024-11-27 11:21:37 487浏览 0点赞 0回复 0收藏
你是否曾为ChatGPT生成的那首“惊艳”诗歌而赞叹不已?又或是被GPT4编写的“神级”剧本所折服?然而,华盛顿大学和艾伦人工智能研究所的最新研究却给我们泼了一盆冷水——AI的“创意”,其实不过是“拼凑大师”罢了!研究人员们开发了一套名为“创意指数”(CREATIVITYINDEX)的评估体系,通过分析文本中与网络文本的相似度,来衡量AI的“创意”程度。结果令人惊讶——专业人类作者的“创意指数”平均比AI高出66.2%!这简直就像...
2024-11-25 10:10:56 516浏览 0点赞 0回复 0收藏
机器人操作领域一直致力于让机器人学会执行复杂任务,从模仿学习人类示范中汲取经验是一个重要方法。但收集大量人类示范数据成本高昂且耗时,尤其对于长周期任务而言,这一问题更为突出。为解决这一困境,NVIDIA的研究团队提出了SkillMimicGen(SkillGen)系统。该系统能够从少量人类示范中生成大量高质量的演示数据集,为机器人学习提供充足的数据支持。今天我们就一起来学习一下这篇论文吧!1.任务分解与技能抽象SkillGen的核...
2024-10-28 12:45:15 729浏览 0点赞 0回复 0收藏
今天我们介绍来自普林斯顿NLP组的一篇很有意思的博客,作者提出了大语言模型中自我发现的苏格拉底方法。一、核心内容(一)多智能体协作解决问题(有人类参与)智能体角色分配文中提到在涉及基于大型语言模型的智能体和人类参与的多智能体协作解决问题领域十分引人关注。通过给大型语言模型赋予如“分析员”或“校对员”等不同角色,能够有效利用它们各自的优势,增强整体解决问题的能力。这种角色分配就像是在一个团队中,每个...
2024-10-21 15:08:31 827浏览 0点赞 0回复 0收藏
大语言模型(LLMs),以及一般的语言模型(LMs),催生了一种新的编程方式,其中“指令”不再是明确的应用程序编程接口(APIs),而是像英语这样的自然语言语句。该领域(一个被称为提示工程的新领域)的专家通过组合特定的关键词、提示格式,甚至认知模型来对他们的语言模型进行编程——或者从语言模型中引出特定行为。过去两年表明,语言模型可以产生广泛的变革性影响,但在无缝集成到更大的程序环境方面存在固有局限。它们对...
2024-10-21 15:05:09 585浏览 0点赞 0回复 0收藏
自从JohnSchulman、JanLeike等大牛离职加入Anthropic,AISafety&Alignment的研究中心也逐渐由OpenAI转移到Anthropic。今天,小编就带来一篇来自Anthropic的AI安全相关的论文解读,搬起小板凳一起吧!一、前沿模型带来的潜在风险随着前沿语言模型能力的不断提升,它们所带来的潜在灾难性风险受到了广泛关注。像OpenAI、Anthropic等前沿实验室都在进行部署前的风险测试。这些风险通常包括模型被外部行为者滥用,比如在生物风险、...
2024-10-21 10:24:38 628浏览 0点赞 0回复 0收藏
人工智能领域正经历着范式转变,基础模型(如GPT4、LLAMA2)处于核心位置,驱动着技术创新和大量投资。这引发了对其监管的广泛需求。而在关于如何监管基础模型的讨论中,模型的发布过程至关重要。近日,由斯坦福大学基础模型研究中心主任PercyLiang领导的论文《ConsiderationsforGoverningOpenFoundationModels》发表在Science,对开源大模型治理与监管进行了深入探讨,今天我们就一起学习一下这篇重要论文吧!一、基础模型的发...
2024-10-15 15:36:34 1030浏览 0点赞 0回复 0收藏
在自然语言处理(NLP)领域,语言模型程序(LanguageModelPrograms)正逐渐成为推动任务进展的关键力量。这些由多个模块化语言模型(LM)调用组成的复杂管道,为解决复杂的NLP任务提供了新的思路和方法。然而,构建这些管道并非易事,其中一个关键挑战就是如何优化提示(prompts),使得所有模块都能高效协同工作。今天我们就来介绍一篇来自DSPy一作、斯坦福大学博士生、并且即将成为MIT助理教授的OmarKhattab领导的一项有意思...
2024-10-11 19:39:26 507浏览 0点赞 0回复 0收藏
在深度学习的世界里,Boltzmann机器是一种很有趣的模型,通过概率来理解数据。想象一下,我们有很多变量,它们之间的关系就像一张复杂的网。Boltzmann机器就是试图描述这些变量之间的概率关系。它有不同的版本,比如深Boltzmann机器(DBM)和受限Boltzmann机器(RBM)。RBM是一种比较常用的形式,它避免了模型同一层内的连接,这样可以使用更高效的基于块的近似推理方法。但是,我们不禁要问,除了这种限制,还有没有其他的限制...
2024-10-10 13:10:39 990浏览 0点赞 0回复 0收藏
一、引言OpenAI发布的草莓o1模型为评估大语言模型(LLMs)在规划和调度基准上的进展提供了新的机会,但是它的规划能力到底怎么样呢?近期,规划领域泰斗SubbaraoKambhampati教授领衔的论文对其进行了研究,旨在全面评估o1在既定规划和调度基准上的性能,并展示如何通过将大型推理模型(LargeReasoningModel,LRM)嵌入到带有可靠验证器的循环中,为其输出提供正确性保证并提高性能。SubbaraoKambhampati一直是经典AI的代表人物,...
2024-10-08 11:08:18 1066浏览 0点赞 0回复 0收藏
人类智能的一个独特特征是能够将面向任务的行为与语言推理(或称作内心独白)无缝结合。理论上,这被认为是人类认知中的重要一环,能够实现自我调节或策略化并维持工作记忆。以在厨房烹饪一道菜为例,在任何两个具体行为之间,我们可能会:(1)用语言进行推理以跟踪进度(例如“现在一切都切好了,我应该把水壶里的水加热”);(2)处理异常情况或根据情况调整计划(例如“我没有盐,所以让我用酱油和胡椒代替”);(3)意识...
2024-09-18 13:56:23 857浏览 0点赞 0回复 0收藏
2024年,大语言模型智能体LLMAgent吸引了越来越多人的关注,各种技术层出不穷。相比于传统机器学习方法,LLMAgent借助于大语言模型的涌现能力,能够实现少样本、零样本学习,并且能够实现与现实物理世界的交互。如何入门这一令人兴奋的领域呢?小编找到了OpenAI研究员LilianWeng分享的博客,并全文翻译过来,原文地址:https:lilianweng.github.ioposts20230623agent构建以大型语言模型(LLM)为核心控制器的智能体是一个极富创...
2024-09-13 12:45:00 1524浏览 0点赞 0回复 0收藏
模拟在推动机器人学习方面发挥了重要作用,通过提供一个受控而多变的环境来开发和测试算法。特别是数据驱动方法通常将机器人部署到仿真环境中,在各种多样化和随机化的设置中进行广泛训练,以实现可泛化和适应性强的行为。通过随机化物体形状、纹理和动态特性,机器人学习取得了显著进展。然而,尽管物体属性是一个关键因素,但物体布局仍然具有挑战性,难以实现完全开放式的随机化。与可以在不干扰其他物体的情况下轻松指定范...
2024-07-11 13:24:04 1089浏览 0点赞 0回复 0收藏
强化学习(RL)在复杂任务上取得了令人瞩目的成果,但在具有不同实施方式的多任务设置中存在困难。世界模型通过学习环境的模拟来提供可伸缩性,但它们通常依赖于低效的无梯度优化方法。近日,佐治亚理工学者联合英伟达、加州大学圣地亚哥分校等学者提出了基于大世界模型的策略学习(PWM),这是一种新颖的基于模型的RL算法,它从大型多任务世界模型中学习连续控制策略。通过对离线数据进行世界模型的预训练,并将其用于一阶梯度...
2024-07-08 08:01:47 1078浏览 0点赞 0回复 0收藏
想象一下,拥有一个不仅能回答问题,还能浏览网页、解决复杂数学问题、编写代码,甚至能推理图像和基于文本的游戏的数字助手。听起来好得难以置信好吧,准备好迎接人工智能的未来,因为随着LUMOS的引入,它变得更加易于获取和透明。在一项突破性的发展中,来自艾伦人工智能研究所、UCLA和华盛顿大学的研究人员推出了LUMOS,这是一个开源框架,有望彻底改变我们与语言代理的交互方式。与现有的闭源解决方案不同,LUMOS提供了前所未有的可负...
2024-06-24 16:08:17 1113浏览 0点赞 0回复 0收藏
近日,微软的AzureAI团队在HuggingFace上发布了一个名为Florence2的新视觉基础模型。该模型以宽松的MIT许可证可用,可以处理各种视觉和视觉语言任务,使用统一的基于提示的表示形式。它有两个尺寸——232M和771M个参数,并且在字幕生成、目标检测、视觉定位和分割等任务上已经表现出色,与许多大型视觉模型相媲美甚至更好。尽管该模型的实际性能尚待测试,但这项工作预计将为企业提供一种处理不同类型视觉应用的统一方法。这将...
2024-06-21 14:31:45 2186浏览 0点赞 0回复 0收藏
教育数据中的课堂对话等信息包含了关于学生学习方式的大量洞察。但是,处理和分析这些数据是相当痛苦的。近日,斯坦福大学研究团队提出EduConvoKit,这是一个能够为你处理预处理、注释和分析的流程!用于规模化教育的语言工具令人感到兴奋,因为正在摆脱仅以标准化考试成绩衡量学习的过度简化观点......而转向以学生思维和教学法为基础的语言评估。仓库链接:https:github.comstanfordnlpeduconvokit来看看EduConvoKit的实际应...
2024-06-20 13:10:13 806浏览 0点赞 0回复 0收藏
动机离线强化学习(RL)和模仿学习之间的主要区别在于使用价值函数,并且离线RL中的大多数先前工作都侧重于使用更好的技术学习更好的价值函数。所以价值函数学习是离线RL的主要瓶颈……对吗?在这项工作中,研究人员表明,实践中情况往往并非如此!分析离线强化学习的瓶颈这项工作的主要目标是了解离线RL的性能在实践中如何受到瓶颈限制。离线RL有三个潜在瓶颈:(B1)数据价值评估不完善(B2)从学习到的价值函数中提取不完善的...
2024-06-18 12:40:28 901浏览 0点赞 0回复 0收藏