具身人工智能的目标是使机器人或虚拟代理能够像人类一样理解和操作其所在的物理环境,而空间推理被视为实现具身任务规划的关键能力。导航和操作任务是具身AI中常见的挑战,依赖于模型对空间关系的理解和高效执行复杂任务的能力,但现有方法在处理复杂空间推理任务时仍面临诸多局限,难以满足实际应用的需求。现有方法大多通过补充空间数据和模型微调来提升空间推理能力,可是这些方法主要依赖于语言生成的粗粒度结果,难以在复...
多智能体系统研发正在快速发展,过去一年我们曾分析41篇研究多智能体的论文,说明自主代理系统的研究正逐渐成为一个炙手可热的话题。为了使这些系统能够与人类用户和其他系统有效互动,确保其行为的可纠正性(corrigibility)和一致性(alignment)是至关重要的。1月11日,arXiv发表的艾伦图灵研究所的最新成果《OnCorrigibilityandAlignmentinMultiAgentGames》,这篇论文聚焦于多代理环境中的自主代理的可纠正性问题,并提出...
随着数字视频内容的爆炸式增长,如何有效地进行视频主题分割成为了一个亟待解决的问题。视频主题分割的目标是将视频内容按主题进行划分,以便更好地理解和管理视频信息。这不仅在视频检索和推荐系统中起到关键作用,还能提升视频编辑和生成摘要的效率。在教育和娱乐领域,视频主题分割同样能够极大地促进内容分类和个性化推荐。在视频内容分析领域,多模态数据的融合和一致性建模是当前的研究热点。多模态数据包括视频中的视觉...
2025-01-02 13:41:16 261浏览 0点赞 0回复 0收藏
一年多以来,强化学习(RL)在许多重要的顺序决策问题上取得了惊人的进展,随着问题的复杂性不断增加,研究领域也逐渐从单智能体强化学习算法转向多智能体强化学习(MARL)算法,这些算法在各种领域中发挥着越来越重要的作用,如无人驾驶飞机、工业机器人、相机网络和自动驾驶等。但是深度RL策略通常缺乏可解释性,使得人类很难理解和信任这些策略。在多智能体系统(MAS)中,由于智能体之间的交互和依赖性,这一问题更为突出。...
2024-12-24 13:55:05 575浏览 0点赞 0回复 0收藏
本期推出一种基于快速傅里叶卷积的FFCResNet的网络模型,通过把ResNet中常规卷积替换为快速傅里叶卷积,提升了卷积神经网络(CNN)的性能,并应用在轴承故障诊断任务上,取得了不错的效果!通过巧妙融合快速傅里叶变换(FFT)的卓越性能,快速傅里叶卷积(FFC)成为了执行卷积操作的高效利器,尤其是在渴求全局性上下文理解与跨尺度特征无缝融合的场景下展现出了非凡优势。这种创新性的频域处理手段,不仅显著提升了特征提取的...
2024-12-16 11:04:20 446浏览 0点赞 0回复 0收藏
DeepSeekVL2:一个先进的大型混合专家(MoE)视觉语言模型系列,它显著改进了其前身DeepSeekVL。DeepSeekVL2在多种任务上展现出卓越的能力,包括视觉问题回答、光学字符识别、文档表格图表理解以及视觉定位。图片包括三个变体:DeepSeekVL2Tiny、DeepSeekVL2Small和DeepSeekVL2,分别拥有10亿、28亿和45亿激活参数。与现有的开源密集型和基于MoE的模型相比,DeepSeekVL2在相似或更少的激活参数下实现了竞争性或最先进的性能。...
2024-12-16 10:44:12 481浏览 0点赞 0回复 0收藏
情绪分析作为自然语言处理和人工智能领域的重要研究方向,近年来受到了广泛关注。情绪分析技术能够自动识别和理解文本、音频、视频等多种数据中的情绪信息,在社交媒体监控、客户服务、心理健康评估等多个领域具有重要应用价值。例如,通过情绪分析,企业可以更好地了解客户反馈,改进产品和服务;心理健康专家可以通过分析患者的情绪变化,提供更精确的诊断和治疗建议。然而,单一模态的情绪分析(如纯文本或纯音频)存在一定...
2024-12-16 10:24:04 667浏览 0点赞 0回复 0收藏
离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况,多智能体环境涉及到大规模的联合状态动作空间和多智能体间的耦合行为,这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居和机器人协作等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂,其涉及庞大的联合状态动作空间和多智能体间...
2024-12-12 10:41:36 589浏览 0点赞 0回复 0收藏
智能体故障对多智能体强化学习(MARL)算法的性能构成了显著威胁,主要带来两大挑战。智能体常常难以从由意外故障引发的混乱状态空间中提取关键信息。其次回放缓冲区中记录的故障前后转变不均衡,导致训练样本失衡问题。为了解决这些问题,来自清华大学自动化系和QiYuanLab(启源实验室)的联合团队通过结合优化的模型架构和定制的训练数据采样策略来增强MARL的故障容错能力。具体而言,研究团队在actor和critic网络中引入了注...
2024-12-04 12:15:04 885浏览 0点赞 0回复 0收藏
在2023年,检索增强型生成(RAG)技术占据了主导地位,而在2024年,智能体工作流程正在推动巨大的进步。使用AI智能体为构建更强大的、健壮的、多功能的大型语言模型(LLM)驱动的应用开辟了新的可能性。其中一个可能性是在智能体RAG流程中增强RAG流程中的AI智能体。智能体RAG的基础知识什么是检索增强型生成(RAG)检索增强型生成(RAG)是一种构建LLM驱动应用的技术。它利用外部知识源为LLM提供相关上下文,减少幻觉现象。一个...
2024-11-26 15:30:21 746浏览 0点赞 0回复 0收藏
随着自动驾驶技术的快速发展,人们对于自主车辆的期待也在不断提高。然而,尽管现有的技术已经能够实现车辆在高速公路上的自动驾驶,以及无人驾驶出租车在主要城市开始运营,技术上所谓的“L5”全自动驾驶仍未完全实现。实现这一目标需要解决多个技术难题,其中之一便是提供能够在高速公路匝道入口安全、可靠运行的全自动控制功能。现阶段的自动驾驶技术虽然取得了显著进展,但仍面临许多挑战。社会普遍认为自动驾驶汽车需要比...
2024-11-26 15:19:48 1101浏览 0点赞 0回复 0收藏
集体智慧(CollectiveIntelligence,CI)在许多领域都扮演着至关重要的角色。无论是在经济学、进化理论,还是在神经网络和社会性昆虫的研究中,集体智慧都展现出了其广泛的应用前景。在经济学中,市场行为往往可以被视为一种集体智慧的表现,个体的决策汇聚成市场的集体行为,这种现象在信息传播、价格形成等方面尤为明显。在进化理论中,集体智慧则体现在物种的协同进化过程中,例如蚂蚁和蜜蜂的群体行为,这些社会性昆虫通过...
2024-11-19 14:47:15 1120浏览 0点赞 0回复 0收藏
大模型在许多任务上表现优异,但是它们在社交情境中的判断能力仍是一个亟待解答的问题。社会情境判断不仅涉及对情境的理解,还包括适应和回应他人行为的能力。11月10日《自然》科学报告子刊发布文章《Largelanguagemodelscanoutperformhumansinsocialsituationaljudgments》,研究的目的正是为了探讨LLM能否在这方面与人类匹敌甚至超越人类。这项研究通过情境判断测试(SJT)对多款聊天机器人的表现进行了评估,并将其与人类参...
2024-11-13 14:49:51 545浏览 0点赞 0回复 0收藏
人工智能代理(智能体)已经单独或在小组内进行了评估,其中交互的范围和复杂性仍然有限。涉及许多自主主体的大规模模拟——反映了整个文明过程——尚未得到探索。Altera.AL是一家专注于创建数字人类的研究公司,他们的使命是创建能够与我们共生、成长的数字人类。这家公司集结了来自MIT、斯坦福、谷歌X和Citadel等顶级机构的计算神经科学家、计算机科学家和工程师,旨在推动这一前沿研究。他们的使命不仅仅是设计出智能代理,...
2024-11-06 14:28:52 817浏览 0点赞 0回复 0收藏
让智能体在不断变化的环境中动态适应、并有效合作是一个巨大的挑战,特别是当智能体需要与陌生的智能体互动时,传统训练方法往往表现不佳。这种情况下,引入逆向注意力智能体(InverseAttentionAgents)成为了一种创新且有效的解决方案。逆向注意力智能体的核心在于借鉴“心智理论”(TheoryofMind,ToM),通过注意力机制来推断其他智能体的目标和行为,并据此调整自己的行动。这种方法不仅能够提升智能体在合作任务中的表现,...
2024-10-31 14:44:08 664浏览 0点赞 0回复 0收藏
在人类的合作中,我们可能会遇到囚徒困境(SocialDilemmas)、悲剧的共有(TragedyoftheCommons)、公平分配问题(PublicGoodsGame)、猎人与收集者困境(StagHuntGame)、和合作网络(NetworkedCooperation)等诸多社会性合作困境,比如两个人必须决定是否与对方合作(相互协力)或是背叛(选择个人利益)。合作可以带来最大的集体收益,但个体背叛可能会导致更高的个人收益。这种情况下,我们需要在短期的个人利益和长期的集...
2024-10-28 15:14:42 706浏览 0点赞 0回复 0收藏
多模态大语言模型(MLLMs)的发展迅速,成为了人工智能研究的一个关键领域。这些模型不仅能够处理文本,还能够理解并生成视觉信息,使其在许多应用中展现出卓越的潜力。尽管在某些领域取得了显著进展,但在复杂的视觉和数学推理任务上,MLLMs的表现仍有待提高。为此,来自亚马逊、微软、谷歌DeepMind联合研究团队开发了POLYMATH,这是一个具有挑战性的基准,旨在系统地分析和评估这些模型在视觉复杂场景下的数学推理能力。通过5...
2024-10-23 11:42:52 710浏览 0点赞 0回复 0收藏
大模型在处理更复杂的问题时,仍然容易在推理过程中出现错误,导致推理路径偏离,最终影响模型的整体性能。现有的大语言模型在多步推理任务中,通常会由于推理路径中某一步骤的错误而影响整个推理过程。这些错误不仅降低了模型的准确性,还增加了计算成本和执行延迟。传统的方法如强化学习需要复杂的奖励模型,而其他偏好优化方法往往忽视了多步推理任务中错误发生的具体步骤及其后续分支。为了解决这些问题,阿里巴巴达摩院、...
2024-10-18 15:18:13 784浏览 0点赞 0回复 0收藏
近来,人工智能(AI)的迅猛发展使其在情感生成和评估领域的应用逐渐成为研究热点。AI技术尤其是生成对抗网络(GANs)和变分自编码器(VAEs),在图像生成方面取得了显著进展。然而情感生成的复杂性和主观性一直是一个挑战。图像能够传达情感,但情感体验具有高度的个人主观性,尤其是在通过AI生成图像并试图传达特定情感时。10月13日arXiv发表的论文《LEVELOFAGREEMENTBETWEENEMOTIONSGENERATEDBYARTIFICIALINTELLIGENCEANDHUM...
2024-10-16 16:01:11 2091浏览 0点赞 0回复 0收藏
在多智能体系统中,LLM的应用变得越来越普遍,通过多个LLM协作来解决复杂任务的需求日益增加。然而随着这些技术的不断进步,新的安全威胁也随之而来。提示注入攻击是一种利用恶意提示来劫持模型执行非预期操作的攻击方式。在单智能体系统中,研究人员已经发现,这些攻击可以通过嵌入恶意提示在外部文档中,诱使模型执行未授权的指令,从而危及系统安全。但是在多智能体系统中,提示注入攻击变得更加复杂且难以防范。通过代理之...
2024-10-14 14:37:15 1115浏览 0点赞 0回复 0收藏