AI论文解读
LV.4
轻松掌握AI前沿技术进展,实时追踪AI动态,互动交流,共同成长
声望 601
关注 0
粉丝 1
私信
主帖 52
回帖
原文链接:​​​​https:arxiv.orgabs2501.19393​​​​代码链接:​​https:github.comsimplescalings1​​​Testtimescaling是一种语言建模方法,它利用额外的测试时计算资源来提升性能,OpenAI的o1模型近期也证实了这一方法的有效性。本文旨在探寻实现Testtimescaling以及强大推理性能的最简途径。主要贡献精心策划小型数据集s1K:该数据集包含1000个问题,并配有推理过程,其构建基于难度、多样性和质量这三个标准,且通...
7天前 343浏览 0点赞 0回复 0收藏
主流RAG框架可以分为以下五个主要的进化方向:成本控制型(适合初创公司)、实时互动型(适用于财经新闻场景)、域专家类型、认知增强型、安全与合规类型。接下来,让我们详细了解一下这25种RAG变体。1.标准RAG一个基本的RAG系统由检索模块和生成模块组成。系统会对查询进行编码,检索相关的文档块,然后为基于transformer的LLM构建丰富的提示。查询编码器:使用预训练的转换器(例如DPR)生成密集的查询嵌入。代码实现如下:fr...
7天前 585浏览 0点赞 0回复 0收藏
VLLM是一款经过优化的推理引擎,在令牌生成速度和内存管理效率上表现出色,是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架,让在本地电脑上运行开源大语言模型变得更加简单。那么,这两个框架该选哪一个呢?接下来,我们会从性能、易用性、适用场景、替代方案,以及详细的安装步骤等方面进行全面对比,帮助你做出更合适的选择。一、VLLM和Ollama是什么?基础知识解析在深入探讨之前,我们先来了解一下这两个框...
2025-02-06 14:27:43 1973浏览 0点赞 0回复 0收藏
1.引言许多大语言模型成功的核心在于编码器解码器架构,这一框架在机器翻译、文本摘要和对话式人工智能等任务中取得了突破性进展。编码器解码器架构的提出是为了解决序列到序列(Seq2Seq)问题,这在处理顺序数据方面是一个重大突破。1.1数据处理的主要发展表格数据最初,人们专注于利用人工神经网络(ANNs)来处理表格数据。通过增加网络层数,这种方法逐渐演变为深度神经网络(DNNs),从而增强了模型捕捉数据中复杂模式的能...
2025-01-22 12:59:12 1031浏览 0点赞 0回复 0收藏
引言:数据选择对于微调大型语言模型的重要性在当今的人工智能领域,大型语言模型(LLMs)的发展已经达到了令人瞩目的高度,它们不仅能够生成接近真实人类语言的文本,还能够完成许多经典的自然语言处理(NLP)任务。这些模型如GPT和BERT等,通过在大规模数据集上进行预训练,已经展示出了强大的语言理解和生成能力。然而,要使这些模型在特定的下游任务中达到最佳表现,仅仅依靠预训练是不够的,这就需要通过微调(finetuning...
2025-01-13 11:12:21 1155浏览 0点赞 0回复 0收藏
一、引言在大语言模型(LLM)的蓬勃发展浪潮中,开源与闭源模型竞相角逐。开源阵营的DeepSeek系列持续演进,DeepSeekV3重磅登场,其以671B的庞大总参数量和独特创新设计,在性能上脱颖而出,成为研究焦点,有力推动了自然语言处理领域的发展进程,为开源模型在智能语言处理领域争得重要席位。报告地址:​​https:github.comdeepseekaiDeepSeekV3blobmainDeepSeekV3.pdf​​项目地址:​​https:github.comdeepseekaiDeepSeekV3...
2025-01-03 12:59:05 6183浏览 0点赞 0回复 0收藏
一、O3究竟是什么?1.名称由来为避免版权纠纷,OpenAI放弃了o2的命名,直接将其称为o3。图片2.编程能力在编程领域,o3取得了惊人的成绩。在人类在线编程竞技平台codeforces上,o3模型的Elo得分达到2727分,排名第175位。在168076名全球参赛程序员中,o3击败了99.9%的程序员,超越了此前的GPT4o和o1等模型。这意味着o3在编程竞技中已达到顶尖水平,甚至超越了许多大厂中众多程序员的实力。要知道,字节跳动、腾讯、阿里等大厂都...
2024-12-25 11:53:00 429浏览 0点赞 0回复 0收藏
近日,ICLR2025评审结果揭晓,一篇论文脱颖而出,获得了罕见的[10,10,10,10]满分成绩。这篇论文便是ControlNet作者张吕敏的新作ICLight。在平均分仅为4.76的ICLR会议中,满分论文的出现无疑引起了学术界和业界的广泛关注。论文标题:ScalingIntheWildTrainingforDiffusionbasedIlluminationHarmonizationandEditingbyImposingConsistentLightTransport论文链接:https:openreview.netpdfidu1cQYxRI1H项目成果展示在向ICLR投稿前...
2024-12-17 12:35:26 2287浏览 0点赞 0回复 0收藏
引言:探索数据有效学习的新视角在人工智能领域,预训练大型基础模型已成为提升模型性能和泛化能力的标准做法。然而,随着研究的深入,传统观念受到质疑:更多的预训练数据是否总能带来更好的模型性能?为了探索这一问题,研究者们提出了数据有效学习(dataeffectivelearning)的概念,旨在通过优化样本选择来提高模型性能,即使在样本数量较少的情况下也能取得出色的效果。本文将重点介绍一种新的数据有效学习方法——最优化数...
2024-12-12 12:06:33 494浏览 0点赞 0回复 0收藏
引言:探索精确学习的重要性在少样本学习领域,如何使模型从有限的数据中学习到精确且具有泛化能力的知识,是一个挑战也是研究的热点。传统的元学习方法,如模型无关的元学习(MAML)及其变体,虽然在快速适应新任务方面表现出色,但仍存在一些问题,如模型倾向于学习简单的、直接的特征(如颜色、背景等),这些特征在元训练阶段足以区分极少数的类别,但却不利于模型的泛化能力。为了解决这一问题,本文提出了“精确学习”的...
2024-12-05 11:34:13 826浏览 0点赞 0回复 0收藏
研究背景•研究问题:这篇文章要解决的问题是如何在大规模推理模型(LRM)中实现开放式推理,特别是在没有明确标准和难以量化的奖励的情况下。具体来说,研究了如何使o1模型能够有效地泛化到没有明确标准的更广泛领域。•研究难点:该问题的研究难点包括:在没有明确标准的情况下进行推理,奖励的量化挑战,以及如何在复杂现实世界问题解决任务中优化模型的性能。•相关工作:该问题的研究相关工作包括OpenAI的o1模型,它在AIME...
2024-11-27 15:04:40 1141浏览 0点赞 0回复 0收藏
1引言共指消解(CR)是文本理解的一个基本任务。尽管LLMs在广泛的NLP任务上取得了巨大进展,但它们在CR上的表现相对不尽人意,甚至在指称检测上也面临困难。通过广泛分析,Gan等人(2024)的工作已经确定,在典型的CR设置中,由于基于跨度的输出格式不适合LLMs,因此低估了LLMs出色的指称理解能力。他们建议调整CR数据集和任务指标,以支持LLMs的评估。沿着这些思路,我们创建了IdentifyMe基准测试,用于MCQ格式的指称消解,这...
2024-11-20 14:48:25 880浏览 0点赞 0回复 0收藏
研究背景这篇文章研究了商业微调API在将新知识注入大型语言模型(LLMs)和更新现有知识方面的效果。尽管OpenAI和Google等提供商提供的商业LLMs微调API具有灵活的应用适应性,但其有效性尚不清楚。该问题的研究难点包括:微调方法的不透明性、缺乏统一的基准评估、用户对超参数优化的限制以及模型在处理新知识和更新知识时的泛化能力有限。相关工作:该问题的研究相关工作包括监督微调、强化学习从人类反馈、检索增强生成等方法...
2024-11-14 14:42:07 636浏览 0点赞 0回复 0收藏
在人工智能的浪潮中,大型语言模型凭借其强大的对话理解和生成能力,引领了智能对话技术的潮流。企业和个人对于私有化智能服务的需求日益增长,将这样的大模型部署为专属服务显得尤为重要。今天,让我们一起探索如何将大模型私有化部署,构建你的智能助手。1.环境准备首先确保你有一套满足硬件要求的服务器或云环境,通常需要有一块性能良好的GPU,足够的内存和存储空间来容纳模型和运行日志。此外,选择合适的操作系统(如Ubun...
2024-11-07 14:15:52 549浏览 0点赞 0回复 0收藏
本文提出了一种名为“HypotheticalMinds”的模型,该模型结合了大语言模型和多智能体强化学习,通过在自然语言处理的框架下生成、评估和细化关于其他智能体策略的假设,来提高智能体在多智能体环境中的表现。该模型在多种竞争性、合作性和混合动机的多智能体环境中均显示出优越的性能,特别是在处理隐藏信息和策略推理方面。HypotheticalMinds模型简介1.模型架构与组件HypotheticalMinds模型是一个基于大型语言模型(LLM)的自...
2024-11-01 15:25:09 1471浏览 0点赞 0回复 0收藏
在深度神经网络的训练过程中,全量化训练(FullyQuantizedTraining,FQT)通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程。随着对训练数值精度的不断压缩,一个自然而然的问题浮现出来:全量化训练的极限是什么?即,能够实现的最低位宽是多少?理想情况下,如果能将位宽压缩到1位,训练将可以通过二进制操作实现,这不仅能极大简化硬件设计,还可能在保持训练质量的前提下,实现极致的计算效率。本文首次尝试将...
2024-10-29 11:40:55 878浏览 0点赞 0回复 0收藏
论文标题:LLMGeneratedNaturalLanguageMeetsScalingLaws:NewExplorationsandDataAugmentationMethods机构:SchoolofInformationResourceManagement,RenminUniversityofChinaSchoolofComputing,NationalUniversityofSingapore论文链接:​​https:arxiv.orgpdf2407.00322.pdf​​在人工智能领域,大型语言模型(LLM)如GPT4的出现引起了广泛关注,特别是它们在自然语言处理(NLP)中的应用。这些模型通过生成与人类自然语言(HNL)...
2024-10-23 13:30:34 912浏览 0点赞 0回复 0收藏
引言:探索视觉语言对比预训练中的噪声和低质量标注问题在视觉语言对比预训练中,噪声和标注质量被认为是影响训练效果的重要因素。本文通过深入研究和分析训练过程中的两个主要问题——错误的负样本对分配和低质量及多样性不足的标注——揭示了通过解决这些问题来提高训练质量的潜力尚未被完全实现。首先,我们研究了影响对比学习的噪声问题,即在一个批次中可能会发现语义相似甚至相同的图像标注被错误地视为负样本对。其次,...
2024-10-17 15:29:58 1403浏览 0点赞 0回复 0收藏
引言:视频动态场景中的模糊问题及其挑战这篇论文主要研究了动态场景视频去模糊技术,旨在消除拍摄过程中产生的不想要的模糊瑕疵。然而,尽管之前的视频去模糊方法取得了显著的成果,但由于训练和测试视频之间的域差距,导致在真实世界场景中的表现大幅下降。为了解决这个问题,作者提出了一种基于模糊模型的域自适应方案,通过测试时的模糊来实现去模糊模型在未知域的微调。首先,作者提出了一个相对清晰度检测模块,用于从模...
2024-10-14 14:50:18 1270浏览 0点赞 0回复 0收藏
本文提出了mllmNPU,这是第一个有效利用设备上神经处理单元(NPU)卸载的LLM推理系统。mllmNPU的主要设计目标是减少预填充延迟和能耗。它针对主流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思想是最大限度地在移动NPU上执行预填充,以加速整数计算,同时保持在CPUGPU上执行必要的浮点操作以保持准确性。为了克服上述挑战并提高NPU卸载效率,mllmNPU在三个层面上重构了提示和模型:(1)在提示层面:mllmNPU将可变...
2024-10-10 15:45:14 857浏览 0点赞 0回复 0收藏
获得成就
已积累 1.7w 人气
获得 3 个点赞
获得 3 次收藏