公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

AI论文解读

LV.4

轻松掌握AI前沿技术进展，实时追踪AI动态，互动交流，共同成长

帖子 54

声望 629

关注 0

粉丝 2

社区头条作者热门内容榜上榜作者

私信

关注

主帖 54

回帖

2W8000字揭秘RAG：从基础到高级的逆袭，彻底重塑大模型！

精华

社区头条

RAG增强技术分类来源：https:arxiv.orgabs2402.19473最近一项关于检索增强生成（RAG）的调查总结了三种最新发展的范式：基础RAG高级RAG模块化RAGArepresentativeinstanceoftheRAGprocessappliedtoquestionanswering.Itmainlyconsistsof3steps.1)Indexing.Documentsaresplitintochunks,encodedintovectors,andstoredinavectordatabase.2)Retrieval.RetrievetheTopkchunksmostrelevanttothequestionbasedonsemanticsimilarity.3)G...

7天前 828浏览 0点赞 0回复 0收藏

KIMI 月之暗面提出（MoBA）大模型长文本处理新解法：块注意力混合

精华

（MoBA）大语言模型长文本处理新解法：块注意力混合在自然语言处理领域，高效处理长文本一直是个老大难问题。随着大语言模型在阅读、理解和生成文本方面的能力不断提升，其处理输入的核心——注意力机制，却逐渐成了瓶颈。在典型的Transformer架构里，这种机制要把每个词元（token）和其他所有词元进行比较，这就导致计算成本会随着序列长度的增加呈二次方增长。如今，我们把语言模型应用到长篇文档、多章节书籍、法律文书或是...

7天前 591浏览 0点赞 0回复 0收藏

s1-32B 模型：超越 o1-preview，一起探索其原因

原文链接：https:arxiv.orgabs2501.19393代码链接：https:github.comsimplescalings1Testtimescaling是一种语言建模方法，它利用额外的测试时计算资源来提升性能，OpenAI的o1模型近期也证实了这一方法的有效性。本文旨在探寻实现Testtimescaling以及强大推理性能的最简途径。主要贡献精心策划小型数据集s1K：该数据集包含1000个问题，并配有推理过程，其构建基于难度、多样性和质量这三个标准，且通...

2025-02-14 13:50:58 468浏览 0点赞 0回复 0收藏

2W8000字深度剖析25种RAG变体：全网最全没有之一

精华

社区头条

主流RAG框架可以分为以下五个主要的进化方向：成本控制型（适合初创公司）、实时互动型（适用于财经新闻场景）、域专家类型、认知增强型、安全与合规类型。接下来，让我们详细了解一下这25种RAG变体。1.标准RAG一个基本的RAG系统由检索模块和生成模块组成。系统会对查询进行编码，检索相关的文档块，然后为基于transformer的LLM构建丰富的提示。查询编码器：使用预训练的转换器（例如DPR）生成密集的查询嵌入。代码实现如下：fr...

2025-02-14 13:40:13 859浏览 0点赞 0回复 0收藏

VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？

社区头条

VLLM是一款经过优化的推理引擎，在令牌生成速度和内存管理效率上表现出色，是大规模AI应用的理想之选。Ollama则是一个轻量级、易上手的框架，让在本地电脑上运行开源大语言模型变得更加简单。那么，这两个框架该选哪一个呢？接下来，我们会从性能、易用性、适用场景、替代方案，以及详细的安装步骤等方面进行全面对比，帮助你做出更合适的选择。一、VLLM和Ollama是什么？基础知识解析在深入探讨之前，我们先来了解一下这两个框...

2025-02-06 14:27:43 5518浏览 0点赞 0回复 0收藏

深入探究编码器 - 解码器架构：从RNN到Transformer的自然语言处理模型

精华

1.引言许多大语言模型成功的核心在于编码器解码器架构，这一框架在机器翻译、文本摘要和对话式人工智能等任务中取得了突破性进展。编码器解码器架构的提出是为了解决序列到序列（Seq2Seq）问题，这在处理顺序数据方面是一个重大突破。1.1数据处理的主要发展表格数据最初，人们专注于利用人工神经网络（ANNs）来处理表格数据。通过增加网络层数，这种方法逐渐演变为深度神经网络（DNNs），从而增强了模型捕捉数据中复杂模式的能...

2025-01-22 12:59:12 1307浏览 0点赞 0回复 0收藏

中科大揭秘微调大模型的秘诀：如何精准选择数据提升AI性能

精华

引言：数据选择对于微调大型语言模型的重要性在当今的人工智能领域，大型语言模型（LLMs）的发展已经达到了令人瞩目的高度，它们不仅能够生成接近真实人类语言的文本，还能够完成许多经典的自然语言处理（NLP）任务。这些模型如GPT和BERT等，通过在大规模数据集上进行预训练，已经展示出了强大的语言理解和生成能力。然而，要使这些模型在特定的下游任务中达到最佳表现，仅仅依靠预训练是不够的，这就需要通过微调（finetuning...

2025-01-13 11:12:21 1256浏览 0点赞 0回复 0收藏

DeepSeek-V3 模型深度剖析：架构创新、训练优化与性能卓越

社区头条

一、引言在大语言模型（LLM）的蓬勃发展浪潮中，开源与闭源模型竞相角逐。开源阵营的DeepSeek系列持续演进，DeepSeekV3重磅登场，其以671B的庞大总参数量和独特创新设计，在性能上脱颖而出，成为研究焦点，有力推动了自然语言处理领域的发展进程，为开源模型在智能语言处理领域争得重要席位。报告地址：https:github.comdeepseekaiDeepSeekV3blobmainDeepSeekV3.pdf项目地址：https:github.comdeepseekaiDeepSeekV3...

2025-01-03 12:59:05 6607浏览 0点赞 0回复 0收藏

OpenAI砸碎了程序员的饭碗

一、O3究竟是什么？1.名称由来为避免版权纠纷，OpenAI放弃了o2的命名，直接将其称为o3。图片2.编程能力在编程领域，o3取得了惊人的成绩。在人类在线编程竞技平台codeforces上，o3模型的Elo得分达到2727分，排名第175位。在168076名全球参赛程序员中，o3击败了99.9%的程序员，超越了此前的GPT4o和o1等模型。这意味着o3在编程竞技中已达到顶尖水平，甚至超越了许多大厂中众多程序员的实力。要知道，字节跳动、腾讯、阿里等大厂都...

2024-12-25 11:53:00 500浏览 0点赞 0回复 0收藏

ICLR 2025惊现满分论文，ControlNet作者再出佳作

精华

社区头条

近日，ICLR2025评审结果揭晓，一篇论文脱颖而出，获得了罕见的[10,10,10,10]满分成绩。这篇论文便是ControlNet作者张吕敏的新作ICLight。在平均分仅为4.76的ICLR会议中，满分论文的出现无疑引起了学术界和业界的广泛关注。论文标题：ScalingIntheWildTrainingforDiffusionbasedIlluminationHarmonizationandEditingbyImposingConsistentLightTransport论文链接：https:openreview.netpdfidu1cQYxRI1H项目成果展示在向ICLR投稿前...

2024-12-17 12:35:26 2505浏览 0点赞 0回复 0收藏

革命性AI学习方法OptiDEL：用5%的数据超越全数据集性能！

引言：探索数据有效学习的新视角在人工智能领域，预训练大型基础模型已成为提升模型性能和泛化能力的标准做法。然而，随着研究的深入，传统观念受到质疑：更多的预训练数据是否总能带来更好的模型性能？为了探索这一问题，研究者们提出了数据有效学习（dataeffectivelearning）的概念，旨在通过优化样本选择来提高模型性能，即使在样本数量较少的情况下也能取得出色的效果。本文将重点介绍一种新的数据有效学习方法——最优化数...

2024-12-12 12:06:33 533浏览 0点赞 0回复 0收藏

清华团队提出精确学习新方法，提升AI泛化能力

社区头条

引言：探索精确学习的重要性在少样本学习领域，如何使模型从有限的数据中学习到精确且具有泛化能力的知识，是一个挑战也是研究的热点。传统的元学习方法，如模型无关的元学习（MAML）及其变体，虽然在快速适应新任务方面表现出色，但仍存在一些问题，如模型倾向于学习简单的、直接的特征（如颜色、背景等），这些特征在元训练阶段足以区分极少数的类别，但却不利于模型的泛化能力。为了解决这一问题，本文提出了“精确学习”的...

2024-12-05 11:34:13 919浏览 0点赞 0回复 0收藏

解读 Marco - o1：迈向开放式推理模型的探索与实践

研究背景•研究问题：这篇文章要解决的问题是如何在大规模推理模型（LRM）中实现开放式推理，特别是在没有明确标准和难以量化的奖励的情况下。具体来说，研究了如何使o1模型能够有效地泛化到没有明确标准的更广泛领域。•研究难点：该问题的研究难点包括：在没有明确标准的情况下进行推理，奖励的量化挑战，以及如何在复杂现实世界问题解决任务中优化模型的性能。•相关工作：该问题的研究相关工作包括OpenAI的o1模型，它在AIME...

2024-11-27 15:04:40 1207浏览 0点赞 0回复 0收藏

IdentifyMe：一个具有挑战性的长文本指代消解基准测试

1引言共指消解（CR）是文本理解的一个基本任务。尽管LLMs在广泛的NLP任务上取得了巨大进展，但它们在CR上的表现相对不尽人意，甚至在指称检测上也面临困难。通过广泛分析，Gan等人（2024）的工作已经确定，在典型的CR设置中，由于基于跨度的输出格式不适合LLMs，因此低估了LLMs出色的指称理解能力。他们建议调整CR数据集和任务指标，以支持LLMs的评估。沿着这些思路，我们创建了IdentifyMe基准测试，用于MCQ格式的指称消解，这...

2024-11-20 14:48:25 967浏览 0点赞 0回复 0收藏

FineTuneBench：商业精细调整API能够如何融入LLMs中的新知识？

研究背景这篇文章研究了商业微调API在将新知识注入大型语言模型（LLMs）和更新现有知识方面的效果。尽管OpenAI和Google等提供商提供的商业LLMs微调API具有灵活的应用适应性，但其有效性尚不清楚。该问题的研究难点包括：微调方法的不透明性、缺乏统一的基准评估、用户对超参数优化的限制以及模型在处理新知识和更新知识时的泛化能力有限。相关工作：该问题的研究相关工作包括监督微调、强化学习从人类反馈、检索增强生成等方法...

2024-11-14 14:42:07 677浏览 0点赞 0回复 0收藏

智能对话新纪元：大模型推理服务

在人工智能的浪潮中，大型语言模型凭借其强大的对话理解和生成能力，引领了智能对话技术的潮流。企业和个人对于私有化智能服务的需求日益增长，将这样的大模型部署为专属服务显得尤为重要。今天，让我们一起探索如何将大模型私有化部署，构建你的智能助手。1.环境准备首先确保你有一套满足硬件要求的服务器或云环境，通常需要有一块性能良好的GPU，足够的内存和存储空间来容纳模型和运行日志。此外，选择合适的操作系统（如Ubun...

2024-11-07 14:15:52 622浏览 0点赞 0回复 0收藏

多智能体新进展 | 斯坦福大学提出新模型'Hypothetical Minds'，让AI更懂人类思维

精华

本文提出了一种名为“HypotheticalMinds”的模型，该模型结合了大语言模型和多智能体强化学习，通过在自然语言处理的框架下生成、评估和细化关于其他智能体策略的假设，来提高智能体在多智能体环境中的表现。该模型在多种竞争性、合作性和混合动机的多智能体环境中均显示出优越的性能，特别是在处理隐藏信息和策略推理方面。HypotheticalMinds模型简介1.模型架构与组件HypotheticalMinds模型是一个基于大型语言模型（LLM）的自...

2024-11-01 15:25:09 1593浏览 0点赞 0回复 0收藏

清华大学提出1-Bit FQT：将全量化训练极限推到极致,训练速度提升5倍！

在深度神经网络的训练过程中，全量化训练（FullyQuantizedTraining,FQT）通过将激活值、权重和梯度量化到较低的精度，显著加速了训练过程。随着对训练数值精度的不断压缩，一个自然而然的问题浮现出来：全量化训练的极限是什么？即，能够实现的最低位宽是多少？理想情况下，如果能将位宽压缩到1位，训练将可以通过二进制操作实现，这不仅能极大简化硬件设计，还可能在保持训练质量的前提下，实现极致的计算效率。本文首次尝试将...

2024-10-29 11:40:55 946浏览 0点赞 0回复 0收藏

大模型真能模拟人类语言？中国人民大学提出新的数据增强方法

论文标题:LLMGeneratedNaturalLanguageMeetsScalingLaws:NewExplorationsandDataAugmentationMethods机构:SchoolofInformationResourceManagement,RenminUniversityofChinaSchoolofComputing,NationalUniversityofSingapore论文链接:https:arxiv.orgpdf2407.00322.pdf在人工智能领域，大型语言模型（LLM）如GPT4的出现引起了广泛关注，特别是它们在自然语言处理（NLP）中的应用。这些模型通过生成与人类自然语言（HNL）...

2024-10-23 13:30:34 978浏览 0点赞 0回复 0收藏

打破视觉-语言预训练的瓶颈：新算法解决噪声和标注问题

精华

引言：探索视觉语言对比预训练中的噪声和低质量标注问题在视觉语言对比预训练中，噪声和标注质量被认为是影响训练效果的重要因素。本文通过深入研究和分析训练过程中的两个主要问题——错误的负样本对分配和低质量及多样性不足的标注——揭示了通过解决这些问题来提高训练质量的潜力尚未被完全实现。首先，我们研究了影响对比学习的噪声问题，即在一个批次中可能会发现语义相似甚至相同的图像标注被错误地视为负样本对。其次，...

2024-10-17 15:29:58 1486浏览 0点赞 0回复 0收藏

获得成就

已积累 1.9w 人气

获得 3 个点赞

获得 3 次收藏