鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

测试时训练(TTT)太强了！

发布于 2024-11-21 14:15

浏览

0收藏

论文笔记分享，标题：The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

测试时训练（TTT）是个新概念：在推理过程中使用从输入数据派生的损失暂时更新模型参数

文章的结论：

测试时训练(TTT)太强了！-AI.x社区

TTT 显著提高了 ARC 任务上的性能，与基线微调模型相比，准确率提高了高达 6 倍；将 TTT 应用于一个 8B 参数的语言模型，在 ARC 的公共验证集上达到了 53%的准确率，将公共和纯神经网络方法的最新水平提高了近 25%。通过将我们的方法与最近的程序生成方法相结合，获得了 61.9%的 SoTA 公共验证准确率，与人类评分接近。

ARC 任务：一个评估语言模型抽象推理能力的基准测试。通过一系列视觉谜题任务来考验模型解决新问题的能力。每个任务由2D网格（大小可达30×30）组成，网格中包含由多达10种不同颜色的形状或模式。输出是通过将一个直观且共同的变换规则或函数应用于输入网格来获得的。

算法步骤：

测试时训练(TTT)太强了！-AI.x社区

从训练输入-输出对中创建留一法任务，然后通过基于规则的变换来增强数据集。

测试时训练(TTT)太强了！-AI.x社区

在测试时训练期间，使用LoRA来优化。为每个任务学习一个特定的LoRA适配器，而不是为所有任务学习一个单一的适配器。

测试时训练(TTT)太强了！-AI.x社区

使用几何变换生成多个预测候选，然后通过贪婪解码方案进行预测。采用分层投票策略，首先在每个变换内进行投票，然后对每个变换的候选进行全局投票，以确定最终预测。

测试时训练(TTT)太强了！-AI.x社区

本文转载自NLP前沿

标签

赞

收藏

回复

举报

回复

相关推荐

弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一，远超知乎豆瓣小红书

Crystalcxt • 2490浏览 • 0回复
超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 1296浏览 • 0回复
三小时内用ChatGPT写完一篇论文的终极指南

数师兄 • 1960浏览 • 0回复
OpenAI曾转录100万小时视频数据，训练GPT-4

Aceryt • 1051浏览 • 0回复
如何测试大模型

51CTO技术栈 • 2302浏览 • 0回复
在对齐 AI 时，为什么在线方法总是优于离线方法？

轻薄滴假象 • 955浏览 • 0回复
【LLM】CRAG - 综合性RAG基准测试

sbf_2000 • 2535浏览 • 0回复
时频图像分类，还在用VGG、ResNet?

Tang_Lan • 1425浏览 • 0回复
时频图像分类，还在用VGG、ResNet?

Tang_Lan • 1124浏览 • 0回复
生产环境测试模型的四种方法

鱼虫子 • 724浏览 • 0回复
训练大模型时，显存都哪去了？

鱼虫子 • 1534浏览 • 0回复
2024时序预测都有哪些经典工作—总结篇

海因斯DK • 2070浏览 • 0回复
探秘大语言模型数据合成能力：AgoraBench基准测试全解析

十一月雨_55 • 1029浏览 • 0回复
AGI测试实现跃升！网友：推理scaling law太炸了！一文回顾OpenAI直播带货12天

51CTO技术栈 • 1659浏览 • 0回复
FineMedLM-o1: 基于监督微调与测试时训练的医学推理增强型大语言模型

顿数AI • 1150浏览 • 0回复
DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型

玄姐聊AGI • 3490浏览 • 0回复
S1：简单高效的测试时推理能力扩展方法

上堵吟1 • 343浏览 • 0回复
太强大了！又一个国产AI出来了！

数师兄 • 1285浏览 • 0回复
1B模型如何通过测试时优化逆袭405B LLM？

arnoldzhw • 244浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

微软LongRoPE v2：几乎无损的上下文扩展！ 8h前发布
DeepSeek开源周，第三弹， DeepGEMM来袭！ 8天前发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

4090单卡部署满血 671B DeepSeek，本地部署“成本骤降32倍”！！！ 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

VLLM 与 Ollama：如何选择合适的轻量级 LLM 框架？ 0回复

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能 0回复

上一篇： GraphRAG进化，效率翻倍！

下一篇：微软LazyGraphRAG来了，700倍成本压缩！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载