2024年大模型LLM还有哪些可研究的方向?听听大佬怎么说
2024年大模型LLM还有哪些可研究的方向?
前言
纯属brainstorm,欢迎大家一起探讨。想到哪里说到哪里,有遗漏的点欢迎大家在评论区中指出。
个人认为现在LLM能做的点还很多,这个行业距离饱和还有一段距离。这里通过“输入、模型/范式、输出、其他”几个方面来展开,个人觉得比较看好的方向加粗标出:
- 输入
- 数据优化
- RAG
- 模型/范式
- LLM + Robotics-Agent-统一模态生成-Vision-Language Models-架构设计
- 输出
- 生成内容安全问题
- 评测问题
- 其他
- NLP经典任务
- 垂类大模型
- 交叉学科
输入
这一节就跟pre-training、instruction tuning、RLHF的经典三阶段比较相关了,其实也可以叫数据,而数据的重要性自然不用多说。
数据优化
目前的工作基本都是“大规模语料 + 人工高质量数据集” 的方式进行暴力求解,在输入上通过设计进行优化还是有一定可行之处的。
其实CV这边还是有很多类似做法可以参考的,尤其是做diffusion models的,同样也是做生成,有很多方面有一定共通之处。比方说最经典的Stable Diffusion,从最早的v1.4到v2.0,再到v2.1,也是通过在256×256、512×512、768×768分辨率上递进式的fine-tune完成的。
迁移到LLM这一块,对于pre-training的时候语料的处理,可以做ranking,包括fine-tune的时候做continual learning、active learning等等,理论上可做的事以及相应的效果应该也是相近的。
关于data augmentation方面,之前看过一篇在LLM训练过程中往intermediate feature加高斯噪声的工作,证明了能够带来性能提升。结论其实是比较有趣的,往intermediate feature加入噪声的做法可以理解为一种latent space上的data augmentation但如此简单的做法恰好证明了其有效性,说明在数据增强这一块可做的设计还有很多。感兴趣的朋友可以移步原文:《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,https://zhuanlan.zhihu.com/p/523865674。
相关回答可以参考:大模型微调技巧-在Embedding上加入噪音提高指令微调效果,https://zhuanlan.zhihu.com/p/662024086
RAG
RAG这一块属于是去年比较火的一个点了,尤其是针对大模型“幻觉”的这个痛点,个人认为还可以做,但属于比较卷的方向,今年的研究应该会有数量上的骤增。可以看下RAG的近几年的文章情况:
可以看到,2023年RAG的工作已经出现了明显的大幅增加,而大多数还是集中在做推理,也就是说,预训练和微调还有研究空间。可以参考下图汇总目前RAG的研究范式展开:
另一方面可以考虑的是模态信息上的拓展。目前看来做Vision-Language Models(VLM)已经是一个必然趋势了,而RAG方法主要用于检索文本证据,检索其他模态信息来增强生成还是有研究空间的。
模型/范式
“模型/范式”这一方面是个人比较看好的方向。 目前AI巨头的动作也集中于这一块,预计2024年这一块可研究的方向比较多,当然估计也会快速地卷起来。
LLM + Robotics
前段时间OpenAI发布了Figure 01,虽然说热度可能没有Sora那么高,不过说明LLM在做planning这件事上已经有了初步的成果,想必这件事情的公布势必会带动很多的相关研究。具体的分析可以参考我的往期回答:如何看待与Open AI合作的最新机器人成果Figure 01? https://www.zhihu.com/question/648483312/answer/3432436569
Agent
Figure 01的意义其实不仅限于robotics,其实也证明了agent的想法确实可行,agent势必会成为今年的一大热点。其实早在去年,各大厂商都纷纷开始入场agent了.
学术界也不例外,这里举一些比较经典的例子:比方说早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》,https://arxiv.org/pdf/2303.17580.pdf。
ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,https://arxiv.org/pdf/2302.04761.pdf。
尤其是去年Stanford的西部小镇,出自《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,给人的印象非常深刻:
统一模态生成信息
这一点其实是长久以来CV和NLP研究者关注的问题, 也就是多模态大一统的问题。而在生成这个角度上其实已经有一些统一范式了,无论是Diffusion-Based还是LLM-Based。而LLM-Based的解决方案中,真正的难点在于如何通过token这个概念表征其他模态的数据。
目前统一文本、图像模态的工作已经有很多,解决方案也很自然,采用VQ-VAE系列的压缩模型将图像表征为image token,LLM只需要学会怎么预测image token即可。而下一步的生成面向的必然是视频和3D。如果能解决好video和3D的token representation问题,那么统一模态生成就能进一步拓展,这其中还是有较大难度的,非常值得深挖。另外结合我个人非常有感触的一张图,也同样能说明这个问题:
Vision-Language Models
对于VLM来说,图像相关的工作已经日趋饱和了,类似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的经典工作已经有不少了,大多采用“Visual Encoder + LLM”的桥接形式,例如最经典的MiniGPT-4:
而前面说到,视频和3D必定是下一波热点的研究方向。将LLM与更多的模态信息“桥接”,肯定是可以做的,不过这样的idea也很容易想到,个人认为VLM应该会非常卷。加上还要面对OpenAI这个大魔王,应该会有一定的研究压力。
另外一个比较值得研究的问题是:跨模态信息对齐之后能做什么?其实去年一些工作已经证明,LLM除了常见的Visual QA、captioning这些任务,也能一定程度完成vision-oriented的任务,例如有些研究会用VLM在object detection上做验证,以此体现VLM的visual understanding能力,这其实说明LLM的应用并不局限于text-oriented的下游任务。
架构设计
架构设计方面,其实近段时间的一些工作动向也证明了目前LLM在架构设计上还有较大创新空间。比方说去年比较惊艳的Mistral-7b,包括前不久马斯克宣布开源的Grok-1等等,基本都采用MoE的架构在做,个人觉得这其实是一个比较好的开始。LLM的模型架构自2022年以来就雷打不动,绝大部分研究都在沿用前人的默认设定,而对于这些默认设定上存在的问题,绝对是有研究可做的。
其实反观diffusion models的发展也类似,从2020年DDPM推出以来,4年时间绝大部分的研究都在沿用U-Net的默认架构,今年的Sora,包括Stable Diffusion 3中首次不约而同用到了Diffusion Transformer,证明了模型架构上确实是有值得创新之处。类比到LLM上也同理。
关于Diffusion Transformer相关的讲解,可以参考我的往期文章:Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切,https://zhuanlan.zhihu.com/p/684448966。
另一方面,Scaling Law肯定是一个值得研究的方向。 类似的还有关于LLM的可解释性,目前LLM大部分研究都是靠数据和算力的堆积来暴力求解,如果能够摸索出一定的理论依据,对于工业界或者是学术界来说都会是非常难得的研究。类似的方向还有LLM幻觉问题上的相关研究。
输出
生成内容安全问题
生成内容的安全问题其实也在逐渐受到近期研究的关注了,比方说LLaMa 2中就有特别关注这个问题。其实生成内容的安全问题涉及很多其他的应用,比方说垂类应用。无论是金融、法律、医疗,这些特定领域在内容安全性上都会比general domain的要求要更高。能给出安全性问题的一定解决方案,对于整个社区来说肯定是有贡献的。
具体解决安全问题其实跟前面提到的几个点有一定交叉,例如从数据层面上做优化、微调阶段做优化、RAG,等等,这里就不再展开了。
评测问题
个人认为evaluation其实是LLM研究中最值得研究的一个点,但是同时也是很难的一点。无论是现在的打榜、human evaluation、GPT打分,其实都很难全面去评价LLM,导致LLM在实际应用过程中并没有指标体现出来的那样好用。
而如果能有一个自动化的评测指标,最好能够结合LLM的理论基础进行设计,我觉得是目前社区比较需要的一个方向。 当然,前面也说到,LLM的可解释性也是一个待解决的问题,相关指标的设计也同样具有挑战。
其他
NLP经典任务
这可能是一个比较小众的点。其实也是个人一直在思考的一个问题,LLM时代下究竟怎么样做NLP的经典任务? 比方说parsing、句法相关的任务,LLM的设计跟这些任务之间肯定是存在一些gap的,而怎样将language models在大规模数据上获得的能力迁移在这些经典任务上,其实相关的工作仍比较少。
垂类大模型
无论是工业界还是学术界,垂类大模型一直以来都是研究热点之一。垂类大模型中与前面说到的数据优化、内容安全、评测问题都高度耦合。对于不同的垂直领域,垂类大模型面临的最大问题还是domain gap。具体来说就包括很多方面了,例如特定领域数据上的问题,通常具有领域特性,但数据量有限;内容安全上,比方说金融、法律、医疗大模型,对安全性的需求都比通用大模型要高;评测问题,就拿医疗大模型举例,还需要跟专业的医疗知识结合才能有效评测,等等;技术上还涉及LLM fine-tuning、domain adaptation,等等,甚至一些领域对于context length、memory、continual learning、active learning等技术有特定需求。可做的点还是比较丰富的。
交叉学科
这点其实也是比较有“学术味道”的一类研究,文章工作本身更倾向于分析类而并非实验。通常将LLM与其他学科交叉进行分析,例如语言学、政治学、社会学、心理学,等等。这类分析文章实验代价通常相对较小,更侧重统计、可视化、消融实验等分析性质的实验,但同时也需要掌握相关学科的专业知识,有一定的门槛。
比较有代表性的工作在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默:
ACL 2023 best paper的另一篇则是对LLM的政治偏见进行研究,出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》,https://aclanthology.org/2023.acl-long.656.pdf,虽然小众但是还挺有意思的:
值得一提的是,ACL 2023 best paper剩下一篇文章是对Stable Diffusion Cross-Attenion机制的研究。包括Stanford西部小镇 《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,中也有关于AI agents交互与社会传播学的研究,例如下图中就是关于特定任务的一个case study:
本文转自AI生成未来 ,作者:叫我Alonzo就好了