ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制
本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学。研究方向包括深度学习理论,大语言模型理论,统计机器学习等等。目前已在ICLRICMLNeurips等AI顶会发表多篇论文。上下文学习(incontextlearning,简写为ICL)已经在很多LLM有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于Transformer架构的LLM可以展现出ICL的能力。近期,一个来...