谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
Transformer对大模型界的影响力不言而喻,ChatGPT、Sora、StableDifusion等知名模型皆使用了该架构。但有一个很明显的缺点,其注意力复杂度的二次方增长在处理书籍、PDF等超长文档时会显著增加算力负担。虽然会通过滑动窗口注意力和稀疏注意力等技术来解决这一问题,在处理极长序列时仍存在局限性。因此,谷歌的研究人员提出了全新架构TransformerFAM,可以无缝与预训练模型集成,并通过LoRA进行少量精调从而大幅度提升模型性能。...