从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
精华
刚刚,Anthropic宣布在理解人工智能模型内部运作机制方面取得重大进展。Anthropic已经确定了如何在ClaudeSonnet中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。研究论文:https:transformercircuits.pub2024scalingmonosemanticityindex.html当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会...