
如何正确看待GPT4.5
总结,模型门户留给GPT5去做了,4.5还是像Altman之前说的就是最后一代纯预训练。
1- 一个超巨大的模型,grok3级别(10万卡),AK说每个0.5要提升10倍预训练算力,那对比GPT4的1.8T, 也就说4.5是一个18T(18000B) 级别的模型,所以必须跨多campus, 异步梯度下降的训练方式(要求太高,这个目前只有grok, oai,gemini,3家真正严格实践过,anthropic都不行)。
2-拥有更多的知识(o3和人类比如博士生做题的合成数据),比4o能力提升百分之50(其实有些指标翻好几翻,比如奥数)简单问答有明显更少的幻觉,但是复杂问答比如AIME奥数和coding,是无法和o3mini这种模型相比的。更多知识的另一个产物是情商(学习了更多会话场景和话术的识别),会某些角度更人类化,这个能力增强的是写作和指令跟随范式理解等能力。当然我个人认为想做成4.5演示 demo中的那样光靠知识堆是不够的,RLHF去和人类对齐才是关键,但是由于这模型太大了,SFT和RL都变得很痛苦(后训练是不费算力,但是也得看基座模型有多大🤪)。
3-关于未来: 下一代推理模型o的基石(上一代是4o),然后,其实本来也是给合成数据用的,内部人用,可是战况太激烈,不得已出来接客了。推理成本过高,即使用speculating decoding, 也很贵,而且draft model估计还在优化中,所以第一期web只给200刀用户使用,下周或者下下周20刀才配,api day1就有,但是,是现在api价格的20倍以上(一般的榜单是测不起了)🐵各种烟雾弹,o3mini也没开源
本文转载自熵减AI,作者:周博洋
赞
收藏
回复

回复
相关推荐