编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
2024最后一天,总是要写一写总结的。但大家都清楚,大模型相较于2023年来看,虽然模型的参数规模没有卷大太多,但火爆的创新却相较一年前有了从0到1的跨越。
今年既可以说是“大模型稳健前行”的一年,也可以说是“大模型落地探索”的元年。这两个维度少一个维度去讲,都不太完整。
所以索性,小编直接不从这两个维度入手,简单粗暴地先为大家梳理那些“理想丰满、现实骨感”的瞬间,再将一众科技巨头和创业者们的成绩单(和感悟)整理在此,以供诸位阅读。
“出道即巅峰”,打脸才是常态
1、英伟达逆袭成“斗帝”,B200是大招(不过产量低)
在大模型这片斗气大陆上,强者为尊。英伟达作为旱涝无忧的新晋斗帝,吸金能力足以撼动半个地球,市值一路从2022 年的3640 亿美元到2023年的年中的1万亿美元,再到如今的3.43万亿美元。然而恐怖如斯的GPU霸主,同样也有打脸的瞬间。
图片
3月19日深夜,GTC全场高潮迭起,黄仁勋“轻咬着舌头、左手一个H100,右手一个B200”的照片,纷纷成为了业界媒体新闻的封面热图。Blackwell芯片作为黄教主预告的最强芯片,可谓吊足了全世界的胃口,包括一众投资人的预期,外界感叹:“太强了,抄无可抄!”
但可惜,临近年底,英伟达三季度财报公布前,就曝出了英伟达B200芯片因芯片设计缺陷不得不将Blackwell架构芯片的生产和交付推迟了至少一个季度的消息。
小编语:打脸肯定是打脸!但不耽误B200作为最强的GPU算力存在,没有一开始就完美的产品,英伟达也不例外!在探索中打脸本就是个常态。
2、一款小玩意,卖疯了,但很快被证伪。。。
新年伊始,1月中旬,一款口袋大小的橙色小设备,Rabbit R1迅速走红网络,这款设备在正式发布后的24小时内售出了10,000台,售罄。
这小东西外观大小如同“小霸王”掌中机,触摸屏、旋转式摄像头、滚动轮。然而指令上,优先考虑直观的手势和语音命令,而不是键盘和菜单。
图片
该设备最大的亮点在于内置“大型操作模型(Large Action Model,LAM)”,堪称“万能应用控制器”,无需使用手机,就能集播放音乐、购物、发信息等多种功能于一身,甚至还能训练它学习操作特定应用。
不过,Rabbit R1很快就被用户反馈出不少毛病,虽然没有像老对手“AI Pin”那样乌泱泱地被退货,但也给现在做AI硬件的人提了醒:
一、被用户指责:买来基本没啥用,因为它能做事情,在安卓上同样能做,何苦交这个智商税。二、Rabbit R1 作为用户的个人助理,必然涉及到用户的敏感个人信息,而 Rabbitude 团队最新研究表明其 API 存在安全漏洞,导致用户数据泄露。
小编语:做AI产品,idea也许可以让你一夜爆红,但事实证明:“实用+安全”才是硬通货。
国内模型创业者们:努力留在牌桌上
1、下沉:中国大模型备案多达252款,超一半下沉到行业
大模型世界中,开宗立派的强者如林,截止到11月17日,网信办公开的通过备案的大模型就多达252款。较去年年底,猛增了190款。
这190款中,其实行业大模型数量多达145个,占比高达76%,主要是教育、文化娱乐两大核心场景。
而在去年,行业模型的占比仅为55%。上半年,总有103个大模型完成备案,其中1月、3月、5月的模型备案数量均超过20个;下半年,大模型备案数量为87个,其中10月更是备案数量更是创出历史新高,达到31家。
图片
这与全球大模型的发展趋势有很大不同。根据lifearchitect.ai数据,今年2月,全球发布新模型的数量达到28个,达到历史最高峰。随后这个数字开始持续下滑,10月单月全球新模型的数量只有12个,这也是2023年上半年的水平。
小编语:145家行业大模型通过备案,说明了国内对于“让大模型下沉干实事”是达成了事实上的共识,只是入场者需要注意到模型发展会慢慢进入饱和期,从全球模型发布数量以明显减少的趋势看,一定要注意:2025将会是一场大考,活下去才是关键。
2、活下去:六小虎定位愈发清晰,努力留在牌桌上
在大模型创业领域,各家公司定位和融资情况各异。先来看国内六小虎的一年:
- 智谱AI以To B定位,今年完成两轮融资,商业化收入增长超过100%。
- 月之暗面聚焦长文本领域,今年完成超十亿美金融资,估值达25亿美金。值得一提的是,kimi在月活表现上仅次于字节豆包,10月就达到了3600万。
- Minimax在C端应用上取得成功,今年ARR收入或达7000万美金,完成6亿美元B轮融资。
- 百川智能明确AI应用场景,完成A轮融资,估值200亿元。
- 零一万物经历高管团队动荡,但发布千亿参数模型,完成数亿美元融资。
- 阶跃星辰坚持AGI目标,12月完成数亿美元融资。
图片
其他玩家也有取得不错的成绩。面壁智能作为端侧大模型玩家,完成数亿元融资;生数科技和爱诗科技在AI视频生成领域表现突出,爱诗科技完成近3亿元人民币融资。这些公司在大模型领域各有侧重,融资情况显示出市场对其技术和商业前景的认可。
小编语:大模型创业公司本身的进入门槛就很高,即便是已经成为独角兽估值的创业公司,也需要持续的融资才能在愈发激烈的竞争环境中找到属于自己的PMF。努力活下去,2025才是一场生死大考。
3、开源:资源限制倒逼出国产之光反超Llama
12月26日晚,中国OSS界的新星DeepSeek开源了其最新研发的前沿模型V3,根据公布的性能基准测试,DeepSeek-V3在众多其他开闭源模型中脱颖而出,表现优于Meta的旗舰产品——拥有4050亿个参数的Llama 3.1模型。“综合评估表明,DeepSeek-V3已成为当前可用的最强开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。”
还有一点被人们津津乐道:2个月、2000张H800卡,就搞出了GPT-4o级别的模型。
图片
小编语:如果说闭源是天花板,那么让GPT4o人人都能掌握、用得上的还得是开源。另外,开源也许不会是最顶尖的存在,但是会让大模型领域“书同文,车同轨,量同衡,行同伦”的必然之选。学术界、工程界需要这样的开源技术才能有共同交流进步的基础;此外,资源虽然可以限制想象,但同样也可以倒逼我们重塑自身。
国内大厂的大模型成绩单
国内几家大厂在AI大模型和产品领域各有侧重,百度和阿里在模型侧和应用场景上表现突出,腾讯在多模态能力上有所建树,而字节跳动则在应用端和智能硬件上展现出强劲的增长势头。
在大模型和产品领域,可以看到几家各自都有自己的年度kpi:
1、百度文心一言:日均模型调用量15亿,用户规模4.3亿
百度作为早期入局AI大模型的互联网大厂,其文心大模型矩阵包括ERNIE 4.0 Turbo等旗舰大模型和轻量模型,日均调用量超15亿,用户规模达到4.3亿。
产品侧,文心一言App升级为“文小言”,定位“新搜索”智能助手,月活跃用户达到千万级别,累计调用量超过20亿次。
百度强调知识增强、检索增强及智能体技术,发布检索增强的文生图技术iRAG和多智能体应用秒哒和文心快码。
2、阿里通义千问:将开源进行到底,夸克称AI搜索一霸
阿里云发布通义千问新一代开源模型Qwen2.5,性能超越Llama 405B,覆盖全场景,累计上架超100个模型,下载量突破4000万。
夸克作为“AI全能助手”,重点升级AI搜索、AI写作等功能,存量用户与AI应用用户画像高度吻合,是阿里AI战略的重要看点。
3、腾讯混元:发力多模态,类Sora视频模型开源
腾讯混元在基座模型和产品应用上相对掉队,但多模态能力是亮点,特别是在视频生成领域。
腾讯混元大模型宣布正式上线视频生成能力,并开源130亿参数量视频生成大模型,是当前最大的视频开源模型。
4、字节豆包:日活750万,断层领先,产品全系覆盖
字节跳动豆包系列已包含多种模型,覆盖文本、语音、图片及视频等多模态能力,近期加强视频识别与理解能力。
豆包大模型日均tokens使用量超过4万亿,豆包App日活达760万,成为日活断层领先的AI应用。
字节跳动打造了自己的AI应用舰队,覆盖AIGC、Agent等主流方向,并在AI耳机、AI眼镜等智能硬件上蓄势待发。
小编语:国内互联网大厂肯定希望用大模型的人多起来,但肯定也希望从中获得相应的业务增长。有人说百度再一次起大早赶晚集,字节算是最舍得投入的公司,但这往往取决于各大厂对于在大模型的“斗气大陆”中选择的哪一系的修炼方向。百度偏向深入企业端,字节要在C端击穿用户场景。腾讯目前看,应该还在打磨killer App,阿里同样也在重新布局中寻找AI时代的最强场景。
值得关注的几个方向
1、FSD全自动驾驶:马斯克跑通大模型Robotaxi
10月11日,马斯克在“载入人类史册”的发布会现场搭乘着完全无人驾驶的Robotaxi进入发布会现场,现场一阵欢呼!这一幕值得铭记。
这辆Cybercab极简的设计,强调了未来感。这是一辆没有方向盘、踏板和侧后视镜的车辆。当然这并不是重点,重点是这辆车的成本极低,马斯克表示,一定能把价格打下来:Cybercab的自动驾驶成本,会随着大规模的投产而持续降低,目标是从目前的每英里1美元,降低至0.2美元。
据悉,Cybercab将完全依赖特斯拉的全自动驾驶(FSD)软件、不排除是摄像头甚至是激光雷达的可能、交互则可能主要依赖Robotaxi APP。
也就是说,技术路线已经被马斯克验证跑通。马斯克所说的用无人驾驶来提高车的使用时长这一点也就行得通了。
小编语:这也就不难理解,雷军和理想现在都不约而同的要实现“人车家”或者“硅基家人”,本质上都是要通过入局大模型,实现L4级的无人驾驶!
2、机器人or狗?
机器人赛道,同样是一个天然和大模型相匹配的赛道。而且业内已经验证了可行性,高端的有特斯拉在10月“We Robot”活动上亮相的擎天柱,推出了第三代机械手,有22个自由度,堪称霸榜。波士顿作为老玩家,e-Altas可以解锁很多疯狂的体操动作,实现360度的关节运转。量产方面,傅氏智能的GR-1是少有的实现1000台规模的大规模量产型号。此外,还有放生肌肉和肌腱设计的机器人开始涌现。
除了高端的赛道,廉价的家用机器人或机器狗,也开始得到业界的关注。这一类机器人比汽车便宜,可扩展性强,不难想象未来中产阶层都可以人手一台拉拉风。最近就有宇树科技B2-W四轮机器狗,翻山越岭过江,搭载主人如履平地,机动性远超现实世界的牛马。另外还有适合家居的斯坦福机器人ALOHA,两个夹爪可完成煎蛋、折叠衣物等复杂动作,价位也非常便宜。
图片
小编语:人形机器人和机器狗看似两个方向,但最后都是为了节省人的时间,小编不相信大家会买来一台把它当拉风的工具或者宠物来炫耀。如果要进军这两条赛道,入门的话可以看看开源的机器人设计方案,但切记:据小编线下了解,这个赛道水同样很深,大模型、算法反而不是什么壁垒,壁垒更多在于算法之外的东西。
3、视频生成和世界建模
之所以最后提视频生成和世界建模,是因为小编想要闭环到最开始那个“出道即巅峰”的段落。
2024新春伊始,Sora横空引爆整个业界对于AGI的想象,然而最终一直拖到12月才发布。作为同类产品中第一个高分辨率长视频的生成产品,起大早赶晚集总是会让人们产生祛魅之意。不过,是Sora给业界带来了“文本调节的视觉世界模拟”的可能,更关键的是,这个模型还可以通过一些去燥和提督学习来学习更复杂的渲染和直观的物理模拟。
此外,谷歌在这方面反而是推出了更精确的物理和细粒度的物体动力学的产品发布Veo。
值得关注的一个方向是,行动驱动的世界模型,比如GameGen、Genie-2等可以在扩散模型内使用操纵杆控制运行更多的游戏。
再有,就是华人大佬李飞飞领导创建的Worldlabs,非常有看头:它具有很强的几何一致性,一张图可以生成一整个3D世界,应用前景十分广阔。
写在最后
2024,发生了太多值得回忆总结的内容,还有很多没有提及,比如OpenAI带头让强化学习回归到AGI的Scaling Law中来,再比如谷歌的量子芯片。大模型时代刚刚2年,就已经从底层到应用层涌现出了这么多令人难以置信的创新。
但小编想说的是,强如英伟达、OpenAI、苹果同样也会有在创新中打脸折戟的时刻,这是一个新时代从萌芽到繁荣的必经之路。这一过程也许不会像《黑神话悟空》那样打妖王升装备那么酣畅淋漓,但肯定的一点是:现实比游戏更为精彩,创业者努力前行,好产品终会到来!
共勉,敬每一位2025的坚持者!新年快乐!