大家好,我是君哥。春节快乐!
春节这几天,DeepSeek 可以说是火爆了,铺天盖地都是 DeepSeek 的报道。今天,我们一起学习一下 DeepSeek。
1.DeepSeek 是什么?
下面是 DeepSeek 给出的回答:
图片
可以看到,DeepSeek 成立时间并不长,但是成绩真的很好。
2.DeepSeek 为什么牛?
DeepSeek 横空出世,一下子受到全球关注,1 月 27 日美股闪崩,AI 第一股英伟达最高跌幅达 17%,国内 AI 用户这个春节都在体验 DeepSeek,DeepSeek 服务器甚至卡到宕机。这到底是什么力量在推动呢?
2.1 国产
国内的 AI 用户群体非常大,但我们使用 ChatGPT 并不方便,购买账号,翻墙,经常有被封号的危险。
有了 DeepSeek,我们使用非常便捷,手机上下载一个 APP,我们就可以使用 DeepSeek 的 AI 服务了。
2.2 便宜
ChatGPT o1 完成一次训练,成本要上亿美刀,而 DeepSeek 完成一次训练只要不到 600 万美刀。这真的太便宜了,成本低就是一个巨大的优势。
DeepSeek 成本优势大大超过了硅谷科技巨头,所以英伟达股价大跌是可以理解的。
那 DeepSeek 给用户的价格怎么样呢?官网价格见下图:
deepseek-chat 百万 tokens 缓存命中的情况下,输入价格只要 0.1 元人民币,而知名的 Claude 3.5 百万 tokens 输入价格则需要 3 美元。这差距太大了。
2.3 技术优势
其实,在 2022 年,中国已经被美过禁止高端 GPU 的出口,这对国内训练大模型是非常不利的。
DeepSeek 只能靠自主创新,研发出 DeepSeek-R1(智能助手,擅长复杂推理与多轮对话)和 DeepSeek-V2(MoE混合专家模型,兼顾高性能与低成本)。
DeepSeek 大模型架构则采用 MoE 技术,较同类模型推理成本降低 80%,而且支持长上下文。那什么是 MoE 架构呢?我们看一下 DeepSeek 的回答:
图片
总结一下,就是多个专家共同来回答一个问题,这个问题会根据领域知识分配不同的权重给各个专家,然后把每个专家的答案进行汇总后输出。
2.4 性能优势
DeepSeek 发布的 DeepSeek-R1 性能对标 OpenAI o1 正式版,这的确是一个了不起的成绩。
图片
2.5 开源
我们平时做 Java 应用开发,使用的框架多数是开源的,都很好用,生态也很完备。开源对生态的发展作用太大了。
一方面,开源可以让更多优秀的开发者加入进来,贡献自己的力量。另一方面,可以让自己的开发人员释放出来,更多地关注创新、方向等重要的事情,降低开发成本。
讽刺的是,从 ChatGPT 3.0 开始,“OpenAI” 变为了 “CloseAI”,从开源变成闭源了。主要原因应该还是训练模型的成本太高了,如果开源,自己付出的这些成本都免费给了别人,要我自己负责这件事,可能也不太愿意开源。
但是 DeepSeek 不一样,它的成本低了很多,选择开源,正好可以弥补公司内部研发资源有限的问题。相信 DeepSeek 的生态会很快发展起来,而且会发展很好。
当然,可能有人会觉得 DeepSeek 如果开源了自己的大模型,怎么赚钱?
如果在公司用过阿里云的服务,就会发现,虽然好多技术是开源的,比如 Nacos,RocketMQ,但企业交的维护费用并不低。比如定制化开发、技术问题支持等。只要 DeepSeek 把生态建立起来,提供企业级应用,赚钱的途径还是很多的。
3.是国运级吗?
《黑神话:悟空》制作人冯骥点评 DeepSeek 是一款国运级的科技成果,当然 DeepSeek 官方还找到冯骥,建议对博文的措辞做一些修改。
看下 DeepSeek 的回答:
图片
我觉得说 DeepSeek 是一款国运级的科技成果,并不浮夸。当下各个国家都在发力 AI,能早先实现 AGI(通用人工智能),对国家各个领域都会有大的帮助,比如军事、医疗、生物等
4.美国控诉?
1 月 27 日,Deepseek 应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,甚至在美区下载榜上超越了 ChatGPT。
这样大的一个动静,美国肯定关注到了,何况他们都不过春节。
据参考消息援引美媒报道,美国海军基于“潜在安全和道德问题”,已要求人员避免以任何形式使用 DeepSeek 模型。
美国多名官员回应 DeepSeek 对美国的影响,蔑称 DeepSeek 是“偷窃”,正对其影响开展国家安全调查。
1月27日、1月28日,DeepSeek 官网显示,其线上服务受到大规模恶意攻击,奇安信安全专家透露攻击 IP 均来自美国。
5.总结
无论如何,DeepSeek 在春节假期火爆了,它的发展值得更大期待。