做一款AI社交应用，项目牵头人应该忙什么？-51CTO.COM

嘉宾 | 程兆华

采访 | 薛彦泽

撰稿 | 李美涵

出品 | 51CTO技术栈（微信号：blog51cto）

近日，#00 后用 AI 帮人谈恋爱月入百万#冲上热搜。毕业不久的Blake W. Anderson敏锐地捕捉到年轻人群体在亲密关系中的沟通障碍，开发了辅助沟通工具Plug AI。短短几个月，Plug AI的下载量便突破了 150 万次。

一个爆款的AI应用无需广阔的田野，寄身于一点就能野蛮生长——只要那个“痛点”足够“痛”。

“国内现在已经是百模争艳，要在这个内卷的环境中杀出血路，就需要在某一个方向上打出优势。”Soul AI产品负责人程兆华告诉我们，“市场上从不缺60分的产品，难的是怎么打磨到70分以上”。

程兆华告诉我们，他在手机里下载过几百款的竞品应用，只要出现了新款就会抓紧体验下，一边使用一边思考每个设计背后对应的用户需求是怎样的。

产品负责人，可能是花费最多的时间去思考AI如何赋能业务的人。程兆华反对所谓“做垂域大模型，就是拿着锤子找钉子”的说法，他说，“要先想清楚有什么样的钉子存在，我可以拿锤子去敲。”同时他也提到，如果市场规模没有达到几十亿，自己做“锤子”（大模型）就不划算了。

一个合格的AI项目牵头人，往往像桥梁一样连接着用户与后端的算法。在和技术团队沟通时，产品负责人需要从更感性的角度去考虑用户的需要，但也要发挥技术的能力最大程度的解决问题。

因此，作为一个“拍板方”，产品负责人的岗位对能力的考量通常是“既要又要”的。用程兆华的话来说，就是要和精通业务的人比拼自己对业务的了解深度，同时又要与技术人员拼自己对大模型技术的了解广度。

相应的，他作为Soul AI的产品负责人背负了业务指标、AI能力建设、团队建设三个层面的OKR。

从程兆华身上我们看到了AI产品负责人们繁忙又充实的缩影。

1.2024，单点AI应用更容易出圈？

薛彦泽:今年主打长文本处理的Kimi从一众ChatBot中脱颖而出，这是不是说明当前单点AI应用更容易出圈？

程兆华: 国内现在已是百模争艳，普通厂商是不可能跟大厂拼资源的。要在这个内卷的环境中杀出血路，就需要在某一个方向上打出优势，解决某个特定问题。

以Kimi为例，长文本的功能回应了大学生群体的论文写作需求，这一点非常直接。除此之外，小说创作者使用Kimi能够处理长达十几万字的文本，那时GPT的上限大概是4000 Tokens，这个点就会很好地解决长篇创作的痛点。

归根结底，只有基于特定场景进行深入挖掘，满足用户实际的需求，单点AI应用才能在市场中脱颖而出。市场上不缺60分的产品，要的是在某些领域做出深度，打磨至70分以上。

薛彦泽: 评论区有观众表达了质疑，说GPT-4o出来以后通用模型已经高度可用，现在搞这种单点AI应用还有意义吗？

程兆华：举个常用的例子，现在GPT也可以去做搜索，但海外就是有特别多的用户在用perplexity。为什么？这个产品的从搜索的效率、视觉呈现、交互等方面做了优化，整体的用户体验比GPT的搜索更好用。

再如细分场景下，例如教育，GPT做得再强大，也很难让小朋友直接与其聊天、互动。

这些情况下单点AI应用就能发挥其优势。

2.垂域AI产品，是不是拿着锤子找钉子？

薛彦泽: 垂域AI产品，是不是拿着锤子找钉子？为大模型找场景，还是从已有产品出发寻求AI赋能，您是哪一派？

程兆华: 从根本上说，需求不是被创造出来的。更通顺的逻辑是，我们需要想有什么样的钉子存在，我可以拿锤子去敲。

开发大模型的过程就像是造锤子，铸造的过程中模型会有能力上的丢失。如果我们试图用一个通用的大模型去解决所有问题，肯定是不够合适的。因此，拿着锤子找钉子的方法可能并不适用。所以说，我们的大模型探索了许多架构，比如MOE专家模型和向量检索技术，去更好地解决细分场景下的问题。

薛彦泽: 那您觉得钉子体量多大才值得用锤子？

程兆华:从整体的商业价值上考虑的话，如果市场规模没有达到几十亿，那么使用大模型的成本就太高了。训练一个大模型的成本至少是上百万，而推理和优化的成本可能高达几千万甚至上亿。因此，如果市场规模不够大，我们很难收回成本，也就不值得去使用这样的"锤子"。

3.自研垂直领域模型，好坏标准如何定义？

薛彦泽：打造一个垂域的大模型，肯定会遇到很多的挑战，我们比较好奇模型的好坏标准是如何定义的？

程兆华:在做模型的时候，我们通常会说让算法去定义模型的好坏，这包括模型的逻辑性、准确性、一致性、安全性和鲁棒性等常用指标。

但是对于产品来说，我们更关注产品适合哪类用户，我的产品怎样更容易出圈。以苟蛋为例，我们会从用户的角度，评判模型生成内容的趣味性、丰富性，用更多这样的指标来描述用户的主观体验。

在整个研发流程中，我们产品会成为一个拍板方，会从更感性的角度去考虑用户的需要，通过迭代模型达到我们追求的效果。这是我们的基本思路。

薛彦泽: 我比较好奇，你作为项目牵头人在跟算法或者技术同学讨论这些case时，一般争议点会在哪儿，怎么解决？

程兆华:算法的同学可能会比较头疼，他们不直接面向用户，而且可能对该垂域了解不深。这就需要我们产品去做拍板，运营的同学提供用户反馈，指出当前模型不满足我们预期的点，针对特定的case再去拆解指标、去做优化。

随着团队的磨合，算法团队也能根据用户反馈，主动思考模型的迭代方向和方法的有效性。

薛彦泽: 可以分享一下具体的案例吗？

程兆华:我们当时在去做对话的时候，刚开始经常遇到AI重复回答问题的情况，用户已经提出新的问题了，AI还给出上个问题的答案，这严重影响了用户体验。

面对这种情况，算法团队从技术角度出发，提出了增加重复性惩罚的策略，以降低AI的重复率。同时，我们也review了数据集，如果发现近期存在大量重复性数据，就需要对数据进行清洗，甚至说引入更多的数据去覆盖bad case。

4.聊一聊AI产品负责人的OKR

薛彦泽: 程老师作为AI产品的负责人，您的OKR是什么？

程兆华:我的OKR主要围绕三个方面：

首先，最核心的一个部分是业务指标的提升，我们需要确保在AI研发上的投入能够带来实际回报。我们会对齐业务指标，比如新项目的拉流、时长和产品的DAU，我需要负责的是确保AI能力对这些指标有积极贡献。

第二点是AI能力的建设，需要确保我们的AI能力保持领先，比如Sora推出后我们就需要考虑是否跟进视频能力。这部分会创新性指标，需要与算法团队合作，推动新能力的落地。

最后一部分与企业内部的团队建设有关，我需要思考其他部门如何用好AI提高效率，并且构建一个高效的AI团队。

薛彦泽：对于AI产品负责人，尤其咱们这样To C的社交应用，用户留存的指标达到多少算比较OK？

程兆华: 可以大概说一下，传统的聊天场景次日留存一般很高，能达到50%以上。虚拟人对话一般会低一些，因此次留达到50%是一个比较高的要求。尤其这个领域已经卷了一年，供用户选择的产品不少，如果一个产品想要脱颖而出，日留存至少应该在40%到50%之间。

此外，我们还需要关注长流，七日留存率至少需要达到15%，甚至以上。

5.让大模型的局限性被用户接纳，有何良方？

薛彦泽: 想聊聊大模型的局限性，例如幻觉、延迟等等，怎样让用户接受一个无法尽善尽美的产品？

程兆华:所有的东西都是要找到一个“度”。在技术方案难以解决问题的前提下，我们会从产品层面进行包装。

例如，如果一个虚拟客服形象可爱、声音温柔，即使犯了些小错，用户也更愿意接受。对于延迟问题，我们可以通过添加"思考中"的状态来模拟真人的思考过程，减少用户的阻尼感。

在成本方面，我们需要考虑是否可以利用已有的模型，减少训练成本。同时，我们可以通过缓存机制处理高频问题。还可以考虑将大模型蒸馏成更小的模型，以减少部署和运行成本。

薛彦泽: 大模型蒸馏成小模型，怎么调度，如何解决算力分配？

程兆华: 利用现有的技术架构来解决，我们我们会有一套判断逻辑来决定哪些问题更适合由小模型来处理。

薛彦泽: 评论区有观众提问，大模型的鲁棒性该如何评估？

程兆华:鲁棒性就是模型的统一性。例如，前面的信息说A是B的姐姐，那么整个对话都应该输出一致的答案。

提升鲁棒性的最佳方法之一是通过数据构建，通过构建攻击性问题，在case中变着花样去问，然后喂给这个模型，它的鲁棒性就会提高。

此外，在强化学习阶段，特别是在知识类场景中，采用如PPO（Proximal Policy Optimization）等强化学习算法，可以有效地提高模型的鲁棒性。大概是这两种方法。

6.如何培养自己的大模型话语权？

薛彦泽: 下个问题，如何培养自己的大模型的话语权？

程兆华:对于一个去做大模型的产品来说，培养大模型的话语权，我认为关键在于两个方面：

一是提升自己对大模型技术的了解广度，不仅要跟上新技术的发展，还要理解这些技术如何应用在不同场景中。

二是提升自己对业务的了解深度，特别是业务如何与大模型技术结合。如果你不玩社交软件，不熟悉你的产品功能，就很难理解大模型是用来解决什么问题的。比如，Soul的社交内容更偏男女生互动，这就与抖音等平台的娱乐、萌宠等内容有差异，理解这些才能更好地将技术应用于业务场景。

薛彦泽: 虽然每个人都会思考，但是大多数人很难想得很深，你有没有什么经验？

程兆华:我觉得可以分为三部分来谈：思考深入并非凭空产生，而是需要持续的输入和实践。我的经验可以概括为三点：

首先是广泛输入，思考并非是凭空出现的。我的手机中装有数百个竞品App，我会观察大家都是怎么设计功能的，大量的竞品应用，体会产品间的差异点，能找到更多可能性。

其次是保持思考的习惯，日常使用产品、玩游戏的时候，我都会思考其设计和交互能否更好，理解设计背后的理念和用户需求。

最后需要亲身体验，比如现在负责AI虚拟陪伴产品，我会花费大量时间与虚拟角色互动，“卧底”到用户社群，甚至竞品的社群，从中获取用户反馈和期望。

其实深度的提升是一个刻意练习的结果。用商业化来举例，可以看到不同的商业模式，去探究它们是如何构建和运作的。慢慢就会在生活的方方面面，养成习惯思考现象背后的行为动机。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/