做一款AI社交应用,项目牵头人应该忙什么? 原创
嘉宾 | 程兆华
采访 | 薛彦泽
撰稿 | 李美涵
出品 | 51CTO技术栈(微信号:blog51cto)
近日,#00 后用 AI 帮人谈恋爱月入百万#冲上热搜。毕业不久的Blake W. Anderson敏锐地捕捉到年轻人群体在亲密关系中的沟通障碍,开发了辅助沟通工具Plug AI。短短几个月,Plug AI的下载量便突破了 150 万次。
一个爆款的AI应用无需广阔的田野,寄身于一点就能野蛮生长——只要那个“痛点”足够“痛”。
“国内现在已经是百模争艳,要在这个内卷的环境中杀出血路,就需要在某一个方向上打出优势。”Soul AI产品负责人程兆华告诉我们,“市场上从不缺60分的产品,难的是怎么打磨到70分以上”。
程兆华告诉我们,他在手机里下载过几百款的竞品应用,只要出现了新款就会抓紧体验下,一边使用一边思考每个设计背后对应的用户需求是怎样的。
产品负责人,可能是花费最多的时间去思考AI如何赋能业务的人。程兆华反对所谓“做垂域大模型,就是拿着锤子找钉子”的说法,他说,“要先想清楚有什么样的钉子存在,我可以拿锤子去敲。”同时他也提到,如果市场规模没有达到几十亿,自己做“锤子”(大模型)就不划算了。
一个合格的AI项目牵头人,往往像桥梁一样连接着用户与后端的算法。在和技术团队沟通时,产品负责人需要从更感性的角度去考虑用户的需要,但也要发挥技术的能力最大程度的解决问题。
因此,作为一个“拍板方”,产品负责人的岗位对能力的考量通常是“既要又要”的。用程兆华的话来说,就是要和精通业务的人比拼自己对业务的了解深度,同时又要与技术人员拼自己对大模型技术的了解广度。
相应的,他作为Soul AI的产品负责人背负了业务指标、AI能力建设、团队建设三个层面的OKR。
从程兆华身上我们看到了AI产品负责人们繁忙又充实的缩影。
1.2024,单点AI应用更容易出圈?
薛彦泽:今年主打长文本处理的Kimi从一众ChatBot中脱颖而出, 这是不是说明当前单点AI应用更容易出圈?
程兆华:
国内现在已是百模争艳,普通厂商是不可能跟大厂拼资源的。要在这个内卷的环境中杀出血路,就需要在某一个方向上打出优势,解决某个特定问题。
以Kimi为例,长文本的功能回应了大学生群体的论文写作需求,这一点非常直接。除此之外,小说创作者使用Kimi能够处理长达十几万字的文本,那时GPT的上限大概是4000 Tokens,这个点就会很好地解决长篇创作的痛点。
归根结底,只有基于特定场景进行深入挖掘,满足用户实际的需求,单点AI应用才能在市场中脱颖而出。市场上不缺60分的产品,要的是在某些领域做出深度,打磨至70分以上。
薛彦泽: 评论区有观众表达了质疑,说GPT-4o出来以后通用模型已经高度可用,现在搞这种单点AI应用还有意义吗?
程兆华:
举个常用的例子,现在GPT也可以去做搜索,但海外就是有特别多的用户在用perplexity。为什么?这个产品的从搜索的效率、视觉呈现、交互等方面做了优化,整体的用户体验比GPT的搜索更好用。
再如细分场景下,例如教育,GPT做得再强大,也很难让小朋友直接与其聊天、互动。
这些情况下单点AI应用就能发挥其优势。
2.垂域AI产品,是不是拿着锤子找钉子?
薛彦泽: 垂域AI产品,是不是拿着锤子找钉子?为大模型找场景,还是从已有产品出发寻求AI赋能,您是哪一派?
程兆华:
从根本上说,需求不是被创造出来的。更通顺的逻辑是,我们需要想有什么样的钉子存在,我可以拿锤子去敲。
开发大模型的过程就像是造锤子,铸造的过程中模型会有能力上的丢失。如果我们试图用一个通用的大模型去解决所有问题,肯定是不够合适的。因此,拿着锤子找钉子的方法可能并不适用。所以说,我们的大模型探索了许多架构,比如MOE专家模型和向量检索技术,去更好地解决细分场景下的问题。
薛彦泽: 那您觉得钉子体量多大才值得用锤子?
程兆华:
从整体的商业价值上考虑的话,如果市场规模没有达到几十亿,那么使用大模型的成本就太高了。训练一个大模型的成本至少是上百万,而推理和优化的成本可能高达几千万甚至上亿。因此,如果市场规模不够大,我们很难收回成本,也就不值得去使用这样的"锤子"。
3.自研垂直领域模型,好坏标准如何定义?
薛彦泽:打造一个垂域的大模型,肯定会遇到很多的挑战,我们比较好奇模型的好坏标准是如何定义的?
程兆华:
在做模型的时候,我们通常会说让算法去定义模型的好坏,这包括模型的逻辑性、准确性、一致性、安全性和鲁棒性等常用指标。
但是对于产品来说,我们更关注产品适合哪类用户,我的产品怎样更容易出圈。以苟蛋为例,我们会从用户的角度,评判模型生成内容的趣味性、丰富性,用更多这样的指标来描述用户的主观体验。
在整个研发流程中,我们产品会成为一个拍板方,会从更感性的角度去考虑用户的需要,通过迭代模型达到我们追求的效果。这是我们的基本思路。
薛彦泽: 我比较好奇,你作为项目牵头人在跟算法或者技术同学讨论这些case时,一般争议点会在哪儿,怎么解决?
程兆华:
算法的同学可能会比较头疼,他们不直接面向用户,而且可能对该垂域了解不深。这就需要我们产品去做拍板,运营的同学提供用户反馈,指出当前模型不满足我们预期的点,针对特定的case再去拆解指标、去做优化。
随着团队的磨合,算法团队也能根据用户反馈,主动思考模型的迭代方向和方法的有效性。
薛彦泽: 可以分享一下具体的案例吗?
程兆华:
我们当时在去做对话的时候,刚开始经常遇到AI重复回答问题的情况,用户已经提出新的问题了,AI还给出上个问题的答案,这严重影响了用户体验。
面对这种情况,算法团队从技术角度出发,提出了增加重复性惩罚的策略,以降低AI的重复率。同时,我们也review了数据集,如果发现近期存在大量重复性数据,就需要对数据进行清洗,甚至说引入更多的数据去覆盖bad case。
4.聊一聊AI产品负责人的OKR
薛彦泽: 程老师作为AI产品的负责人,您的OKR是什么?
程兆华:
我的OKR主要围绕三个方面:
首先,最核心的一个部分是业务指标的提升,我们需要确保在AI研发上的投入能够带来实际回报。我们会对齐业务指标,比如新项目的拉流、时长和产品的DAU,我需要负责的是确保AI能力对这些指标有积极贡献。
第二点是AI能力的建设,需要确保我们的AI能力保持领先,比如Sora推出后我们就需要考虑是否跟进视频能力。这部分会创新性指标,需要与算法团队合作,推动新能力的落地。
最后一部分与企业内部的团队建设有关,我需要思考其他部门如何用好AI提高效率,并且构建一个高效的AI团队。
薛彦泽:对于AI产品负责人,尤其咱们这样To C的社交应用,用户留存的指标达到多少算比较OK?
程兆华:
可以大概说一下,传统的聊天场景次日留存一般很高,能达到50%以上。虚拟人对话一般会低一些,因此次留达到50%是一个比较高的要求。尤其这个领域已经卷了一年,供用户选择的产品不少,如果一个产品想要脱颖而出,日留存至少应该在40%到50%之间。
此外,我们还需要关注长流,七日留存率至少需要达到15%,甚至以上。
5.让大模型的局限性被用户接纳,有何良方?
薛彦泽: 想聊聊大模型的局限性,例如幻觉、延迟等等,怎样让用户接受一个无法尽善尽美的产品?
程兆华:
所有的东西都是要找到一个“度”。在技术方案难以解决问题的前提下,我们会从产品层面进行包装。
例如,如果一个虚拟客服形象可爱、声音温柔,即使犯了些小错,用户也更愿意接受。对于延迟问题,我们可以通过添加"思考中"的状态来模拟真人的思考过程,减少用户的阻尼感。
在成本方面,我们需要考虑是否可以利用已有的模型,减少训练成本。同时,我们可以通过缓存机制处理高频问题。还可以考虑将大模型蒸馏成更小的模型,以减少部署和运行成本。
薛彦泽: 大模型蒸馏成小模型,怎么调度,如何解决算力分配?
程兆华:
利用现有的技术架构来解决,我们我们会有一套判断逻辑来决定哪些问题更适合由小模型来处理。
薛彦泽: 评论区有观众提问,大模型的鲁棒性该如何评估?
程兆华:鲁棒性就是模型的统一性。例如,前面的信息说A是B的姐姐,那么整个对话都应该输出一致的答案。
提升鲁棒性的最佳方法之一是通过数据构建,通过构建攻击性问题,在case中变着花样去问,然后喂给这个模型,它的鲁棒性就会提高。
此外,在强化学习阶段,特别是在知识类场景中,采用如PPO(Proximal Policy Optimization)等强化学习算法,可以有效地提高模型的鲁棒性。大概是这两种方法。
6.如何培养自己的大模型话语权?
薛彦泽: 下个问题,如何培养自己的大模型的话语权?
程兆华:
对于一个去做大模型的产品来说,培养大模型的话语权,我认为关键在于两个方面:
一是提升自己对大模型技术的了解广度,不仅要跟上新技术的发展,还要理解这些技术如何应用在不同场景中。
二是提升自己对业务的了解深度,特别是业务如何与大模型技术结合。如果你不玩社交软件,不熟悉你的产品功能,就很难理解大模型是用来解决什么问题的。比如,Soul的社交内容更偏男女生互动,这就与抖音等平台的娱乐、萌宠等内容有差异,理解这些才能更好地将技术应用于业务场景。
薛彦泽: 虽然每个人都会思考,但是大多数人很难想得很深,你有没有什么经验?
程兆华:
我觉得可以分为三部分来谈:思考深入并非凭空产生,而是需要持续的输入和实践。我的经验可以概括为三点:
首先是广泛输入,思考并非是凭空出现的。我的手机中装有数百个竞品App,我会观察大家都是怎么设计功能的,大量的竞品应用,体会产品间的差异点,能找到更多可能性。
其次是保持思考的习惯,日常使用产品、玩游戏的时候,我都会思考其设计和交互能否更好,理解设计背后的理念和用户需求。
最后需要亲身体验,比如现在负责AI虚拟陪伴产品,我会花费大量时间与虚拟角色互动,“卧底”到用户社群,甚至竞品的社群,从中获取用户反馈和期望。
其实深度的提升是一个刻意练习的结果。用商业化来举例,可以看到不同的商业模式,去探究它们是如何构建和运作的。慢慢就会在生活的方方面面,养成习惯思考现象背后的行为动机。
本文转载自51CTO技术栈,作者:李美涵