生成式AI创企的大问题：不缺钱，缺训练数据-51CTO.COM

6月16日消息，多个生成式人工智能初创公司已获得数十亿美元融资，但如果无法获取适合的数据，那么就可能走向失败。这是一项艰巨的任务，因为大公司通常不愿与初创公司分享专有数据，尤其是在开发大语言模型时。

风险投资公司Primary Venture Partners的联合创始人和普通合伙人布拉德·斯沃卢加(Brad Svrluga)表示：“我们看到很多公司都在人工智能领域寻求卓越应用，但他们往往无法获得能开发强大应用的数据，更不用说能帮助他们在业务中拥有强大竞争力的专有数据了。”

现在，拥有合适数据比以往任何时候都更加重要。投资公司Bullpen Capital的驻场首席技术官保罗·泰马（Paul Tyma）表示，现在开发实际模型已经趋于商业化，真正的价值就在于数据。

根据PitchBook的统计，去年全年生成式人工智能初创公司获得的风险投资为48亿美元，但今年前五个月已经达到127亿美元。现在，其中许多公司都在金融或医疗保健等领域寻求构建更小众的人工智能模型，但要获得相关领域的训练数据集并不容易。

一些人工智能初创公司的目标是与拥有丰富数据的大型企业建立合作关系。例如，安永负责税务的全球副总裁玛娜·里克(Marna Ricker)表示，由于公司拥有海量的交易数据，每天都有开发生成式人工智能的初创公司前来接洽。但安永负责客户服务的全球管理合伙人安迪·鲍德温(Andy Baldwin)表示，他担心如果用安永的数据来训练外部模型会发生什么。

“到底谁拥有这些数据？当我们训练模型时，我们的访问权限是什么？其他人该如何使用这个模型呢？”鲍德温说。“数据也是我们知识产权的一部分。”

初创公司可以用每个客户的数据训练不同的模型，从而绕过知识产权问题。创业公司TermSheet正在利用这一策略打造生成式人工智能模型Ethan，这款产品可以为房地产开发商、经纪人和投资者解答行业问题。但TermSheet首席执行官兼联合创始人罗杰·史密斯(Roger Smith)表示，即便是让客户同意这样做，也需要费一番口舌。

法律科技公司Logikcull的联合创始人兼首席执行官安迪·威尔逊(Andy Wilson)则认为，如何让企业相信你拥有很好的网络安全状况，能够切实保护这些数据，这也是一个挑战。

风投机构Primary Venture Partners的斯沃卢加表示，大型科技公司在开发生成式人工智能应用方面可能比初创公司更有优势，部分原因是它们已经获得了大客户的信任，大客户对它们处理数据也很满意。

金融服务公司Truist的首席数据官特蕾西·丹尼尔斯（Tracy Daniels）表示，在探索人工智能用例方面，她目前只与大型技术供应商合作，而不是与初创公司合作。丹尼尔斯认为大型供应商更能保证数据安全。

这意味着，即使是那些抢先从公开数据中获得一定优势的初创公司，也要面对如何用企业数据集充实模型的挑战。人工智能初创公司Veesual可以生成用户试穿衣服的图像。公司最初利用互联网上的公共图像训练模型，但很难让大型零售商交出自家数据来增强效果。

Veesual首席执行官兼联合创始人马克西姆·帕特(Maxime Patte)表示，在某些情况下，大型零售商要求Veesual为使用相关数据支付巨额款项或拿出部分公司股份，但这些交易最终都没有谈拢。

PatentPal是一家帮助律师事务所起草专利申请文件的生成式人工智能初创公司。首席执行官兼创始人杰克·徐(Jack Xu)表示，公司用公开的专利申请文件训练模型。他说，继续用加密或匿名的实际客户反馈内容进行训练，可能会让工具更加准确。但这一过程很复杂，因为反馈必须与商业机密等高度敏感的数据分离开来。

“对处于早期发展阶段的创业公司来说，一个是品牌认知的问题，一个是社会认同的问题，”他说。

同时压力也在与日俱增。斯特拉克资本(Struck Capital)创始人兼管理合伙人亚当·斯特拉克(Adam Struck)表示，一些初创公司正在争相在某些细分市场获取更多数据，看谁的速度更快。

斯特拉克说：“如果你知道有一个专有数据集，你就会希望赶在别人之前得到它，然后就排他性进行谈判。”“从这个意义上说，这几乎成了一场军备竞赛。”（辰辰）