腾讯云副总裁吴运声：面向场景创造价值才是大模型发展的意义

2024-09-06 15:43:03

9月5日，在2024腾讯全球数字生态大会云上智能峰会上，腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声分享了腾讯云在智能领域的最新进展，并探讨了大模型在产业中的应用和未来发展。

腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声

吴运声在演讲中指出，大模型的发展呈现出两个明显趋势：模型性能不断提升和落地场景不断丰富。他强调，面向场景创造价值才是大模型发展的意义。基于全矩阵的大模型产品，腾讯已经服务了众多客户，在知识管理、智能客服、研发提效、智能营销、内容生成、办公协同、风险管控等场景中，帮助企业实现了降本增效和业务创新。

腾讯云的大模型策略以实用性为核心，满足不同企业在大模型时代的需求。腾讯已经构建起了全链路的大模型产品矩阵，包括底层基础设施、帮助企业训练专属模型的TI平台和行业大模型解决方案，自研的混元大模型，构建应用的平台工具，以及基于大模型的各类智能应用。

吴运声介绍，腾讯最新发布的混元Turbo版本通过自研的万亿级层间异构MoE技术，相比前代模型实现了训练效率提升108%，推理效率提升100%，推理成本降低 50%。同时，混元Turbo的效果在多个基准测试上对标GPT-4o，且第三方测评居国内第一。

腾讯云在今年5月还一并推出了三款PaaS产品——大模型知识引擎、图像创作引擎和视频创作引擎。经过两个月的迭代，这些产品的能力进一步升级，可以为电商、出海等领域的客服营销、企业知识社区等众多业务场景提供效率的助力和创新的支持，也进一步加快了大模型在实际场景中应用落地的速度。

在模型训练工具方面，为了帮助企业用户更便捷地打造专属模型，人工智能开发平台TI平台也进行了全新升级。在精调数据准备层面，TI平台全新支持面向多模态大模型的数据集管理和数据标注，首创了基于Schema的标注方法，支持用户自动生成个性化标注工作台，支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。

同时，腾讯云将2D数智人、3D数智人和声音复刻管线全面输出，支持企业私有化部署和灵活定制。管线输出意味着，客户可以将训练数据和训练模型都部署在自己的环境上，推动数智人在更多场景的普及和落地。

附：演讲全文

尊敬的各位嘉宾、媒体朋友们，

大家好！

我是腾讯的吴运声，很高兴在这里跟大家分享腾讯云在智能领域的最新进展和思考。

大模型已经发展了两年，我们能明显看到两个趋势：一方面，模型性能在不断提升，围绕着模型的产品使用门槛也变得更低、更加易用；另一方面，企业和开发者积极探索大模型与自身业务场景的结合，大模型的落地场景不断丰富、更纵深。我们认为，面向场景创造价值才是大模型发展的意义。

腾讯的大模型策略，从最开始就以实用为目标，我们希望构建起离产业最近的AI产品矩阵。从底层的高性能计算、存储、网络等AI infra产品，到一站式的人工智能开发平台TI和行业大模型解决方案，再到自研的混元大模型，以及基于大模型的各类工具和智能应用，我们提供了全方位的产品，满足企业在大模型时代的各类需求。无论是做大模型的企业，还是想要搭建AI应用的创业者，还是想利用AI来实现降本增效的企业，都能在腾讯云上找到好用的工具。

去年的生态大会上，我们正式发布了全链路自研的腾讯混元大模型。经过不断的迭代创新，混元已经稳居国内大模型第一梯队。

今天，我们正式推出了更快更强的混元Turbo版本，通过自研的万亿级层间异构MoE结构，混元Turbo用更多的专家数、更少的激活参数量实现了更好的效果。相比前一代MoE大模型，腾讯混元Turbo的训练效率提升108%，推理效率提升 1 倍，推理成本降低 50%，仅用一半训练语料，就实现效果提升14%，中文场景的效果对标GPT-4o。技术创新让我们可以更多地让利给客户，混元Turbo的定价仅为混元Pro版的一半。

在多模态领域，混元的多项能力也在国内保持领先。混元生图是首个中文原生的DiT架构文生图开源模型，目前在全网衍生的模型数量超过2000个。这也充分证明了开发者对于我们模型能力的认可。

近期，混元还推出了基于 MoE 架构的多模态理解大模型混元vision。我们在架构、训练方法和数据处理方面进行了创新和深度优化，显著提升了性能，能支持最高 7K 分辨率、最大长宽比16:1的图片的理解。在近期发布的中文多模态大模型 SuperCLUE-V 基准评测中，腾讯混元斩获国内排名第一，超越了多个主流闭源模型。

在自研的混元大模型之外，为了帮助企业用户更便捷地打造专属模型，我们的人工智能开发平台TI平台也进行了全新升级。在精调数据准备层面，我们全新支持面向多模态大模型的数据集管理和数据标注，首创了基于Schema的标注方法，支持用户自动生成个性化标注工作台，支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。

高质量的训练数据是精调出一个可落地大模型的前提条件。TI 平台的多模态数据集管理和数据标注能力，可提升大模型精调的数据准备效率和训练数据质量，从而提升大模型训练效率和最终效果。

大模型训练之外，针对OCR和工业质检场景等垂直训练场景，我们也对产品进行了升级。OCR场景中，可以实现智能反馈出模糊、反光等场景下的误识别，水印识别平均准确率提升至95%。在工业质检场景下，我们全新支持基于Visual Prompting 的小样本分割链路，并推出缺陷感知通用模型、缺陷自动合成功能，可实现“0” 标注或“1”标注下解决质检问题。

具体到模型工具产品方面，今年5月，我们推出了三个大模型PaaS产品：知识引擎、图像创作引擎和视频创作引擎，帮助企业快速、轻松打造AI原生应用。

大模型知识引擎聚焦企业知识服务场景。通过该平台，企业用自然语言和简单配置，5分钟就可以开发出一款大语言模型应用，服务于客服营销、企业知识社区等业务场景。经过几个月的产品迭代，知识引擎产品在用户需求识别与理解、企业知识处理、检索和理解能力上，都有很大的升级。

比如，我们综合运用向量检索、摘要检索、text2sql多种技术手段，显著提升了复杂大表的检索及问答准确率。同时，我们升级了升级多模态知识解析、检索、阅读理解能力，实现读懂文中的“数据图”、“自然场景图”、“图文关系”。

同时，我们提供了更灵活的购买方式，支持组件能力的单独输出，企业可以按需购买文档解析、文档拆分、向量化等能力，按需部署到自身的应用中去。

在图像创作引擎层面，基于混元生图能力的升级，我们的图像风格化、AI写真、商品背景生成、模特换装等功能也进一步实现了迭代。在AI写真层面，我们实现了免训练技术突破，输入一张照片后可直接跳过训练环节等待，一键生成高清写真艺术照，整体出图耗时缩短75%。

针对很多电商商家高频使用的商品背景生成能力，我们大幅提高了背景画面真实度、商品分割细腻度，以及商品与背景间融合的自然度与交互合理性，实现商品在不同场景中高度逼真的虚拟效果展示。在模特换装场景下，我们采用3D先验方案，提升重建人像效果，在高度保持模特脸部、手部细节的同时，精确将服装版型细节与模特身体特征对齐，确保换装后的效果逼真自然。

基于混元的DiT架构模型，我们的视频创作引擎也迎来了全新的升级，新增了图片跳舞、图片唱演和视频转译等能力。

首先，我们来看下图片跳舞能力，目前，我们已经实现了单段舞蹈的生成时间从10分钟下降至1分钟级别，同时支持转身、侧身等难例舞蹈动作。人物跳舞的自然度已经有了很大的提升，这背后是我们基于3d-boby重建技术，进一步优化了算法，画面的真实度和自然度也有了明显提升。

在图片唱演层面，我们目前可以支持一张人像图片生成一段唱演视频，视频生成的人物的面部表情和情绪演绎都更加自然灵动。

同时，针对很多客户有需求的在视频转译能力，我们接入了混元文生文大模型和 TTS 技术，让转译后的视频能够保留说话人的音色特征，同时实现说话人口型与目标语种一致的视听效果。目前视频转译功能支持15+小语种，覆盖主流外语翻译，可应用于视频本地化、跨境电商等场景。

基于腾讯先进的形象驱动、自然语言理解和识别能力，我们的数智人形象自然度业界领先。目前，腾讯云智能数智人已经在业务办理、用户运营、营销获客以及品牌宣传等业务场景中落地。

今天，我们也将2D数智人、3D数智人和声音复刻管线全面输出，支持企业私有化部署和灵活定制。管线输出意味着，客户可以将训练数据和训练模型都部署在自己的环境上。我们的合作伙伴也可以基于我们的管线能力批量生成数智人，更好地推动数智人在更多场景的普及和落地。

基于我们全矩阵的大模型产品，我们已经服务了众多客户，在知识管理、智能客服、研发提效、智能营销、内容生成、办公协同、风险管控等场景中，很多客户利用我们的产品实现了降本增效和业务创新。

在智能客服与知识管理场景中，基于大模型的生成能力，可以显著提升复杂问题的解决效率，提升回答质量。比如，汽车售后服务是一个典型的专业客服场景，涉及的知识复杂，汽车说明书包括图片、表格等众多形式，传统客服机器人无法及时准确地回答问询。我们与长安汽车共创，利用大模型知识引擎整合汽车使用手册等资料，有效解决了客户在车辆使用和维护中的疑问，显著提升了客户服务体验。

在智能营销场景，大模型可以提升广告素材的生产效率，提升营销互动的趣味和互动性。比如，蒙牛在一场营销活动中，利用图生图能力，将用户上传的全家福转化生成为特制的卡通画风，助力会员拉新、提升用户活跃。活动期间小程序相对于去年同期提升80%以上。

在内容创意场景，大模型可以让内容生产的周期大幅缩短，提供更多的创意玩法。比如，人民日报、新华社等媒体结合我们的文生视频能力，创作了很多视频作品。过去，视频内容需要一帧帧进行设计和制作，制作周期短则数天，长则数月。现在借助视频生成能力，只需一段文字或者几张图片，就能在几分钟内生成优质视频内容。

在研发提效领域，我们一方面提供了TI平台等工具，帮助易车、阅文等企业搭建自己的大模型，显著降低了模型构建的时间和成本；另一方面，通过AI代码助手等工具，我们也辅助开发者，提升研发的效率，帮助企业提升整体研发效能。

在办公协同场景中，腾讯旗下的企业微信、腾讯会议、腾讯文档都已经接入了混元大模型。在大模型的助力下，企业微信可对英文邮件进行智能检查，辅助英文邮件纠错，腾讯会议可以自动总结会议纪要，腾讯文档能够自动生成各类文档。这些功能把个体从繁琐的工作中解放出来，也显著提升了团队协同的效率。

在风险管控领域，风控大模型可以解决传统风控中建模时间长、效率低的难题。通过打包丰富的反欺诈知识，实现“小样本”训练，快速构建契合业务需求的风控模型体系。比如，东风日产汽车金融，基于少量提示样本迁移，就完成了适配自身业务场景的风控模型定制。相比于传统的建模方式，模型KS性能提升超过20%，在跨场景的泛化性测试上性能提升53%。

今天我们也很荣幸请来了很多客户来分享他们的落地实践。未来，我们也希望与更多客户携手，推动大模型落地到场景中，真正为企业创造价值！谢谢大家！

责任编辑：企业资讯

腾讯云