AIGC + BI = ChatBI，网易数帆让人人都拥有数据分析能力-51CTO.COM

2023 年，AIGC 无疑是最火热的技术之一。除了通用大模型以外，产业界也都在纷纷探索垂直大模型以及 AIGC 技术如何为企业赋能。近日，网易数帆发布了有数 ChatBI，将 AIGC 技术与 BI 技术结合，让用户通过日常对话的方式就可以拥有数据分析能力，降低了数据消费门槛，让人人都能拥有数据分析的能力。

网易数帆发布 ChatBI 探索新数据消费模式

过去，数据分析是数据科学家和数据分析师的“专利”，普通业务人员如果需要分析数据，需要提出需求，由数据分析师以及工程师进行运算，得出数据分析的结果，流程长且繁琐，往往不能及时满足业务分析需求。那是否有人人都可以使用的数据分析功能呢？

网易数帆大数据产品线总经理余利华表示，以 ChatGPT 为代表的 AIGC 技术的出现，带来了新的交互模式的变化。网易数帆推出的有数 ChatBI，可以降低数据消费门槛，让不懂技术的人也能轻松获得数据。

据了解，有数 ChatBI 具有三大特点，一是门槛更低，利用大模型的自然语言理解能力，用户只需要与 AI 助手进行对话，即可获得数据，提升用户获取数据分析的便利性；二是效率更优，借助大模型的能力理解用户需求，从对话转换为数据库查表和可视化图表，提升用户的分析效率；三是智能化，从人工设计的规则和模型转化为自动学习的规则，能够处理更复杂和更深度的数据分析任务。

据了解，有数 ChatBI 接入的大模型是网易自研的垂直大模型。网易自研的大模型基座，称为玉言大模型，由伏羲实验室和网易数帆共建。网易数帆大数据团队在玉言大模型的基础上，进行了微调和数据训练，从而形成针对BI场景下的垂直大模型。网易数帆认为，与传统AI技术，如语音识别类似，一旦到了垂直领域，通用模型的效果就难以满足生产级的需求，特别是要求高、容错度低的场景。换言之，在企业级专业领域的应用，垂直领域大模型一定比通用大模型更适合。这是因为，垂直大模型有太多的优化策略可以做到针对性的提升，不管基座如何变化，都会有加成作用。

余利华介绍道，有数 ChatBI 是支持模型切换的，如果有更好的模型或者开源模型，网易数帆也会考虑集成。但是在集成前，网易数帆会根据数据测试集来评估模型的好坏，从而进行选择和集成。

突破可信困局，让 AIGC 可信

人可以睁眼说瞎话指鹿为马，而 AIGC 也可以一本正经地提供不准确的答案。然而，很多用户都没有能力来判断 AIGC 给出的答案是否正确。

余利华表示，网易数帆大数据团队的目标是希望降低数据的使用门槛，特别是不懂技术的人也能够轻松地完成数据的使用。但是实现这一目标的挑战主要在于 AI 幻觉。

AI 幻觉的产生是由于训练数据不足、文本与表示之间的编解码错误等因素。当 AI 一本正经的胡说八道时，它给出的答案，你是否还会相信呢？余利华表示，如果结果是不可信的，那做任何更多的功能都是没有价值的。

为此，网易数帆突破可信的困局，让用户拥有判断 AI 正确与否的能力，即使 AI 提供错误的答案，用户也知道错在哪里。有数 ChatBI 从四个方面来去确保用户获得正确、可信的结果。

首先，需求可理解，是指网易数帆为弥补用户认知和复杂工具之间的门槛，提升准确率，借助大模型的语言理解能力，先进行需求分析，这样即使是完全不懂BI的使用者也能通过需求分析内容判断系统的取数步骤是否正确。

其次，过程可验证，即借助基于大模型的NL2SQL能力实现复核。为了提升NL2SQL能力，网易数帆有针对性地定制生成和优化了超过30万不同类型的问法和SQL。余利华介绍，网易数帆调优出的NL2SQL领域模型，效果已达到GPT-3.5的水平，但是速度更快，消耗更少的硬件资源，甚至支持消费级显卡部署。这也是垂直大模型针对性优化策略带来的效果。

第三，用户可干预，即将数据模型和查询条件结构化，用户可干预可调整，切换数据模型或者查询条件。

第四，产品可运营，即网易数帆为有数ChatBI产品构建了独特的运营反馈机制，用户可以反馈数据的准确性，管理员可运营知识库、标记及优化badcase，从而提升数据可靠性。

余利华表示，ChatBI 只是网易数帆很小的一个起步。整个 BI 分为数据准备、数据分析和数据应用三个阶段，每个阶段都有 AI 落地的场景。未来，网易数帆大数据团队还会持续在 DataOps 和 AIGC技术等方面进行探索，支持企业快速沉淀数据资产，降低数据的消费门槛，推动数据价值能够真正地普惠到各个行业。