2023 年,AIGC 无疑是最火热的技术之一。除了通用大模型以外,产业界也都在纷纷探索垂直大模型以及 AIGC 技术如何为企业赋能。近日,网易数帆发布了有数 ChatBI,将 AIGC 技术与 BI 技术结合,让用户通过日常对话的方式就可以拥有数据分析能力,降低了数据消费门槛,让人人都能拥有数据分析的能力。
网易数帆发布 ChatBI 探索新数据消费模式
过去,数据分析是数据科学家和数据分析师的“专利”,普通业务人员如果需要分析数据,需要提出需求,由数据分析师以及工程师进行运算,得出数据分析的结果,流程长且繁琐,往往不能及时满足业务分析需求。那是否有人人都可以使用的数据分析功能呢?
网易数帆大数据产品线总经理余利华表示,以 ChatGPT 为代表的 AIGC 技术的出现,带来了新的交互模式的变化。网易数帆推出的有数 ChatBI,可以降低数据消费门槛,让不懂技术的人也能轻松获得数据。
据了解,有数 ChatBI 具有三大特点,一是门槛更低,利用大模型的自然语言理解能力,用户只需要与 AI 助手进行对话,即可获得数据,提升用户获取数据分析的便利性;二是效率更优,借助大模型的能力理解用户需求,从对话转换为数据库查表和可视化图表,提升用户的分析效率;三是智能化,从人工设计的规则和模型转化为自动学习的规则,能够处理更复杂和更深度的数据分析任务。
据了解,有数 ChatBI 接入的大模型是网易自研的垂直大模型。网易自研的大模型基座,称为玉言大模型,由伏羲实验室和网易数帆共建。网易数帆大数据团队在玉言大模型的基础上,进行了微调和数据训练,从而形成针对BI场景下的垂直大模型。网易数帆认为,与传统AI技术,如语音识别类似,一旦到了垂直领域,通用模型的效果就难以满足生产级的需求,特别是要求高、容错度低的场景。换言之,在企业级专业领域的应用,垂直领域大模型一定比通用大模型更适合。这是因为,垂直大模型有太多的优化策略可以做到针对性的提升,不管基座如何变化,都会有加成作用。
余利华介绍道,有数 ChatBI 是支持模型切换的,如果有更好的模型或者开源模型,网易数帆也会考虑集成。但是在集成前,网易数帆会根据数据测试集来评估模型的好坏,从而进行选择和集成。
突破可信困局,让 AIGC 可信
人可以睁眼说瞎话指鹿为马,而 AIGC 也可以一本正经地提供不准确的答案。然而,很多用户都没有能力来判断 AIGC 给出的答案是否正确。
余利华表示,网易数帆大数据团队的目标是希望降低数据的使用门槛,特别是不懂技术的人也能够轻松地完成数据的使用。但是实现这一目标的挑战主要在于 AI 幻觉。
AI 幻觉的产生是由于训练数据不足、文本与表示之间的编解码错误等因素。当 AI 一本正经的胡说八道时,它给出的答案,你是否还会相信呢?余利华表示,如果结果是不可信的,那做任何更多的功能都是没有价值的。
为此,网易数帆突破可信的困局,让用户拥有判断 AI 正确与否的能力,即使 AI 提供错误的答案,用户也知道错在哪里。有数 ChatBI 从四个方面来去确保用户获得正确、可信的结果。
首先,需求可理解,是指网易数帆为弥补用户认知和复杂工具之间的门槛,提升准确率,借助大模型的语言理解能力,先进行需求分析,这样即使是完全不懂BI的使用者也能通过需求分析内容判断系统的取数步骤是否正确。
其次,过程可验证,即借助基于大模型的NL2SQL能力实现复核。为了提升NL2SQL能力,网易数帆有针对性地定制生成和优化了超过30万不同类型的问法和SQL。余利华介绍,网易数帆调优出的NL2SQL领域模型,效果已达到GPT-3.5的水平,但是速度更快,消耗更少的硬件资源,甚至支持消费级显卡部署。这也是垂直大模型针对性优化策略带来的效果。
第三,用户可干预,即将数据模型和查询条件结构化,用户可干预可调整,切换数据模型或者查询条件。
第四,产品可运营,即网易数帆为有数ChatBI产品构建了独特的运营反馈机制,用户可以反馈数据的准确性,管理员可运营知识库、标记及优化badcase,从而提升数据可靠性。
余利华表示,ChatBI 只是网易数帆很小的一个起步。整个 BI 分为数据准备、数据分析和数据应用三个阶段,每个阶段都有 AI 落地的场景。未来,网易数帆大数据团队还会持续在 DataOps 和 AIGC技术等方面进行探索,支持企业快速沉淀数据资产,降低数据的消费门槛,推动数据价值能够真正地普惠到各个行业。