2024 年,诺贝尔奖的物理学奖与化学奖双双授予了与人工智能技术紧密相关的研究,这无疑为 AI 在科研领域的推动作用提供了强有力的背书,进一步彰显了其不可或缺的重要性。
AI for Science 变得盛况空前。科学家们积极探索人工智能在科研领域的广阔应用与发展前景,科学研究也从经验范式、理论范式、计算范式、数据驱动范式,迎来了第五范式——智能科学。
在火山引擎副总裁张鑫看来,AI 技术的出现,不仅加速了科学研究范式的根本性转变,促进了多学科研究之间的深度融合与协同发展,还极大地加速了科学发现的进程。正是洞察到了科研领域需求侧所发生的深刻变化,以及供给侧大模型为 IT 领域带来的多维度变革与新视角,火山引擎自 2022 年进入到了科研领域,并且从生命科学领域切入,助力科学研究提质增效。
火山引擎副总裁张鑫
纵深科研,AI for Science 也可以“多快好省”
在生命科学领域,科研人员长期面临一系列严峻挑战:过度依赖国外工具,学术研究结果可复性差,数据孤立且标准不统一,研发效率低下等问题,极大地阻碍了科研进展。于是,火山引擎携手合作伙伴共同推出了 Bio-OS 生物信息操作系统,将科研所需要的各类数据工具、流程配置和分析过程进行封装,希望可以像 PC 或移动操作系统一样,屏蔽底层复杂的技术,赋能上层应用创新,从而构建一个平台化的生态系统。
张鑫介绍道,“我们的思路就是打造一个面向生命科学行业的操作系统,其底层提供资源管理和数据管理能力,简化操作,降低使用门槛;而上层定义应用标准,推动开源开放的生态体系形成。”
经过了两年的快速迭代,Bio-OS 操作系统也实现了五大升级。一是 All in Workspace,使得科研过程与成果可分享、可追溯及可协同;二是引入智能助手,可以通过自然语言的方式使用 Bio-OS 平台上的工具和创建工作流;三是将计算向数据靠拢,在一个平台上完成数据的处理、计算和分析;四是利用云原生与分布式云技术,高效管理异构算力资源;五是持续推动社区和生态的建设,吸引更多人才加入生命科学领域,共创价值。通过五大升级,火山引擎为科研人员提供了更加便捷、高效、智能的科研平台,促进了技术创新与知识共享,推动了生命科学领域的创新与发展。其中,Bio-OS 开源开放大赛作为推动生态建设的重要举措之一,第二届 Bio-OS 开源开放大赛吸引了近 300 支团队参与,特别是AI算法打榜赛,更是激发了众多团队的热情。
鉴于不同科研领域具有共通性,火山引擎从生命科学出发,逐步抽象通用能力,推出了科研智算云解决方案。张鑫用“多快好省”四个字概括了这一方案的特色。
多:火山引擎提供全栈产品体系,科研人员可以根据需求灵活组合产品,支持生物信息、药物研发、材料科学、EDA 等多个科研场景。
快:依托火山引擎弹性调度与并行计算能力,显著提升科研计算分析效率;同时,通过自动化工作流,实现科研实验流程的自动化执行。
好:用户体验友好。通过图形化界面封装复杂算法与工具,科研人员仅需简单配置与自然语言交互,即可完成技术架构设计,极大简化了科研流程。
省:针对科研资源消耗大的问题,火山引擎通过海量算力资源的规模效应以及资源内外复用和削峰填谷,有效降低科研 IT 成本。
目前,火山引擎科研智算云解决方案已经在多个科研场景中成功应用。广州实验室借助 Bio-OS 在生物信息领域实现科研普惠化,序祯达在基因测序上的数据处理提速,百奥云快速构建农业基因育种平台加速分析,分子之心借助火山引擎高性能计算资源及独有的计算模型,快速完成新药研发。这些成功案例不仅验证了火山引擎解决方案的有效性,也为科学研究的未来发展开辟了新的道路。
解锁火山引擎 AI for Science 的“制胜法宝”
火山引擎作为一家云服务供应商,在 AI for Science 方面的优势究竟又体现在何处呢?对此,张鑫给出了清晰的解答。“火山引擎在 AI for Science 领域的优势可归结为三大方面,坚实的技术底座、深度的行业优化以及前沿的科研应用创新。”
科学研究离不开坚实的基础设施和IT技术能力的支撑。火山引擎打造了“三驾马车”来构建技术底座,即面向 AI 的全栈云,豆包大模型以及数据飞轮,这三者恰好对应了人工智能时代三大要素,算力、算法和数据。在算力层面,火山引擎通过构建软硬一体的分布式云架构,实现了异构资源的统一调度与弹性扩展,应对科研场景下复杂多变的需求。在算法方面,豆包大模型凭借其强大的理解分析和推理能力,可以帮助科研人员完成海量的密集数据的智能分析工作。在数据方面,火山引擎具有丰富的数据经验,从数据整理、存储到分析的全链路管理,为科研人员提供有力支持。
其次,火山引擎深知科研领域的特殊性,在通用的基础设施之上根据科研场景进行了深度优化,推出了有针对性的解决方案,助力科研人员提升科研效率与质量。
此外,字节跳动在科研领域的积累同样不容小觑。其内部的 AML(Applied Machine Learning)团队就设有专门负责科学计算的科学家,他们致力于量子化学、材料科学、物理学、生命科学等多个领域的研究。同时,ByteDance Research 团队也在机器人、具身智能等前沿领域不断钻研,探索发现科研领域的新趋势与新机遇。
在科研领域,火山引擎不仅提供工程化的产品与技术,加速科学研究的进程,还围绕 AI for Science 进行前沿探究。这使得火山引擎能够更深入地理解科学家的需求,以更高远的视角审视科研领域的发展动态,从而为客户提供更加精准、高效的解决方案与服务。
加速科研提效与知识发现的“四轮驱动”
随着科研迈入第五范式,生成式 AI 的快速发展正深刻改变着科研工作的工作方式。如何更加高效地发挥 AI 能力和潜力,助力科学研究提速增效?火山引擎提出了“四轮驱动”战略,即算力、数据、算法与知识。
张鑫特别强调了知识的重要性。很多企业将数据和知识混为一谈,其实不然。数据是客观的、原始的,而知识则是经过深入理解和加工处理的主观产物。从数据到知识的转化,需要借助数据治理、构建知识体系,并结合先进的算法模型,才能产出真正的智慧。
当前的大语言模型主要基于统计原理,往往缺乏对物理世界规则和知识的深入理解,因此存在诸多局限性,如经典的“9.11 和 9.8 谁大”问题便暴露了其不足。因此,大模型也需要领域知识进行增强。
在科研领域,知识的重要性更加凸显。如何将科学家头脑中的宝贵经验以及实验设计流程的最佳实践转化为可量化的知识形态,成为亟待解决的问题。
张鑫表示,算力、算法、数据与知识之间紧密相连,共同构成了科研工作的基石。遵循 DIKW(Data、Information、Knowledge、Wisdom)方法论,将这四个要素协同起来,是推动科研工作不断前进的关键。
通过算力和数据分析,数据被转化为信息,实现可追溯、可分享、可协作以及可传承。在此基础之上,算法与大模型的结合打造出科研 Copilot 和 Agent,助力科研人员迅速筛选出所需的能力和工具,完成知识的提炼。例如,火山引擎推出的科研助手,便能自动化设计实验并调用相关工具,极大地提升了科研效率。
当知识被提炼出来后,通过大模型与知识图谱的结合,可以打造出知识聚合体,进一步增强大模型的能力,使其从原本单纯依赖数据驱动变得更加“聪明”。这样,算力、数据、算法与知识四轮协同转动,共同推动科研工作迈向新的高度。
预见 AI for Science,布局未来
在这个科技日新月异的时代,AI 技术正在迅速渗透到科学研究的各个领域。AI for Science 正逐渐改变着科学研究的范式,推动着科学探索的边界不断拓展。在展望 AI for Science 的未来发展趋势时,张鑫归纳了五大特点。
首先,AI 推理能力将会显著提升,其回答内容具有更强的可靠性和可追溯性,为科研人员提供坚实的数据支撑。
其次,多模态数据融合的需求日益迫切。科研领域涉及多种类型的数据,如何有效地融合多模态数据,以获取全面且深入的信息,是至关重要的。
第三,通用 AI 与实验科学的深度融合。将 AI 技术引入了实验过程的每一个环节,从实验过程监控到实验结果调整优化,AI 都能发挥重要作用,从而推动实验科学的快速发展。
第四,构建更加开放共享的平台和生态,方便科研人员获取和使用数据,同时促进不同机构之间的联动合作,共同推动科学研究的进步。
最后,伦理和法律问题也是不容忽视的一环。在保障数据隐私性和可靠性的前提下,AI for Science 才能稳健前行,为科学研究注入源源不断的动力。
针对这些未来趋势,火山引擎将重点在两个方面发力。一方面,火山引擎将在广度上进行拓展,深入研究材料科学、化学、天文等多个领域,为更多企业和科研机构提供加速研究的支持。另一方面,在技术层面,火山引擎将优化大模型能力,不仅通过算法助力科研,还将物理世界的规则和前沿规律等知识注入大模型中,实现 AI for Science 与 Science for AI 的有机结合,形成相互促进的飞轮效应。
AI for Science 不仅为科学研究提供了前所未有的动力,让科研过程变得更加高效、精准,同时也从科学研究中汲取养分,不断推动着 AI 技术的边界拓展与能力提升。科研的道路永无止境,火山引擎也会继续深耕 AI 技术,拓展科研应用场景,以开放的心态,与科研工作者共同探索未知,解锁科学的奥秘。