微软近日推出了Microsoft Fabric集成数据分析平台,该平台汇集了所有构建AI所需的数据和分析工具。
微软在本周三于西雅图举行的微软年度开发者大会Build 2023上宣布推出了该平台,它将数据工厂、Synapse和Power BI等平台集成到一个统一的软件即服务产品中。
据微软称,Microsoft Fabric将用一个更简单、更易于管理且具有成本效益的集成平台取代那些分散的系统,供那些希望构建AI并将其集成到技术堆栈中的企业所使用。Microsoft Fabric平台把数据专业人员所需的所有工具捆绑在一个地方,包括数据集成、数据工程、数据仓库、数据科学、实时分析、应用可观察性和商业智能。
微软表示,人们的设备、应用和交互生成的数据充斥着这个世界,Fabric会让人们的生活变得更加轻松。尽管组织已经有效地利用其中大部分数据进行数字化转型并获得竞争优势,但随着生成式AI和大型语言模型的兴起,仍然有很多东西需要简化。
Azure OpenAI等服务让企业能够创造各种尖端的AI体验,从而提高人们的工作效率。但是构建这样的体验具有挑战性,因为这需要稳定的干净数据流和高度集成的分析系统。大多数企业都做不到这一点,而是不得不应对错综复杂的、互不关联的工具和服务,意味着AI开发变得既耗时且成本极高。
Microsoft Fabric旨在改变这一点,允许组织使用单一的产品,让开发者能够从数据中提取洞察,并将其提供给AI或最终用户所需的所有功能。在发布时,Fabric平台支持七种核心的工作负载,其中包括Data Factory——提供了150多种连接器通过拖拽功能连接主流的云和本地数据源。
Microsoft Fabric还支持Synapse数据工程、Synapse数据科学、Synapse数据仓库和Synapse实时分析,以及Power BI的可视化功能,支持通过Data Activator进行实时数据检测和监控。微软表示,所有这些功能现在都处于预览状态。
除此之外,Microsoft Fabric还将集成微软的Copilot工具,类似于GitHub Copilot,预览版即将推出,让用户能够使用自然语言命令和类似聊天的界面与Fabric进行交互,从而更轻松地生成代码和查询、创建AI插件、启用自定义问答、创建可视化等。
Microsoft Fabric建立在OneLake开放数据湖平台之上,后者充当单一的事实来源,无需提取、移动或复制数据。微软表示,Fabric还通过OneLake支持持久的数据治理和单一的容量定价模型,随着使用量的增长而扩展,同时其开放性消除了锁定的风险。
微软表示,除了简化AI开发任务之外,Microsoft Fabric还将帮助每个用户驾驭数据的力量。该平台与Microsoft Excel等Microsoft 365应用进行了原生集成。因此,使用Excel的用户可以直接从OneLake中发现和分析数据,并点击一下即可生成Power BI报告。
微软表示,或者,使用Microsoft Teams的用户也可以使用Fabric将数据直接放进他们的聊天、频道、会议和演示中。或者,使用Dynamics 365的销售人员可以使用Fabric和OneLake提供对客户关系、业务流程的洞察。
Azure数据更新
Microsoft Fabric可以说是此次Build大会上公布一系列与数据相关更新中的重中之重。此外,微软还宣布了Power BI中的一系列新功能,旨在提高用户的工作效率。
最大的更新就是Copilot for Power BI,现已提供预览版,可以更轻松地在几秒钟时间内根据Power BI数据创建报告或者叙述性摘要。用户还可以用他们的自然语言询问有关数据的问题,以生成答案、图表和可视化。
与此同时,Power BI Direct Lake是一种有助于避免数据复制的新存储模式,而Power BI Desktop Developer Mode在通过Git集成为Power BI数据集和报告提供以开发者为中心的工作流程。
微软的云数据库服务Azure Cosmos DB也进行了各种更新,可以提高开发者的工作效率并优化成本,其中包括新的Burst Capacity选项,据说可以通过更好地利用数据库的空闲吞吐量容量来应对流量高峰,为开发者提高性能。
微软声称,当请求超过吞吐量限制时,使用标准配置吞吐量并启用突发容量的数据库,将能够在短时间内保持性能。微软补充说,如果客户配置不足,这会为客户提供“缓冲”,并减少限速请求的数量。
Cosmos DB的其他功能还包括用于更高效分区策略的分层分区键、用于NoSQL的Cosmos DB物化视图,以及.NET和Java SDK遥测和应用洞察。
最后,Cosmos DB更新支持超大规模池进行更新,一种用于超大规模数据库的共享资源模型,目前处于预览状态。开发者可以在云中构建和管理新应用,对那些有不同适用需求且不可预测的多个数据库进行扩展。