微软赢麻了！数十亿文本-图像对训练，多模态Florence开启免费体验，登上Azure-51CTO.COM

2021年11月，微软发布了一个多模态视觉基础模型Florence（佛罗伦萨），横扫超过40个基准任务，轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半，Florence正式开启商用阶段！

Florence能干什么？

最近，微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

Florence模型经过数十亿文本-图像对的训练，目前已集成进Azure 认知视觉服务中，在「价格」和「性能」上都已到达「生产环境」的要求，目前处于免费试用阶段。

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中，从图像和视频内容中获取更精确的信息，保护用户远离有害内容，增强安全性，并提升事件响应速度。

Florence的实际能力也很强大，用户可以在Vision Studio中进行「开箱即用」的体验。

体验网址：https://portal.vision.cognitive.azure.com/gallery/featured

具体包括：

Dense Captions（详细的描述）：可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索：使用自然语言查询，无缝地度量图像和文本之间的相似性，从而改进搜索推荐和广告。

背景去除：可以方便地从原始背景中分割出人物和物体，并替换为其他背景场景，从而改变图像的外观和感觉。

模型定制：降低交付定制模型的成本和时间，能够以更高精度来匹配独特的业务需求，即便只有少量的可用图像。

视频摘要：搜索和交互视频内容，与人类同样直观的方式进行思考和写作。可以帮助找到相关内容，并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示，通过微软的Vision技术，可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit，使用图像描述来帮助用户提高文章的搜索结果，让Reddit用户有更多机会来探索网站上的图片，参与对话，并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签，使得Reddit能够更好地控制图片中的物体数量，并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外，微软也正在提升Microsoft 365应用程序（包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive）中视觉服务的能力。

在图像分割能力的帮助下，Teams正在推动数字空间的创新型，把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示，LinkedIn上有超过40%的帖子中包含至少一张图片，对于盲人或是低视力的用户来说，视觉服务能够让所有用户都有平等的阅读机会，并使他们能够参与到在线对话中。

通过Azure视觉认知服务，LinkedIn可以提供自动图像描述来编辑和支持可选文本，这是一种全新的体验。

不仅我对此感到兴奋，我的同事刚刚分享了一个他们参加活动的照片，LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则，可以了解到微软是如何致力于开发人工智能系统，以提升世界的可访问性。

微软致力于帮助各个组织充分利用人工智能，并正在大力投资于提供技术、资源和专业知识的项目，以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致，认为「多模态模型」是提高人工智能系统能力的最佳途径，也就是单个模型可以同时理解语言、图像、视频和音频等，并能够完成单模态模型无法完成的任务，比如给视频添加文字描述等。

为什么不把几个「单模态」模型串在一起，以达到同样的目的，比如说用一个模型来理解图像，而另一个模型用来理解语言？

第一个原因是，由其他模态提供的背景信息，多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说，一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看，多模态模型往往更有效率，可以提升数据处理的速度，降低后端的成本。

毫无疑问，所有商业公司都渴望降本增效。

Florence能够理解图像、视频和语言以及这些模态之间的关系，从而可以做到一些单模态无法完成的任务，比如测量图像和文本之间的相似度，分割照片中的对象，然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题，Azure AI的企业副总裁（CVP）John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息，只是说Florence使用的是「负责任地获取」的数据源，包括来自合作伙伴的数据；此外，Montgomery表示，训练数据中删除了可能存在问题的内容，也是公开训练数据集的常见特点。

Montgomery认为，当使用大型基础模型时，最重要的是要确保训练数据集的质量，为每个视觉任务的适应模型创建基础，微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试，并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来，消费者可以使用Florence做更多的事情，比如检测制造过程中的缺陷，以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型，但他断言，多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型，一旦在图像和文本之间实现了简单且高质量的翻译过程，就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索，将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用，并轻松提高自定义模型的质量。