如今,我们已然进入到一个视频爆发的时代。据国际数据调研机构IDC预计,2025年全球数据空间中80.3%将是以视频、图片、音频为代表的非结构化数据。有权威机构显示,目前我国短视频用户规模增长尤为明显高达9.26亿,较2021年12月增长2805万,短视频已然成为全民时尚不可或缺。面对全行业视频化的大势所趋,长期面向字节跳动各大业务线,提供行业优质的 AI 语音技术能力以及全栈语音产品解决方案的火山语音或许是较有经验的实践者之一。
2022卡塔尔世界杯期间,火山语音技术能力同步支持了上线抖音的“无障碍字幕直播间”,截至12月19日决赛,已有累计超过1905万人在该直播间观看了球赛,累计观看次数超过2624万次。赛事期间,团队通过自研推出的端到端的流式语音识别系统,着力解决了世界杯比赛场景中外国球员教练员的人名识别等难题,为观众呈现更佳的字幕效果,带来更好的观赛体验。在不久之前的国家语音及图像识别产品质量检验检测中心的权威检测中,火山语音还荣获了语音识别增强级检验检测证书,在语音识别的基本要求以及扩展要求上均已达AI国检中心的最高等级标准。
长期以来,火山语音将打磨多年的AI语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎开放给外部企业,目前已经覆盖多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等众多行业应用场景,为抖音、剪映、飞书、番茄小说、Pico等核心业务提供了领先的AI语音能力应用与拓展。
在3月20日-23日举行的NVIDIA GTC大会上,火山语音团队再次亮相,与会专家将基于音频理解技术带来独家干货分享,通过 NVIDIA 提供的推理 GPU(T4, A10, A30)详尽介绍音频理解如何做到推理加速,以及怎样广泛应用于抖音等大流量场景,更多语音技术详情点击了解:https://www.volcengine.com/product/asr?utm_campaign=20230228&utm_content=asr+%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB&utm_medium=doc&utm_source=pop&utm_term=pop_qrcode
线上观看请点击报名:https://www.nvidia.cn/gtc-global/session-catalog/?search=SE51166&ncid=ref-spo-226414#/session/1666101404945001XRJA
关于NVIDIA GTC:这是一个面向全球AI开发者的大会,3月春季大会包括超过650场演讲、专家座谈会以及特别活动。全球范围的技术专家、开发者、研究人员、创作者、IT决策者和企业领袖将汇聚于此,了解AI、加速计算及其他领域的突破性进展。NVIDIA 创始人兼首席执行官黄仁勋将在本次GTC主题演讲中分享 NVIDIA 加速计算平台如何推动AI、元宇宙、云技术和可持续计算的下一波浪潮。