火山引擎在机器翻译多媒体领域的实践和探索

企业动态
语音翻译的问题比较复杂。视频中人的讲话往往有口音,或者有背景噪音,或者是翻译之后的语言风格不符合预期。

   技术变革带来了无限机遇,也带来了更多的挑战。作为服务于字节跳动等大规模企业的机器翻译团队,火山翻译不断在翻译的各个领域进行探索。如今处于短视频的风口,火山翻译如何做到乘风而上?

  近日,在第十七届全国机器翻译大会(CCMT 2021)上,来自字节跳动火山翻译团队的产品经理刘坚就这一话题做了分享。以下是刘坚演讲全文:

  

图片1.png

 

  

图片2.png

 

  火山引擎是字节跳动面向企业的一个智能科技品牌,就是大家俗称的 to B——我们面向的是企业用户。字节内部也有很多类似的服务是对外开放的。火山翻译是火山引擎的核心中台能力之一,是由我们机器翻译和自然语言处理部门研发的。

  我们有几大矩阵产品,产品列表包括同传相关的直播翻译服务、大会服务,通用翻译的 API 和 SDK,视频翻译。能力上包含了文本、语音、图像、语种识别、交互式翻译和私有部署。到目前为止,火山翻译从事翻译工作已经有几年时间,但真正对外服务只有一年多。此前,火山翻译都是在内部为字节提供每天上亿次的各种场景的翻译需求,翻译技术已经得到了验证。

  

图片3.png

 

  大家知道字节跳动,可能都是因为抖音这种app。多媒体内容的确也是公司关注的重点。我们首要的工作除了文本翻译以外,就是要解决公司内部多媒体内容的翻译。

  第一个摆在我们面前的就是视频翻译的需求。视频里面一共有两部分需要被翻译。第一种是视频里面可能存在的一些图片内容,或者是一些硬字幕(即内嵌字幕:嵌入视频画面与视频画面融为一体的字幕),它们其实相当于图像,我们需要对它们进行识别和翻译。

  

图片4.png

 

  抖音的深度用户都知道,抖音视频里会有很多贴纸,如果要翻译它们,我们就需要用一个图片翻译的引擎,先借助OCR识别,再进行翻译。

  以目前ppt上的图片(我桌上的日历)为例。我随手一拍,然后用我们的图片翻译引擎去翻译。它的特点是能还原一个区域内的颜色。大家可以看到日历顶部的颜色得以保留,下面文本的位置也基本做到了保持原样,这样的方式应用在视频翻译中,就可以有比较好的翻译效果。

  

图片5.png

 

  语音翻译的问题比较复杂。视频中人的讲话往往有口音,或者有背景噪音,或者是翻译之后的语言风格不符合预期。我们不能直接把机器跑出来的结果传给观众,这样可能会让观众费解或产生误解。我们开发了一个平台,通过这个平台可以让译者把原来的很多修改工作去通过 AI迅速完成,从而节约时间。

  视频翻译技术在行业内有不少应用,我们着重讲一讲在直播这个领域的翻译。

  直播有一个比较重要的特点是速度非常快,那么,我们如何在这么短的时间之内做到对直播进行翻译,而且保证翻译质量可控呢?

  目前业界有一些产品,提供的字幕是逐字同步ASR的结果,然后再翻译。在这种情况下, 往往会有个问题 :它提交给翻译的API结果会是一个字或者词,这个时候翻译出来的结果都是基于字和词处理出来的,如果对于长篇幅的内容进行实时翻译,断句效果不好的话、翻译质量会很差,无法真正实现对直播内容的同传翻译。如果用户是通过译文来理解会议内容的话,难度就会很高,看懂直播的话就更难了。

  所以我们自己开发了一个影院式 AI 字幕的解决方式。原理是这样的:我们在线上收到一个直播流之后,先把这个直播流进行缓存,再对声音和画面进行拆解,并识别声音。我们形成对应字幕,字幕支持人工进行修改。字幕整句整句地出现在屏幕上,和看电影的效果一样。在说第一个字的时候,这句话就完整出现了。然后,等这句话全部说完时这个字幕才会消失。

  

图片6.png

 

  大家可以看一下我们的效果。这是我们在抖音上为日本艺术家村上隆做的直播首秀。

  

图片7.png

 

  下一个是我们一位同学模仿的主播带货场景。

  

图片8.png

 

  这种翻译方式有一个好处:因为字幕是一句句出的,所以我们可以针对一句的内容进行配音,用机器去合成。这样,直播翻译的效果就比较好。目前这个技术已经在公司内部的产品上面进行规模化应用,它可以大大提升不同国家之间跨语言的理解和沟通。

  最后介绍一下我们的另外一款智能翻译产品。

  在大会场景下,大家都会遇到看字幕的问题。之前的方案就是在屏幕下方有一个字幕条。这个方案或多或少会有一些问题:其一,如果英国人参加中文会议,他想听到的语言应该是英语;但如果是日本人或者法国人 ,那么英语可能不是你最理想的选择。这时候如何能够生成定制化的字幕?其二,如果在比较大的会场,坐在后排的人其实可能是看不见字幕的。那这个问题怎么解决?所以我们做了一款 AR 智能翻译眼镜(在我们展台可以体验)。

  

图片9.png

 

  我们开发这么多的应用,本质上还是为了解决好“机器翻译算法跟行业应用之间的最后一公里”的问题。

  智能翻译眼镜还在不断优化,现在已经能实现语音翻译、会议接入以及图片翻译等功能。比如看书、看菜单或者是看路标,都可以用这个眼镜去翻译。我们也在探索更多场景,比如最近我们就发现了一个比较有意思的场景:听障人士也可以用这款眼镜来获取更多信息。

  最后,欢迎大家跟我们一起探讨更多想法与发现,可以通过关注公众号“火山翻译”联系到我们,也可以搜索“火山翻译”进入我们的官网,来体验我们的翻译效果。

  

图片10.png

 

责任编辑:张诚 来源: 互联网
相关推荐

2021-10-13 18:57:59

AI

2023-05-31 14:54:32

2021-10-13 18:59:42

AI

2024-07-18 21:26:44

2021-10-28 17:52:51

机器翻译人工智能AI

2023-03-27 21:24:18

架构数据处理分析服务

2023-08-15 13:57:08

开发者

2022-04-06 15:58:25

火山引擎差分隐私LDPDC

2020-10-11 22:05:22

机器翻译谷歌AI

2021-12-15 07:24:57

人工神经网络翻译

2022-12-23 09:29:52

大数据

2017-08-21 16:00:14

机器学习机器翻译

2017-03-22 12:39:33

人工智能机器翻译

2021-10-23 09:20:39

AI

2024-09-23 19:53:27

数据飞轮数据驱动数字化转型

2019-10-25 16:18:34

机器学习人工智能计算机
点赞
收藏

51CTO技术栈公众号