TECHTIME︱谷歌新推智能“语音翻译”Translatotron

上月底,谷歌才宣布旗下 给小朋友讲故事功能即将引入安卓和IOS手机(︱嘿!谷歌,给我讲个故事?。?nbsp;, 最近这家科技巨头又有了另一项关于“语音”的研究突破 。
谷歌最近的一项新研究可以直接将一种语言的语音翻译成为另一种语言的语音 , 但与大多数语音翻译系统不同 , 不使用中间文本 , 只使用音频 。这大大提升了翻译速度人工智能机器翻译,更重要的是,相比普通翻译器,这项研究精准地还原了说话者声音的节奏和音调 。
是几年相关成果带来的结晶,尽管它仍然处在实验阶段 。谷歌的研发人员和工作人员多年来一直在研究“同声传译”翻译器的可能性,但直到最近这些努力才有了收获 。
谷歌表示当前的语音翻译系统分为三个步骤:自动语音识别,将语音转换为文本;机器翻译,将文本转换为另一种语言;最后是将翻译好的文本生成语音 。尽管效果不错 , 却不完美,因为每一步都有可能发生不同的错误,呈现出来的翻译效果可能会受这些错误的影响 。
翻译模型示意图
人类的认知过程和体验常常被用来作为推进科技算法的指南 , 这次也不例外 。
就像能够使用多种语言的人可以在脑海中随意翻译不同语言一样,虽说不能完全确定这个过程到底是怎么样的,但绝不是像目前的语音翻译系统一样,将语音信息拆分可视化成文本再转化为另一种语言 。为此,研究人员开始研究将音频的详细频率分解,从而将原语音的频谱图()直接转化为目标语言的频谱图 。这是一个与上述三步骤完全不同的过程,有优势,但也有弱点 。

TECHTIME︱谷歌新推智能“语音翻译”Translatotron

文章插图
TECHTIME︱谷歌新推智能“语音翻译”Translatotron

文章插图
最大的一个优势是,尽管这个过程比较复杂人工智能机器翻译,本质上还是一个一步到位的过程,这意味着,如果有足够的处理能力,可以更快地工作 。但更对多数人来说更重要的是,这个过程可以很容易地保留源语音的声音特征 。因此,通过翻译出来的音频不会像普通语音翻译系统一样“机器味”十足,反而保留了原始音频的语气和节奏 。
原语句和翻译语句的频谱图()
这自然会对翻译表达产生巨大的影响 。对于经常使用语音翻译软件的用户来说,不仅可以翻译内容,还能更上一层楼,还原说话者原本的语气和说话习惯,确实是帮了大忙 。
研究人员承认,翻译的准确性并不如传统翻译系统那么好,传统翻译系统有更多时间来磨练其准确性 。但是最终的翻译效果,至少大部分能达到非常好的标准,而且能够把情绪表达包含在翻译里已经是一个绝对优势了 。最后,虽然谷歌团队谦虚地表示这项研究只是所采用方法的一个可行性起点,但对外界来说,这绝对是重要领域里的一个重大进步 。
此外,谷歌另一个已公开项目:也在研发中 。致力于通过人工智能更好地识别语音障碍人士的语音模式,以达到理解其所传达信息的目的 。这些项目让我们看见了谷歌希望打造一个更人性化,更平等 , 更方便的科技世界的愿景 , 我们也期待这一天的到来!
文字来源:Devin@
图片来源:Bryce/ ,AI Blog
【TECHTIME︱谷歌新推智能“语音翻译”Translatotron】本文到此结束 , 希望对大家有所帮助 。