这些年AI技术上来了,视频中应用自动语音识别ASR制作字幕的也多了起来,具体又分为流式ASR和非流式ASR。
非流式,指整段输入语音、再输出文字的结果;流式,指像“流水线一样”实时输出转文字结果。
文章插图
目前的流式ASR可以做到速度极快(毫秒级,肉眼看起来是实时)的输出,经过训练也能达到不错的准确率;但与此同时,它也还有不少优化空间。
对于不同直播来说,选择语音识别方法时,主要会从准确率和识别速度进行考量,像新闻直播更重视准确率,娱乐赛事直播更侧重识别速度。
文章插图
BUT,对于无障碍来说,赛事直播还会出现新的挑战:
由于听障人士无法快速建立视听之间的联系,错字词需要更多反应时间,字幕的准确性要更高;此外,转录的字句需要有一定视觉流畅性;最后,赛事直播的延迟也不能太高。
一方面,受限于语音的停顿、音频切分的长度,流式ASR目前能做到低延迟和基本的准确率,但往往视觉阅读的流畅性会有所降低,“每个字都会,停顿后就看不懂了”:
文章插图
△每个字都会,就是看不懂
另一方面,流式ASR模型需要满足一定长度的音频输入,才会处理并输出文字,非常依赖语速和说话流畅度的稳定。
例如,主持人通常在电竞团战或是进球前夕等情况下,语速变得非常快(例如华少最快能达到18秒215字),或是因为思考出现频繁断句,就会严重影响流式ASR技术的“发挥”。
在这种情况下,流式ASR语音识别的结果如不经过处理、直接输出的话,就会出现字幕空白、频繁停顿,或是大段爆发输出的情况。
为了让字幕流更加稳定(能输出整段整句)、准确率也更高,B站在采用讯飞听见技术进行流式ASR识别(毫秒级延迟)时,选择将无障碍直播间整体进行适当延迟,来确保阅读流畅性,主要做了这些操作:
其一,B站专门梳理了英雄联盟赛事相关的500+专有词汇,包括战队、选手、赛区、游戏英雄名称、比赛术语、解说相关术语、S赛名句等等,将这些词汇接入到讯飞听见服务器中,进行转译结果优化处理;
其二,针对语速不稳定的情况,在文字处理部分,B站将流式ASR输出的文字,根据阅读习惯进行自动换行,使之更符合用户的视觉理解;
其三,针对整体阅读体验,B站专门制作了一款辅助软件,将人工复查操作进一步流程化,进一步为听障人士提升字幕准确率……
- 华纳兄弟|喜大普奔!华纳兄弟4年后终于移除《不义联盟2》D加密
- 沉浸式|《英雄联盟:双城之战》全球首映,沉浸式观影打造追剧新潮流
- bp|英雄联盟S11总决赛落幕,EDG创造奇迹,3比2击败DK成功夺冠
- 灵药|英雄联盟手游鳄鱼为什么强势?灵药:学会这招,不可能红怒W小兵
- APEX英雄|《APEX英雄》服务器问题解决办法汇总
- poke|LOL:手游大乱斗强势英雄都有谁?他们都是大哥,这个英雄是霸主
- 锤石|LOL手游技能不同点,锤石一技能可以一闪,戴安娜的大招改为蓄力
- 时代|EDG夺得英雄联盟全球总决赛冠军,电竞能成为时代的偶像吗
- 张良|百分百不会空大的英雄,峡谷仅此一位不是妲己、诸葛,更不是东皇、张良
- 大神|看技能猜英雄,新手都不认识,老玩家能猜对两个,全猜出的是大神