杨净 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
直播延迟几十秒,网友竟然还说“真香”?!!
你没听错,这发生在英雄联盟S11这种全球赛事上,而且,延迟高达30秒。
文章插图
要知道S11观众量可是千万级别,去年决赛最高同时观看人数就多达4595万人;
像这种顶尖赛事,保证音、画质的低延迟本就应该是各大平台的“基本操作”,哪怕一点额外的延迟都是绝对不能忍的。
拿前几天Dota2直播举例,延迟15分钟,网友们那可是群情激愤……
文章插图
而这回,S11直播,一个官方频道延迟高达几十秒——
这似乎是大型直播事故了吧?
但万万没想到的是,弹幕画风竟然一片“舒适”、“真香”。
文章插图
怎摸回事?
我们顺藤摸瓜来到了这个频道,发现这是B站专门为听障人士推出的无障碍直播间:
文章插图
跟常规直播间不同的是,这个直播间是有AI实时字幕的,解说提到的队名“T1”、“poke”等黑话基本都能正确显示。
赛后采访还有手语解说,整体会比常规直播间延迟几十秒。
文章插图
△已经有听障人士用上了
其实,像这种直播字幕背后的AI实时语音识别技术,已经有不少应用了。包括油管的直播字幕、谷歌移动设备的视频字幕和微软PPT演讲字幕等,都属于这类技术。
不过,像这样专门为直播留出一个无障碍直播间的平台,目前还不多。
要真正做好一个无障碍直播间,技术上究竟比普通实时字幕特殊在哪里?
我们深入了解了一下,发现它比想象中更“难”。
无障碍语音识别,特殊在哪里?在理解无障碍的特殊性之前,需要先知道直播中的实时字幕是怎么来的。
从流程上来看,实时字幕处在直播视频编码和解码中间的位置。
实时字幕是在视频编解码过程中,对音频进行快速语音识别,再与视频一起输出的效果,整体大概是这么一个过程:
文章插图
△简略版流程
可以看到,视频本身还需要经过编解码等传输流程,实时字幕制作则处在编码和解码中间的位置。
从技术本身来看,实时字幕用的是语音识别,具体分为人工识别和自动语音识别(ASR)两种。
此前,由于ASR准确率上不去(尤其是中文识别),人工识别又需要好几分钟延迟,大型比赛直播中采用实时AI字幕的不多。
- 华纳兄弟|喜大普奔!华纳兄弟4年后终于移除《不义联盟2》D加密
- 沉浸式|《英雄联盟:双城之战》全球首映,沉浸式观影打造追剧新潮流
- bp|英雄联盟S11总决赛落幕,EDG创造奇迹,3比2击败DK成功夺冠
- 灵药|英雄联盟手游鳄鱼为什么强势?灵药:学会这招,不可能红怒W小兵
- APEX英雄|《APEX英雄》服务器问题解决办法汇总
- poke|LOL:手游大乱斗强势英雄都有谁?他们都是大哥,这个英雄是霸主
- 锤石|LOL手游技能不同点,锤石一技能可以一闪,戴安娜的大招改为蓄力
- 时代|EDG夺得英雄联盟全球总决赛冠军,电竞能成为时代的偶像吗
- 张良|百分百不会空大的英雄,峡谷仅此一位不是妲己、诸葛,更不是东皇、张良
- 大神|看技能猜英雄,新手都不认识,老玩家能猜对两个,全猜出的是大神