不让声音只待成追忆 廖元甫用语音重建找回渐冻病友希望

2020-05-22

「在场的各位,你们平常会有习惯录製自己的声音吗?有的请举手」渐冻病友家属Kiki拿着麦克风,冷不防地突然在会议上问这个问题,所有人面面相觑、等不到任何人的举手,不禁让现场的空气顿时降了几度。然而,这是渐冻病友最渴望被解决的问题之一。

「没有人会觉得自己会得到渐冻病症,更别说已经得到的病友,要他们接受慢慢失去自己的声音的事实,开始试着录製自己的声音」,Kiki深有所感地分享着近几年的观察。从坐到躺、从正常说话到插呼吸器,随着病情的加剧,所有渐冻症病友,都躲不过到最后再也无法发出声音的宿命。

身为渐冻病友家属的Kiki,很明白先生陈大谋的声音最终只会离他们远去。把希望摆在未来的他们,开始有意识地录製声音,为的就是总有一天,期望能透过语音再现,将失去的声音找回来;令病友感到激动的是,这样的愿望,竟可在北科大电子系副教授廖元甫的研究团队手上,化为可能。

把要被学习的语料,丢入系统内、再跑出声音模组,让机器主动学习相似声音,这看似简单的流程,却是在「渐冻症智慧沟通系统计画」上,初步遇到不少困难。

研究初期惨碰瓶颈 渐冻病友语音数据量少、难以分析

「光要挑出可以辨识、又能训练的声音,大概....是整个语音重建计画,花最多时间的部分」主要执行语音重建计画的研究同学黄百弘,有些不好意思地回应。由于渐冻症智慧沟通系统计画,分别由不同6个研究团队分头进行,从脑波到沟通介面,其中又以「语音重建」项目,最受到渐冻家属的关注。

主要负责此项目的教授廖元甫坦言,起初,他们所负责的语音重建属进度最慢,困难点就在于,以渐冻病友陈大谋为例,当时录製的音档,大多都是随意录製,导致出现录音格式不相容、更掺杂了大量背景音与重叠人声的问题,可以拿来「被学习的语料」,可说是寥寥无几。

「像我们之前跑语音重建,都是大量的数据下去跑,可能语音资料多达一万小时,但现在却是只有一小时的语料,只能精挑细选出可以用的语料,但变成前置作业的时间要非常长,基本上都是要人工去挑选」黄百弘回想初期处理资料的瓶颈。以渐冻病友陈大谋的语料为例,片段累积录製长达一小时的语音资料,经过拆解分析后,却只有18分钟的语料可以拿来做训练,对于研究团队来说,是相当不乐观的数字。

▲时常出现语料辨识困难的问题,教授廖元甫时常与学生黄百弘进行讨论,试图要找到可突破的缺口。(摄影/廖元铃)

为求精準度 用100小时反覆人工挑选可用语料

廖元甫频频指导黄百弘试图从可用的语料,找出线头;黄百弘靠不断砸大量的时间,慢慢梳理分析出可用的语句,从可以用的590句话,输入至系统内,模拟学习音色波形和语调,输出类似陈大谋的声音,连妻子Kiki都肯定地表示:「这确实是他的声音。」这句话无疑是替研究团队打了一剂强心针,显示先前苦心砸下100小时的前置作业,确实没有白费。

黄百弘坦言,自己反覆听病友的语料时,一直在思考倘若自己也得了这个病症该怎幺办?廖元甫强调,从目前的语音合成的困难,就能得知「防範于未然」的重要性,因此目前计画除了语音合成以外,同时并进推行「语音银行」,正是让大家像是在存钱般,先「储存」自己的声音,可有效在未来避免失去声音的风险,同时若是有合成声音的需求,则可能成为备用语料。

语音银行是重点 试图推动「声音保存」的观念

「一般录音笔或是手机的录音软体,录出来都像是『电话品质』,像是ㄅ、ㄆ等双唇音都会变得很不清楚;再加上我们发现,许多人都没有『存』自己声音的习惯,像这些渐冻病友都是发病后来录,其实真的都已经太晚了」廖元甫心有戚戚焉的说,经手这个专案后,更加明确知道语音银行推行的重要。

为了不让「储存声音」的构想像烟火般稍纵即逝,廖元甫表示,语音银行的设立,将会透过国家实验研究院高速网路与计算中心的协助,架设专有IP与机器设备,让语音银行能够长久持续运营下去,同时透过简单化介面的设置,让每个人都能在家即可随手录製。

「人的生活和声音分不开,自己的声音就是代表着自己」廖元甫强调语音银行的架设,将会是渐冻人计画下半年度的重点,透过储存语音的概念,避免缺乏语料的窘境,而这样的避险观念,不仅止于帮助失去声音的渐冻人病友,同时也是为社会大众建立可长久使用的语音银行。

▲黄百弘(左起)与教授廖元甫对于接下来的语音合成研究有信心。(摄影/廖元铃)

语音声音语料廖元甫病友录製银行小时