人教首页
学术成果 当前位置:首页   >   学术成果   >   论文   >   2015年卷

录音教材产品录制加工中的语音信号响度平衡

唐舒岩

  【摘要】响度平衡是语言录音教材产品录制加工中的重要工作,但也是常被忽视的环节。通过对人耳主观响度的特征、主观响度的计量与监控以及录音环节中影响信号响度的因素等多个角度的分析,深入探讨了语言录音教材产品录制加工中响度平衡的原则和方法,力图为高质量的语音教材的生产提供有力的参考。

  【关键词】响度;录音;语音信号;声压级;频率;电平;传声器

  【中图分类号】TN913【文献标志码】ADOI:10.16311/j.audioe.2015.08.15

  1 引言

  无论是在音乐类录音产品还是语言类录音产品的后期制作中,通过音频技术手段调整录制信号的响度,使产品中的不同音频信号在响度上达到平衡统一都是非常重要的工艺。音频信号的响度由于其主观听觉特性使得在对其进行客观性的平衡调整时受到声压级、电平、频率成分、持续时间等诸多因素的影响,这也形成了在后期制作中信号响度平衡方式的复杂性和多样性。录音产品信号在响度上出现不平衡,会导致听音者听感上的信号强度时高时低,这严重影响了听音感受,同时对于语言类录音教材产品来说,作为其信号主要组成部分的语音信号在响度上的不稳定还会会妨碍学习者对文字的学习和理解。可以说,响度平衡是检验录音产品质量和技术制作水准的重要标准。

  2 语音信号的响度概述

  语音信号的录制是录音教材产品录制工作的主要内容,全面了解主观听觉响度以及与其相关的声学物理量是正确、合理地进行响度平衡的前提。同时,它们也为录制中信号响度平衡的技术手段提供了有力的依据。

  2.1 听觉系统主观响度的特性

  音频信号的响度是人类听觉系统对声音的主观感受,是人耳对声音强度的主观判断。不同于一般声学意义上的客观物理量,响度与信号的声压级、频率、持续时间相关,也与听者本身的生理、心理因素具有一定的联系。著名的等响度曲线(Fletcher和Munson曲线),描述的听觉响度级与声压级以及频率之间的关系对于信号响度概念的理解提供了理论依据,如图1所示。一般来说,人耳的听觉灵敏度随声压级的变化而变化[1],对于同一纯音信号而言,声压级越大,相应的响度也越大。但能量不是决定响度的唯一因素,从等响曲线还能看出,频率也是影响响度的重要因素,听觉的灵敏度还会随频率的变化而变化。声压级相同而频率不同的纯音信号,响度可能不同;响度相同而频率不同的纯音信号则可能需要不同的声压级重放。例如,想要重放响度相同的100Hz和1000Hz纯音信号,前者需要更大的声压级。总的来说,人耳对中频(1~4kHz)的纯音较为敏感,中频比高频和低频段的纯音信号具有更高的响度。同时,随着重放声压级的增大,等响曲线会趋于平直,频率对响度产生的影响会减小,这种现象在信号低频和高频段较为明显,而曲线在低频段分布比较密集,因而在低声压级下,相同声压级的变化在低频引起的响度感觉比高频大。

  

  等响度曲线阐明了人耳的主观响度与声压级以及频率的关系。但以纯音测量响度的方式也存在诸多局限,真实的音频信号包含很多振幅不同的各种频率成分,声压级与频率的变化并不能完全反应主观响度的变化规律。除了以上与声压级以及频率所具有的一般规律以外,响度还与信号的持续时间、信号带宽、听音者的心理活动相关。研究表明,当同一信号的持续时间超过约200ms时,响度感不会发生变化,而当其持续时间小于200ms时,响度感会随时间的缩短而减弱,即响度与持续时间成正比。也就是说,能量幅度变化较大的信号响度不是由短暂的峰值决定的,而更多的是由200ms以内的平均声压级决定的。响度与信号带宽的关系可以从图2[2]中得到,图中显示了在总声压级不变的情况下,人耳对声源的主观响度随声源带宽变化的特性,可以看出当信号带宽超过100Hz并增大时,主观响度会随之提高。此外,听觉对覆盖一定范围的复杂声音响度还受到心理活动的影响。例如,听音者可能会关注某一个声源而忽略其他声源,此时其主观响度感觉会倾向于所关注的声源。

  2.2 语音信号的响度特点以及与信号电平的关系

  对于大部分类型音频信号而言,信号的声压级、频率、持续时间在主观响度中扮演了重要角色,而在这其中信号的声压级以及与其相关的振幅、电平、动态等信号强度物理量无疑是体现响度的关键因素。语音信号作为声学信号的一种是语言录音的主体,不同于纯音、噪音一类的稳态信号,语音信号是一种动态信号,几乎没有稳定的段落;同时,由于语言表达存在的断句和呼吸会形成语音信号的中断,因此其也不同于音乐信号那样具有连续性。同时,语音信号的不规则性还体现在发音过程中元音、辅音以及各类语调所形成的强弱各异。

  

  语音信号自身的特质使其呈现出在较短时间内振幅变化较大的特征,特别是在录音教材中常常出现的艺术语言,因其含有大量的感情表达成分,常具有较大的动态范围。在实际录制工作中,动态较大的语音信号响度往往小于那些起伏较小的信号,这种现象体现了语音信号的响度与信号电平之间的一种微妙关系。从电声学意义上说,信号的电平和响度具有完全不同的定义。无论是在模拟音频范畴还是数字音频范畴,信号电平都是一种声音在完成声电转换过程后的客观电信号物理量,它反映的是声音信号在某一时刻的电信号数值[3],其中包括功率、电压、电流等,依据作为功能参考电平以参考值的不同,有dBm,dBu,dBv,dBr和dBFs等多种形式(这其中还包括绝对电平和相对电平),数字音频系统中常用的dBFS(数字满刻度电平)则指的是在数模转换中在能达到数字过载失真之前的最大可编码模拟信号电平,这个数值的时域精确度取决于采样频率的高低,采样精度越高它反映的电平时间点越精确。而如同上文所述,响度是一种主观听觉物理量,虽然它与能量相关,但还受到其他多种因素的影响。根据响度与时间的关系,主观响度往往指的是人耳在一定时间范围的对声音信号的整体感知,这个时间应至少大于200ms,而信号在某一时间点,甚至是采样点的峰值电平并不能正确反映该时域内的信号响度,因此一个看似具有较高峰值电平的信号未必具有较大的响度,反倒是那些电平峰值幅度变化较小的低动态信号则可能具备较大的响度,可以说,响度反映的是信号在一定时间内的平均电平值而不是峰值电平值,这类现象对于语音信号来说尤为典型,如图3~4所示,图3中的语音信号的响度要小于图4中的信号,其峰值电频则要远远高于后者。与此同时,信号的瞬时峰值电平还会影响到响度,音频系统所能接收的信号最大峰值电频会限制其响度的提升,大动态的音频信号常常因为出现较高瞬时峰值电平而影响信号的整体平均电平,这就是在后期制作中为提高信号响度使用压缩器和限幅器的原因。

  

  2.3 响度的计量与监控

  在使用纯音条件下的等响度曲线研究人耳的听觉规律时,对于响度的计量引入了响度级“方”(Phon)的概念,其被定为数值上等于1kHz纯音一样响时所对应的声压级[1]。由于“方”只能间接反映人耳的主观感受而不方便运算,又引入了响度单位“宋”(Sone)”,“宋”是一个无量纲主观单位,定义是声压级为40dB的1kHz纯音主观响度为1宋。以“宋”表示的任一声音的响度N可表示为:N=20.1(“方”值-40)宋。“方”与“宋”虽然在数值上给出了主观响度的计量,但其以固定频率的纯音为标准并不能表示更为复杂的声音信号响度。

  对于复杂声音信号的响度计量,根据人耳听觉的特性,以往主要运用了等效连续声压级(Leq)下的不同耳响应加权模拟,这些算法主要有Leq(A),Leq(B),Leq(C),Leq(D),Leq(M),Zwicker,Leq(Lin)等,然而各类算法并没有统一的标准,应用的对象还存在一定局限,也不能客观地反映音频节目信号的响度规律。为了客观科学地度量响度的大小,明确统一的行业标准,ITU(国际电信联盟)于2006年颁布了ITU-RBS.1770建议书《测量音频响度和真实峰值电平的算法》[4]、ITU-RBS.1771建议书《对响度和峰值指示表的要求》[5],提出了在电信号领域测试声音响度的算法,该算法与人的主观响度有较高的相关性并适用于多声道节目信号,算法如图5所示,音频信号经过K加权滤波处理,求均方值后对其进行计权(人头效应补偿)而得出信号的响度计量结果。其中K加权滤波器根据大量主观听音测试而得,它是由两个二阶滤波器级联构成,分别为一个前置滤波器(近似高通滤波器)和一个Leq(RLB)计权滤波器(RevisedLow-frequencyB-weighting改良的低频B加权),曲线如图6与图7,实现了对人耳响度感觉的模拟。同时,建议书还明确了相对响度单位LU(LoudnessUnit)和绝对单位LUFS(LoudnessUnitFullScale)的概念。前者表示的是当节目达到OLU时所需要衰减或增益的数值(dB),后者指的是K加权信号的电平以满刻度为基准的参考值。

  

  

  

  在ITU-RBS.1770的研究基础上,其他国际音频组织和设备厂商也同时展开了一系列关于信号响度的研究,其中EBU(欧广联)于2010年颁布的EBUR-128建议书《音频信号的响度标准化和允许的最大真实峰值电平》[6]以及EBUTECH-3341技术标准《响度标准化的EBU模式响度表》[7]中提出了门处理的概念,其认为低电平节目信号应被视为本底噪声,不计入信号响度的计算范畴,这样才不会影响节目信号的平均响度测量值,这些信号的响度值应为-70LKFS。同时,在建议书中还使用了其所命名的响度单LKFS(LoudnessK-WeightingFullScale)取代了原有ITU的LUFS响度计量单位(两者实际在数值上相等)。ITU采纳了上述的研究成果,并分别于2007至2012年间颁布了三个修订版本的ITU-RBS.1770-1,ITU-RBS.1770-2,ITU-RBS.1770-3建议书。其中在节目信号-70LKFS的绝对门限基础上的,引入了相对门限的处理方式,即对于低于绝对门限8LU以下的信号平均响度不计入节目的平均响度测量范围。值得一提的是,门限概念在响度计算中的实施,十分有利于语言录制信号的响度计量,这是由于语音信号的非连续性会形成大量的低电平信号,使用门处理方式可以有效避免此类低电平信号被纳入响度计算范畴,从而可以得到正确客观的信号响度值。

  对于响度的监控工具而言,在后期制作中进行响度平衡时,使用声级计在扬声器前进行响度的测量和监控显然不是明智的做法,在模拟音频时代,根据响度体现信号平均电平值的特性,常使用VU表(平均值检波表)进行信号响度的监控和统一,之后又出现了Dorrough响度表、Dolby737型响度表等一系列响度监控仪表,但大多因其应用的局限性而未被广泛应用,音频领域迫切地需要更为科学的信号响度指示表作为参考进行响度的监控和调整。随着ITU-RBS.1770建议书中节目信号响度标准的实施,依据其中规定的信号响度计算方式、响度单位以及相关规定,与之同时颁布的ITU-RBS.1771建议书《对响度和峰值指示表的要求》[5]中,对信号响度仪表的技术指标进行了说明。文中指出,传统的VU电平表和常规PPM表(峰值电平表)均无法正确指示主观响度,需使用ITU-RBS.1770建议书中节目信号响度算法作为响度指示仪表显示的依据,用以对短期节目和长期节目的主观响度进行预测,响度表应以相对响度单位LU为刻度来表示节目达到0LU所要求的提升和衰减量。同时,建议书还规定了节目响度表的基本类型、工作模式、显示方式、响应时间、校准方式以及其他技术指标和备选性能。此后,在ITU对响度指示表技术指标规定的基础上,EBU在其技术标准EBUTECH-3341《响度标准化的EBU模式响度表》[7]中明确提出了EBUR128标准响度表,文中指出,任何符合EBUR128标准的响度表必须具有“EBU模式”,在该模式下响度指示表依据ITU-RBS.1770中的响度计算方法,并采用门处理方式,显示的单位可以是相对测量值LU,也可以是绝对测量值LKFS。该响度表其显示的内容应分为三种模式,即瞬时响度(Mo-mentaryLoudness)模式、短时响度(Short-termLoud-ness)模式和积分响度(IntegratedLoudness)模式,其中瞬时响度被定义为400ms的时间常数通过一阶无限脉冲响应低通滤波器的非选通响度,短时响度指的是3s时间间隔集成的非选通响度,而积分响度则指的是在固定时间间隔中的平均响度。此外,EBU模式响度表还可以显示响度范围LRA(LoudnessRang),其在技术标准EBUTECH-3342《响度标准化中响度范围的描述》[8]被定义为基于积分且长度为3s的滑动分析窗口进行的响度测量结果的统计分布,连续的分析窗口交叠应不少于2s,这样可以保证较小响度的音频信号不影响较长音频段落的响度范围,同时,响度范围也采用了门处理方式。以上功能与显示内容使用者可以同时启动、暂停、继续,并能够同时复位积分响度和响度范围。2012年ITU采纳了EBU三种模式的显示方式,并颁布了修订的ITU-RBS.1771-1建议书。目前,在节目制作领域中,带有EBU模式的ITU标准响度表已被广泛应用,由于ITU开放了响度计算方法的专利,许多数字音频工作和音频处理插件中都带有此类软件版的标准响度表,方便制作人员在后期制作中进行响度的监控。

  3 语言前期录音中影响信号响度的因素

  语音信号本身的特质造就了的其与电平具有千丝万缕的联系,从ITU与EBU技术标准中对音频响度各个层面的定义来看,在前期录音环节中,语音信号的响度主要还是通过输入信号的整体电平体现的。可以说,输入信号的电平直接影响着记录信号的响度。在数字音频技术条件下,声源通过传声器拾取后经数模转换后被记录在数字音频工作站中,最终记录下来到的语音信号的响度受到在此过程中与电平相关的各个环节的影响,由此也决定了后期制作中各通路信号的起始响度状况,了解这些影响因素可以为信号的响度平衡提供有力的依据。

  3.1 语音声源的特性

  众所周知,即使是人们日常生活的语言表达与交流,语音给人们的主观响度感受也会因为表达的主体、表达的方式以及内容不同而产生很多差异。在语言录音中,不同的播音者的嗓音条件不同、频率成分不同、对于声音的控制能力不同以及对录音文本内容理解的不同都会引起在语言表达上的音量差异,从而影响记录信号的响度。例如,有时为了保证拾取信号的峰值电平不失真,只能降低起伏较大语音信号的输入电平,这就是音量起伏较小的播音员往往比音量起伏较大的播音员能够发出更大响度信号的原因。

  这种差异同样会发生在同一个播音者不同时间段的录音中,因为即使是再有经验的播音者也很难保证在前期录音的整个过程中自身的音量维持在一个稳定的数值,有时他们会因录制时间太长而产生声音的疲劳,也有可能因为录音文本内容的变化而刻意改变自己的朗读音量,这就意味着在前期录音中可能出现因为录音电平的不统一而使得同一个朗读者前后信号响度不统一的不良现象。此外,发声过程中个人语音的响度还会受到语言频谱的共振峰、元音辅音以及音调差异的影响。例如,在大多数种类的语言发音中,辅音一般会比元音的响度要小。

  3.2 传声器的电声指标

  有经验的录音师会根据语音声源类型的不同挑选不同类型的传声器,在这其中除了出于在传声器拾取信号音色特质上的不同考虑之外,还可能是出不同传声器在拾取信号整体电平方面的不同表现。传声器的类型与电声学特性对所拾取到信号能产生最为直接的影响,不同类型的传声器由于声电转换原理、制造原件以及供电方式等诸多方面的不同,形成了其在灵敏度、频响、动态范围等诸多电声学指标上的显著差异,这种差异不仅表现为各类传声器在拾取信号上的音色差别,而且也体现在拾取信号的响度上。

  灵敏度更高的传声器可以获得更大电平的信号,不同类型的传声器可能在灵敏度指标上存在差异,例如:电容传声器比动圈传声器和铝带传声器具备更高地灵敏度,在相同声压级的作用下电容传声器可以拾取到响度更大信号;大而柔软的传声器膜片比小而僵硬的膜片有更高的灵敏度,大膜片在声压级的作用下更容易移动,即便是一个较低的声压级,也能提供一个较大的信号输出。具有更大的声压级承受能力和更大动态范围的传声器能够拾取到大电平的信号而不会产生失真,从而获得更大响度的信号,例如:小振膜传声器由于其具备更大的动态范围和声压级承受能力,在拾取动态范围较大的声能辐射时则可获得较大响度的信号。采用高电压供电(130V幻像供电)的电容传声器比采用48V幻像供电的传声器具备更高的声压级承受能力,这可以保证传声器在不失真的前提下获得大声压级声能的高电平信号。

  3.3 拾音的距离与角度

  拾音距离可以影响传声器拾取信号的整体电平从而改变信号响度大小,这是因为拾音距离的改变实际上是使声源作用于传声器膜片的辐射声程发生变化,更短的声程可以减少声能在介质中传播的自然衰减,同时还可以有效地减少传声器拾取信号中反射声信号,增加直达声在信号成分中比例,这就是近距离拾音可以明显提高拾取直达声信号响度的原因。另外,使用压差式传声器或复合式传声器进行近距离拾音时,在低频相位差较小的作用下声源辐射能会形成“近讲效应”,信号低频成分会因此而加强,根据人耳主观响度的听觉特性,此时的信号响度也会增大。

  拾音角度主要指的是拾音时声源的辐射方向与传声器的膜片主轴夹角。根据传声器的指向特性,单指向传声器的灵敏度会随着拾音角度的变化而产生相应的改变,以心形指向传声器为例,当声源偏离传声器主轴正方向时,在其心形指向特性的作用下,传声器所拾取到的信号会随着拾音角度的增大而逐渐衰减,也就是说当声源位于传声器膜片主轴正方向时,可以得到最大的传声器输出信号,而其偏离主轴正方向时,直达声的输出信号响度会小于其位于主轴正方时。此外,由于拾音角度的变化而产生的指向性传声器“离轴声染色”,也会导致失去信号的频率成分变化,进而改变信号的响度。图8显示了几种传声器指向性对拾取信号的电平衰减状况。

  

  3.4 录制设备的增益

  毫无疑问,录制设备的电平增益可以改变记录信号的响度。录制设备的电平增益可以是模拟域的也可以是数字域的。模拟域的增益主要指的是在前期录音时信号在模拟端的设备电平增益,这其中主要包括传声器前置放大器增益、模拟调音台输入与输出增益以及前置模拟效果器的增益;数字域的电平增益主要指的是在信号经过数模转换设备之后,在数字音频设备中的增益,例如,在使用数字调音台时的输出增益。

  图9显示了在录制设备产生增益的各个环节。在前期录音时,录制信号的响度可以通过传声器前置放大器的电平增益进行调整,在使用调音台时还可以通过其输入端与输出端的增益控制实现,在保证信号电平不出现过载的前提下,录制设备的电平增益可以有效地提高拾音信号的整体电平,从而增加响度。在某些特殊情况下,由于录音文本涉及一些戏剧性的、夸张的情景对话和情感表达,使得播音者的语音信号动态范围较大,以致于很难将使用前置增益提高信号的整体电平,此时可以借助前置压缩器和限制器来调整录音电平,在控制录音信号中峰值电平的同时,使用的压缩器中的电平增益补偿来提高信号的整体电平。

  

  3.5 数模转换

  模拟音频信号在完成模数转换的过程中,量化精度是决定信号电平的关键因素,它决定着模拟信号采样数值读取精度的比特数。无论采用何种方式的量化处理,由于量化数值与实际信号之间存在的量化误差,都会导致数字信号的量化失真,从而产生量化噪声。而如果可用量化处理时的比特数每次增加一位,则量化梯度的分辨率就会加倍,同时量化误差就会减小一半。在实际使用中,每增加1bit,被转换为数字信号的信噪比将会提升6dB。也就是说,在数模转换过程中,采用增加量化比特数的方式可以减少量化失真,提高数字信号的信噪比,而信噪比决定着数字系统的动态余量,那么量化精度越高,获得的数字信号动态余量也就越大[9]。图10显示了在数字音频转换中常用比特精度的动态范围。较大的动态范围为拾取大声压级的信号提供了技术前提,当输入的较高电平的模拟信号时,采用高量化精度的数模转换系统可以更好地完成数字信号的转换而不产生失真,这样在同一数字系统中得到的信号响度可能也会随之增大。

  

  4 语音信号的响度平衡

  语音信号的响度平衡主要包括横向响度平衡和纵向响度平衡两方面的工作内容。所谓横向响度平衡指的是在同一声源语音信号的响度平衡;而纵向响度的平衡则指的是不同声源语音信号之间的响度平衡。这两个维度的响度平衡维系着整个语言录音教材产品的节目响度技术水准。

  4.1 前期录音中的响度平衡

  响度平衡的工作一般在前期录音阶段就可着手进行,全面地把控录音环节中影响信号响度的各个因素使得记录下的语音信号在后期编辑加工之前就能基本达到听感上的一致,可以为后期响度的精细调整打下坚实的基础,并能大大减轻后期响度平衡的工作量

  4.1.1 前期录音中的横向响度平衡

  前期录音中的横向响度平衡主要指在前期录音中对同一语音声源进行拾音时,保证拾取到的信号电平维持在一个较为稳定的水平。由上文的论述可以得知,导致前期录音中同一声源信号响度出现波动的原因主要来自于声源本身,特别是播音者在录音时因身体位置的改变而形成的口唇处相对于传声器膜片位置发生的位移,这种位移可以是拾音距离的改变,也可以是拾音角度的改变。拾音距离的增大会削弱声源的辐射声能同时增加反射声的拾取比例,使得信号响度减小;反之则会增大信号的拾取强度,同时可能形成“近讲效应”。而拾音角度的变化则会由于传声器的指向性而产生信号的衰减和“离轴染色”,进而导致信号响度的不统一。为了避免上述情况的发生,保证信号响度的前后一致性,需要在录音的过程中注意监听录音信号的响度和音色,经常观察播音者相对于传声器的距离和角度是否发生较大改变,一旦发生较大的位移应及时提醒播音员尽量与传声器保持固定的距离和正确的角度,减少头部的晃动,特别是在使用指向性较强的传声器时,应防止播音者由于偏离传声器膜片轴向而产生的信号衰减。在条件允许的录音棚中,尽量避免使用指向性较强的传声器。例如,可以采用宽心型指向传声器替代一般心形指向传声器进行拾音,这样既可以有效避免离轴效应的产生,也可以避免过多地拾取到房间反射声[10]

  此外,播音者会因长时间录音产生的嗓音疲劳而逐渐降低朗读音量,此时如果暂停录制一段时间后,其音量又会不自觉地增强,这种起伏现象并不是在短时间内发生的,而是在一个较长的录制时间中缓慢形成。此时需要录音师在录音的过程中适时地进行前后信号的监听对比,发现问题后应及时给予前置增益的电平补偿和衰减,通常的做法是使用调音台输入信号推拉衰减器进行适时调整。

  4.1.2 前期录音中的纵向响度平衡

  不同的语音声源由于各自不同的音色特质以及不同的发声习惯,使其彼此之间很难达到响度的完全一致。在前期录音时,为了保证信号响度的纵向平衡,首先要尽可能地使用技术指标一致的传声器进行拾音,有条件时最好使用同一厂家同一型号的传声器,以避免由于传声器的电声性能不同而造成的信号响度差异。其次,在拾音时需确保不同声源的拾音方式一致,注意各个声源与传声器之间的距离和角度,防止拾音距离和角度的差异形成的响度差异。最后,录音时注意监听各通路语音信号之间的比例,出现响度不平衡时应及时对前置增益进行调整,但最好不要在信号电平变化的瞬间调整增益,这样可能会造成信号响度在短时间内的忽强忽弱,导致语言表达不自然。可以使用轨道标记记录好响度需要调整的时间点,以方便后期进行响度平衡时作为参考。

  4.2 后期编辑加工中的响度平衡

  录音教材产品中语音信号的响度平衡工作大部分是在后期编辑加工中完成的。在数字音频技术条件下,计算机音频工作站为后期加工中的响度平衡提供了技术平台和多样的技术手段,特别是高比特浮点运算处理在专业数字音频工作站中的广泛运用,使得信号电平的调整余地在后期制作中大大增加,可以获得比前期录音更大的动态范围和整体电平。

  4.2.1 后期编辑加工中的横向响度平衡

  由于录音教材的语言录音一般采用的是同期分轨录音方式,同类型的信号一般位于同一音频轨道中,而同一音频轨道上的信号响度的平衡则可以通过音量自动化和实时电平调整两种途径来实践。

  在数字音频工作站中,运用音量自动化曲线进行同一轨道信号的电平调整常被应用于音乐录音的后期制作,通过音量曲线的变化来改变音频波形的输出电平,可以得到非常清晰直观的结果,对于修改后的音频事件,修改的痕迹一目了然,同时也便于再次进行调整。如图11所示,通过音量自动化曲线对同一音轨上的波形进行响度的平衡。但依据需要调整的信号波形进行音量曲线的绘制往往需要耗费较多的时间,同时在大多数数字音频工作中音量曲线的操作界面与所在音频事件的界面往往是分离的,这就有可能造成在剪辑移动音频事件时,所匹配的音量曲线没有移动而造成自动化曲线与实际信号波形错位,为避免这一情况的发生,一般可将音频事件与音量曲线设置为相互关联。

  

  对于音频处理能力较强的工作站来说,任意音频事件的波形都可以通过对其简单的操作来调整信号的大小(有时也可通过具备增益调整的音频插件来完成),计算机会实时地做出反应将音频事件的波形改变后显示在编辑窗口中,使用这种方式进行横向信号的响度平衡可以将所需调整的信号分割成不同的音频事件,并根据不同音频事件的响度分别调整其波形的大小,从而达到平衡响度的目的。如图12所示,在某数字音频工作站中,通过实时电平调整来平衡音频事件的响度。在语言音频素材的剪辑加工中,音频素材由于前期录音以及剪辑重组的需要往往被分割成不同的音频事件,有时在调整完响度平衡后还要在音轨中移动,实时电平调整直接作用于信号波形,不会有音量自动化曲线容易出现的错位问题,而且调整的数字可以随时更改,因此,该方式更为适合在后期制作中进行横向响度的平衡。

  

  4.2.2 后期编辑加工中的纵向响度平衡

  后期编辑加工中的纵向响度平衡主要指分轨录音后各个声轨之间的信号响度平衡,使用音频工作站中软件调音台的虚拟电位器进行各声轨的响度平衡是较为常见的做法。在大多数字音频工作站软件的虚拟电位器都可以对声轨上的信号电平做较为精细的调整,同时可以清楚地记录下整体电平调整的数值。由于此种方式是对声轨的整体信号进行电平的提升和衰减,因此一般是横向响平衡完成后进行。纵

  向响度平衡的另一种特殊方式是利用音频效果器对信号的振幅和频率进行实时处理,已达到响度调整的目的。对于信号振幅的调整通常使用信号压缩器(Compressor),通过压缩器对信号振幅的压缩处理。当时使用较低的处理门限(Threshold)和较高的压缩比(Ratio)时,可以降低该轨道信号的整体输出电平,达到减小信号响度的目的;而适当提高处理门限,使压缩器只对高电平信号进行限制处理,则可以有效地降低峰值电平对该声轨信号的响度提升的限制,同时提高信号的整体平均电平。如图13所示,在同样的压缩比下,分别使用了高低两种处理门限对同一信号所做的响度衰减和提升处理。使用均衡器(Equalizer)对信号的频率进行提升和衰减也可以改变信号响度。根据上文所示,主观响度与信号频率及带宽的关系,人耳对不同频段的声音信号敏感程度是不同的,特别是在低频端和高频端,随着信号频率带宽的增加,其响度感也会随之增加。使用均衡器对信号的低频段和高频段进行衰减和提升,可以在改变音色的同时改变响度,这种只改变局部频率电平的做法可以在调整响度的同时,最大限度地减小对原有信号整体电平的改变,特别是在原有信号电平动态余量较小的情况下。此外,听觉激励器常被用于提升语音信号响度,与均衡器不同的是,由于听觉激励器只增加信号的谐波成分而不增加电平,因此可以在几乎不改变电平的前提下提升利用扩展信号带宽的方式提升响度。使用频率效果器对于信号响度进行调整时,应注意在改变响度的同时所带来的音色改变,一般来说对于响度的调整应以音色的改善为前提,在后期制作时,事先预估好所需调整的音色和响度是使用该方式的关键,这样可以在调整音色的同时,使其恰好满足对于响度调整的要求。

  4.3 后期编辑加工中信号响度监控

  响度在听觉上的主观特性,使得在专业响度计量设备出现之前,信号的响度平衡只能通过VU表和PPM表来监控信号的电平,然而主观响度计量的复杂性证明了两者并不能胜任该项工作,实践证明,VU表和PPM表只适用于前期录音时的信号电平监控,而不适用于后期制作中的信号响度平衡。随着ITU和EBU在响度计量研究上的突破以及相关国际标准的颁布,在节目后期制作中已经可以使用带有ITU-RBS.1770响度算法以及EBUR128标准的节目响度表对相关信号的响度进行监控(如图13,SteinbergNuendo6数字音频工作站中的响度表),在使用的数字音频工作站进行语音信号响度平衡时,可以通过音轨上的软件响度指示表实现对语音信号响度的监控和比对,并以此作为信号响度平衡的重要参考。

  

  根据ITU与EBU在相关协议中对响度指示表显示模式的规定,标准响度指示表应包括的主要显示内容中,瞬时响度(MomentaryLoudness)与短时响度(Short-termLoudness)主要用于后期制作时的响度监控,而积分响度(IntegratedLoudness)反映的是一定时间段内节目的平均响度,其应用于节目输入端的质量控制、节目发送以及质量控制。在录音教材的语音信号响度平衡中,瞬时响度与短时响度应作为响度监控的主要指标,可以根据语音信号的持续时间长度来判断使用这其中的哪种响度参数,根据语音信号的响度特点以及EBUTECH-3341对响度指示参数的定义,人耳对200ms以内的信号响度感知并不灵敏,因此持续时间在200ms至3s的语音信号可使用瞬时响度作为参考,而持续时间高于3s的语音信号则可以使用短时响度参数作为平衡参考,这样可以较为客观地反映语音信号在一定时间内的响度。响度表应使用LUFS作为计量单位,以及LUFS与信号电平的直接关系(在ITU-RBS.1770的定义),可以在响度出现差异时直接使用dB作为补偿单位,对信号进行衰减和提升,而无需进行额外的单位换算。在实际工作中,可利用瞬时响度和短时响度值先进行局部信号的纵向响度平衡和横向响度平衡,之后再利用积分响度数值观察各声轨的整体信号之间是否达到纵向响度平衡。在某些功能比较强大的音频工作站中,可以设定专门的响度计量窗口提供响度数值的实时曲线输出,这样能够更直观地监控声轨上信号的响度变化,如图14所示。

  

  4.4 后期编辑加工中信号响度平衡的基本方法和原则

  建立科学统一的监听标准是信号响度平衡的前提,一般来说,后期制作的监听音量应保持在80~85dBSPL之间,可预先使用声级计对监听扬声器进行校准。在节目制作过程中应始终注意保持监听音量的一致性,避免因监听音量不一致导致信号响度的差异,同时应防止长时间工作产生听觉疲劳而提高监听音量的情况发生。

  无论是横向响度平衡还是纵向响度平衡都应事先确定所需的响度参考信号,并以此为基准进行信号的响度统一。根据信号响度与峰值电平之间的关系,在进行语音信号的响度平衡时,应以具有最大量化电平的音频事件为主观响度参考来统一所有信号的响度。这是因为在后期制作中信号响度的调整主要还是依靠对于全频带或是特定带宽信号电平的提升和衰减来实现的,使用最大量化电平信号作为响度参考信号可以充分利用系统的动态余量,避免信号峰值电平限制响度的调整,并防止在调整的过程中出现信号过载失真。同时,充分地利用系统的动态余量还能够减少在母版加工过程中压缩器的使用幅度,最大程度地保证原始信号的自然振幅形态,使听感更加自然。

  在确定响度参考信号后,应对其他信号的电平进行调整使之与其达到主观响度的一致,在调整的过76程中,应坚持以“听”为主,以“看”为辅的原则。数字音频工作对音频信号提供了的可视化界面,但响度的主观听觉特性以及其复杂的相关因素决定了录音师仍需以听觉作为响度判比的主要途径,视觉上信号波形大小并不能完全作为判别信号实际响度差异的依据。例如图15中,同一声源发出的两种类型的语音信号由于发音方式的不同,虽然在峰值电平上存在较大的差异,但两者的响度则是一致的。在实际工作中,可采用对比监听的方式比较信号响度的大小,并注意时间间隔较长的信号是否存在响度差异。(长时间监听产生的听觉疲劳可能使信号响度的调整出现偏差)。以“看”为辅的方式主要指在对比监听后,以听觉响度为依据,观察并对照响度计量表的指示,并结合对信号波形的观察,确定响度差异的具体数值并进行最终调整。依据人耳对于信号响度变化感知的最小幅度[2],调整时可采用以1dB为最小幅度的步进方式提升和衰减电平。在参照监听调整完毕之后还可以对照响度计量表以及响度曲线检查响度是否一致,理想的语音信号响度平衡后,音频总输出上的响度计量表中,短时响度一般会保持在一个较稳定的范围,上下浮动不超过±3LUFS,响度曲线应保持一定的平直。以图16为例,图中显示了一段多轨语音素材经过响度平衡后的音频采样波形与短期响度曲线,可以看出经过响度平衡后的短期响度曲线比平衡前的曲线显得更为平直。

  

  5 结语

  录音教材中的语音信号响度平衡的本质目的在于统一各个语音声源信号的听觉响度,使节目信中各个语音声源的发音达到响度的一致,这样有助于听音者对于语言的听辨和学习。响度的平衡不是母版制作加工的响度最大化,也不是音乐节目混音中的信号响度层次化差异化,而是把主观响度的一致性作为调整的首要目的。可以说,语音信号响度的平衡是录音教材产品后期母版加工的前提技术要求。因此,作为语音录音教材后期编辑加工中最重要的工作环节,音频信号响度的平衡往往需要音频技术工作人员建立科学统一的主观听觉响度标准,培养自身对信号响度差异的听觉敏感性。在实际工作中,客观看待仪表的指示,不盲目依赖响度计量表的数值,同时,避免陷入响度最大化的误区而过度地使用压缩器和限幅器,而破坏语音信号自然属性。

  参考文献

  [1] 林达悃.录音声学[M].北京:中国电影出版社,1995.

  [2] SELFD.声频工程导读[M].朱伟,译.北京:人民邮电出版社,2013.

  [3] BRIXENEB.声频信号的仪表计量[M].朱伟,译.北京:人民邮电出版社,2012.

  [4] ITU.ITU-RBS.1770测量音频节目响度和真实峰值电平的算法[S].[S.l.]:ITUPress,2006.

  [5] ITU.ITU-RBS.1771对响度和真实峰值指示表的要求[S].[S.l.]:ITUPress,2006.

  [6] EBU.EBUR128音频信号的响度标准化和允许的最大真实峰值电平[S].[S.l.]:EBUPress,2010.

  [7] EBU.EBUTECH-3341响度标准化的EBU模式响度表[S].[S.l.]:EBUPress,2010.

  [8] EBU.EBUTECH-3342响度标准化中响度范围的描述[S].[S.l.]:EBUPress,2010.

  [9] POHLMANNKC.数字音频技术[M].夏田,译.北京:人民邮电出版社,2013.

  [10] 范学成.解读央视音频制作的响度与规范[J].电声技术,2013,37(1):51-53.

  [责任编辑] 史丽丽

点击下载:

©版权所有 人民教育出版社      京ICP备05019902号      新出网证(京)字116号      京公网安备11010802038276号