声学语言的实际运用用有哪些?

利用对声速和声衰减测量研究物质特性已应用于很广的范围。测出在空气中,实际的吸收系数比19世纪G.G.斯托克斯和G.R.基尔霍夫根据粘性和热传导推出的经典理论值大得多,在液体中甚至大几千倍、几万倍。这个事实导致了人们对弛豫过程的研究,这在对液体以及它们结构的研究中起了很大作用(见声吸收)。对于固体同样工作已形成从低频到起声频固体内耗的研究,并对诸如固体结构和晶体缺陷等方面的研究都有很大贡献。
表面波、声全息、声成像、非线性声学、热脉冲、声发射、超声显微镜、次声等以物质特性研究为基础的研究领域都有很大发展。
瑞利时代就已经知道的表面波,现已用到微波系统小型化发展中。在压电材料(如石英)上镀收发电极,或在绝缘材料(如玻璃)上镀压电薄膜都可以作成表面波器件。声表面波的速度只有电磁波的十万分之几,相同频率下波长短得多,所以表面波器件的特点是小,在信号存储上和信号滤波上都优于电学元件,可在电路小型化中起很大作用。
声全息和声成像是无损检测方法的重要发展。将声信号变成电信号,而电信号可经过电子计算机的存储和处理,用声全息或声成像给出的较多的信息充分反应被检对象的情况,这就大大优于一般的超声检测方法。固体位错上的声发射则是另一个无损检测方法的基础。
声波在固体和液体中的非线性特性可通过媒质中声速的微小变化来研究,应用声波的非线性特性可以实现和研究声与声的相互作用,它还用于高分辨率的参量声呐(见非线性声学)中。 用热脉冲产生的超声频率可达到1012Hz以上,为凝聚态物理开辟了新的研究领域。
次声学主要是研究大气中周期为一秒至几小时的压力起伏。火山爆发、地震、风暴、台风等自然现象都是次声源。研究次声可以更深入地了解上述这些自然现象。次声在国防研究上也有重要应用,可以用来侦察和辨认大型爆破、火箭发射等。大气对次声的吸收很小,比较大的火山爆发,氢弹试验等产生的次声绕地球几周仍可被收到,可用次声测得这些事件。固体地球内声波的研究已发展为地震学。
研究液氦中的声传播也很有意义。早在40年代,Л·Д·朗道就预计液氦温度低于λ 点时可能有周期性的温度波动,后来将这种温度波称为第二声,而压力波为第一声。对第一声和第二声的研究又得到另外两种声:第三声超流态氦薄膜上超流体的纵波,第四声多孔材料孔中液氦中超流体内的压缩波。深入研究这些现象都已经成为研究液氦的物理特性尤其是量子性质的重要手段(见量子声学)。
声波可以透过所有物体:不论透明或不透明的,导电或非导电的,包括了其他辐射(如电磁波等)所不能透过的物质。因此,从大气、地球内部、海洋等宏大物体直到人体组织、晶体点阵等微小部分都是声学的实验室。近年来在地震观测中,测定了固体地球的简正振动,找出了地球内部运动的准确模型,月球上放置的地声接收器对月球内部监测的结果,也同样令人满意。进一步监测地球内部的运动,最终必将实现对地震的准确预报,从而避免大量伤亡和经济损失。 主要研究语言的分析、合成和机器识别问题。录放声设备和电子计算机的发展在这些工作中起了很大促进作用。已作到语言可以根据打字文稿按声学规律合成声音,有限词汇的口语可以用机器自动识别,口语也可以转化为电码或由电码再转换为声音(声码器)并保存原来口语的特性。现在语言通信的设备还比较复杂,系统的质量和局限还有待于改进。这种改进不仅是技术上的,更重要的是对语言的产生和感知的基本理解。这只有深入进行语言和听觉的基础研究才能得到解决,而不是近期所能完成的(见语言声学)。
听觉过程涉及生理声学和心理声学。能定量地表示声音在人耳产生的主观量(音调和响度),并求得与物理量(频率和强度)的函数关系,这是心理物理研究的重大成果。还建立了测听技术和耳鼓声阻抗测量技术,这是研究中耳和内耳病变的有效工具。在听觉研究中,所用的设备很简单,但所得结果却惊人的丰富。1961年物理学家 G.von贝凯西曾由于在听觉方面的研究工作获得诺贝尔医学或生理学奖,这是物理学家在边缘学科中的工作受到了承认的例子。主要由于对神经系统和大脑的确切活动和作用机理不明,还未形成完整的听觉理论,但这方面已引起了很多声学工作者的重视,从20世纪50年代以来已取得很大成绩。通过大量的生理、心理物理实验可得出若干结论,并提出一些设想:声音到达人耳后,耳把它转换为机械振动,经中耳放大后再到达内耳,使蜗管中的基底膜发生共振。传感单元是基底膜上的内外两排毛细胞。外毛细胞基本是一排化学放大器,把振动传到内毛细胞,激发其弯曲振动,振动达到某阈值以上时,与内毛细胞接触的神经末梢就发出电脉冲,把信号通过神经系统送入大脑。与内毛细胞联结的神经核主要对基底膜振动速度响应,而外毛细胞响应于基底膜的位移。神经信号为几十毫伏的电脉冲,脉冲延续时间约几十毫秒。信号就通过神经脉冲送入大脑,图4是设想的流程图,从大脑再把信号分配到大脑皮层的各个中心,进行储存、分析、积分或抛弃。这是初步的理解,要建立起完整的听觉理论,解释所有听觉现象,还需要做大量的工作,这涉及到对大脑功能的研究。
在语言和听觉范围内,基础研究导致很多重要医疗设备的生产:整个装到耳听道内的助听器;保护听力的耳塞,为声带损伤病人用的人工喉,语言合成器,为全聋病人用的触觉感知器和人工耳蜗等等。
一般来说,固体传播比水传播的速度快,水传播比空气传播的速度快。
声学在医疗方面的应用包括超声辅助诊断和超声治疗。
超声辅助诊断,最常见的就是B型超声成像,简称B超。通常这种超声诊断应用于腹部非侵入成像。其他常见类型的超声成像-辅助诊断是M超,即心动超声。与X线和CT相比,超声成像的优势在于对人体没有任何辐射伤害。声波是一种机械波,在穿过体内组织的同时也有部分声波反射,通过接受并且处理这些信息丰富的反射声波,我们可以利用这些信息形成体内实时的灰阶图像。在软组织成像中,效果比X光成像要好,但是由于骨头对超声有强烈的反射和吸收作用,因此经颅B-超成像还处于起步阶段,国外已有报道使用相控换能器进行B-超经颅成像。它的价钱便宜,成像速度快,准确性高,无副作用,都是至今超声在腹部常规检查中不可替代原因。临床使用的超声辅助诊断技术还包括利用多普勒效应查体内运动(包括胎儿运动及血管内血液的流速等),
超声治疗,利用超声波是机械波的特性,利用机械波周期震荡的特点,有着不同的临床应用。神经外科在脑的深部用聚焦的超声波造成破坏,治疗脑肿瘤、帕金森综合症、脑血栓等,这样的治疗手段,不仅减少对脑部的损伤(可以进行非开颅手术治疗),而且不影响大脑的其他部分的功能。普通外科中,利用聚焦超声治疗腹部肝脏肿瘤,妇科肿瘤,前列腺癌,膀胱癌,都有显著的疗效。牙科用超声钻钻牙而丝毫不影响软组织,可以大大减少病人的不适。
声学在医学中还有很多可以应用的方面,但发展都很不够或根本未发展,特别是在治疗方面,主要原因是不能确定适当的剂量。中国科学院声学研究所牛凤岐教授,天津医科大学的菅喜岐教授,重庆医科大学的王智彪教授,对聚焦超声的理论、仿真和临床应有有着深入的研究,剂量问题也是他们的研究重点之一。 当代重大环境问题之一是噪声污染,社会上对环境污染的意见(包括控告)有一半是噪声问题。除了长期在较强的噪声(90dB以上)中工作要造成耳聋外,不太强的噪声对人也会形成干扰。例如噪声级到70dB,对面谈话就有困难,50dB环境下睡眠、休息已受到严重影响。近年来,对声源发声机理的研究受到注意,也取得了不少成绩。例如,撞击声、气流声、机械振动声等的理论研究都取得重要成果,根据噪声发生的机理可求得控制噪声的有效方法。
振动对人危害也很大,虽然影响的人数比噪声少一些。常日手持凿岩机的矿山工人受振动危害严重时可得到白指病,甚至手指会逐节掉下。全身振动则可达到感觉不适、工作效率降低及至肌体损伤的程度,也应加以保护。对振动的保护一般采取质量弹簧系统或阻尼材料(见隔振、减振)。控制振动也是降低噪声的基本办法。
噪声控制中常遇到的声源功率范围非常大,这也增加了噪声控制工作的复杂性。例如一个大型火箭发动机的噪声功率可开动一架大型客机,而大型客机的噪声功率可开动一辆卡车。工业交通事业的进一步发展,其关键之一是降低噪声。噪声污染是工业化的后果,而降低噪声又是改善环境、提高人的工作效率、延长机器寿命的重要措施。 声学(代码:070203W)属于理学大类,物理学类。
学位:授予理学学士学位 本专业主要培养具有坚实系统的应用声学与信息科学基础,并掌握相应的电子技术、计算机技术及声学测量技术,能够适应高科技发展以及经济、教育等多方面的需要,从事科研、开发和教学的高层次人才。
通过学习,将具备了以下几方面的能力:
1、具备扎实的数理基础,宽阔的科学视野和一定的科研能力、创新能力;
2、掌握计算机软、硬件基础知识,较系统地掌握本学科的基本理论、基本知识、基本技能和基本方法;
4、具有较强的分折问题和解决问题的能力和综合实践能力;
5、了解国内外该学科发展的动态和趋势。 南京大学(10284)、北京大学(10001)、北京理工大学(10007)、北京师范大学(10027)、大连理工大学(10141)、西北工业大学(10699)、同济大学(10247)、中国科学技术大学(10358)、清华大学(10003)、复旦大学(10246)、南开大学(10055)、浙江大学(10335)、中国人民大学(10002)、国防科学技术大学(90002)、湖南师范大学(13250)、华东师范大学(10269)、华中科技大学(10487)、厦门大学(10384)、重庆大学(10611)、上海师范大学(10270)、中央民族大学(10052)等。

本文原创,首发于八零音乐论坛

发烧,从测量你的环境声学开始(二) 设备校准 中,讲了如何用简便的方法校准手里的器材。

在最后的这个帖子中,讲一下我的实际测量结果,和大概的分析。

基准【拉上窗帘,无室内环境处理,无EQ】

EQ【在基准的基础上,在低音炮上做了PEQ,我的低音炮支持三组PEQ】

拉开窗帘【在EQ基础上,拉开了窗帘,完整的露出玻璃,玻璃面积大约8平方米】

简易处理【在EQ基础上,改变室内物品摆位,额外挂上了一个布帘(如第一张图)】

首先,测试麦克风要放在皇帝位上。指向天空。

然后下图是我实际的测量位, 周围乱放的靠枕和布都是后面做声学调整的时候摆放的,对应下文【简易处理】的那次测试。


阳台门,材质为整块玻璃,始终关闭,外有窗帘。


功放音量调到70%的位置,尽量使皇帝位(麦克风位)的声压接近75分贝——这是个人经验,也是实测几家电影院的数值。

使用REW软件,点击第一个按钮Measure ,进行一次测试。 操作手法 上一个帖子已经有了图解,在此不重复发了。

测试的时候,人不要站在音响前面,不要说话哼歌跺脚咳嗽什么的,建议用无线鼠标, 离开听音区域,遥控开始测试,我是模拟两人听音的情况,我坐在第二人位置。

如果低音炮比较低端,建议起始频率从10Hz开始 不要从0或者1Hz开始,低端炮可能缺失保护电路 超低频可能会烧喇叭。

首先是 原始曲线与初步EQ后的曲线对比:

红线是原始曲线,绿线是EQ后的曲线, 可以看到,红色原始曲线从15Hz到70Hz的重低音范围,显著高于 120Hz之后的主箱频率,整体平滑后,可见整体高了月10分贝,而此时低音炮音量只开了一半,可见一个500瓦的15寸大炮还是很给力的。

在初步调了炮EQ之后 可以看到,低频的电瓶在40-80区间内,有大幅度的起伏,这是驻波引起的,这个频段的声音相当难处理,由于炮太大,自重大约50公斤,也懒得搬来搬去找合适的炮位,所以这个暂时没办法,只能以后再精细调整EQ了。

下图为做1/2的平滑后,看整体声压(除了特别注明,其余的频响曲线均为1/12的平滑)


下图为 EQ后,拉上窗帘 与 拉开窗帘露出玻璃的曲线。 绿线是刚才那个EQ后的曲线,蓝线是在绿线基础上,拉开了窗帘露出玻璃。(均为1/6 平滑)

可以看到,30Hz以下 由于玻璃发生了薄板共振,10-20Hz的声音反而被吸收掉了,而30Hz以上,由于反射增强,原来的37Hz,60Hz,85Hz 三个驻波峰值 尤其是60Hz这个最大的驻波 被显著加强了。

从230Hz到1.8K的频段,窗帘的吸音效果一般,有些频率吸了一点点,有些没吸,从1.8K到12K, 绿线比蓝线普遍低了大约1.5-2.5分贝 ,说明这个窗帘的吸音主要在1.8K-12K范围。 由于窗帘的位置在侧面,面积整体占的不大,所以效果虽然有一些,却起不到太大的作用。 但有总比没有好。

下图是进行简单声学处理之后(紫色曲线), 包括,用软包挡住墙角和部分墙面,拉了个布帘,改变前置的角度,让前置左右声道正对向皇帝位,而不是正对后墙。 改变炮位。几种处理:

可见,紫色的低频驻波更大了,显然炮位挪的不对.........OTZ .......... 然后 200Hz左右有个更深的深谷 说明挪动前置主箱之后,正好把驻波的波谷挪到了更靠近麦克风的位置,但是 后面2K-5K的区间,整体曲线显著下降,说明拉的那个帘子和几个软包起了作用 吸收了一部分低频。

然后,来看室内混响的RT60时间

就是声音在发出后 经过多长时间 能衰减60个分贝(基本就是衰减到不可闻),这个跟吸音系数有关 ,一般房间对高频吸收多,低频吸收少,所以高频很快就没声了,低频要很慢才消失。

如图, 拉开窗帘与原始的比,极低频因为被薄板共振吸收了一部分,所以衰减的比拉上窗帘快一些,大约提前0.088秒衰减完毕。 而由于玻璃反射高频,所以,高频要慢了0.07秒才衰减完。

低频RT60做到0.8秒以内,高频在0.5秒以内 ,个人认为看电影就基本合格了。 看来我的环境还是要再做一些吸音处理。

然后看一下瀑布图,分析一下衰减的情况 以及驻波。

跟上面一样,绿色是原始,紫色是简单声学处理。


可以看到,紫色的高频衰减的更快一些。

图上两色叠加,在某个频段,你看到的是绿色 说明在这个频段上 绿色覆盖了紫色,说明绿色的声压高 衰减慢。

整体来说 叠加图上除了低频有一部分是紫色, 这是因为调了炮位 反而不如原始炮位好, 其他大多数地方 都能看到绿色比较多,说明 整体上,做了简单室内声学处理之后,整体声音在室内吸收的更好,衰减的更快。

这个结果和刚才的RT60混响时间是可以互相印证的。

我把紫色的图 调整了角度, 大家可以看看 驻波的衰减曲线(红线)和正常的衰减曲线(浅绿线)的差别:

驻波在很长一段时间 是有很小衰减,在后续 也是慢慢衰减,而正常衰减的声音,则是一直降低的:


由这个方法 就能判断出皇帝位的驻波情况。从而在EQ上削峰填谷。

水平有限,只能做这么多比较常规的分析。 至于如相位对声场的影响,群延迟等更深层次的内容,我还没有太深入的研究。

文章主要是给大家做个参考, 比如 室内的频响起伏原来如此之大,峰谷之间差了10分贝以上的都有,而稍稍调节室内的环境,改改摆位,都能造成小到1-2分贝,大到4,5分贝的差异, 别忘了 差3分贝 等于输入功率差了一半, 这么巨大的差异,应当充分的重视, 尽量布置一个声学环境良好的房间,会大幅提升听音效果,这个才真的是 【一耳朵区别】。

本人原创,转载请注明作者。

1,如有可能还是应当使用声压计校准麦克风增益。

2,用EQ调炮,尽量削峰,不要填谷,如果炮的RMS功率不到400瓦,建议 不要大幅削峰,否则会拖累整体声压的。

3,自己听感是最终判断依据,不要为了调而调。 有人就喜欢混响长,轰隆隆久久不散的低频。

4,家庭影院,低音和人声是精髓所在。 低音靠炮,砸钱买个好炮即可; 而人声通常是一条单独声轨输送到中置箱子里,因此中置箱子的素质至关重要,

有种玩法甚至是单独使用双10寸大中置箱子配单路400瓦功放。 因为要想人声好,单元尺寸和功率非常重要, 一般建议 中置声道在功放的EQ中提升几个分贝的声压。

5,炮口径为王,功率要大,且必须要有截止频率调节,相位调节, 最好有12V触发和PEQ功能。

音乐声学基础知识 

   音乐是一种艺术形式,一切艺术都包括两个方面,一是艺术表现,一是艺术感知,音乐这种艺术也概莫能外,它通过乐器(包括人的歌喉)所发出的声音来表现,依靠人耳之听觉来欣赏。这声音的产生和听觉的感知之间有什么关系呢?这是我们要讨论的第一个问题??音乐声学。  1、声音的产生与主客观参量的对应关系      关于声音的产生,国外有一个古老的命题:森林里倒了一棵大树,但没有人听见,这算不算有声音?这个命题首先点出了声音产生的两个必要条件,即声源和接收系统。所谓声源,就是能发出声响的本源。以音乐为例,一件正在演奏着的乐器就是声源,而观众的听觉器官就是接收系统。从哲学的角度讲,声源属于客观世界,而接收系统则属于主观世界,声音的产生正是主观世界对客观世界的反映。      但如果只有声源和接收系统,是否就能接到声音呢,并不是这样。如果没有传播媒介,人耳仍不能听到声音。一般来讲,物体都是在有空气的空间里振动,那么空气也就随之产生相应的振动,产生声波。正是声波刺激了人们的耳膜,并通过一系列机械和生物电的传导,最终使我们产生了声音的感觉。如果物体在真空中振动,由于没有传播媒介,就不会产生声波,人耳也就听不到声音。由此,我们可以说,任何声音的存在都离不开这三个基本条件:1)声源;2)媒介;3)接收器。  先来看看产生声音的客观方面??声源??都有哪些特征。     当我们弹一个琴键,通过钢琴机械传动装置,琴槌敲击琴弦,这时如果我们用手触弦,就会明显感到琴弦在振动。当我们拉一把二胡或小提琴时,也会感到琴弦的振动。振动是声源最基本的特征,也可以说是一切声音产生的基本条件。但如果没有我们手对琴键施加压力,使琴槌敲击琴弦,也不会产生振动。实际上,一个声源得以存在,还依赖于两个基本条件:其一是能够激励物体振动的装置(称激励器);其二是能够使装置运动起来的能量;演奏任何一件乐器都不能缺少这两个条件。例如,当我们敲锣打鼓时,锣槌或鼓槌便是激励器,能量则由我们的身体来提供。一架能自动演奏的电子乐器,也同样少不了这两个条件:电子振荡器就是激励器,能量则由电源来提供。      人们常用“频率”(frequecy,振动次数/1秒)来描述一个声源振动的速度。频率的单位叫“赫兹”(Hz),是以德国物理学家赫兹(H.R.Hertz)的名字命名。频率低(即振动速度慢)时,声音听起来低,反之则高。人耳对振动频率的感受有一定限度,实验证明:常人可感受的频率范围在20?20,000Hz左右,个别人可以稍微超出这个范围。音乐最常用的频率范围则在27.5Hz?4186Hz(即一架普通钢琴的音域)之间。超出此范围的乐音,其音高已不能被人耳清晰判别,因而很少用到。语言声的频率范围比音乐还要窄,一般在100Hz?8,000Hz范围内。      声音的强度与物体的振动幅度有关:“幅度越大,声音越强,反之则弱。”声学中用“分贝”(dB)作为计量声音强度的单位。通过实验,人们把普通人耳则能听到的声音强度定为1分贝。音乐上实际应用的音量大约在25分贝(小提琴弱奏)?100分贝(管弦乐队的强奏)之间。音乐声学中称声音强度的变化范围为“动态范围”,动态范围大与小,常常是衡量一件乐器的质量或乐队演奏水平的标志:高质量乐器或高水平乐队能奏出动态范围较大的音乐音响,让人们听起来痛快淋漓,较差的乐器或乐队则无法做到这一点。图为普通人耳对音高和音强的最大可闻阈及音乐常用的音高和音强的范围。表为日常生活中几种典型音响的强度(分贝)。      大多数物体在振动时,除了存在整体振动外,还伴随有不同部位的局部振动。一般把物体作整体运动时产生的声音叫做“基音”(Foundamental tone),局部振动产生的声音叫做“泛音”(Harmonics)。基音能量一般最强,因而往往决定一个乐音的主观音高。      声音可根据其所包含泛音的情况而分为“纯音”和“复合音”。所谓“纯音”(Pure tone),是指声音中只含有基音振动成份,例如我们常用的音叉所发出的声音就是纯音。当声音中既有基音又有泛音时,就称“复合音”(Compoundtone)。一般情况下,所有乐器(包括人声)发出的音都是复合音。如果泛音的频率与基音成倍数关系,这个复合音听起来就比较圆润,否则就比较粗糙。按照习惯分类方法,将前者称为“乐音”,后者称“噪音”。大多数管弦乐器发出的声音都属乐音范畴。      不同种类的乐器,其音响效果各不相同,我们把能代表某种声音特征的因素称为“音色”(Tone color或Timbre)。决定一件乐器音色的重要因素是声音的“频谱”。“频谱”(Spectrum)是指声音中所含泛音的数量以及各个泛音在强度上的相对关系。声音的频谱可以用专门的分析仪器显示出来。图2是钢琴与单簧管的频谱比较,如图所示:二者的基音频率都是100Hz,但泛音数量及各个泛音的强度(dB)却不一样,由此便导致音色上的差别。  除频谱外,另一个对音色有重要影响的因素是声音振动波形的包络(Envelope),尤其是包络的起始(俗称“音头”)和结束(俗称“音尾”)两个部分最重要,这个过程尽管非常短暂,而且几乎都是噪音成份,但对乐器的音色起着重要作用。有人曾做过实验,把一个小提琴音响中的起始瞬态过程去掉,其结果听起来很象管风琴的音响。许多电子乐器在模仿自然乐器声响时,由于只注意对频谱的模仿,但忽略了声音的起始瞬态过程这个问题,因而听起来总是不自然。这一点在弦乐器上尤其明显。  综上所述,可以认为,一个声源的基本特征可以由以下几个参量进行描述,即频率、声强、频谱和波形包络。  接下来再来看看产生声音的主观方面??人耳接收系统??具有哪些结构特征,以及与声源都有哪些对应关系。  图3为人耳剖面图。声波首先刺激耳鼓,通过听骨传到耳蜗,然后再由联结耳蜗的神经束将信号传至大脑中主管听觉的区域。通过研究,人们发现:耳廓具有集聚声波的功能,外耳道则对Hz(约为小字二组b?小字四组b)左右的声波产生共振。所以,人们往往对这一频段内的声波反应更敏锐。中耳内的听骨对声压亦有放大作用。耳蜗中的基底膜上长有很多听觉神经纤毛,目前对这些纤毛的作用尚存不同见解。上个世纪的著名德国科学家黑尔姆霍兹( H.vonHelmholtz)认为这些纤毛与声波的频率之间有对应关系:长纤毛感应低频,短纤毛感应高频。但后人通过更精细的解剖研究发现:耳蜗内的听觉纤毛数量约为3百万根,已大大超过人耳所能接收的频率赫兹数(约2万Hz),对于这些纤毛的作用还有待进一步的验证。  实验证明,人耳对声波的接收并不是一个简单的被动过程,或者说是对客观事物的“真实写照”,这一点是人耳与声音测量仪器之间的最大区别。例如,在音高识别方面,一般情况下,如果某一个音的频率数比另外一个多一倍,那么在听觉上就会产生“高了一个八度”的印象。可是在高音区(1000Hz以上)和低音区(150H以下),情况就有了变化:当人耳感觉两个音符合一个八度关系时,用仪器测量二者的频率就会发现,两个音已不是严格的倍数关系,而是比一倍稍多一点。  在音量的感觉上也有相似的情况:在大型管弦乐队以ff力度全奏之后,接着一个木管乐器以ff力度独奏,二者的声压比可达到1001,我们人耳却感觉不到那么大的差距。此次人们对音高和音乐响度的感知并非完全独立。力度的改变会引起音高感觉的变化:早在1935年,美国科学家司蒂文斯(Stevens)通过实验指出:在不改变频率的情况下,只改变声音的强度,人们也会感到音高有所改变。当时他使用纯音作为测试信号,他的结论是:当强度从40增加到90dB时,将会产生大约一个全音(200音分)的音高变化。其变化规律是:随着强度的增加,听到低频音会变得更低,高频音会变得更高,中频(Hz)音只有微小变化。人们有时称此为“司蒂文斯定律”。后人在对司氏定律作验证工作时发现:如果用复合音做测试,其音高变化幅度要小一些。图4是德国科学家特尔哈特(Terhardt) 1979年对15位参试者测试所得结果。  从人道主义的角度讲,不能用活体作人耳听觉系统的精细研究,所以至今还有许多关于人耳听觉特殊现象找不到确切答案。其中,人耳对低音的外推能力就是一例。我们或许都有戴耳机听音乐的经历,从耳机构造来讲,由于其振膜面积太小,根本不可能发出较低的声频(仪器测试也证明了这一点)。但我们人耳却依然能感觉到音乐中低音声部的鸣响,这就是人耳所具有的一种特殊能力。另外,人耳还具有“高度指向性”能力的接收系统。例如,在聆听一部交响曲时,我们往往可以把注意力完全集中在某一个声部或某一件乐器上,对其它乐器的音响“充耳不闻”。此时,我们的耳朵就象装上了一个“自动滤波器”,只让有用的信号进入,其它无用的声音信息则被“拒之门外”,今天再先进的仪器也无法做到这一点。  人耳对音色的辨别能力也有许多奥秒之处,其中较为突出的是“模糊识别”功能。例如,对于各种各样的二胡发出声响,如果用仪器测试,其结果往往大相径庭,但我们的听觉系统却可以把它们都归为二胡类。再有,当一个患了感冒,发音往往会有很大变化,但人们仍然能够凭借音色特征辨认出这个人的声音。  由于种种原因,人们对于产生声音的主观因素人耳听觉系统的研究,远不如对客观因素声源及媒介物研究那样全面和深入。从某种意义上说,这种状况也妨碍了音乐声学的深入发展,因为音乐声学这门学科与人的听觉密不可分,单纯从物理声学角度去解释声音的属性并不能满足音乐工作者的要求,甚至会导致一种错误的认识,以为主观听觉就是对客观声波的如实反映,将人耳等同于测量仪器,因而凡事务求精确,圆满,其实这反而背离了科学研究的真谛。  2.音阶、律制与音准感  音乐声学注重从数理角度研究音阶和律制问题,而不去探讨其起源和发展史。目前我国音乐中最常用的音阶是大、小调音阶和我国的三种传统音阶,即新音阶、古音阶和清商音阶(又称燕乐音阶)。关于这些音阶的历史形成以及它们之间在音程方面的差异可参见有关的专门著作(如缪天瑞《律学》,人民音乐出版社,1983年增订版),在此不赘言。这里主要介绍的是与律学研究的听觉心理及音准感方面的最新研究成果。  古今中外的律学研究都在关心这样一个问题:如何找到最符合人类音准要求的律制,尽管有上下数千年的探索,但直到今天,什么是“最理想”、“最和谐”、“最纯净”的律制,人们依然众说纷纭。这种状况不能不引起人们的思考:从理论角度讲,各种律制的数学表达方式早已被我们的先人阐述清楚;从实践角度来讲,全世界的音乐活动从未因律制理论的不统一而中断,那么今天的律学研究对音乐实践来说究竟在起着什么作用?各种各样的律制理论又是如何与实践相联系的?  既然律学研究属于音乐声学的一个分支,就决定了这个学科也要重视人耳听觉特性的研究,特别要研究不同律制的音高差异在人的听觉中将产生什么影响?因为各种各样的律制理论正是通过人的听觉而与音乐实践相导通。不深入了解人耳对音高差的分辨能力,就不能真正搞清楚各种律制对音乐实践产生什么样的影响,从而真正体现出律学研究与音乐实践的紧密联系。解决上述问题的关键,是要搞清两个基本问题:其一是了解人耳的音差分辨阈,即人耳所能察觉到的最小音高差异;其二是了解人们在音乐生活中判断音准的尺度,可简称为音准感。  笔者之一为此曾在年期间进行了一系列人耳听觉的实验工作,受试者共145名,全部是专业音乐工作者,其中大多数是从事指挥和乐队演奏,因为他们的音准感往往对他人的音准感有直接的影响。以下是此次实验工作取得的结果(有关实验的详细情况已发表在《中国音乐学》 1992年第3期):  对大多数音乐家来说,音差分辨阈值为6至8音分。个体差异中存在的极端值分为2音分和50音分。  与常人相比,音乐家对音高差异具有较强的分辨能力,尤其是存在于中、低间区的音高差异。  后天的听觉指向性的训练对人耳的音差分辨能力有一定影响。  多数音乐家的同一性音准感具有-10至+10音分的宽容性。或者说对音准容解误差是±10音分。  多数音乐家的和声性音准感具有-38至+14音分的宽容性。  在各音乐专业中,指挥家的音准宽容度相对较小。  在上述这些感知中还包括了和声性音准感,这实际上把音乐声学的层面上升了一步,从单个乐音,上升到音群,对音准的感知则上升到对音乐美感的感受,这当中之主客体的相互作用更为突出,正如马克思所说:“对于没有音乐感的耳朵说来,最美的音乐也毫无意义。”受过训练的耳朵,似乎不再是自然的耳朵,但通过学习能发现音乐中更深的美,却是一种自然规律。    在直达声以后到达的对房间的音质起到有利作用的所有反射声,称为早期反射声。时间范围一般取直达声以后50ms,也有人认为可取到95ms。早期反射声能与混响声能之比称为明晰度。明晰度高,语言清晰度也高,如明晰度达到50%,音节清晰度就可达90%以上。对听音乐来说,情况复杂得多,不仅要考虑早期反射声所占的比重,还要考虑从侧向来的早期反射声,能使声源的空间距离展宽,增加立体感,但侧向早期反射声过强,又会形成虚声源,造成移位错觉的不良后果。  指凹面对声波形成集中反射,使反射声聚焦与某个区域,造成声音在该区域特别响的现象,声聚造成声能过分集中,使声能汇聚点的声音。嘈杂,而其他区域听音条件变差,扩大了声场不均匀度,严重影响听众的听音条件。(室内声源发声,声波碰到墙壁、天花板、地板均会产生反射,声反射遵从反射定律,入射声波碰到反射体是凹形表面,反射声则会集中在一起,形成声聚焦,这与光聚焦类似。声聚焦现象使声场分布不均匀.)  基音    (Fundamental tone)一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。也就是发音体整段振动。基音决定了音高。  泛音  泛音(Harmonics)除了发音体整体振动产生的最低的音是基音,以基音为标准,其余1/2、1/3、1/4等各部分也是同时振动,是泛音。泛音的组合决定了特定的音色,并能使人明确地感到基音的响度。乐器和自然界里所有的音都有泛音。也可以这么说:三角铁的声音“叮......”的一声,其中的“叮”音是基音,而“......”就是泛音。    泛音的原理是这样的:手指虚按在琴弦上(仅仅接触琴弦但不用力),琴弦的振动将受到限制,只有以此触点为节点的振动才被保留下来。如果触点在琴弦的1/2处,那么泛音频率就是琴弦基频的2倍,如果触点在琴弦的1/3或2/3处,那么泛音频率就是琴弦基频的3倍,依此类推。第三、四泛音有两个触点,前面(靠近弦枕)的触点比较容易演奏,后面(靠近琴马)的触点位置比实音略偏向琴马,找起来很麻烦。泛音级数越高,音色就越虚,更接近于笛声或唱歌时的假声,常用的泛音不超过第四泛音,第六泛音以上就几乎发不出声音了。   声音的三个主要的主观属性 [即音量(也称响度)、音调、音色(也称音品)] 之一。表示人的听觉分辨一个声音的调子高低的程度    音调主要由声音的频率决定,同时也与声音强度有关。对一定强度的纯音,音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。    一般说来,儿童说话的音调比成人的高,女子声音的音调比男子高。在小提琴的四根弦中,最细的弦,音调最高;最粗的弦音调最低。在键盘乐器中,靠左边的音调低,靠右边的音调高。    普通话中有四个声调:阴平、阳平、上声和去声,也是音调的重要形式,音高的变化决定了声调的性质。   音调  音调主要由声音的频率决定。对一定强度的纯音,音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。    音调的高低还与发声体的结构有关,因为发声体的结构影响了声音的频率。   大体上,2000 赫以下的低频纯音的音调随强度的增加而下降,3000 赫以上高频纯音的音调随强度的增加而上升。   对音调可以进行定量的判断。音调的单位称为美(mel):取频率1000赫、声压级为40 分贝的纯音的音调作标准,称为1000 美,另一些纯音,听起来调子高一倍的称为2000 美,调子低一倍的称为500 美,依此类推,可建立起整个可听频率内的音调标度。  音调还与声音持续的时间长短有关。非常短促(毫秒量级或更短)的纯音,只能听到像打击或弹指那样的“喀嚓”一响,感觉不出音调。持续时间从10 毫秒增加到50 毫秒,听起来觉得音调是由低到高连续变化的。超过50 毫秒,音调就稳定不变了。   乐音(复音)的音调更复杂些,一般可认为主要由基音的频率来决定。  音色  音色(musical quality)指声音的感觉特性。音调的高低决定于发声体振动的频率,响度的大小决定于发声体振动的振幅,但不同的发声体由于材料、结构不同,发出声音的音色也就不同,这样我们就可以通过音色的不同去分辨不同的发声体。    音色是声音的特色,根据不同的音色,即使在同一音高和同一声音强度的情况下,也能区分出是不同乐器或人发出的。同样的音量和音调上不同的音色就好比同样色度和亮度配上不同的色相的感觉一样。     音色的不同取决于不同的泛音,每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随,正是这些泛音决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音。每一个人即使说相同的话也有不同的音色,因此可以根据其音色辨别出是不同的人。     声音是由发声的物体振动产生的,当其整体振动时发出基音,但同时其各部分也有复合的振动,各部分振动产生的声音组合成泛音。由于部分小于整体,所有不同的泛音都比基音的频率高,但强度都相当弱,否则则无法调准乐器的音高了。    需要把音色和音质区别开来。音质的含义是什么?“音质”这个词,一般笼统的意义是声音的品质,但是在音响技术中它包含了三方面的内容:声音的音高,即音频的强度和幅度;声音的音调,即音频的频率或每秒变化的次数;声音的音色,即音频泛音或谐波成分。谈论某音响的音质好坏,主要是衡量声音的上述三方面是否达到一定的水准,即相对于某一频率或频段的音高是否具有一定的强度,并且在要求的频率范围内、同一音量下,各频点的幅度是否均匀、均衡、饱满,频率响应曲线是否平直,声音的音准是否准确,既忠实地呈现了音源频率或成份的原来面目,频率的畸变和相移又符合要求 。声音的泛音适中,谐波较丰富,听起来音色就优美动听。    发音体的振动是由多种谐音组成,其中有基音和泛音,泛音的多寡及泛音之间的相对强度决定了特定的音色。音色是音乐中极为吸引人、能直接触动感官的重要表现手段。一般来说,人们区分音色的能力是天生的,音乐的颜色分为人声音色和器乐音色。人声音色高音、中音、低音,并有男女之分;器乐音色中主要分弦乐器和管乐器,各种打击乐器的音色也是各不相同的。    概括地说,音色=纯音+变换+混合方式。    所谓频谱实际上就是多种不同频率的纯音一不同的递变按照一定的比例混合在一起形成的属性。    音色的作用是巨大的,可以以下公式阐述:    具体的来说,音色的类型是由振源的特性和共振峰的形状共同决定的。就振源来说,谐波衰减快,音色就很柔和,声音的融合性和穿透力好,例如人声和弦乐器;谐波衰减慢,音色就很坚硬,声音的融合性和穿透力差,例如木管乐器(特别是双簧管和萨克斯管)。就共鸣腔来说,共振峰出现在较低的频率上,音色就暗淡,例如长笛;共振峰出现在较高的频率上,声音就明亮,例如小号。某些音色具有多种特性,例如人声的音色既柔软又暗淡,双簧管的音色既坚硬又明亮,圆号同时具有暗淡和明亮的音色。    波形和音色是有密切关系的,确定的波形具有确定的音色。反过来则不同,同一种音色可能有多种波形。    两个截然不同的波形,但频谱却是一样的,原因就在于功率频谱不记录谐波的相位。人的听觉也是如此,对相位没有感觉,所以这两种波形的声音听上去是一样的。    谐音是由单个谐波构成的音,在频谱上只呈现出一个峰。只发出谐音的乐器是不存在的,谐音只能依靠电子发声器来产生。然而任何普通的音色都由若干谐音组成,这些谐音的频率都是某个谐音频率的倍数,这个谐音称为基音,也称第一谐音,比它高的谐音依次称为第二谐音、第三谐音,等等。例如,钢琴上的c1频率为261.6 Hz,那么这个音就应该有以下的谐音:    在生活中我们常说,某某人的嗓子音色很美,或音色沙哑、独具个性。我们还会评价小提琴家或钢琴家“音色丰富多变”,甜美或如洪钟般辉煌……等等。这些,都不包括在我们要讲的音色概念中,我们这里要说的音色,在中国的辞典里称作“音品”或“音质”,即某种人声(如男高音、女高音)或某种乐器特有的声音种类。     以人声来说,女高音嘹亮柔美,男高音挺拔高亢,女中音比较暗一些,浑厚而温暖,男中、男低音则是庄重厚实,给人一种坚定的感觉。乐器的音色种类就更丰富了,小提琴的纤柔灵巧,大提琴的深沉醇厚,双簧管的优雅甘美,小号的英雄气概等等……。作曲家对于音色的运用非常讲究,这些各种各样的声音特质对他们来说,就象是画家手中的色彩一样,会令他们的旋律、和声、节奏、力度产生鲜明的效果。   每一种音色都有着特殊的意味。假设你要写一首描写男子汉英雄形象的进行曲,你不大可能选择小提琴、长笛、双簧管这一类音色纤柔的的乐器,而是会考虑响亮有力的铜管,如小号、长号。再假如,要写一首表达缠绵爱情的乐曲,定音鼓、大镲肯定是不行的。由此我们可以看出,音色有着特别的表现力。

加载中,请稍候......

碰巧最近查过与此相关的问题,我觉得应该能一定程度上解释题主的疑惑。 要解释这个问题,我要隆重推出一个心理学领域很重要的定理:

(weber-fechner law): 在同类刺激之下,最小可觉差的大小是随着标准刺激强弱而成一定比例关系的最小可觉差

(11页) 问题描述与模型实现讲的很清晰。 至于背后的数学原理…

这里有两个问题。 首先是语音转文字技术 这项技术现在已经很成熟了,国外如iSpeech,Sphinx, Google Voice,国内如科大讯飞,云知声,都有现成的API可以使用。 再来就是时间尺度的对齐,在我看来这更像是一个UI的问题,画波形、调用语音识别API、将文字和…

本报济南11月4日讯(记者 马绍栋)歌尔声学日前公告,从10月30日起,由公司董事长兼任的总经理(CEO)一职改为聘请姜龙担任。2005年起即加入公司的姜龙实为董事长及实际控制人姜滨之弟,直接与间接持有约9500万股公司股份。从姜龙国外学习与工作的背景推测,歌尔声学国际化战略正不断升级。

姜龙为美国马里兰大学战略管理专业博士、中国人民大学企业管理专业硕士、清华大学材料科学与工程专业学士,此前任歌尔声学副董事长和执行副总经理。2005年,姜龙加入歌尔声学,历任公司副总经理、高级副总经理,分管公司市场、销售及运营等工作。在过去近十年的任职期间,姜龙凭借其海外的市场经验和全球化的文化视角,成功地帮助歌尔声学引进了苹果、谷歌、微软、亚马逊等重要大客户,令歌尔声学的合作伙伴跃升为世界顶级公司,在公司推行的大客户战略中起到了至关重要的作用。

 此外,姜龙也是歌尔声学实际控制人姜滨之弟,直接持有上市公司6327.6万股股份,并通过控股股东潍坊歌尔集团有限公司间接持有上市公司 3185.6万股股份。

公司表示,聘任姜龙为CEO是公司推进国际化战略与优化公司治理结构的需要。近年来,公司国际化发展的成果显著,目前歌尔声学销售额的80%来自海外,客户涵盖了包括苹果、三星、索尼、微软等为代表的国际著名品牌。

伴随海外业务的扩张,歌尔声学在美、亚、欧三大洲均建立了产品销售和研发中心;在美国、韩国、瑞典、芬兰、日本等地皆有其设立的海外子公司。未来十年,面对全球庞大的市场机会,借助新任CEO姜龙丰富的海外工作和生活经历、国际化管理经验以及对海外文化的深刻理解,歌尔声学未来将持续升级国际化、品牌化的发展战略,旨在将其打造成声学领域的具有全球竞争力的高科技企业。日前,歌尔声学对世界著名音响品牌Dynaudio公司的收购更是表明歌尔声学战略转型的方向和决心。

DNN训练使用的CE准则是基于每一帧进行分类的优化,最小化帧错误率,但是实际上语音识别是一个序列分类的问题,更关心的是序列的准确性。所以引入SDT(sequence-discriminative training),训练准则更符合实际,有利于提升识别率。常用的准则包括MMI/BMMI、MPE、MBR等。


表示状态序列。物理意义可以理解为:分子表示准确结果对应路径的总得分(声学和语言),分母表示所有路径对应的得分总和(为了计算上的可操作性,实际用lattice简化表示)。模型参数的梯度可以表示如下:


表示softmax层的输入(没有做softmax运算),跟CE准则的不同体现在





,所以上式第一项可以简化为:

第二项可以进一步求导:







综合前面的第一项和第二项,可得:




表示DNN的第r个输出,



按照文章的推导应该得到这个结果,但是实际上分母还包含

,是不是做了近似认为分母是常量,这一步有疑问????

综合上面两部分,可以得到最终的公式:


相比于MMI,BMMI在分母上面增加了一个权重系数

之间准确率的度量,可以是word/phoneme/state级别的准确率。

越接近(错误的word越少),

这个权重越小,相反,权重会越大,增加了数据的困惑度。

通过可以推导出误差信号:


MBR(minimum Bayes risk)的目标函数是最小化各种粒度指标的错误,比如MPE是最小化phone级别的错误,sMBR最小化状态的错误。目标函数如下:


表示两个序列之间的差异,MPE就是正确的phone的个数,sMBR是指正确的state的个数。求导可得:



对于MPE,参考文献[4]:
首先将JMBR(θ;om,sm)分子分母求和部分分为两块,rswr?sw


,那么导数满足以下关系:




上面的等式可以简化为以下形式:





第二项表示lattice中所有路径的平均准确率

第三项表示lattice中所有经过r的路径的平均准确率,是

的均值,可以将三个三项合并起来进行还原就很容易里面均值的含义。

第二部分和MMI的一致

区分性训练时生成高质量的lattice很重要,需要使用最好的模型来生成对应的lattice,并且作为seed model。

如果lattice产生的不合理的话,会导致计算出来的梯度异常,比如分子的标注路径没有在分母中的lattice出现,这种情况对于silience帧尤其常见,因为silience经常出现在分子的lattice,但是很容易被分母的lattice忽略。有一些方法可以解决这种问题:

sMBR效果相比其他会好一点,MMI比较容易理解和实现。

NCE可以用于加速训练

我要回帖

更多关于 实际运用 的文章

 

随机推荐