主题：【原创】科学的欣赏流行乐 -- 比的原理

共:💬309 🌺1010 🌵31

老视野待整

分页树展主题 · 全看首页上页下页末页

- - 复第二章：人声演示泛音的分离
    家园 我来说说吧
    1，我看了楼主的文章以及博客，显然，楼主是长期在百度贴吧跟声乐发烧友、歌迷探讨过声乐问题的。而且我可以肯定，楼主是在2005年后开始关注用“科学方法”和音频软件来分析歌唱这个课题的，确切的说，是在超女张靓颖唱出第一声海豚音之后。
    2，看了楼主的文字以及跟beech的争论，其实问题主要出在：什么是基频，什么是泛音，选定基频和泛音的标准是什么？
    3，beech最核心的是这段质问：
    他的主要问题是，所说的“基频”、“泛音”的概念完全都是错的。他的“基频”根本不是主音调的真正基频，泛音也不是泛音。他只是任意找了个低频点指定为“基频”，然后以此频率的倍频取样时间波形，把它称为“泛音”，你要是学过信号分析，应该知道，有这样胡乱定义的吗？你见过泛音幅度都比基频大的所谓频谱吗？他的图里都是这样！
    4，我对信号分析所知也不多，不过倒是关注到楼主帖中一个显而易见的问题，我不知道楼主会不会弹琴，楼主说男声High C 是中央C以上一个八度（小子二组的c，用c2表示），女声是两个（用c3表示），并说男声的High C是大约523Hz。实际上我想楼主也很清楚，在百度贴吧里关于这个问题一直有争论，有的人说男声High C是c2（523Hz），有的说c3（1046Hz），甚至很多“专业”分析对此也不统一。其实最简单的方法是在钢琴上验证一下。比如播放帕瓦罗蒂《军中女郎》中的那9个High C，同时在钢琴上敲击c2和c3，只要听觉不是太有问题，相同音高和八度音还是很容易分辨的。
    5，实际上楼主的博客里也有相关的东西，外链出处这个帖子里有楼主用音频分析软件把楼主认为的“基频”和“泛音”一段段滤出来单独比较的视频。我不知道楼主听出来没有，你滤出的“基频”听上去怪怪的，嗡嗡响，而且明显偏低。帕瓦罗蒂的两段演唱还不明显，姚贝娜的几段就很明显，“基频”明明比正常歌声里的音高低了一个八度。
    6，当然，楼主可以认为，人耳对泛音更敏感很正常，就像此贴说的
    第一泛音经常是最强的。
    实际上根据傅里叶分析的基本原理，基频的振幅肯定是最强的，第二谐波（即楼主认为的“第一泛音”）怎么也不可能凌驾于基频之上。那么就只有两种解释，一是楼主所使用的音频分析，实际上并不是傅里叶展开，二是，这个所谓的“基频”并不是楼主所认为的基频。这也就是beech所质疑的两点。
    那么说说我的观点：我认为男声High C是c3(1046Hz)，实际上以前我也专门开过帖子讲过这个问题：声乐漫谈：那些让人印象深刻的高音们
    我判定的依据很简单，就是在钢琴上弹出c3，然后播放男高音的声乐片段，（比如帕氏的《军中女郎》），用听觉做判断。而且我敢肯定很多在网上争论这个问题的人，都没有亲自做过这个最简单的实验。那么怎么解释楼主的频谱图呢？
    我自己做了一个实验，用音频分析软件（名字暂时不说）截取相关频段的声音，用听觉辨别哪个频率跟人耳正常听到的歌声更接近。这是帕氏《军中女郎》“多么美好的一天”中最后一个High C的瞬时频谱图：
    外链图片需谨慎，可能会被源头改
    可以看到，在0.54KHz左右确实有一个比较明显的峰，可是这个峰却明显的小于“第一泛音”，更小于“第二泛音”。但我们并不能单纯的判定，对人耳而言的“音高”最重要的就是这个基频，因为如果最低的声音是判定音高的依据的话，那么一首歌里最容易让人辨别的应该是贝斯。而事实上大多数人都会忽略贝斯。
    当然更可靠地方法是用软件过滤，我用的软件有一个很方便的功能，可以任意截取某一频段的声音。如图，我截取了0.5-0.6KHz，1.0-1.1KHz，1.5-1.7KHz三段声音，对频段外的做30dB衰减，并试听10秒。
    外链图片需谨慎，可能会被源头改
    实际上这样处理也不能完全去掉高频声音的影响，如同楼主的视频呈现的。大致听来，0.5-0.6KHz听起来像蚊子哼，1.0-1.1KHz最接近正常的歌唱，1.5-1.7KHz听起来像蜜蜂的声音。不知哪里有可以上传音频的，不然我可以将三段音频传上去大家自己比较。
    相比较而言，我还是相信自己的听觉，男声High C是c3。至于楼主所认为的“基频”，首先，我肯定这个基频是客观存在的，但它对人耳的听觉贡献，更重要的是对音高的辨识到底起到什么样的作用，恐怕并不像楼主或很多声乐爱好者所认为的那样，“基频”，或者所谓的“基音”最重要，或者说，判定基频的方式并不是像楼主所说的那样，找出一个最低的尖峰，说这就是基频。实际上就拿我上传的图而言，在0.54KHz这个“基频”以下，分明还有几个“小尖峰”存在，凭什么说它不是基频呢？
    所以我认为beech的质疑是有道理的，问题在于：人声并不是一个简单的周期信号（哪怕是截取一小段时间，其中的波形近似周期信号），而是若干个周期/非周期信号相互叠加的、并经过声道选择性过滤/放大后的声音信号，这里面固然可以分离出有若干个近似倍频的尖峰存在的频谱，但那是若干个信号叠加后并放大得到的一个连续谱，跟对一个周期信号用傅里叶变换得出的频谱是两个概念。因此，所谓的“基频”并不是基频，只是若干个信号叠加后在某个低频段形成的能量尖峰，并且它对人耳对音高的识别并不起决定作用。真正的“基频”（如果有的话）应该是楼主所认为的“第一泛音”，这也是为什么很多软件测试音频楼主都认为高了一个八度。
    其实关于人声，科学发声，人耳对音响的识别，很多问题还在探讨当中，声学上也建立了若干学说，并没有一个统一的定论。楼主或网友如若感兴趣，可以就这个话题继续探讨，这里只提出自己的一点疑问。先说这么多。
    通宝推：铁手,陈王奋起,
    - 复我来说说吧
      家园 弄了段视频
      依次反驳你的几个观点
      [FLASH]http://player.youku.com/player.php/sid/XNzY5Njc4MTYw/v.swf[/FLASH]
      http://v.youku.com/v_show/id_XNzY5Njc4MTYw.html
      1. 泛音大于基频，实在是正常的事，也不违反“傅里叶分析的基本原理”。我给你造了个依次增强的。基频<第一泛音<第二泛音<第三泛音...
      2. 去掉基频改变不了音高。几乎没变化。
      3. 正确改音高的办法是去基频，第二泛音，第四泛音，第六泛音等等。改了之后变化巨大吧。跟后面的女高音C6差不多了吧。
      4. 你要说老帕是C6（1000hz），那后面的女高音C6怎么解释？这个很容易听出差八度吧。
    - 复我来说说吧
      家园 基频有一个作用被你忽略了
      就是，泛音之间的间距必须是基频。所有泛音必须是基频的整数倍。
      如果你假定1000是基频，则1500那条泛音没法解释了。同理，2500，3500都没法解释。
      回到“什么是频率”这个根本问题。最根本的定义应该是，你最终波形每秒重复的次数，对吧？假设你有1000和1500两条泛音，叠加一下。我也敢说最终波形每秒重复500次。这不难证明吧？所以，如果判断最终波形的重复次数，还是要看泛音间距。（或者叫最大公约数）
      当然了，上面这个例子多半会被人耳判断为两个声音。但是如果500，1000，1500，2000，2500一大堆叠加在一块，而且人耳能判定其为一个声音，这时候500就被判定为最终频率。即使500的那个声音比较小。
      - 复基频有一个作用被你忽略了
        家园 基频的作用是什么？
        你这里出现了一个判断标准，即“基频是相邻泛音间的间距。（或者叫最大公约数）”
        你似乎只考虑了频率这一个因素，对于振幅、相位等波的其他属性几乎完全略过。这么说吧，如果我有一个蚊子哼的1000Hz，还有一个喇叭扩音的1500Hz，你分析一下人会听到什么？
        复基频的作用是什么？
        家园 就说1000和1500差不多的情况
        不要找极端。
        复基频的作用是什么？
        家园 说说我的基本观点
        1，最重要的一条，声音首先是听出来的，不是看出来的，音频软件可以帮助你分析，但最根本的还是需要耳朵去分辨
        2，我还是建议你先找一台钢琴，弹一下c2，c3，同时听《多么美妙的一天》，自己做一下判断。
        3，你的所有分析，其实都基于一点，即你先假设人声是一个规整的确定的周期信号，所有的后续分析都建立在这上面。而这点通常是不存在的。
        你贴的视频，自己过滤掉了其中一些频率分量，这实际上已经改变了原来声音的能量分布，也就是改变了信号特征，信号已经失真了，当然可能听起来高八度。我完全可以通过修改其中几个峰的幅度，搞出一个听上去低八度的c3来，但是你的帖子，包括博客上的文章，从头到尾都没有解释过到底多大幅度的尖峰可以称之为“基频”、“泛音”。
        实际上，人体是一个最复杂的乐器，不仅音域宽广音色多变，且自带效果器调音台。人耳也不是一台频谱分析仪，对某些频段的声音是有特别爱好的。
        网上其实有很多人认为老帕的High C比“死了都要爱”低一个八度。事实上是低了一点，不过只有二度，因为美声既强调高泛音又强调胸腔共鸣，比只有高位置的流行民族等听起来低一些是正常的。
        我判断HighC是1046Hz，基于以下几点：
        1，钢琴实验的效果。
        2，你问任何一个学声乐的男生，唱High C要不要解决换声点问题。因为如果High C是c2，那远在男子的正常换声点#f2下，那无数学美声的就不需要绞尽脑汁为High C练到吐血了。
        给你一个声乐老师的帖子：
        外链出处
        “换声点”，在声乐训练中，很多人认为唱名f 2是“换声点”，《舌控声乐学》训练中不存在“换声点”。从以上生理发声结构和物理声学来分析，我们可以看出：音高是物体每秒振动的频率决定的，用Hz来表示。物体振动频率数多则音高；物体振动频率数少则音低。看下图
        这个图中的数字为每个音名的振动频率，如小字一组的c1(261.6Hz)。我们常说的High c为1047Hz、c5（C8（4186Hz)）。此图的音域为C0----C8低音区超越了钢琴的低音区的音域。
        现在世界上对88键的钢琴琴键音名有两种叫法：第一种是我国《基本乐理教程》中称钢琴最高音为小字五组的c5（4186 Hz），最低音为大字二组的A2 (27.5HZ )。第二种如上图所示称钢琴最高音为C8（4186 Hz），为最低音为A0（27.5 HZ）。虽然两种叫法不同但是音域一样都是7个八度加一个小3度；音高频率一样最高音的C为4186 Hz。
        复说说我的基本观点
        家园 你的问题
        你的问题是不知道男女谱差八度，请看第五章。
        1.既然你相信听感，请听老帕的high c和我视频里女高音的high c，看看是不是差八度。
        2.“其实有很多人认为老帕的High C比“死了都要爱”低一个八度”　这就是典型的高音吧早期搞笑言论。
        3.你最后给出那一段，声乐老师提到的#f2是男唱谱，也就是#F4。男谱high c = c3 = 钢琴谱c2 = 国际谱C5。
        但是他贴的频率图是钢琴谱（女唱谱），他这样混为一谈属于搞笑。
        不过你要问他男女high c 是不是一个，他肯定知道差八度。
        复你的问题
        家园 你搞错了
        1，我当然知道男女谱差八度的问题，我贴出那些链接就说明这些东西我早就看过。你觉得一个连你什么时候开始关注声乐问题都能猜得出来的人，会不知道这些么？呵呵。
        2，首先，那个不是振幅，是能量分布。其次，我只看到你反复说基频，泛音，但却没看到你分析能谱的具体情形，只是泛泛说谁比谁大，谁比谁明显了。究竟怎么算大，怎么算明显，还有，这些频率分量各自对听觉的贡献是什么，你的帖子基本都没说。
        3，为什么只说1000和1500差不多的情况？意识到问题在哪里了吗？因为你假定人声就是若干个离散的频率分量的简单叠加，并且假定人耳跟机器一样能对这些分量做同样精确的处理。当然你也提到了一些敏感性问题，但并未说清楚机理何在。
        事实上你给的音频里面，因为被经过处理有些根本不像完整的人声，像几个女人在吵架，你似乎认为只要成倍频关系声音就会自然融合在一起，呵呵，真的么？
        我还是那两个问题：1，你所用的音频分析跟傅里叶变换有什么关系？
        2，请回答男声High C在换声点之下还是之上？
        复你搞错了
        家园 请回答女高音那个是多少频率
        既然你知道女谱高八度。请回答女高音唱的那个是什么高度，什么频率。
        1. 我做的频谱图是标准的傅里叶变换，其结果跟你的频谱图没有区别。这个问题没有异议吧？
        2. 男声high C当然在换声点之上。
        复请回答女高音那个是多少频率
        家园 耳听为实
        1,关于傅里叶变换。你始终没有搞清楚一点的是，傅里叶变换首先是针对一个规整的周期函数（当然非周期也能处理，但条件不一样），而且请注意图中表达式的系数：
        外链图片需谨慎，可能会被源头改
        每一个频率分量的系数都是由原函数与一个频率的正弦波的乘积在一个周期内的积分得来的，根本不能随意的放大/缩小。比如拿教科书中的锯齿波举例，利用傅里叶变换展开后得到：
        外链图片需谨慎，可能会被源头改
        如果只保留前三项，将其在Matlab拟合成一个曲线，看起来是图中左边这样。
        外链图片需谨慎，可能会被源头改
        很接近原来的波形，事实上这也是傅里叶变换的作用。
        但如果我们把3x那项的系数变为1，波形就成了图中右边这样。已经严重失真。
        事实上根本不能把哪一个频率分量随便的放大缩小，就像你把所谓的泛音依次增强一样，你好像以为频率差一样波的性质就不变，你真的理解傅里叶变换的意义么？
        2，回到你贴的视频，随便篡改频率分量就不说了，我不知道你的听力怎么样，难道你听不出你改过的波形跟那个所谓C6有什么差别？我剪贴了一段音频，两段之间交叉对比，看看是不是音高一样？
        [FLASH]http://www.tudou.com/v/ZItlTMX9BCg/&bid=05&resourceId=0_05_05_99/v.swf[/FLASH]
        3，再回到原来的波形，我用电脑的虚拟钢琴弹一个c3（1046）再弹一个c2（523），穿插老帕的High C，大家自己分辨哪个更接近。
        [FLASH]http://www.tudou.com/v/DQaQZN5Z-j8/&bid=05&resourceId=0_05_05_99/v.swf[/FLASH]
        4，既然你承认High C在换声点之上，那么请你到钢琴上弹一弹，并试着唱一下音阶，看看自己的真声到了哪里过不去。很简单的，试试就知道。
        复耳听为实
        家园 请回答我视频中女高音所唱音高及频率
        请回答这个问题。
    - 复我来说说吧
      家园 high c
      帕瓦罗蒂的high c是C5=钢琴谱c2=523hz。这一点没有争议，我还没看见谁对这个事有争议，你可以询问任何一个声乐系的学生或教师。
      “根据傅里叶分析的基本原理，基频的振幅肯定是最强”，没有这条原理，我可以给你制造一个从基频到泛音依次增强的声音。
      “哪条泛音最强则哪条泛音是基频”，显然错。别的不说，你看看你的频谱图，明显第二泛音最强，也就是1500多那个，查表得知为G6，难道老帕唱了个G6？
      - 复 high c
        家园 事实上
        1，
        帕瓦罗蒂的high c是C5=钢琴谱c2=523hz。这一点没有争议，我还没看见谁对这个事有争议，你可以询问任何一个声乐系的学生或教师。
        事实上网上一直有争议，我可以随手贴几个帖子给你：
        http://tieba.baidu.com/p/123530100?pn=1
        http://tieba.baidu.com/f?kz=202442982
        http://tieba.baidu.com/p/1001531613
        关于High C的频率问题，其实很多专业的也搞不清楚。原因下面再说。
        2，
        “根据傅里叶分析的基本原理，基频的振幅肯定是最强”，没有这条原理，我可以给你制造一个从基频到泛音依次增强的声音。
        这个不说了，直接上高等数学：
        外链图片需谨慎，可能会被源头改
        看见最后e指数上那个n了么？如果你还记得积分怎么积的话，就知道把n提取到积分号前面是要变成1/n的，因此频率分量越大，相应的振幅就越小。
        你当然可以合成一个“从基频到泛音依次增强的声音。”问题是这是通过傅里叶变换的声谱，还是多声部大合唱？
        3，
        “哪条泛音最强则哪条泛音是基频”，显然错。别的不说，你看看你的频谱图，明显第二泛音最强，也就是1500多那个，查表得知为G6，难道老帕唱了个G6？
        “哪条泛音最强则哪条泛音是基频”我的贴子里没有这么说。我说的是你的“基频”、“泛音”没有明确定义和选择标准。“难道老帕唱了个G6？”不是老帕唱了个G6，而是老帕的歌声里有这个频率分量，G跟C是纯五度和谐音程。
        复事实上
        家园 傅立叶变换和傅立叶级数不一样
        你引用的那段是傅立叶级数的公式，周期函数才有傅立叶级数
        对于一个非周期函数，它的傅立叶变换高频分量可以大于低频分量。比如门函数的傅立叶变换就是一个sinc函数。
        我对楼主的观点不理解的是，对于一个非周期函数，它的傅立叶变换是连续的，连续的怎么谈基频呢？莫非人声在某个区间可以看作是周期函数？
        复傅立叶变换和傅立叶级数不一样
        家园 极短时间内的平均
        人声的基频当然是在不断变化的，这才有了曲调。我没说过某人的基频永远是一个吧？
        傅立叶变换是取一个极短时间内的平均。在这个时间段内，可以近似得认为人声是稳定的周期函数，因为时间短，可以认为音高没变。所以我们才可以通过声谱图考察歌手唱了几秒的什么音。也可以通过声谱图观察歌手的音调走向，转音颤音什么的。
        如果非要说这么“近似”“平均”不科学，那我想问频谱仪还有什么用？自然界的波肯定都不可能永远是规律周期函数的，我们为什么还要用频谱仪测频谱？
        换句话说，频谱仪上的瞬时截图，能不能代表某一时间点的频率分布情况？如果不能我们还要频谱仪何用？
        何况，人耳能判断人声的音高，就证明它有稳定的基频。说我的理论不可靠所以不能有基频的，属于典型的因噎废食。没有我这套理论，怎么修音？怎么调音频效果？怎么压缩音频？（科普一下，mp3的基本原理就是做傅立叶变换然后去掉微小振幅的频率）这套东西早就已经广泛的应用了。
        当然，我必须得纠正：这不是我的理论，是业内通用的理论。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明