主题:【原创】科学的欣赏流行乐 -- 比的原理
结论是,把争端集中在一个回帖里解决,不要再开新贴战斗。
我觉得,你是误解了声谱图,同时没注意到我的图下半部分才是频谱图。我第四章更新了一下我的图是如何做的,转发一下
此图由两部分组成,上半部分为声谱图(Spectrogram),下半部分为频谱图(Spectrum)。
先看上图:
横坐标是时间,纵坐标是频率值,同一时间的纵线上存在着数个波,重合而成最终的波。颜色越亮则表示波的振幅越大。混乱的背景都是伴奏,我们只观察人声线。
再看下图:
下图反映了上图的某个时间点(上图中的黄线)的频率分布。横坐标为频率,纵坐标为振幅。这个图更有利于直观的观察泛音的成分和强弱。
频谱/声谱图是如何制作的
我们都知道原始的声音是波形图,不过原始的波形图并没有太大研究价值,而且事实上也看不出“波形”。因为震动频率太高,比如帕瓦罗蒂的high c吧,500多的震动频率,表示一秒钟要震动500多次,那肯定是看上去一大坨,类似这样:
放大几十倍之后,大约能看出波形,类似这样
无论哪种都不适合研究。
所以音频解析的过程是:取连续采样点,一般是4096个点,考虑到音频文件的采样率一般是44.1k,所以就是取了1/10秒之内的数据。然后对这4096个点作做快速傅里叶变换,就得到了频谱图。频谱图的信息是4096个点,每一个点对应的是这个频率上的振幅。
频谱图反应的是在这个时间点上的频率分布情况。
严格的说应该是这1/10秒内的平均情况。
来一张典型频谱图,看看跟我的图下部是不是一回事:
将当前时间点的频谱画到声谱图里就得到了瀑布图(第二章视频中的图)。画法是:振幅越大的点,用越亮的颜色。
纵坐标是频率,从下到上大约是0到6000。
所以一个人唱了个C5,那他的基频就大概是500,第一泛音是1000,第二泛音是1500,画到声谱图上的结果就是从下到上每隔500画一个点,根据振幅有颜色的区别。
随着时间的推移,声谱图会不断向右延伸,这样我们就得到了一段时间内频率分布图。比如一个C5的线在声谱图上水平延续了5秒,那表示该歌手唱了C5五秒。
声谱图上类似“波”的东西是颤音,也就是歌手演唱中不断改变音高,所以自然会不断改变纵坐标。
来一张wiki的声谱图:
最后,频谱图/声谱图的wiki链接
你如果有不同意见请作自己的频谱图。
- 相关回复 上下关系8
🙂上次去中关村看到有个招牌叫“中国科学院声学研究” 蒙混过关 字53 2014-08-28 09:05:11
🙂专业的来了,前排占位 二手玫瑰 字0 2014-08-28 08:37:40
🙂请教一下: 5 beech 字402 2014-08-28 08:28:00
🙂跟管理员交流过了
🙂先做图 1 比的原理 字111 2014-08-28 09:43:31
🙂所以我才认为你的基频是人为指定的。 2 beech 字302 2014-08-28 18:01:41
🙂你似乎根本没理解 1 比的原理 字587 2014-08-28 18:48:56
🙂你这句话是错的:无论我指定什么基频,做的图都没有任何区别 1 beech 字281 2014-08-28 19:05:54