主题:【原创】科学的欣赏流行乐 -- 比的原理
你总是无端攻击我的图不对,自己又不做图,你再这样胡搅蛮缠,我觉得需要找管理说说理。
做频谱图当然要在连续时间上采样,这是废话,哪有不采样的?业内标准一般是取1024或者4096个点,按照44.1k的音频标准,就是1/40秒,或者1/10秒,之内的连续信号。
从频谱图上看,基频一目了然,根本不存在争议。更不存在你说的多重基频。
你现在说的“业内标准一般是取1024或者4096个点”,这个采样和我说的你在不同频率点上对时间波形取样根本不是一回事好吧?
跟你是不容易说清楚了,你信号分析要补课。其他的你可以继续写,这方面继续说不清楚的话,倒是我该联系管理员了。
管理员见
波长根本就看不出有什么区别呢?
就是第二章视频里的那种图。
画法是这样的:在某一个时间点上,对连续时间采样(4096采样点,1/10秒),做快速傅里叶变换,就得到了频谱图。频谱图的信息大约是4096个点,每一个点对应的是这个频率上的振幅。
将当前时间点的频谱画到声谱图里就得到了瀑布图。画法是:振幅越大的点,用越亮的颜色。
纵坐标是频率,从下到上大概是0到6000。
所以一个人唱了个C5,那他的基频就大概是500,第一泛音是1000,第二泛音是1500,画到声谱图上的结果就是从下到上每隔500画一个点,根据振幅有颜色的区别。
声谱图上你看到的类似“波”的东西是颤音,也就是不断改变音高,自然会不断改变纵坐标。
比如帕瓦罗蒂的high c,500多hz,也就是一秒要震荡500次,无论如何你也看不到波形吧,真正的波形图,要放大几十倍才能看清波形。不放大看过去就是一坨的样子。
比如这个就是典型的波形图
放大几十倍大约可以得到类似这样的图
这两种图都没有太大的价值,作了傅里叶变换之后才有意义。
这段描述太学术,本来我觉得没人看这些的。
前面的内容太沉闷了,来一个娱乐性质的
[FLASH]http://player.youku.com/player.php/sid/XNzQ5NzkyNDcy/v.swf[/FLASH]
http://v.youku.com/v_show/id_XNzQ5NzkyNDcy.html
本帖一共被 1 帖 引用 (帖内工具实现)
结论是,把争端集中在一个回帖里解决,不要再开新贴战斗。
我觉得,你是误解了声谱图,同时没注意到我的图下半部分才是频谱图。我第四章更新了一下我的图是如何做的,转发一下
此图由两部分组成,上半部分为声谱图(Spectrogram),下半部分为频谱图(Spectrum)。
先看上图:
横坐标是时间,纵坐标是频率值,同一时间的纵线上存在着数个波,重合而成最终的波。颜色越亮则表示波的振幅越大。混乱的背景都是伴奏,我们只观察人声线。
再看下图:
下图反映了上图的某个时间点(上图中的黄线)的频率分布。横坐标为频率,纵坐标为振幅。这个图更有利于直观的观察泛音的成分和强弱。
频谱/声谱图是如何制作的
我们都知道原始的声音是波形图,不过原始的波形图并没有太大研究价值,而且事实上也看不出“波形”。因为震动频率太高,比如帕瓦罗蒂的high c吧,500多的震动频率,表示一秒钟要震动500多次,那肯定是看上去一大坨,类似这样:
放大几十倍之后,大约能看出波形,类似这样
无论哪种都不适合研究。
所以音频解析的过程是:取连续采样点,一般是4096个点,考虑到音频文件的采样率一般是44.1k,所以就是取了1/10秒之内的数据。然后对这4096个点作做快速傅里叶变换,就得到了频谱图。频谱图的信息是4096个点,每一个点对应的是这个频率上的振幅。
频谱图反应的是在这个时间点上的频率分布情况。
严格的说应该是这1/10秒内的平均情况。
来一张典型频谱图,看看跟我的图下部是不是一回事:
将当前时间点的频谱画到声谱图里就得到了瀑布图(第二章视频中的图)。画法是:振幅越大的点,用越亮的颜色。
纵坐标是频率,从下到上大约是0到6000。
所以一个人唱了个C5,那他的基频就大概是500,第一泛音是1000,第二泛音是1500,画到声谱图上的结果就是从下到上每隔500画一个点,根据振幅有颜色的区别。
随着时间的推移,声谱图会不断向右延伸,这样我们就得到了一段时间内频率分布图。比如一个C5的线在声谱图上水平延续了5秒,那表示该歌手唱了C5五秒。
声谱图上类似“波”的东西是颤音,也就是歌手演唱中不断改变音高,所以自然会不断改变纵坐标。
来一张wiki的声谱图:
最后,频谱图/声谱图的wiki链接
你如果有不同意见请作自己的频谱图。
可不可以理解成,是人脑的某种缺陷导致了频率差一倍的所有声音中,咱们只能有效辨认那七个,结果就成了do,re,mi,fa,so,la,xi
记得光学里面的彩虹,赤橙黄绿蓝靛紫,标准波长的关系也是恰好全全半全全全半