短时距傅里叶变换

短时距傅里叶变换(Short-time Fourier Transform, STFT)是傅里叶变换的一种变形,也称作加窗傅里叶变换(Windowed Fourier transform)或Time-dependent Fourier transform,用于决定随时间变化的信号局部部分的正弦频率和相位。实际上,计算短时距傅里叶变换的过程是将长时间信号分成数个较短的等长信号,然后再分别计算每个较短段的傅里叶变换。通常拿来描绘频域与时域上的变化,为时频分析中其中一个重要的工具。

傅里叶变换在概念上的区别

将信号做傅里叶变换后得到的结果,并不能给予关于信号频率随时间改变的任何信息。以下的例子作为说明:

 

傅里叶变换后的频谱和短时距傅里叶变换后的结果如下:

 
傅里叶变换后, 横轴为频率(赫兹)
 
短时距傅里叶变换, 横轴为时间(秒),纵轴为频率(赫兹)

由上图可发现,傅里叶变换只提供了有哪些频率成分的信息,却没有提供时间信息;而短时傅里叶变换则清楚的提供这两种信息。这种时频分析的方法有利于频率会随着时间改变的信号,如音乐信号和语音信号等分析。

定义

连续短时傅里叶变换

简单来说,在连续时间的例子,一个函数可以先乘上仅在一段时间不为零的窗函数再进行一维的傅里叶变换。再将这个窗函数沿着时间轴挪移,所得到一系列的傅里叶变换结果排开则成为二维表象。数学上,这样的操作可写为:

 

另外也可用角频率来表示:

 

其中 窗函数,窗函数种类有很多种,会在稍后再做仔细讨论。 是待变换的信号。  的傅里叶变换。 随着 的改变,窗函数在时间轴上会有位移。经 后,信号只留下了窗函数截取的部分做最后的傅里叶变换,所得到的结果为一复数函数,代表着信号随时间与频率变化的大小与相位。

离散短时傅里叶变换

在离散时间的例子,数据会被切割成数个大量的帧,而每组帧通常会互相重叠,避免因切割方式造成边界的误差。而每组帧在各自进行傅里叶变换后所得的复数结果会再进行相加,可得到每个点时间与频率变化的大小与相位。数学上,这样的操作可写为:

 

相同地,其中 窗函数 是待变换的信号。在这个例子里,m是离散的且ω是连续的,但大部分实际的应用当中,短时距傅里叶变换在电脑中都是以快速傅里叶变换进行计算(见实现方法的快速傅里叶变换),而此时这两个参数都是离散且被量化的。

Sliding 离散傅里叶变换

当只想要得知特定少数的ω,或是短时距傅里叶变换每次窗函数移动m的值,则短时距傅里叶变换可以利用sliding DFT算法更有效地计算出来。

反短时距傅里叶变换

短时距傅里叶变换是可逆的,也就是说原本的信号可以借由反短时距傅里叶变换将短时距傅里叶变换后的信号还原。

其中最广为接受的反短时距傅里叶变换方法是重叠-相加之卷积法,此方法也促成了更多样的信号处理方法。

反短时距傅里叶变换,其数学类似傅里叶变换,但须消除窗函数的作用,首先必须先将窗函数的总面积规模化使得

 

而从上也可轻易地得出

 

 

连续傅里叶变换公式如下:

 

 进行上述的替换:

 
 

将积分顺序进行交换:

 
 
 

因此傅里叶变换可以视为某种将 所有的短时距傅里叶变换的相位同调部分进行相加。

而反傅里叶变换公式如下:

 

因此  可以从 被复原

 

 

与上面所列的窗函数的式子进行比较,可得

 

对反傅里叶变换公式中的 来说 是不变的

 
另外用角频率来表示:
 

窗函数

窗函数通常满足下列特性:

  1.  ,即为偶函数。
  2.  ,即窗函数的中央通常是最大值的位置。
  3.  ,即窗函数的值由中央开始向两侧单调递减。
  4.  ,即窗函数的值向两侧递减为零。

常见的窗函数有:方形、三角形、高斯函数等,而短时距傅里叶变换也因窗函数的不同而有不同的名称。而加伯变换,即为窗函数是高斯函数的短时距傅里叶变换,通常没有特别说明的短时距傅里叶变换,即为加伯变换

非对称窗函数

当在特殊应用时,窗函数特性的第一点可以不满足,如下图的非对称窗函数 ,其中 。左图为窗函数原本的图形,而在计算短时距傅里叶变换时,需将窗函数转到 轴上得出 ,换言之,欲得到的短时距傅里叶变换的结果需在 的时间点才能算出,因此若 愈小,即可愈快得结果,此种非对称窗函数可应用在地震波、碰撞侦测...等,需要即时处理的应用。 

优缺点

  • 优点:比起傅里叶变换更能观察出信号瞬时频率的信息。
  • 缺点:计算复杂度高

方形窗函数的短时距傅里叶变换

概念

 
方形窗函数,B = 50,横轴为时间(秒)

右图即为方形窗函数的一个例子,其数学定义:  

可以随要分析的信号,来调整B的大小(即调整方形窗函数的宽度)。至于B的选择,将会在下面探讨。

短时傅里叶变换可以简化为

 

反短时傅里叶变换可简化为

 

特性

其大部分的特性都与傅里叶变换的特性相对应

  • 积分特性
 
  • 位移特性(时间轴方向的移动)
 
  • 调变特性(频率轴方向的移动)
 
  • 线性特性
若有一信号  分别为 做方形窗函数短时 距傅里叶变换的结果,则 
  • 能量积分特性
 
 
  • 特殊信号
1. 当 
 
2. 当 
 

方形窗函数宽度 的选取

 
方形窗函数短时距傅里叶变换用不同窗函数宽度(B)的比较,横轴为时间(秒),纵轴为频率(赫兹)
  • 由上述特性中的特殊信号 来分析,信号只有在 的时候有值;若短时距傅里叶变换是理想的话, 应该只有在 的时候有能量。但由上面的特性可发现,能量会出现在 中间。因此,若我们取较小的 ,则可使结果趋近理想。
  • 接着我们来分析 ,信号因为没有改变,应该为DC。若短时距傅里叶变换是理想的话, 应该只有在 的时候有能量。但由上面的特性可发现,能量会沿着频率轴呈现sinc函数。若我们取较大的 ,可使sinc函数沿着频率轴变窄,使得结果趋近理想。
  • 综合以上说明,若我们使用较大的方形窗函数宽度 ,则 时间轴的分辨率会下降;频率轴的分辨率上升。若使用较小的 ,则 时间轴的分辨率会上升;频率轴的分辨率下降。我们以下面做为例子说明:
 

结果如右图所示,B越大则在频率变化处(t = 10, 20)附近的频率越不准确,即可能会有多个频率成分出现。但同时,其他时间点的能量则较集中;没有如B较小时,频率散开或模糊的情形。

上述也是其中一个小波变换及多分辨率分析作为改进的方向,其中多分辨率分析能在高频时有较好的时间轴解析,而在低频时能有较好的频率轴解析,此种组合较契合许多实际的应用。

时间轴与频率轴的分辨率无法同时提升也与海森堡不确定性原理有关,即时间与频率的标准差乘积有所限制,而高斯函数恰好能符合不确定性原理的极值,也就是两者同时达到最好的分辨率,而应用高斯函数的时频分析方法即为加伯变换,而在经过修改及多分辨率分析后,成为了莫莱小波

优缺点

  • 优点:方形窗函数的短时距傅里叶变换有许多可应用的数学特性,在数字的应用上所需的计算时间较少。
  • 缺点:时频分析的表现较差

其他窗函数

高斯窗函数

概念

高斯窗函数的短时距傅里叶变换又称为加伯变换。以下是高斯函数的数学定义,

 

据此,短时傅里叶变换可以写为

 

优缺点

  • 优点:可以在时间跟频率上有更好的平衡,得到较清楚的时频图。
  • 缺点:因窗函数跟信号本身的乘法,计算时间跟复杂度都比较高。

三角形窗函数

 
三角形函数,横轴为时间,B=1/2

概念

三角形窗函数如右图所示,数学定义如下,

 

可使用在震幅改变的情况下,相对于方形窗函数,可更好的滤除噪声。

海宁(Hanning/ Hann)窗函数

概念

海宁函数如右图所示,数学定义如下,

相较于三角形窗函数,海宁窗函数更为贴近现实信号的趋势,可进一步滤除噪声。

汉明(Hamming)窗函数

概念

汉明窗函如右图所示,数学定义如下,

 

跟海宁窗函数类似,但两端不为零。

海宁与汉明窗的区别[1]

窗函数有四个指标,分别为

  • 泄露指数 (Leakage Factor)
  • 主办宽度 (Mainlobe width)
  • 旁办衰减 (Sidelobe attenuation)
  • 旁办滚降率 (Sidelobe roll-off rate)
     
    方形窗函数宽度(B)与STFT清晰率的取舍,横轴为时间(秒),纵轴为频率(赫兹)

因为汉明窗两端不能到零,而海宁窗两端为零。从以上频率响应来看,汉明窗可以有效减少靠近的旁办,但在较远的旁办泄漏比海宁窗严重。

如何决定窗函数

可根据以下条件来选取窗函数,

  • 复杂度,方形复杂度较低
  • 解析率,以方形为例,越宽的主办可以得到更清楚的时频图,却会把噪声也一同显示,反之则得到不清晰的时频图

在决定复杂度跟解析率后,可利用不同的窗函数达到更好的滤噪声效果。

瑞利频率

当Nyquist频率是能被有意义分析的频率最大值的限制,而瑞利频率则是能被有限带宽频的窗函数解析的频率最小值的限制。若给定一窗函数的长度是T秒,最低能被解析的频率即为1/T Hz。

瑞利频率在短时距傅里叶变化的应用中扮演重要的角色,像是在分析神经信号时。

频谱(Spectrogram)

Spectrogram即短时傅里叶变换后结果的绝对值平方,两者本质上是相同的,在文献上也常出现spectrogram这个名词。

 

应用[2][3]

 
应用短时距傅里叶变换分析声音信号

短时距傅里叶变换及其他工具经常用于分析音乐。

如右图所示,

  1. 水平轴为频率,左侧为最低频率,右侧为最高频率
  2. 条形高度(混和颜色表示)表示该频带内的频率幅度
  3. 深度表示时间

音频工程师使用这种视觉来获取有关音频样本的信息。

此外,因频率会随时间而改变,短时距也可使用在以下情境,

  • 信号采样 (signal sampling),
  • 调变 (modulation),
  • 生物信号 (biomedical signals),等等

若与时间无关,如卷积,照片等则不能使用短时距傅里叶变换来进行分析。而影片属于3D信号,其短时距傅里叶产物为6D信号,故也不适用。

短时距傅里叶变换实现方法

从连续短时距傅里叶变化的定义出发

 

  ,则上述式子时域可从连续转为离散

 

若当 

上式可改写为

 

直接运算

限制条件

(1)要满足Nyquist criterion

 
 的带宽为 。而 的带宽则为  的带宽也为 
因为在时域相乘相当于在频域做卷积,因此 的带宽为 (通常 会远大于 ,所以主要影响带宽的是 )

推导

 
变换到离散形式( ),其中 
 ,由于无限大的上下限实务上做不到,所以尝试变成有限大的上下限。
假设  for  
 
  • 对于缩放的加伯变换 

时间复杂度

 
假设t-axis有T个采样点,f-axis有F个采样点,则我们总共要对TF个点做 次的运算,因此可得复杂度为 

优缺点

优点:简单及有弹性(因为限制少)
缺点:复杂度较高



快速傅里叶变换

限制条件

(1)要满足Nyquist criterion

 

(2)  (N可为任意整数)

(3)   (做N点傅里叶变换,输入必要<=N)


推导

标准的离散傅里叶变换式子为

 

由直接运算得知如下公式

 

因此为了让上式符合离散傅里叶变换的上下界,令 代入上式即可得

 

其中  

运算步骤

假设 

 

步骤一:计算 

步骤二: 

步骤三:决定 

步骤四: 

步骤五:变换  

步骤六:设 ,并回到步骤三,直到 

  • 范例

 

借由采样定理可得知 

假设  ,则经由 可得 

  ,则经由 可得 

步骤一: 

步骤二: 

步骤三:计算 

步骤四:利用求得的 计算快速傅里叶变换  

步骤五:变换  

 
  • 注:若是于程式中执行,要注意m可能为负数,所以需要利用到周期性性质 
 
因此可将上式改为 ,其中 代表取m除以N的余数

步骤六:设定 ,回到步骤三直到 

时间复杂度

利用FFT计算 ,其中每次FFT的时间复杂度为  

总时间复杂度为 

优缺点

优点:与直接运算相比,复杂度较低

缺点:较多限制,包括  


使用快速傅里叶变换加上递回关系式

限制条件

(1)要满足Nyquist criterion

 

(2) 

(3) 

(4)需为方形窗函数的短时距傅里叶变换


推导

因为是方形窗函数  ,因此原式可由此关系变成以下式子

 

而由此可看出n和n-1有递回关系,如下

 


(1)以FFT计算 

其中 


(2)利用递回关系式计算算 

 

时间复杂度

(1)FFT计算一次  

  • 时间复杂度: 

(2)利用递回关系,计算 时的数值,因此共会执行T-1次递回,如下式

 
每次递回都要计算  两个乘法(相当于2F的复杂度)
  • 时间复杂度: 


总时间复杂度  

优缺点

优点:四种运算中,最低的复杂度 

缺点:

  1. 只适用于方形窗函数的短时傅里叶变换
  2. 由于递回的关系,会有累加误差。所以只要当中有小错误,误差会累积到最后,造成无可预期的错误
  3. 不能用在不平衡的采样点

使用Chirp-Z 变换

限制条件

(1)要满足Nyquist criterion

 

推导

 

即可由直接运算的式子导出Chirp_Z变换的式子,如下所示

 

运算步骤

Step1:   

Step2: 

Step3: 

时间复杂度

当n为定值时

(1)假设  相乘时间复杂度为2Q+1

(2)令 ,则  convolution时间复杂度为  

(3) 相乘时间复杂度为 F

因此,总时间复杂度为 

虽然此实现方法和使用FFT计算的时间复杂度相同,但因为convolution相当于做三次FFT,因此实际操作时运算时间约为使用FFT计算的2~3倍

优缺点

优点:只有一项限制: 

缺点:与前四种相比,复杂度是中间的。


Unbalanced Sampling for STFT and WDF

将直接法和快速傅里叶变换方法做修正

1.直接法

 

修正后 : 

其中,   , 

假设  for  ,则上下限可借由以下推导而修正

  则上限可以写成 ,下限则以此类推

注: (输入信号的采样间隔)

 (在t轴上的输出信号的采样间隔)

然而, 是整数会是比较好的。

  • 假设一声音信号:

  则经由上述公式可求得S=441,代表经由unbalanced sampling,我们跟原本 相比可减少441倍的采样点。

时间复杂度

由于t轴的采样点少了S倍,因此跟原本的直接运算复杂度相比,只要把 即可,如下:

复杂度: 


2.快速傅里叶变换

限制条件

(1)  

(2)   : ( 只要是整数的倒数即可)

(3)   的带宽是  

i.e.   ,当  

过程

 

 

  for  

 for  

修正后: 

运算步骤

假设 

 

 

步骤一:计算 

步骤二: 

步骤三:决定 

步骤四: 

步骤五:变换 

步骤六:设定 及返回步骤三,直到 

复杂度

 

Non-Uniform  

(1) 先用比较大的 

(2) 如果发现   之间有很大的差异,则在   之间选用比较小的采样区间 

(   皆为整数)

再用Unbalanced Sampling for STFT and WDF 中修正后的快速傅里叶变换方法算出    

(3) 以此类推,如果  的差距还是太大,则再选用更小的采样间隔 

(   皆为整数)

  • 比较

若有一音乐信号总共有1.6秒, 

  1. 选择 ,则共有 
  2. 选择 ,则共有 
  3. t随时间不同有不同的选择,如下
 ,共29点
可以这样做的原因为:有些音乐信号在和弦与和弦中间几乎没有变化,因此可以挑选较大的 采样;和弦在变换时,频率会变化的较剧烈,因此变换和弦是需要用较多的采样点。借由此种non-uniform的采样,可以让我们大幅减少运算量,从最一开始的 可看出我们的运算量大幅降低。

参见

参考书目、数据来源

  1. Jian-Jiun Ding, Time frequency analysis and wavelet transform class notes, the Department of Electrical Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2011.
  2. Alan V. Oppenheim, Ronald W. Schafer, John R. Buck : Discrete-Time Signal Processing, Prentice Hall,  
  3. ^ Short-time Fourier transform (英语). 
  4. ^ Ding, Jian-Jiun. Time frequency analysis and wavelet transform class notes. Taipei, Taiwan: Graduate Institute of Communication Engineering, National Taiwan University (NTU). 2022.