刘伊君 Yijun Liu

再读经典:《用于脑电数据的独立成分分析》

2022-01-15


论文原文标题: Independent Component Analysis of Electroencephalographic Data
作者: Scott Makeig, Anthony J. Bell, Tzyy-Ping Jung, Terrence J. Sejnowski
发表于: 1996年 Advances in Neural Information Processing Systems (NIPS)
Google scholar引用数: 2.4k+.

论文链接

独立成分分析(ICA)算是当今脑电数据处理的标准方法之一了。这篇96年NIPS的论文则是这方面的开山之作。所谓独立成分,就是从数据中分解出的子成分是相互统计独立的(statistically independent). 这是一个比平常所说的“不相关“(uncorrelated)更强的概念,因为如果随机变量 X,Y不相关,则只需要随机变量的二阶矩(2nd moment)的函数为零即可。更具体讲, X,Y不相关,意味着相关系数 ρX,Y=Cov(X,Y)Var(X)Var(Y)=0. 也就是 Cov(X,Y)=E[XY]E[X]E[Y]=0. 而如果两随机变量统计独立,则需要满足概率密度函数 (pdf) fX,Y(x,y)=fX(x)fY(y). 想找到满足这一条件的分解的方法之一是使交互信息(mutual information) 为零,而交互信息是由所有高阶矩共同决定的。因此“统计独立”是比“不相关”要强很多的概念。

ICA所做的事叫做盲源分离(blind source separation):假设房间里有N个话筒,N个人在同时说话,并且每个人距离话筒的位置是随机的,那么话筒收到的声音会是这N个人混合的声音。如果用 u=[u1u2uN]T 表示某一时刻N个话筒各自接收到的信号, x=[x1x2xN]T表示同一时刻这N个人各自说话的声音,ICA要做的就是找到矩阵 W 使得 u=Wx 成立,这里的W即对应着N人说话声到N话筒收到的混合声音的线性混合关系。 算出了W, 就可以用 W1u 求出原信号(原文公式写的是 u=Wx+w 而没有提 w 的含义,应该是指噪声)

实际使用中,只有u (混合信号) 是已知的. ICA基于以下几个对x的假设/条件从u计算出W

(1) x1,x2xN 统计独立

(2) 混合介质 (比如声音从发出,在空气中传递,然后被话筒采集)的延迟必须要小到可以忽略

(3) 源信号应该是模拟信号,并且它们的概率密度函数不能和sigmoid函数的梯度相差过大

(4) 源信号和接受端信号的个数应该是相同的(比如上面的例子,人数和话筒数相同)

在这篇论文中,u 对应着采集的N个通道的脑电数据 (EEG / ERP), x 对应着大脑中的源信号。在这种情景下,文章指出假设 (1) 比较合理,因为或许大脑确实有数个"独立信号源",它们的信号混合后得到EEG/ERP信号 ;条件(2)满足,因为电信号在脑组织中的传递速度极快;(3)的模拟信号要求猜测是因为ICA的模型都是用概率密度函数,所以应该是连续信号而非离散信号;后半部分则是因为ICA通常使用sigmoid函数作为假设的源信号的概率密度函数;假设(4)存疑,因为我们并不能预先知道大脑中有多少个独立源信号共同产生了EEG信号。因此在做ICA的时候,首先要确定一个合适的信号源个数,以及确定ICA分解出的这些成分的生理学意义。信号源个数的问题在后续很多其他ICA相关的论文中也有提及。人们通常会用一些指标来猜测比较合理的个数,不过到目前这应该仍旧是一个开放问题。

文章随后展示了ICA用在警觉性测试任务(听到特定声音就按按钮)中记录的14通道EEG和ERP分解出的子成分。这些成分可以有比较合理的神经生物学解释,比如EEG信号分解出了theta波、 alpha波。