解名缰 鸟倦飞

Copula,奇妙并困惑着

2010 年 03 月 18 日 | 分类于 学习中

毕业论文想写一些跟 Copula 有关的东西。之前在寒假的时候,已经阅读了一些文献,算是大概弄明白了 Copula 是什么。简单来说,它可以看作是一种连接函数,即把随机变量的联合分布与其各自的边缘分布连接起来。用一个简单的式子表达,就是 \(F_{XY}(x,y)=C(F_X(x),F_Y(y))\),其中的 \(C(\cdot,\cdot)\) 就是传说中的 Copula。

进一步来说,Copula 有一个更有意思的含义。我们知道,如果 \(X\sim F_X(x)\),那么 \(U=F_X(X)\sim U(0,1)\),即将一个随机变量的分布函数作用到这个随机变量上时,它将变成一个 \((0,1)\) 上的均匀分布。类似地,也有 \(V=F_Y(Y)\sim U(0,1)\),于是乎,

这就说明,式中的 Copula 函数正是U和V的联合分布。在这个意义上,两个随机变量的分布函数可以被巧妙地拆成三个部分:两个边缘分布,以及另外一个联合分布。这条性质使得分布的建模更具灵活性。在很久很久以前,我们为了描述 \((X,Y)\) 的联合分布,一般都只用一个单一的分布族,而且这个分布族的结构也不会太复杂,否则写出来的公式会让人难以忍受。此外,限定了联合分布就相当于隐性地限定了边缘分布,这有时候不符合实际。而用 Copula 的分解公式,我们就可以分别指定边缘分布和联合结构的形式,使得模型的解释力更强。此奇妙之一也。

关于 Copula 函数,有一个重要的不等式,即对任意的一个 Copula 函数 \(C(\cdot,\cdot)\) 以及任意满足定义域的实数 \(u\) 和 \(v\),有

特别地,不等式的左右两端也是两个 Copula 函数,分别称为下界 Copula 和上界 Copula。当两个随机变量的 Copula 函数达到上界时,这两个随机变量将是完全的“正相关”;反之,达到下界时将是完全的“负相关”。在 Copula 中,完全“正相关”是这样定义的:假设有一个随机向量 \((X, Y)\),\((x1, y1)\) 和 \((x2, y2)\) 是它的两个实现值,那么 \((x1 - x2)\) 与 \((y1 - y2)\) 符号相同的概率为1;类似地,完全“负相关”就是它们符号相反的概率为1。任何一个 Copula 函数,都一致地被上界 Copula 和下界 Copula 所包围,所以 Copula 函数是对随机变量之间相关性或依赖性的一种度量。此奇妙之二也。

如果上面的这些都不够让你兴奋的话,那么可以看看下面这条性质。这一条说的是,如果随机向量 \((X, Y)\) 的 Copula 函数是 \(C(u, v)\) 的话,那么对于两个单调不减的函数 \(f\) 和 \(g\),随机向量 \((f(X), g(Y))\) 的 Copula 函数将依然是 \(C(u, v)\)!这一点很容易让人联想到 Spearman 秩相关系数,它对于这种单调变换也可以保持相关系数不变,但 Spearman 秩相关系数只是利用了数据秩的信息,而 Copula 则是在分布的级别上保持变量依存关系的不变性。此奇妙之三也。

好了,奇妙说到这里,就谈谈我的一些困惑了。简单说来是四个字:干嘛用的?由于我才疏学浅,我总感觉使用 Copula 的主要目的依然是对分布进行估计和拟合,那么它相对于传统的一些方法而言,优势在哪儿呢?如果说灵活性是其最大的优势,那我不仅要说,传统的估计方法只是对于一个分布有模型误设的风险,现在凭空多出的两个待估计分布,其增加的风险会不会大于灵活性所减少的风险呢?再进一步说,如果采用的是非参数的密度估计方法,那么传统方法与 Copula 方法都没有模型误设的问题(我们一般认为非参密度估计没有模型误差,只有估计误差),但 Copula 方法多出了两个待估计的分布,给人的感觉就是误差一定会比直接估计的要大,这是不是说非参数密度估计在 Copula 中就完全不适用了呢?可是实际问题中参数方法总是有很大的局限,特别是样本量很大时非参方法明显具有很大的优势,如果这样就被 Copula 拒之门外是不是又太可惜了呢?不解啊,不解。

路漫漫其修远兮,吾将上下而求索……