关联不同尺度的两个数据集

时间:2012-08-24 20:28:10

标签: r curve-fitting

我们如何关联具有不同比例的两个数据集/曲线,即一条曲线的y轴范围为(0,70000),另一条曲线的y轴范围为(0,150000)。如果它们处于相同的比例,则可以使用cor()函数。我想检查一条曲线是否依赖于其他曲线是否相关。有什么想法吗?

3 个答案:

答案 0 :(得分:3)

如果您查看definition of Pearson's product moment of correlation(默认情况下cor计算的内容),您会看到它是一个线性运算符。也就是说,如果a和b是常数,则cor(aX + b,Y)= cor(X,Y)。因此,X和Y之间的差异并不重要。请记住,此关联仅测量线性依​​赖:它们可能是“相关的”但具有低相关性。如果关系是非线性的,则会发生这种情况,例如:

set.seed(100)
x <- rnorm(100)
y <- x^2
cor(x,y)
# 0.1224623

答案 1 :(得分:1)

如果您正在寻找两组数据之间的相关性,则相关量不依赖于数据集范围的差异。

例如,我们可以随机设置y个值,然后进行缩放。相关性仍为1:

> y <- rnorm(100)
> y2 <- y*2 + 20
> cor(y, y2)
[1] 1

为了进一步证明相关量与规模的线性变化无关,请查看不相关数据的情况:

> y3 = rnorm(100)
> cor(y, y3)
[1] -0.05293818
> y4 <- y3*2 + 20
> cor(y, y4)
[1] -0.05293818

所以,回答你的问题。我认为函数cor应该仍适合你。

答案 2 :(得分:0)

相关性不应该取决于数据的绝对范围,我不会想到。只需将一个数据集乘以一个常量,使其与另一个数据集具有相同的范围?