В случае, когда в результате одного опыта/наблюдения измеряются две случайных величины (случайная величина – это величина точное значение, которой невозможно предсказать до измерения) ставится вопрос о корреляции измеряемых переменных. Понятие корреляции отражает их статистическую взаимосвязь, которая может быть как положительной, так и отрицательной. Например, рост и вес людей являются случайными величинами, между которыми имеется положительная статистическая зависимость. Хоть мы и не можем заранее сказать, какой рост и вес будет у конкретного случайного образом взятого человека, но может с большой уверенностью предсказать, что чем выше будет человек тем больше будет у него вес. Конечно, это правило будет выполнятся в среднем, для некоторой конкретной пары людей может оказаться, что дело обстоит обратным образом, но для достаточно большого количества случайно отобранных людей эта статистическая зависимость будет подтверждаться с большой долей вероятности.
Для того, чтобы наглядным образом обнаружить корреляцию строят так называемые диаграммы рассеяния. В случае двух переменных – это координатная плоскость. Для указанного примера по оси абцис можно отложить вес, а по оси ординат рост.
Точки – это рост и вес конкретного человека. По характеру расположения точек можно видеть, что статистическая связь между ростом и весом имеет линейный характер. Связь эта положительная, с увеличением массы увеличивается и рост. Прямая линия – это выборочная линия регрессии, построенная методом МНК (метод наименьших квадратов). Она наглядным образом показывает характер статистической зависимости двух случайных переменных. Её уравнение, которое называют выборочным уравнением регрессии y на x – это уравнение зависимости условного среднего от x вида:
Условным средним называют среднее арифметическое наблюдавшихся значений y, соответствующих x = x0, где x0 некоторое конкретное значение x. Например, если при x = 5 игрек принимала значения: 5,10,15, то
В том случае, когда между переменными отсутствует статистическая связь коэффициент k (коэффициент регрессии) перед переменной x равен нулю. При этом диаграмма рассеяния и прямая регрессии имеют следующий вид.
С коэффициентом k связан выборочный коэффициент линейной корреляции Пирсона
Его значения принадлежат отрезку [-1,1]. Близость его к -1 говорит о сильной отрицательной корреляции, близость к 1 – о сильной положительной. Обычно о сильной корреляции говорят, если коэффициент корреляции по модулю более 0,7. Если он близок к нули,то переменные не имеют статистической связи.
Так как выборочный коэффициент корреляции Пирсона вычисляется на выборочных (случайных) данных, то он сам является случайной величиной. Поэтому возникает вопрос о том, насколько статистически значимо полученное значение отличается от нуля, а значит переменные имеют статистическую связь и значимо полученное уравнение регрессии. В этом случае имеются прямая и альтернативная статистическая гипотезы:
Расчёт p – value для проверки H0 производится посредством t – критерия Пирсона.
Условия применения выборочного коэффициента корреляции Пирсона:
1. Переменные должны быть из совместного нормального распределения;
2. Между переменными должна быть линейная взаимосвязь;
3. В выборке должны отсутствовать выбросы.
Если две случайные величины независимы, то их коэффициент корреляции всегда равен нулю. Обратное, вообще говоря, не верно.
Статистическая зависимость двух случайных величин не всегда означает, что они связаны причинно – следственной связью, т.е. не обязательно одна влияет на другую. Может присутствовать третья переменная, которая оказывает влияние на две первые. Именно, значение этой третьей переменную и пытается установить полиграфолог, измеряя изменение физиологических параметров человека. Она является качественной и принимает два значения: правдив человек или нет. Ситуация, когда одна переменная оказывает прямое влияние на вторую, полиграфологом должна отмечаться как «артефакт». Например, если глубокий вздох вызывает изменения в КГР, то такой вопрос должен быть исключён из анализа. Другими словами, между физиологическими параметрами, измеряемыми датчиками полиграфа, не должна присутствовать причинно – следственная связь.