Korelacja to statystyczna zależność między dwiema zmiennymi losowymi. Dlaczego losowymi? Dlatego, że wartości zmiennej losowej zależą od zdarzeń losowych. Przykładem zmiennej losowej jest na przykład dzienna liczba zachorowań na Covid-19. Pewne prawidłowości są oczywiście zauważalne ale nie można z całą pewnością przewidzieć, ile osób zachoruje jutro lub za tydzień.
Dodatnia korelacja oznacza, że wzrost jednej zmiennej spowoduje również wzrost drugiej i podobnie spadek jednej spowoduje spadek drugiej. Analogicznie, korelacja ujemna oznacza, że zmienne “poruszają się” w przeciwnym kierunku, wzrost jednej zmiennej powoduje spadek drugiej i podobnie spadek jednej spowoduje wzrost drugiej zmiennej. Analiza korelacji bardzo przydaje się w sektorze finansowym, handlu, epidemiologii, demografii i innych dziedzinach, gdzie zjawiska zachodzą w sposób nie końca przewidywalny.
Miarą wspomnianej zależności są współczynniki korelacji. Najbardziej znane z nich to współczynnik Pearsona i współczynnik Spearmana. Współczynnik Pearsona mierzy tylko zależność liniową natomiast “Spearmana” można też stosować do zależności nieliniowych. Współczynniki korelacji przyjmują wartości z zakresu (-1, +1). Wartość +1 to całkowita korelacja dodatnia, analogicznie zaś wartość -1 to całkowita korelacja ujemna.
Przyjmuje się, że współczynnik korelacji wyższy niż +0,5 lub niższy niż -0,5 świadczy o jej wysokiej jakości. Współczynnik korelacji z zakresu (-0,3 +0,3) to słaba korelacja, nieprzydatna do wyciągania wniosków.
Mit 1
Korelacja oznacza oczywisty związek przyczynowo-skutkowy.
To nieprawda. Korelacja może oznaczać, że zachodzi związek przyczynowo-skutkowy. Ale nie musi. Korelacja mówi nam tylko, jak silnie para zmiennych jest liniowo (lub nieliniowo) powiązana. Związek między dwiema zmiennymi może być pozorny i tak też to się nazywa: związek pozorny.
Przyczynowość to coś więcej niż korelacja. Przykładem przyczynowości jest zależność liczby spalanych kalorii od wysiłku włożonego w ćwiczenie/taniec/pracę fizyczną.
Podam (za 1.) przykład korelacji między sprzedażą lodów a sprzedażą okularów przeciwsłonecznych. Wraz ze wzrostem sprzedaży lodów rośnie sprzedaż okularów przeciwsłonecznych.
Teraz, kiedy już znamy różnicę między korelacją a przyczynowością, przyjrzyjmy się pewnej słynnej (i prawdziwej) korelacji: Sprzedaż lodów w Nowym Jorku jest skorelowana z liczbą zabójstw. Korelacja jest prawdziwa, związku przyczynowego nie ma. Przecież lody nie zabijają ludzi. Przyczyną tego pozornego paradoksu jest trzecia zmienna, dodatkowy, nie zmierzony czynnik nieujęty w badaniu. To temperatura. Wzrost temperatury powoduje zwiększoną konsumpcję lodów, to jasne i oczywiste. Ta sama temperatura skłania ludzi do wychodzenia z domu, spacerów. Tym samym stanowią oni większą liczbowo pokusę dla złoczyńców, potencjalnych zabójców. Taką korelację nazywamy korelacją pozorną a wspomniana trzecia zmienna – czynnikiem zakłócającym.
Tak więc korelacja między lodami a zabójstwami jest prawdziwa, ale nie ma między nimi związku przyczynowo-skutkowego. Są za to dwa prawdziwe związki przyczynowo-skutkowe: temperatura->lody i temperatura->zabójstwa.
Anegdotycznym przykładem korelacji nie będącej związkiem przyczynowo-skutkowym jest korelacja między liczbą bocianów na kilometr kwadratowy a przyrostem naturalnym na badanym obszarze. Bociany nie przynoszą dzieci (na pewno?), więc dlaczego korelacja jest prawdziwa? Dopiero trzecia zmienna (zakłócająca) przynosi odpowiedź. Zmienną zakłócającą jest rodzaj obszaru: miasto/wieś. Na wsi przebywa więcej bocianów niż w mieście, a przyrost naturalny naturalnie także większy.
Mit 2
Odpowiednio wysoki współczynnik korelacji dowodzi jej prawdziwości
Tak, pod warunkiem, że badana próba jest odpowiednio wysoka. Do badania jakości próbki służy współczynnik poziomu istotności czy też inaczej – niepewności. Wartość tego wskaźnika oznacza prawdopodobieństwo, że różnice w danych pomiarowych są dziełem przypadku. Dla przykładu: istotność 0,025 znaczy, że różnice czy też rozrzut danych jest przypadkowy z prawdopodobieństwem 2,5%, a 97,5%, że dane są rzeczywistym wynikiem pomiaru. W zależności od dziedziny badań przyjmuje się różne progi niepewności pomiaru, dla większości badań jest to 5% czyli 0,05. Do oznaczenia poziomu istotności stosuje się literę p lub też symbol alfa α.
Korelacja a koincydencja
Koincydencja to współwystępowanie które może dotyczyć zjawisk o różnym stopniu powiązania (w tym żadnym). Korelacja to rodzaj koincydencji dotyczącej zjawisk powiązanych. Nie każda koincydencja jest korelacją ale każda korelacja jest koincydencją. Ta różnica nie zawsze jest zauważana, jest też wykorzystywana do manipulacji i tworzenia nieprawdziwych teorii.
Nadużycia
Korelacja działa na wyobraźnię. Dlatego też jest używana jako argument (pseudo argument) przez różnego rodzaju naciągaczy, manipulantów i denialistów. Fałszywa korelacja jest bardzo często wykorzystywana do tworzenia fałszywych narracji ponieważ jest “naukowa”, sugestywna i trudna do obalenia bez znajomości tematu i aktualnych danych.
Jako przykład podam (za 3.) narrację antyszczepionkową zapoczątkowaną wpisem na Twitterze pewnego statystyka imieniem Marek, która “dowodzi”, że szczepionki zabijają. Jako przykład miało posłużyć województwo podkarpackie, a teza brzmiała: “niski poziom zaszczepienia ma związek z niską śmiertelnością”. Oczywiście, takie stwierdzenie, w dodatku podparte “autorytetem” statystyka Marka, zostało podchwycone przez czołowych antyszczepionkowców i wzmocnione do granic absurdu.
Jako aktywni w tym okresie analitycy zareagowaliśmy natychmiast, “debunkując” rozrastającą się dezinformację. Łukasz Pietrzak, farmaceuta i analityk napisał: “Województwo podkarpackie miało trzeci z najwyższych wzrostów śmiertelności ogólnej. Najwyższy wskaźnik CFR i 4 miejsce w zgonach C19 przy najniższych zakażeniach”, załączając odpowiednie mapy. 13 lutego napisałem na Twitterze: “W 2. połowie 2021 liczba zgonów na Podkarpaciu na 100 tys. mieszkańców jest na 4. miejscu OD GÓRY po lubelskim, podlaskim i opolskim co nie jest żadnym powodem do chwały. Wręcz przeciwnie. Łączenie tego z proc. wyszczepienia jest nadużyciem i tworzeniem fałszywej korelacji”. W podobnym duchu wypowiadał się też Rafał Halik – epidemiolog.