Korelacja – fakty i mity.

Korelacja to statystyczna zależność między dwiema zmiennymi losowymi. Dlaczego losowymi? Dlatego, że wartości zmiennej losowej zależą od zdarzeń losowych. Przykładem zmiennej losowej jest na przykład dzienna liczba zachorowań na Covid-19. Pewne prawidłowości są oczywiście zauważalne ale nie można z całą pewnością przewidzieć, ile osób zachoruje jutro lub za tydzień.

Dodatnia korelacja oznacza, że wzrost jednej zmiennej spowoduje również wzrost drugiej i podobnie spadek jednej spowoduje spadek drugiej. Analogicznie, korelacja ujemna oznacza, że zmienne “poruszają się” w przeciwnym kierunku, wzrost jednej zmiennej powoduje spadek drugiej i podobnie spadek jednej spowoduje wzrost drugiej zmiennej. Analiza korelacji bardzo przydaje się w sektorze finansowym, handlu, epidemiologii, demografii i innych dziedzinach, gdzie zjawiska zachodzą w sposób nie końca przewidywalny.

Miarą wspomnianej zależności są współczynniki korelacji. Najbardziej znane z nich to współczynnik Pearsona i współczynnik Spearmana. Współczynnik Pearsona mierzy tylko zależność liniową natomiast “Spearmana” można też stosować do zależności nieliniowych. Współczynniki korelacji przyjmują wartości z zakresu (-1, +1). Wartość +1 to całkowita korelacja dodatnia, analogicznie zaś wartość -1 to całkowita korelacja ujemna.

Przyjmuje się, że współczynnik korelacji wyższy niż +0,5 lub niższy niż -0,5 świadczy o jej wysokiej jakości. Współczynnik korelacji z zakresu (-0,3 +0,3) to słaba korelacja, nieprzydatna do wyciągania wniosków.

Mit 1

Korelacja oznacza oczywisty związek przyczynowo-skutkowy.

To nieprawda. Korelacja może oznaczać, że zachodzi związek przyczynowo-skutkowy. Ale nie musi. Korelacja mówi nam tylko, jak silnie para zmiennych jest liniowo (lub nieliniowo) powiązana. Związek między dwiema zmiennymi może być pozorny i tak też to się nazywa: związek pozorny.

Przyczynowość to coś więcej niż korelacja. Przykładem przyczynowości jest zależność liczby spalanych kalorii od wysiłku włożonego w ćwiczenie/taniec/pracę fizyczną.

Podam (za 1.) przykład korelacji między sprzedażą lodów a sprzedażą okularów przeciwsłonecznych.  Wraz ze wzrostem sprzedaży lodów rośnie sprzedaż okularów przeciwsłonecznych.

Teraz, kiedy już znamy różnicę między korelacją a przyczynowością, przyjrzyjmy się pewnej słynnej (i prawdziwej) korelacji: Sprzedaż lodów w Nowym Jorku jest skorelowana z liczbą zabójstw. Korelacja jest prawdziwa, związku przyczynowego nie ma. Przecież lody nie zabijają ludzi. Przyczyną tego pozornego paradoksu jest trzecia zmienna, dodatkowy, nie zmierzony czynnik nieujęty w badaniu. To temperatura. Wzrost temperatury powoduje zwiększoną konsumpcję lodów, to jasne i oczywiste. Ta sama temperatura skłania ludzi do wychodzenia z domu, spacerów. Tym samym stanowią oni większą liczbowo pokusę dla złoczyńców, potencjalnych zabójców. Taką korelację nazywamy korelacją pozorną a wspomniana trzecia zmienna – czynnikiem zakłócającym.

Tak więc korelacja między lodami a zabójstwami jest prawdziwa, ale nie ma między nimi związku przyczynowo-skutkowego. Są za to dwa prawdziwe związki przyczynowo-skutkowe: temperatura->lody i temperatura->zabójstwa.  

Anegdotycznym przykładem korelacji nie będącej związkiem przyczynowo-skutkowym jest korelacja między liczbą bocianów na kilometr kwadratowy a przyrostem naturalnym na badanym obszarze. Bociany nie przynoszą dzieci (na pewno?), więc dlaczego korelacja jest prawdziwa? Dopiero trzecia zmienna (zakłócająca) przynosi odpowiedź. Zmienną zakłócającą jest rodzaj obszaru: miasto/wieś. Na wsi przebywa więcej bocianów niż w mieście, a przyrost naturalny naturalnie także większy.

Mit 2

Odpowiednio wysoki współczynnik korelacji dowodzi jej prawdziwości

Tak, pod warunkiem, że badana próba jest odpowiednio wysoka. Do badania jakości próbki służy współczynnik poziomu istotności czy też inaczej – niepewności. Wartość tego wskaźnika oznacza prawdopodobieństwo, że różnice w danych pomiarowych są dziełem przypadku. Dla przykładu: istotność 0,025 znaczy, że różnice czy też rozrzut danych jest przypadkowy z prawdopodobieństwem 2,5%, a 97,5%, że dane są rzeczywistym wynikiem pomiaru. W zależności od dziedziny badań przyjmuje się różne progi niepewności pomiaru, dla większości badań jest to 5% czyli 0,05. Do oznaczenia poziomu istotności stosuje się literę p lub też symbol alfa α.

Korelacja a koincydencja

Koincydencja to współwystępowanie które może dotyczyć zjawisk o różnym stopniu powiązania (w tym żadnym). Korelacja to rodzaj koincydencji dotyczącej zjawisk powiązanych. Nie każda koincydencja jest korelacją ale każda korelacja jest koincydencją. Ta różnica nie zawsze jest zauważana, jest też wykorzystywana do manipulacji i tworzenia nieprawdziwych teorii.

Nadużycia

Korelacja działa na wyobraźnię. Dlatego też jest używana jako argument (pseudo argument) przez różnego rodzaju naciągaczy, manipulantów i denialistów. Fałszywa korelacja jest bardzo często wykorzystywana do tworzenia fałszywych narracji ponieważ jest “naukowa”, sugestywna i trudna do obalenia bez znajomości tematu i aktualnych danych.

Jako przykład podam (za 3.) narrację antyszczepionkową zapoczątkowaną wpisem na Twitterze pewnego statystyka imieniem Marek, która “dowodzi”, że szczepionki zabijają. Jako przykład miało posłużyć województwo podkarpackie, a teza brzmiała: “niski poziom zaszczepienia ma związek z niską śmiertelnością”. Oczywiście, takie stwierdzenie, w dodatku podparte “autorytetem” statystyka Marka, zostało podchwycone przez czołowych antyszczepionkowców i wzmocnione do granic absurdu.

Ryc. 1 Wpis lekarza Basiukiewicza z 5 lutego 2022

Jako aktywni w tym okresie analitycy zareagowaliśmy natychmiast, “debunkując” rozrastającą się dezinformację. Łukasz Pietrzak, farmaceuta i analityk napisał: “Województwo podkarpackie miało trzeci z najwyższych wzrostów śmiertelności ogólnej. Najwyższy wskaźnik CFR i 4 miejsce w zgonach C19 przy najniższych zakażeniach”, załączając odpowiednie mapy. 13 lutego napisałem na Twitterze: “W 2. połowie 2021 liczba zgonów na Podkarpaciu na 100 tys. mieszkańców jest na 4. miejscu OD GÓRY po lubelskim, podlaskim i opolskim co nie jest żadnym powodem do chwały. Wręcz przeciwnie. Łączenie tego z proc. wyszczepienia jest nadużyciem i tworzeniem fałszywej korelacji”. W podobnym duchu wypowiadał się też Rafał Halik – epidemiolog.

  1. https://medium.com/@seema.singh/why-correlation-does-not-imply-causation-5b99790df07e
  2. https://www.naukowiec.org/wiedza/statystyka/poziom-istotnosci_705.html
  3. https://konkret24.tvn24.pl/zdrowie/zgony-a-szczepienia-na-podkarpaciu-tlumaczymy-dlaczego-to-tworzenie-falszywej-korelacji-ra1096102

Wykresy – jak nie zostać zmanipulowanym. Podsumowanie.

W pierwszych dwóch częściach cyklu Wykresy – jak nie zostać zmanipulowanym. i Wykresy – jak nie zostać zmanipulowanym cz. 2 przedstawiłem przykłady ilustrujące niektóre, najbardziej powszechne metody fałszowania wykresów.

Czas na podsumowanie i wnioski.

Inwencja fałszerzy jest nieograniczona. Repertuar manipulacji jest dużo szerszy i o wiele bardziej subtelny niż pokazałem. Ale nie o to chodzi, żeby stworzyć obszerny i dokładny katalog manipulacji, ale o to, aby “zaszczepić się” przeciwko tym manipulacjom.

Znajomość każdego “numeru” jest bronią. Pozwala, widząc dowolny wykres, zrobić błyskawiczne overview i, jeśli jesteśmy na prezentacji, zadać pytanie w rodzaju: “Panie Prelegencie, dlaczego oś Y zaczyna się 60-ciu a nie od zera?”.

Jakie elementy powinien zawierać wykres?
Jestem zdania, że każdy wykres, który może być wykorzystywany w oderwaniu od swojego kontekstu (artykułu, publikacji naukowej, prezentacji) powinien zawierać wszystkie elementy wymienione niżej. W czasach internetu i wszechobecnego kopiuj/wklej musimy się liczyć, jako autorzy wykresu, z użyciem naszej pracy bez podania kontekstu. W takim razie, jako odbiorcy, spodziewamy się tego samego, czyli wiarygodności wykresu bez podania jego oryginalnego kontekstu. A więc do rzeczy, wymieniam:

  • Tytuł wykresu, podtytuł, źródło danych
  • Opisy osi X i Y, jednostki miary
  • Legenda dotycząca poszczególnych nitek/słupków/plastrów wykresu
  • Identyfikacja autora wykresu, najlepiej w obszarze ciała wykresu (w interesie autora), “pożyczalscy” często wycinają wykres “pozbawiając go” autorstwa i prezentują jako swój
  • Dodatkowo, jeśli specyfika wykresu wymaga dodatkowych informacji, powinny być one umieszczone w obszarze wykresu
  • Kontekst prezentacji wykresu (wpis twitterowy, facebookowy) powinien opisywać, czego wykres dotyczy oraz, w miarę możliwości, tworzyć całościowy obraz. Wskazane jest, aby został podany link do oryginalnego kontekstu w celu umożliwienia odbiorcy dotarcie do całości materiału źródłowego.

Co powinno wzbudzić podejrzenia?
Przede wszystkim braki lub nieścisłości formalne, wymienione w poprzednim punkcie:

  • Brak tytułu lub tytuł niesatysfakcjonujący, niepełny, sugerujący interpretację, niewskazujący źródła danych
  • Brak opisów osi X, Y, brak jednostek
  • Nieuzasadnione ograniczenie zakresu osi Y
  • Nieliniowe skalowanie osi Y (np. logarytmiczne) bez uzasadnienia merytorycznego
  • Pomijanie niektórych danych, np. konkretnych lat, miesięcy, lat
  • Podejrzenie “cherry picking”, tzn. wybierania tych danych, które pasują do aktualnie lansowanej interpretacji
  • Brak ścieżki URL prowadzącej do oryginału publikacji zawierającej wykres wraz z obszernym kontekstem czyli uniemożliwienie dotarcia do materiału pozwalającego na wyciągnięcie własnych wniosków na dany temat

Czy zawsze powinniśmy być podejrzliwi?
Nie zawsze. Przecież istotą wykresu jest pomoc w zrozumieniu danych, ilustracja zjawiska, przewidzenie konsekwencji. Kolumny liczb nie przemawiają do wyobraźni przeciętnego odbiorcy. Dlatego, tworząc wykresy, uwypuklamy istotne dane, używamy kolorów, pogrubień, elementów graficznych. Ważne jest jednak, żeby nasze starania “podbicia” przekazu nie poszły zbyt daleko, w stronę przekłamania i manipulacji.

Wykresy w epoce mediów społecznościowych
Można, oczywiście, z pewną przesadą, powiedzieć, że żyjemy w erze postprawdy. Informacje, newsy, rozchodzą się jak błyskawica. Powstaje więc wielka pokusa publikowania fałszywych narracji. Ostatnio dotyczy to negowania pandemii, szczepień, ograniczeń pandemicznych. Wykorzystuje się fałszywe, ad-hoc wykreowane pseudoautorytety, sfałszowane badania. Wykresy jako składniki wpisów na Twitterze są często prezentowane bez kontekstu, opatrzone kłamliwym komentarzem. Mamy więc: prawdziwy wykres i nieprawdziwą interpretację. Czujność dotyczy więc nie tylko samego wykresu ale także otoczki słownej. W poprzednich odcinkach pokazałem metody fałszowania samych wykresów, ale powinniśmy traktować podejrzliwie cały przekaz: słowa i grafikę. Dlatego tak ważna są, opisane wcześniej, obowiązkowe elementy “porządnego” wykresu.

Wykresy – jak nie zostać zmanipulowanym cz. 2

W pierwszej części cyklu Wykresy – jak nie zostać zmanipulowanym przedstawiłem niektóre, najbardziej powszechne metody fałszowania wykresów, wymuszania odbioru niezgodnego z prawdą, za to zgodnego z zamierzonym przekazem.
Kontynuując temat, pokażę inne, może trochę bardziej subtelne sposoby wpływania na taki, a nie inny odbiór poprawnych skądinąd danych.

Obcięcie niewygodnych danych
Jest to prosta, ale skuteczna sztuczka, aby z normalnego, pofalowanego wykresu obrazującego sukcesy przeplatające się z porażkami stworzyć tchnący optymizmem, ale z gruntu fałszywy obraz nieustających sukcesów. Wystarczy wybrać odpowiedni zakres danych. W gruncie rzeczy przypomina to sprzedawanie używanego samochodu, zachwalanie jego zalet, a pomijanie wycieków oleju, stuków w silniku i wszechobecnej korozji.
Na poniższym rysunku (Rys. 1) lewy wykres prezentuje pełny zakres danych od stycznia do stycznia a prawy – wybrany zakres o cechach pasujących do naszej narracji. Spadki pominięto.

Rys. 1 https://www.mobilespoon.net/2023/03/same-data-different-stories-how-to-manipulate-your-graphs.html

Zmiana przedziałów czasowych (resampling)
Brzmi to trochę abstrakcyjnie ale, w skrócie, polega na takiej agregacji danych, żeby niewygodne wahania wykresu góra/dół wtopiły się w ogólny trend wzrostowy. Najlepiej pokaże to przykład.

Rys. 2 https://www.mobilespoon.net/2023/03/same-data-different-stories-how-to-manipulate-your-graphs.html

Wykres kwartalny nie pokazuje zbyt jednoznacznie trwałej i konsekwentnej tendencji wzrostowej. Aby wzmocnić przekaz tworzy się wykres roczny sumujący dane kwartalne. Wtedy trend wzrostowy wygląda optymistycznie i zachęcająco (dla inwestorów).

Obie powyższe techniki (obcięcie i resampling) można połączyć. Nazywają to “cherry picking” i jest niczym innym jak wybraniem pasującego do narracji zakresu danych z jednoczesnym tzw. upsamplingiem czasu, czyli gęstszym próbkowaniem wybranego przedziału czasowego. Prezentujemy wisienkę na torcie, a niewygodną resztę ukrywamy. Poniżej przykład.

Rys. 3 https://venngage.com/blog/misleading-graphs/

Wykres po prawej stronie pokazuje rzeczywiste dane z kilku lat (agregowane z danych miesięcznych) charakteryzujące się zmiennością niepasującą do zamierzonej narracji. Manipulacja polega na wybraniu danych z jednego roku, rozbiciu ich na miesiące i przedstawienie jako ilustracji prezentowanej tezy. Technika jest wysoce nieetyczna, wprowadzająca w błąd czytelników, nieuczciwa.

Wykres danych skumulowanych
Jeśli potrzebujemy optymistycznego wykresu do niezbyt optymistycznych danych – jest na to sposób. Wykres kumulowany ma to do siebie, że ciągle rośnie, zatuszuje wszelkie wahania koniunktury. Wzrok niezbyt sobie radzi z rejestracją pochodnej (nachylenia krzywej) więc jest to rozwiązanie idealne. Poniżej przykład, który przekona nawet niezbyt przekonanych do tej techniki manipulacji.

Rys. 4 https://venngage.com/blog/misleading-graphs/

Prawda, że piękne? Z danych o spadających obrotach miesięcznych otrzymaliśmy ROSNĄCĄ krzywą, a fakt, że to kumulacja z całego roku … klient tak szybko nie myśli.

Używanie niewłaściwej formy prezentacji
Powszechnie uważa się, że prezentacja w formie wykresu słupkowego i kołowego to dwie formy równoważne. Tak nie jest. Wykres kołowy powinien być używany do danych, które “sumują się do całości”, do 100%. Służy do porównywania udziału, najczęściej procentowego. Jeśli prezentuje inne dane, wprowadza w błąd. Wykres słupkowy (lub równoważny funkcjonalnie wykres liniowy) jest lepszy do porównywania danych dla grup, gdzie dane są wielkościami mianowanymi, na przykład sprzedaż, koszt, liczba szczepień, liczba zachorowań na Covid-19. Posłużę się przykładem, w którym użycie wykresu kołowego jest wyborem co najmniej niewłaściwym metodologicznie.

Rys. 5 https://venngage.com/blog/misleading-graphs/

Załóżmy, że dane dla Teamu A, B, C przedstawiają ich zyskowność. Wykres słupkowy po prawej stronie jest prawidłową formą przedstawienia tych danych. Proporcje widac jak na dłoni. Wykres kołowy po lewej po pierwsze nie sumuje sie do 100% (bo i jak?), nie przemawia do wyobraźni, a gdyby został narysowany w projekcji 3D to dodatkowo faforyzowałby team na pierwszym planie, poprzez złudzenie perspektywy. Czy może dezinformować? Na pewno tak, choć nie celowo, ale bezwiednie.

Przeładowanie, nadmiar danych
Częstym błędem nadgorliwych “rzeźbiarzy” wykresów jest umieszczanie na wykresie zbyt wielkiej ilości danych, co czyni wykres nieczytelnym i nieatrakcyjnym. Jako przykład takiego overloadu pokażę wykres dziennych zakażeń SARS-CoV-2 we wszystkich krajach Europy z mojego programu, którego używam do tworzenia wizualizacji danych związanych z pandemią. Niewiele z niego wynika i na dobrą sprawę wystarczyłby wykres sumarycznych danych dla Europy aby pokazać dynamikę przebiegu pandemii.

Rys. 6 Opracowanie własne

Prezentacja danych nieskalowanych
Niektóre dane (na przykład liczba zachorowań na Covid-19) prezentowane w rozbiciu na województwa, powiaty lub różnego rodzaju kategorie, powinny być przedstawiane w odniesieniu do liczebności danej grupy tzw. kohorty. Tylko wtedy porównywanie, tworzenie rankingów mają sens. W przypadku danych epidemicznych liczbę zachorowań odnosimy na przykład do 100 tysięcy osób. Porównujmy porównywalne.
Jako przykład pokażę mapy obrazujące dzienną liczbę zachorowań na Covid-19 w województwach. Mapa po lewej stronie prezentuje liczbę zachorowań bez skalowania. Nie trzeba być geniuszem, żeby przewidzieć, że najwięcej zachorowań będzie w województwie mazowieckim, z racji wielkości populacji tego województwa. Wartość informacyjna tej mapki jest zerowa. Mapa po prawej stronie prezentuje dane skalowane do populacji i dopiero z takiej prezentacji można wyciągnąć bardziej odkrywcze wnioski.

Rys. 7 Opracowanie własne

Złudzenia wynikające z 3D
Nie zapominajmy, że wykresy można też robić w trzech wymiarach. Taka projekcja daje duże pole do popisu. Obiekty na pierwszym planie, “bliżej” obserwatora będą wydawały się większe niż w rzeczywistości. Jeśli jeszcze dodamy odpowiedni dobór kolorów… Można sprawić, że 20% udział w rynku naszej firmy będzie się wydawał większy niż 40% udział konkurencji, dlaczego nie? Poniżej przykład. Konkurent A wydaje się dwukrotnie mniejszy niż nasza firma mimo, że w rzeczywistości różnica jest co najwyżej 10-procentowa. Można? Można. Tylko czy to etyczne?

Rys. 8 https://www.cognity.pl/manipulacja-danymi-na-wykresach,blog,94.html

W następnej części cyklu przedstawię podsumowanie technik manipulacji wykresami oraz parę rad, jak się przed tym ustrzec, na co zwracać uwagę. Pamiętajmy też, że będąc na prezentacji mamy prawo, a wręcz obowiązek zadawania pytań. Pytajmy więc o szczegóły bo kto pyta ten nie wie, a My chcemy wiedzieć.