Wykresy – jak nie zostać zmanipulowanym. Podsumowanie.

W pierwszych dwóch częściach cyklu Wykresy – jak nie zostać zmanipulowanym. i Wykresy – jak nie zostać zmanipulowanym cz. 2 przedstawiłem przykłady ilustrujące niektóre, najbardziej powszechne metody fałszowania wykresów.

Czas na podsumowanie i wnioski.

Inwencja fałszerzy jest nieograniczona. Repertuar manipulacji jest dużo szerszy i o wiele bardziej subtelny niż pokazałem. Ale nie o to chodzi, żeby stworzyć obszerny i dokładny katalog manipulacji, ale o to, aby “zaszczepić się” przeciwko tym manipulacjom.

Znajomość każdego “numeru” jest bronią. Pozwala, widząc dowolny wykres, zrobić błyskawiczne overview i, jeśli jesteśmy na prezentacji, zadać pytanie w rodzaju: “Panie Prelegencie, dlaczego oś Y zaczyna się 60-ciu a nie od zera?”.

Jakie elementy powinien zawierać wykres?
Jestem zdania, że każdy wykres, który może być wykorzystywany w oderwaniu od swojego kontekstu (artykułu, publikacji naukowej, prezentacji) powinien zawierać wszystkie elementy wymienione niżej. W czasach internetu i wszechobecnego kopiuj/wklej musimy się liczyć, jako autorzy wykresu, z użyciem naszej pracy bez podania kontekstu. W takim razie, jako odbiorcy, spodziewamy się tego samego, czyli wiarygodności wykresu bez podania jego oryginalnego kontekstu. A więc do rzeczy, wymieniam:

  • Tytuł wykresu, podtytuł, źródło danych
  • Opisy osi X i Y, jednostki miary
  • Legenda dotycząca poszczególnych nitek/słupków/plastrów wykresu
  • Identyfikacja autora wykresu, najlepiej w obszarze ciała wykresu (w interesie autora), “pożyczalscy” często wycinają wykres “pozbawiając go” autorstwa i prezentują jako swój
  • Dodatkowo, jeśli specyfika wykresu wymaga dodatkowych informacji, powinny być one umieszczone w obszarze wykresu
  • Kontekst prezentacji wykresu (wpis twitterowy, facebookowy) powinien opisywać, czego wykres dotyczy oraz, w miarę możliwości, tworzyć całościowy obraz. Wskazane jest, aby został podany link do oryginalnego kontekstu w celu umożliwienia odbiorcy dotarcie do całości materiału źródłowego.

Co powinno wzbudzić podejrzenia?
Przede wszystkim braki lub nieścisłości formalne, wymienione w poprzednim punkcie:

  • Brak tytułu lub tytuł niesatysfakcjonujący, niepełny, sugerujący interpretację, niewskazujący źródła danych
  • Brak opisów osi X, Y, brak jednostek
  • Nieuzasadnione ograniczenie zakresu osi Y
  • Nieliniowe skalowanie osi Y (np. logarytmiczne) bez uzasadnienia merytorycznego
  • Pomijanie niektórych danych, np. konkretnych lat, miesięcy, lat
  • Podejrzenie “cherry picking”, tzn. wybierania tych danych, które pasują do aktualnie lansowanej interpretacji
  • Brak ścieżki URL prowadzącej do oryginału publikacji zawierającej wykres wraz z obszernym kontekstem czyli uniemożliwienie dotarcia do materiału pozwalającego na wyciągnięcie własnych wniosków na dany temat

Czy zawsze powinniśmy być podejrzliwi?
Nie zawsze. Przecież istotą wykresu jest pomoc w zrozumieniu danych, ilustracja zjawiska, przewidzenie konsekwencji. Kolumny liczb nie przemawiają do wyobraźni przeciętnego odbiorcy. Dlatego, tworząc wykresy, uwypuklamy istotne dane, używamy kolorów, pogrubień, elementów graficznych. Ważne jest jednak, żeby nasze starania “podbicia” przekazu nie poszły zbyt daleko, w stronę przekłamania i manipulacji.

Wykresy w epoce mediów społecznościowych
Można, oczywiście, z pewną przesadą, powiedzieć, że żyjemy w erze postprawdy. Informacje, newsy, rozchodzą się jak błyskawica. Powstaje więc wielka pokusa publikowania fałszywych narracji. Ostatnio dotyczy to negowania pandemii, szczepień, ograniczeń pandemicznych. Wykorzystuje się fałszywe, ad-hoc wykreowane pseudoautorytety, sfałszowane badania. Wykresy jako składniki wpisów na Twitterze są często prezentowane bez kontekstu, opatrzone kłamliwym komentarzem. Mamy więc: prawdziwy wykres i nieprawdziwą interpretację. Czujność dotyczy więc nie tylko samego wykresu ale także otoczki słownej. W poprzednich odcinkach pokazałem metody fałszowania samych wykresów, ale powinniśmy traktować podejrzliwie cały przekaz: słowa i grafikę. Dlatego tak ważna są, opisane wcześniej, obowiązkowe elementy “porządnego” wykresu.

Wykresy – jak nie zostać zmanipulowanym cz. 2

W pierwszej części cyklu Wykresy – jak nie zostać zmanipulowanym przedstawiłem niektóre, najbardziej powszechne metody fałszowania wykresów, wymuszania odbioru niezgodnego z prawdą, za to zgodnego z zamierzonym przekazem.
Kontynuując temat, pokażę inne, może trochę bardziej subtelne sposoby wpływania na taki, a nie inny odbiór poprawnych skądinąd danych.

Obcięcie niewygodnych danych
Jest to prosta, ale skuteczna sztuczka, aby z normalnego, pofalowanego wykresu obrazującego sukcesy przeplatające się z porażkami stworzyć tchnący optymizmem, ale z gruntu fałszywy obraz nieustających sukcesów. Wystarczy wybrać odpowiedni zakres danych. W gruncie rzeczy przypomina to sprzedawanie używanego samochodu, zachwalanie jego zalet, a pomijanie wycieków oleju, stuków w silniku i wszechobecnej korozji.
Na poniższym rysunku (Rys. 1) lewy wykres prezentuje pełny zakres danych od stycznia do stycznia a prawy – wybrany zakres o cechach pasujących do naszej narracji. Spadki pominięto.

Rys. 1 https://www.mobilespoon.net/2023/03/same-data-different-stories-how-to-manipulate-your-graphs.html

Zmiana przedziałów czasowych (resampling)
Brzmi to trochę abstrakcyjnie ale, w skrócie, polega na takiej agregacji danych, żeby niewygodne wahania wykresu góra/dół wtopiły się w ogólny trend wzrostowy. Najlepiej pokaże to przykład.

Rys. 2 https://www.mobilespoon.net/2023/03/same-data-different-stories-how-to-manipulate-your-graphs.html

Wykres kwartalny nie pokazuje zbyt jednoznacznie trwałej i konsekwentnej tendencji wzrostowej. Aby wzmocnić przekaz tworzy się wykres roczny sumujący dane kwartalne. Wtedy trend wzrostowy wygląda optymistycznie i zachęcająco (dla inwestorów).

Obie powyższe techniki (obcięcie i resampling) można połączyć. Nazywają to “cherry picking” i jest niczym innym jak wybraniem pasującego do narracji zakresu danych z jednoczesnym tzw. upsamplingiem czasu, czyli gęstszym próbkowaniem wybranego przedziału czasowego. Prezentujemy wisienkę na torcie, a niewygodną resztę ukrywamy. Poniżej przykład.

Rys. 3 https://venngage.com/blog/misleading-graphs/

Wykres po prawej stronie pokazuje rzeczywiste dane z kilku lat (agregowane z danych miesięcznych) charakteryzujące się zmiennością niepasującą do zamierzonej narracji. Manipulacja polega na wybraniu danych z jednego roku, rozbiciu ich na miesiące i przedstawienie jako ilustracji prezentowanej tezy. Technika jest wysoce nieetyczna, wprowadzająca w błąd czytelników, nieuczciwa.

Wykres danych skumulowanych
Jeśli potrzebujemy optymistycznego wykresu do niezbyt optymistycznych danych – jest na to sposób. Wykres kumulowany ma to do siebie, że ciągle rośnie, zatuszuje wszelkie wahania koniunktury. Wzrok niezbyt sobie radzi z rejestracją pochodnej (nachylenia krzywej) więc jest to rozwiązanie idealne. Poniżej przykład, który przekona nawet niezbyt przekonanych do tej techniki manipulacji.

Rys. 4 https://venngage.com/blog/misleading-graphs/

Prawda, że piękne? Z danych o spadających obrotach miesięcznych otrzymaliśmy ROSNĄCĄ krzywą, a fakt, że to kumulacja z całego roku … klient tak szybko nie myśli.

Używanie niewłaściwej formy prezentacji
Powszechnie uważa się, że prezentacja w formie wykresu słupkowego i kołowego to dwie formy równoważne. Tak nie jest. Wykres kołowy powinien być używany do danych, które “sumują się do całości”, do 100%. Służy do porównywania udziału, najczęściej procentowego. Jeśli prezentuje inne dane, wprowadza w błąd. Wykres słupkowy (lub równoważny funkcjonalnie wykres liniowy) jest lepszy do porównywania danych dla grup, gdzie dane są wielkościami mianowanymi, na przykład sprzedaż, koszt, liczba szczepień, liczba zachorowań na Covid-19. Posłużę się przykładem, w którym użycie wykresu kołowego jest wyborem co najmniej niewłaściwym metodologicznie.

Rys. 5 https://venngage.com/blog/misleading-graphs/

Załóżmy, że dane dla Teamu A, B, C przedstawiają ich zyskowność. Wykres słupkowy po prawej stronie jest prawidłową formą przedstawienia tych danych. Proporcje widac jak na dłoni. Wykres kołowy po lewej po pierwsze nie sumuje sie do 100% (bo i jak?), nie przemawia do wyobraźni, a gdyby został narysowany w projekcji 3D to dodatkowo faforyzowałby team na pierwszym planie, poprzez złudzenie perspektywy. Czy może dezinformować? Na pewno tak, choć nie celowo, ale bezwiednie.

Przeładowanie, nadmiar danych
Częstym błędem nadgorliwych “rzeźbiarzy” wykresów jest umieszczanie na wykresie zbyt wielkiej ilości danych, co czyni wykres nieczytelnym i nieatrakcyjnym. Jako przykład takiego overloadu pokażę wykres dziennych zakażeń SARS-CoV-2 we wszystkich krajach Europy z mojego programu, którego używam do tworzenia wizualizacji danych związanych z pandemią. Niewiele z niego wynika i na dobrą sprawę wystarczyłby wykres sumarycznych danych dla Europy aby pokazać dynamikę przebiegu pandemii.

Rys. 6 Opracowanie własne

Prezentacja danych nieskalowanych
Niektóre dane (na przykład liczba zachorowań na Covid-19) prezentowane w rozbiciu na województwa, powiaty lub różnego rodzaju kategorie, powinny być przedstawiane w odniesieniu do liczebności danej grupy tzw. kohorty. Tylko wtedy porównywanie, tworzenie rankingów mają sens. W przypadku danych epidemicznych liczbę zachorowań odnosimy na przykład do 100 tysięcy osób. Porównujmy porównywalne.
Jako przykład pokażę mapy obrazujące dzienną liczbę zachorowań na Covid-19 w województwach. Mapa po lewej stronie prezentuje liczbę zachorowań bez skalowania. Nie trzeba być geniuszem, żeby przewidzieć, że najwięcej zachorowań będzie w województwie mazowieckim, z racji wielkości populacji tego województwa. Wartość informacyjna tej mapki jest zerowa. Mapa po prawej stronie prezentuje dane skalowane do populacji i dopiero z takiej prezentacji można wyciągnąć bardziej odkrywcze wnioski.

Rys. 7 Opracowanie własne

Złudzenia wynikające z 3D
Nie zapominajmy, że wykresy można też robić w trzech wymiarach. Taka projekcja daje duże pole do popisu. Obiekty na pierwszym planie, “bliżej” obserwatora będą wydawały się większe niż w rzeczywistości. Jeśli jeszcze dodamy odpowiedni dobór kolorów… Można sprawić, że 20% udział w rynku naszej firmy będzie się wydawał większy niż 40% udział konkurencji, dlaczego nie? Poniżej przykład. Konkurent A wydaje się dwukrotnie mniejszy niż nasza firma mimo, że w rzeczywistości różnica jest co najwyżej 10-procentowa. Można? Można. Tylko czy to etyczne?

Rys. 8 https://www.cognity.pl/manipulacja-danymi-na-wykresach,blog,94.html

W następnej części cyklu przedstawię podsumowanie technik manipulacji wykresami oraz parę rad, jak się przed tym ustrzec, na co zwracać uwagę. Pamiętajmy też, że będąc na prezentacji mamy prawo, a wręcz obowiązek zadawania pytań. Pytajmy więc o szczegóły bo kto pyta ten nie wie, a My chcemy wiedzieć.

Wykresy – jak nie zostać zmanipulowanym cz. 1

To jest część I. Drugiej części szukaj tu: Wykresy – jak nie zostać zmanipulowanym cz. 2

„Jeden obraz jest wart tysiąca słów”. Wykres może odkryć prawdę zawartą w liczbach, a może też tę prawdę zafałszować i skłonić do wyciągnięcia nieprawdziwych wniosków. Fałszowanie wykresów to jedna z ulubionych metod manipulacji danymi i jedna z najskuteczniejszych.

Wykres jako obraz wykorzystuje różne elementy wizualne (kolor, cieniowanie, grubość i kolor kreski, wypełnienie, odległości, proporcje, sąsiedztwo innych elementów) do wywarcia odpowiedniego wrażenia. Dobry wykres skłania do skupienia uwagi, wejścia w szczegóły, wyciągnięcia własnych wniosków, zapamiętania.

Obraz, w tym wypadku wykres, tworzy narrację. Można powiedzieć, że w tej narracji liczby to rzeczowniki i czasowniki a elementy graficzne wykresu i ich atrybuty to przymiotniki i przysłówki.

Tyle wstępu. Tematem wpisu jest fałszowanie odbioru danych poprzez preparowanie wykresów „pod tezę”. Oczywiście zakładamy, że dane są prawdziwe, fałszowanie danych źródłowych to oddzielny temat.

Osie i zakresy danych.
Najczęściej oś X wykresu zawiera jeden z dwóch rodzajów danych: jednolicie rozłożony czas (oś czasu) lub dane kategoryczne czyli np. listę województw, państw, kategorii danych, przedziałów wiekowych itp. Obie te kategorie są podatne na manipulację. Jako przykład pokażę wykres (Rys. 1.) zaprezentowany w TVP „Wydatki na ochronę zdrowia jako % PKB”, temat kontrowersyjny i dlatego podatny na pokusę manipulacji.

Na osi X mamy kolejne lata. Logika wskazuje, że powinny wystąpić wszystkie lata z wybranego zakresu. Wtedy dynamika wzrostów/spadków wartości na osi Y zostałaby właściwie odwzorowana. Jednak w tym przypadku intencją było uwypuklenie stagnacji w okresie rządów konkurencji i dynamicznego wzrostu w okresie własnych rządów. Lata 2017, 2018, 2019 zostały skasowane, przez co objawił się „nagły” skok nakładów w roku 2020. Podobny zabieg zastosowano dla roku 2022 oraz futurystycznie dla lat 2024-2027. Teraz, na pierwszy rzut oka, widać zastój, wręcz spadek w okresie rządów poprzedników i dynamiczny, wykładniczy wzrost za „naszych” rządów.

Rys. 1.
Źródło: https://natemat.pl/358023,janina-bak-janina-daily-obala-manipulacje-tvp-przy-wykresach

Nieuzasadniony dobór skali Y
Oś Y także jest wykorzystywana do tendencyjnego przedstawiania danych. Klasycznym zabiegiem jest rozpoczynanie od wartości większej od zera. Celem takiej manipulacji jest zafałszowanie proporcji wielkości słupków.
Trzeba dodać, że w odniesieniu do przebiegów czasowych efektem tego zabiegu jest uwypuklenie dynamiki zmienności (jeśli zakres zmienności jest mały). Generalnie, jest to działanie pozytywne, wykorzystywane np. w wykresach kursów akcji, cen surowców itp. Może też służyć do manipulacji, jak na powyższym wykresie. Tu mała dygresja. Umysł ludzki, rejestrując wykres, podświadomie całkuje (liczy pole pod krzywą). Opisany wyżej zabieg powoduje, że całka pod krzywą „przeciwników” jest dużo niższa niż pod „naszą” krzywą, nawet po wykasowaniu paru lat z osi X. Dobrą ilustracją tego zabiegu jest prezentacja (Rys. 2.) z Akademii PIS pokazująca PKB na 1 mieszkańca w roku 2015, 2020 i 2021. Karykaturalne dysproporcje dyskwalifikują ten wykres jako źródło informacji, jest to twór typowo propagandowy.

Rys. 2.
Źródło: https://konkret24.tvn24.pl/polska/wykres-pokazany-na-akademii-pis-typowy-przyklad-manipulacji-skala-6669017

Kolory, cieniowanie.
Jest oczywiste, że kolorowanie jest doskonałym narzędziem kształtowania odbioru wykresu. To dobrze, wykresy powinny być atrakcyjne i sugestywne. Gorzej, gdy zamierzony przekaz jest typu „Kali dobry, Mwamba zły” a dane za tym nie przemawiają. Na wykresie widać, że „nasz” kolor to soczysta zieleń, a „ich” kolor to zimny jak lód błękit. Innym przykładem jest poniższa prezentacja (Rys. 3.) MON dotycząca liczebności polskiej armii. „Dobre” dane są przedstawione w wyraźnych, optymistycznych kolorach a „złe” dane są ciemnoszare, w dodatku na czarnym tle.

Rys. 3.
Źródło: https://demagog.org.pl/analizy_i_raporty/dane-na-wykresach-trzy-typowe-bledy-i-jak-je-rozpoznac/

Grupowanie danych
Jednym z elementów wstępnej obróbki danych jest ich kategoryzacja czyli grupowanie dla arbitralnie wybranych zakresów. Przykładem są na przykład dane pandemiczne o zgonach, gdzie wiek jest podany z dokładnością jednego roku. Albo dane o płaconych podatkach przez osoby o konkretnych zarobkach. W obu przypadkach zachodzi potrzeba ustalenia przedziałów wieku lub zarobków i przeprowadzenia tzw. agregacji dla tych przedziałów. Agregacji czyli sumowania, zliczania, uśrednienia (średnia lub mediana). Manipulacji można dokonać na etapie ustalania przedziałów. Celem manipulacji może być ukrycie pewnych danych, zmiana trendu itp. Coś w rodzaju „białe jest czarne a czarne jest białe”.
Oba wykresy poniżej (Rys. 4.) powstały z tych samych danych, ale na prawym wykresie zastosowano sprytny zabieg scalenia rekordów z zarobkami powyżej 200 tysięcy (scalono 7 kategorii) w jedną kategorię. W wyniku tej sztuczki powstaje wrażenie, że osoby o najwyższych zarobkach płacą najwyższe podatki.

Rys. 4.
Źródło: https://www.ican.pl/b/krotki-przewodnik-po-manipulacji-wizualizacja

Z podobną manipulacją zetknąłem się przy pracy nad danymi o szczepieniach. Każda instytucja udostępniająca dane chętnie stosuje własny, arbitralny podział na grupy wiekowe. ECDC (European Centre for Disease Prevention and Control) stosuje kategoryzację obejmującą grupy 60-69, 70-79 lat i 80+, a Ministerstwo Zdrowia 60-69 i 70+. Niby drobiazg, brak kategorii wiekowej 80+. Problem w tym, że w Polsce wyszczepienie seniorów 80+ było, w porównaniu do innych krajów, bardzo słabe, a pokazywanie tego publicznie pokazywałoby brak zainteresowania i sprawczości ze strony polskiego państwa. Za to wyszczepienie seniorów 60-69 lat było niezłe, porównywalne z resztą Europy. Manipulacją w tym przypadku jest umieszczenie wszystkich osób 70+ w jednej kategorii wiekowej i ukrycie w ten sposób żenująco niskiego procentu wyszczepienia najstarszych, najbardziej potrzebujących szczepienia osób.
Poniższy wykres (Rys. 5.) efektywnego zaszczepienia populacji Polski wg ECDC (z wyodrębioną grupą 80+) pokazuje, że ten stan utrzymuje się w dalszym ciągu.

Rys. 5.
Wykres efektywnego (nie dawniej niż 6 miesięcy) zaszczepienia populacji Polski przeciwko Covid-19 dla grup wiekowych. Dane ECDC. Opracowanie własne.

Przedstawiłem powyżej jedynie krótki przegląd manipulacji dokonywanych za pomocą wykresów. W następnym wpisie Wykresy – jak nie zostać zmanipulowanym cz. 2 postaram się przybliżyć temat przedstawiając więcej przykładów takich praktyk.

Jeśli artykuł podobał się i chciałbyś/chciałabyś go polecić, możesz to zrobić tu:

https://wykop.pl/link/7122091/manipulacje-na-wykresach-jak-nie-dac-sie-oszukac-falszywemu-przekazowi