Wykresy – jak nie zostać zmanipulowanym cz. 1

To jest część I. Drugiej części szukaj tu: Wykresy – jak nie zostać zmanipulowanym cz. 2

„Jeden obraz jest wart tysiąca słów”. Wykres może odkryć prawdę zawartą w liczbach, a może też tę prawdę zafałszować i skłonić do wyciągnięcia nieprawdziwych wniosków. Fałszowanie wykresów to jedna z ulubionych metod manipulacji danymi i jedna z najskuteczniejszych.

Wykres jako obraz wykorzystuje różne elementy wizualne (kolor, cieniowanie, grubość i kolor kreski, wypełnienie, odległości, proporcje, sąsiedztwo innych elementów) do wywarcia odpowiedniego wrażenia. Dobry wykres skłania do skupienia uwagi, wejścia w szczegóły, wyciągnięcia własnych wniosków, zapamiętania.

Obraz, w tym wypadku wykres, tworzy narrację. Można powiedzieć, że w tej narracji liczby to rzeczowniki i czasowniki a elementy graficzne wykresu i ich atrybuty to przymiotniki i przysłówki.

Tyle wstępu. Tematem wpisu jest fałszowanie odbioru danych poprzez preparowanie wykresów „pod tezę”. Oczywiście zakładamy, że dane są prawdziwe, fałszowanie danych źródłowych to oddzielny temat.

Osie i zakresy danych.
Najczęściej oś X wykresu zawiera jeden z dwóch rodzajów danych: jednolicie rozłożony czas (oś czasu) lub dane kategoryczne czyli np. listę województw, państw, kategorii danych, przedziałów wiekowych itp. Obie te kategorie są podatne na manipulację. Jako przykład pokażę wykres (Rys. 1.) zaprezentowany w TVP „Wydatki na ochronę zdrowia jako % PKB”, temat kontrowersyjny i dlatego podatny na pokusę manipulacji.

Na osi X mamy kolejne lata. Logika wskazuje, że powinny wystąpić wszystkie lata z wybranego zakresu. Wtedy dynamika wzrostów/spadków wartości na osi Y zostałaby właściwie odwzorowana. Jednak w tym przypadku intencją było uwypuklenie stagnacji w okresie rządów konkurencji i dynamicznego wzrostu w okresie własnych rządów. Lata 2017, 2018, 2019 zostały skasowane, przez co objawił się „nagły” skok nakładów w roku 2020. Podobny zabieg zastosowano dla roku 2022 oraz futurystycznie dla lat 2024-2027. Teraz, na pierwszy rzut oka, widać zastój, wręcz spadek w okresie rządów poprzedników i dynamiczny, wykładniczy wzrost za „naszych” rządów.

Rys. 1.
Źródło: https://natemat.pl/358023,janina-bak-janina-daily-obala-manipulacje-tvp-przy-wykresach

Nieuzasadniony dobór skali Y
Oś Y także jest wykorzystywana do tendencyjnego przedstawiania danych. Klasycznym zabiegiem jest rozpoczynanie od wartości większej od zera. Celem takiej manipulacji jest zafałszowanie proporcji wielkości słupków.
Trzeba dodać, że w odniesieniu do przebiegów czasowych efektem tego zabiegu jest uwypuklenie dynamiki zmienności (jeśli zakres zmienności jest mały). Generalnie, jest to działanie pozytywne, wykorzystywane np. w wykresach kursów akcji, cen surowców itp. Może też służyć do manipulacji, jak na powyższym wykresie. Tu mała dygresja. Umysł ludzki, rejestrując wykres, podświadomie całkuje (liczy pole pod krzywą). Opisany wyżej zabieg powoduje, że całka pod krzywą „przeciwników” jest dużo niższa niż pod „naszą” krzywą, nawet po wykasowaniu paru lat z osi X. Dobrą ilustracją tego zabiegu jest prezentacja (Rys. 2.) z Akademii PIS pokazująca PKB na 1 mieszkańca w roku 2015, 2020 i 2021. Karykaturalne dysproporcje dyskwalifikują ten wykres jako źródło informacji, jest to twór typowo propagandowy.

Rys. 2.
Źródło: https://konkret24.tvn24.pl/polska/wykres-pokazany-na-akademii-pis-typowy-przyklad-manipulacji-skala-6669017

Kolory, cieniowanie.
Jest oczywiste, że kolorowanie jest doskonałym narzędziem kształtowania odbioru wykresu. To dobrze, wykresy powinny być atrakcyjne i sugestywne. Gorzej, gdy zamierzony przekaz jest typu „Kali dobry, Mwamba zły” a dane za tym nie przemawiają. Na wykresie widać, że „nasz” kolor to soczysta zieleń, a „ich” kolor to zimny jak lód błękit. Innym przykładem jest poniższa prezentacja (Rys. 3.) MON dotycząca liczebności polskiej armii. „Dobre” dane są przedstawione w wyraźnych, optymistycznych kolorach a „złe” dane są ciemnoszare, w dodatku na czarnym tle.

Rys. 3.
Źródło: https://demagog.org.pl/analizy_i_raporty/dane-na-wykresach-trzy-typowe-bledy-i-jak-je-rozpoznac/

Grupowanie danych
Jednym z elementów wstępnej obróbki danych jest ich kategoryzacja czyli grupowanie dla arbitralnie wybranych zakresów. Przykładem są na przykład dane pandemiczne o zgonach, gdzie wiek jest podany z dokładnością jednego roku. Albo dane o płaconych podatkach przez osoby o konkretnych zarobkach. W obu przypadkach zachodzi potrzeba ustalenia przedziałów wieku lub zarobków i przeprowadzenia tzw. agregacji dla tych przedziałów. Agregacji czyli sumowania, zliczania, uśrednienia (średnia lub mediana). Manipulacji można dokonać na etapie ustalania przedziałów. Celem manipulacji może być ukrycie pewnych danych, zmiana trendu itp. Coś w rodzaju „białe jest czarne a czarne jest białe”.
Oba wykresy poniżej (Rys. 4.) powstały z tych samych danych, ale na prawym wykresie zastosowano sprytny zabieg scalenia rekordów z zarobkami powyżej 200 tysięcy (scalono 7 kategorii) w jedną kategorię. W wyniku tej sztuczki powstaje wrażenie, że osoby o najwyższych zarobkach płacą najwyższe podatki.

Rys. 4.
Źródło: https://www.ican.pl/b/krotki-przewodnik-po-manipulacji-wizualizacja

Z podobną manipulacją zetknąłem się przy pracy nad danymi o szczepieniach. Każda instytucja udostępniająca dane chętnie stosuje własny, arbitralny podział na grupy wiekowe. ECDC (European Centre for Disease Prevention and Control) stosuje kategoryzację obejmującą grupy 60-69, 70-79 lat i 80+, a Ministerstwo Zdrowia 60-69 i 70+. Niby drobiazg, brak kategorii wiekowej 80+. Problem w tym, że w Polsce wyszczepienie seniorów 80+ było, w porównaniu do innych krajów, bardzo słabe, a pokazywanie tego publicznie pokazywałoby brak zainteresowania i sprawczości ze strony polskiego państwa. Za to wyszczepienie seniorów 60-69 lat było niezłe, porównywalne z resztą Europy. Manipulacją w tym przypadku jest umieszczenie wszystkich osób 70+ w jednej kategorii wiekowej i ukrycie w ten sposób żenująco niskiego procentu wyszczepienia najstarszych, najbardziej potrzebujących szczepienia osób.
Poniższy wykres (Rys. 5.) efektywnego zaszczepienia populacji Polski wg ECDC (z wyodrębioną grupą 80+) pokazuje, że ten stan utrzymuje się w dalszym ciągu.

Rys. 5.
Wykres efektywnego (nie dawniej niż 6 miesięcy) zaszczepienia populacji Polski przeciwko Covid-19 dla grup wiekowych. Dane ECDC. Opracowanie własne.

Przedstawiłem powyżej jedynie krótki przegląd manipulacji dokonywanych za pomocą wykresów. W następnym wpisie Wykresy – jak nie zostać zmanipulowanym cz. 2 postaram się przybliżyć temat przedstawiając więcej przykładów takich praktyk.

Jeśli artykuł podobał się i chciałbyś/chciałabyś go polecić, możesz to zrobić tu:

https://wykop.pl/link/7122091/manipulacje-na-wykresach-jak-nie-dac-sie-oszukac-falszywemu-przekazowi

2 thoughts on “Wykresy – jak nie zostać zmanipulowanym cz. 1

  1. Czy nie jest też manipulacją nie przedstawienie przez Autora tekstu np brakujących wg niego danych w pominiętych latach, tylko sugerowanie, że ktoś a właściwie rząd chciał coś ukryć ? Wszyscy publikatorzy chcą w jakiś sposób pokazać swoje wyobrażenia. Myślę, że autor tego artykułu też się tego nie ustrzegł.

    1
  2. Moją rolą w tym tekście jest przedstawienie mechanizmów manipulacji a nie odkrycie ukrytych danych. Robię wykresy i prezentacje danych epidemicznych i dotyczących szczepień p/Covid-19 nie ukrywając żadnych danych. W następnej części pokażę praktykę zawężania danych oraz tzw. cherry picking polegające na prezentowaniu tylko tych danych, które pasują do lansowanej tezy.

    5

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *