W pierwszej części cyklu Wykresy – jak nie zostać zmanipulowanym przedstawiłem niektóre, najbardziej powszechne metody fałszowania wykresów, wymuszania odbioru niezgodnego z prawdą, za to zgodnego z zamierzonym przekazem.
Kontynuując temat, pokażę inne, może trochę bardziej subtelne sposoby wpływania na taki, a nie inny odbiór poprawnych skądinąd danych.
Obcięcie niewygodnych danych
Jest to prosta, ale skuteczna sztuczka, aby z normalnego, pofalowanego wykresu obrazującego sukcesy przeplatające się z porażkami stworzyć tchnący optymizmem, ale z gruntu fałszywy obraz nieustających sukcesów. Wystarczy wybrać odpowiedni zakres danych. W gruncie rzeczy przypomina to sprzedawanie używanego samochodu, zachwalanie jego zalet, a pomijanie wycieków oleju, stuków w silniku i wszechobecnej korozji.
Na poniższym rysunku (Rys. 1) lewy wykres prezentuje pełny zakres danych od stycznia do stycznia a prawy – wybrany zakres o cechach pasujących do naszej narracji. Spadki pominięto.

Zmiana przedziałów czasowych (resampling)
Brzmi to trochę abstrakcyjnie ale, w skrócie, polega na takiej agregacji danych, żeby niewygodne wahania wykresu góra/dół wtopiły się w ogólny trend wzrostowy. Najlepiej pokaże to przykład.

Wykres kwartalny nie pokazuje zbyt jednoznacznie trwałej i konsekwentnej tendencji wzrostowej. Aby wzmocnić przekaz tworzy się wykres roczny sumujący dane kwartalne. Wtedy trend wzrostowy wygląda optymistycznie i zachęcająco (dla inwestorów).
Obie powyższe techniki (obcięcie i resampling) można połączyć. Nazywają to “cherry picking” i jest niczym innym jak wybraniem pasującego do narracji zakresu danych z jednoczesnym tzw. upsamplingiem czasu, czyli gęstszym próbkowaniem wybranego przedziału czasowego. Prezentujemy wisienkę na torcie, a niewygodną resztę ukrywamy. Poniżej przykład.

Wykres po prawej stronie pokazuje rzeczywiste dane z kilku lat (agregowane z danych miesięcznych) charakteryzujące się zmiennością niepasującą do zamierzonej narracji. Manipulacja polega na wybraniu danych z jednego roku, rozbiciu ich na miesiące i przedstawienie jako ilustracji prezentowanej tezy. Technika jest wysoce nieetyczna, wprowadzająca w błąd czytelników, nieuczciwa.
Wykres danych skumulowanych
Jeśli potrzebujemy optymistycznego wykresu do niezbyt optymistycznych danych – jest na to sposób. Wykres kumulowany ma to do siebie, że ciągle rośnie, zatuszuje wszelkie wahania koniunktury. Wzrok niezbyt sobie radzi z rejestracją pochodnej (nachylenia krzywej) więc jest to rozwiązanie idealne. Poniżej przykład, który przekona nawet niezbyt przekonanych do tej techniki manipulacji.

Prawda, że piękne? Z danych o spadających obrotach miesięcznych otrzymaliśmy ROSNĄCĄ krzywą, a fakt, że to kumulacja z całego roku … klient tak szybko nie myśli.
Używanie niewłaściwej formy prezentacji
Powszechnie uważa się, że prezentacja w formie wykresu słupkowego i kołowego to dwie formy równoważne. Tak nie jest. Wykres kołowy powinien być używany do danych, które “sumują się do całości”, do 100%. Służy do porównywania udziału, najczęściej procentowego. Jeśli prezentuje inne dane, wprowadza w błąd. Wykres słupkowy (lub równoważny funkcjonalnie wykres liniowy) jest lepszy do porównywania danych dla grup, gdzie dane są wielkościami mianowanymi, na przykład sprzedaż, koszt, liczba szczepień, liczba zachorowań na Covid-19. Posłużę się przykładem, w którym użycie wykresu kołowego jest wyborem co najmniej niewłaściwym metodologicznie.

Załóżmy, że dane dla Teamu A, B, C przedstawiają ich zyskowność. Wykres słupkowy po prawej stronie jest prawidłową formą przedstawienia tych danych. Proporcje widac jak na dłoni. Wykres kołowy po lewej po pierwsze nie sumuje sie do 100% (bo i jak?), nie przemawia do wyobraźni, a gdyby został narysowany w projekcji 3D to dodatkowo faforyzowałby team na pierwszym planie, poprzez złudzenie perspektywy. Czy może dezinformować? Na pewno tak, choć nie celowo, ale bezwiednie.
Przeładowanie, nadmiar danych
Częstym błędem nadgorliwych “rzeźbiarzy” wykresów jest umieszczanie na wykresie zbyt wielkiej ilości danych, co czyni wykres nieczytelnym i nieatrakcyjnym. Jako przykład takiego overloadu pokażę wykres dziennych zakażeń SARS-CoV-2 we wszystkich krajach Europy z mojego programu, którego używam do tworzenia wizualizacji danych związanych z pandemią. Niewiele z niego wynika i na dobrą sprawę wystarczyłby wykres sumarycznych danych dla Europy aby pokazać dynamikę przebiegu pandemii.

Prezentacja danych nieskalowanych
Niektóre dane (na przykład liczba zachorowań na Covid-19) prezentowane w rozbiciu na województwa, powiaty lub różnego rodzaju kategorie, powinny być przedstawiane w odniesieniu do liczebności danej grupy tzw. kohorty. Tylko wtedy porównywanie, tworzenie rankingów mają sens. W przypadku danych epidemicznych liczbę zachorowań odnosimy na przykład do 100 tysięcy osób. Porównujmy porównywalne.
Jako przykład pokażę mapy obrazujące dzienną liczbę zachorowań na Covid-19 w województwach. Mapa po lewej stronie prezentuje liczbę zachorowań bez skalowania. Nie trzeba być geniuszem, żeby przewidzieć, że najwięcej zachorowań będzie w województwie mazowieckim, z racji wielkości populacji tego województwa. Wartość informacyjna tej mapki jest zerowa. Mapa po prawej stronie prezentuje dane skalowane do populacji i dopiero z takiej prezentacji można wyciągnąć bardziej odkrywcze wnioski.

Złudzenia wynikające z 3D
Nie zapominajmy, że wykresy można też robić w trzech wymiarach. Taka projekcja daje duże pole do popisu. Obiekty na pierwszym planie, “bliżej” obserwatora będą wydawały się większe niż w rzeczywistości. Jeśli jeszcze dodamy odpowiedni dobór kolorów… Można sprawić, że 20% udział w rynku naszej firmy będzie się wydawał większy niż 40% udział konkurencji, dlaczego nie? Poniżej przykład. Konkurent A wydaje się dwukrotnie mniejszy niż nasza firma mimo, że w rzeczywistości różnica jest co najwyżej 10-procentowa. Można? Można. Tylko czy to etyczne?

W następnej części cyklu przedstawię podsumowanie technik manipulacji wykresami oraz parę rad, jak się przed tym ustrzec, na co zwracać uwagę. Pamiętajmy też, że będąc na prezentacji mamy prawo, a wręcz obowiązek zadawania pytań. Pytajmy więc o szczegóły bo kto pyta ten nie wie, a My chcemy wiedzieć.
Doskonałe. I smutne zarazem, ale trudno :/