Broń matematycznej zagłady. Wszyscy jesteśmy na celowniku
Czym jest "beemzet"? Dlaczego zagrożeni rażeniem tej broni jesteśmy wszyscy? I czy można zrobić cokolwiek, żeby się przed jej działaniem ustrzec? W poszukiwaniu odpowiedzi na te pytania warto sięgnąć po książkę Cathy O’Neil pt. "Broń matematycznej zagłady. Jak algorytmy zwiększają nierówności i zagrażają demokracji".
Na świecie żyje ponad siedem miliardów osób. Z powodu ogromu danych rozpatrzenie każdego wniosku kredytowego, przygotowanie oferty ubezpieczeniowej czy zweryfikowanie aplikacji na studia jest przez człowieka zwyczajnie niemożliwe.
Firmy posługują się w tym celu algorytmami i modelami matematycznymi. Ich zadaniem jest przetwarzanie ogromnej liczby danych, co jest możliwe dzięki wysokiej mocy obliczeniowej. Według założeń big data ma dobrze służyć ludziom - są w końcu wolne od uprzedzeń i mają tylko i wyłącznie wskazywać obiektywny i poprawny wynik obliczeń.
Tyle w teorii. W praktyce rzecz już nie wygląda tak idealistycznie. Wszystko dlatego, że algorytmy te są pisane przez ludzi, a ci nie są nieomylni, bardzo rzadko też patrzą na świat obiektywnie. To przekłada się na tworzone przez nich narzędzia - nie opisują często zjawisk takimi, jakie są, tylko kreują rzeczywistość zgodną z wizją autora.
Tak wadliwie skonstruowany algorytm to tytułowa "broń matematycznej zagłady", mechanizm działający poza prawem i zasięgiem naszego wzroku. Cathy O’Neil, matematyczka i weteranka kryzysu finansowego z Wall Street, w swojej książce dowodzi, że "beemzety" wykorzystują nasze słabości, zwiększając nierówności społeczne i zagrażając demokracji.
Co gorsze, przekonuje autorka, zjawisko to występuje wszędzie: na uczelniach i w szkołach, w sieciowych restauracjach, służbie zdrowia, internetowych agencjach reklamowych, bankach, towarzystwach ubezpieczeniowych, policji, mediach społecznościowych czy podczas kampanii wyborczych...
Przeczytaj fragment książki Cathy O'Neil
Ubezpieczenia dla wybranych
Pod koniec XIX wieku pewien renomowany statystyk o imieniu Frederick Hoffman stworzył potężny "beemzet". Jest wielce prawdopodobne, że Hoffman, Niemiec pracujący dla Prudential Life Insurance Company, nie miał przy tym złych zamiarów. Jego późniejsze prace bardzo przyczyniły się do poprawy zdrowia publicznego. Prowadził wartościowe badania nad malarią oraz był jedną z pierwszych osób, które wiązały raka z paleniem tytoniu.
Jednak pewnego wiosennego dnia w 1896 roku Hoffman opublikował 330-stronicowy raport, który przyczynił się do spowolnienia walki o równość rasową w Stanach Zjednoczonych oraz utrwalił status milionów osób jako obywateli drugiej kategorii. Raport ten wykorzystywał zaawansowane narzędzia statystyczne, by wykazać, że życie czarnoskórych Amerykanów jest tak wypełnione ryzykiem, iż jako rasę należało ich traktować jako niemożliwych do ubezpieczenia.
Podobnie jak wiele "beemzetów", które zdążyliśmy już omówić, analiza Hoffmana była statystycznie wadliwa. Mieszały mu się pojęcia związku przyczynowo-skutkowego z korelacją, przez co cały potężny zasób danych, który udało mu się zgromadzić, służył wyłącznie potwierdzeniu postawionej przez niego tezy: rasa stanowi silny wyznacznik długości życia. Rasizm był tak silnie zagnieżdżony w jego rozumowaniu, że najwyraźniej nie przyszło mu do głowy, żeby zadać sobie pytanie, czy ubóstwo i niesprawiedliwość społeczna mogły mieć coś wspólnego ze wskaźnikami śmiertelności Afroamerykanów? Czy brak odpowiedniej edukacji, nowoczesnej kanalizacji, bezpiecznych miejsc pracy oraz dostępu do świadczeń zdrowotnych mogły być przyczyną umierania we wcześniejszym wieku?
Rynek ubezpieczeń stoi u progu fundamentalnych zmian
Hoffman popełnił również fundamentalny błąd statystyczny. Podobnie jak autorzy raportu Nation at Risk z 1983 roku, również Hoffman zaniedbał stratyfikacji wyników swoich badań. Widział Afroamerykanów wyłącznie jako wielką homogeniczną grupę. Nie zadał więc sobie trudu, by podzielić ich na różne geograficzne, społeczne czy ekonomiczne podgrupy. W jego oczach czarnoskóry nauczyciel, prowadzący zwyczajne życie w Bostonie lub Nowym Jorku, niczym nie różnił się od robotnika pracującego po dwanaście godzin dziennie przy zbiorach w delcie Mississippi. Hoffmana zaślepiały względy rasowe, podobnie jak całą branżę, w której pracował.
Oczywiście z czasem ubezpieczyciele rozwinęli nieco swój sposób myślenia i zaczęli sprzedawać polisy ubezpieczeniowe rodzinom afroamerykańskim. Bądź co bądź, można było na tym zarobić pieniądze. Jednak Hoffmanowska idea, że można wskazać całe kategorie ludzi, które generują większe (czasem zbyt duże) ryzyko, przetrwała kolejne dekady. Agencje ubezpieczeniowe, podobnie jak bankierzy, miały wyznaczone obszary, w których wolały nie inwestować. Ta okrutna praktyka zwana "wykreślaniem" została zdelegalizowana przez szereg regulacji, włączając w to Fair Housing Act z 1968 roku.
Obecnie, niemalże pół wieku później, wykreślanie ma się jednak jak najlepiej, chociaż przybiera o wiele subtelniejsze formy. Jest kodowane w "beemzetach" najnowszej generacji. Podobnie jak niegdyś Hoffman, obecni twórcy takich modeli mylą związek przyczynowy z korelacją. W ten sposób karzą osoby ubogie, w szczególności jeżeli wywodzą się one z mniejszości rasowych bądź etnicznych. Swoje analizy podpierają zaś ogromem danych statystycznych, co sprawia, że nad efektami ich pracy unosi się nimb obiektywnej nauki.
Odbywając tę algorytmiczną podróż przez życie, przepchaliśmy się łokciami przez proces edukacji, zdobyliśmy pracę (nawet jeżeli musimy w niej pracować według nieprzewidywalnych grafików), zaciągnęliśmy kredyty oraz obserwowaliśmy, jak nasza zdolność kredytowa staje się synonimem innych zalet lub wad. Teraz nadeszła pora, by chronić nasze najcenniejsze zasoby: dom i samochód oraz zdrowie naszej rodziny, a także bezpieczeństwo materialne osób, które pozostawimy na tym świecie.
Sektor ubezpieczeń wyodrębnił się z nauk aktuarialnych, dyscypliny, której korzenie sięgają XVII wieku. Był to okres, w którym rosnąca w siłę europejska burżuazja zgromadziła ogromne majątki. Po raz pierwszy w historii pozwoliło to wielu osobom na luksus wybiegania myślami w przyszłość, do następnych pokoleń.
W miarę jak rozwój matematyki dostarczał narzędzi niezbędnych do tworzenia przewidywań i prognoz, wczesne pokolenie analityków danych poszukiwało nowych kierunków obliczeń. Jednym z nich był właściciel londyńskiego sklepu z pasmanterią, John Graunt. Przeanalizował zapisy narodzin i zgonów po to, by w 1682 roku stworzyć pierwsze badanie wskaźników śmiertelności dla całej społeczności.
Wyliczył na przykład, że dzieci w Londynie obarczone są sześcioprocentowym ryzykiem śmierci w czasie każdego z pierwszych sześciu lat życia (za pomocą statystyk był również w stanie obalić mit, że za każdym razem, gdy nowy monarcha wstępował na tron, miasto nawiedzała zaraza). Po raz pierwszy matematycy mogli wyliczyć najbardziej prawdopodobny wiek śmierci danej osoby. Oczywiście liczby te nie sprawdzały się w odniesieniu do jednostek, ale przy wykorzystaniu wystarczająco dużej puli danych można było wyliczyć przedział wartości oraz średnią.
Matematycy nie próbowali udawać, że potrafią przewidzieć los każdej jednostki, tego nie dało się zrobić. Byli jednak w stanie przewidzieć prawdopodobieństwo wystąpienia wypadków, pożarów i śmierci w obrębie dużych grup ludzi. Na przestrzeni kolejnych trzech wieków wokół tych prognoz wykiełkowała i rozrosła się rozległa branża ubezpieczeniowa. Ta nowa gałąź przemysłu po raz pierwszy dała ludziom szansę na połączenie swojego kolektywnego ryzyka, chroniąc w ten sposób jednostki przed nieszczęśliwymi zrządzeniami losu.
Obecnie, w obliczu intensywnego rozwoju technologii analizy danych oraz komputerów sieciowych, rynek ubezpieczeń stoi u progu fundamentalnych zmian. Mając dostęp do tak ogromnej ilości informacji, włączając w to dane genetyczne, schematy snu, ćwiczeń i diety oraz umiejętność prowadzenia pojazdów, ubezpieczyciele są w stanie z coraz większą dokładnością kalkulować ryzyko dla pojedynczych ludzi, wyzwalając się od ograniczeń związanych z uogólnieniami prawdziwymi dla większych grup. Dla wielu może to być zmiana na dobre. Entuzjasta zdrowego stylu życia może wykazać za pomocą danych, że dziennie sypia po osiem godzin, spaceruje po dziesięć mil oraz odżywia się w zasadzie wyłącznie zielonymi warzywami, orzechami i olejami pozyskiwanymi z ryb. Dlaczego nie miałby dostać za to zniżki kosztów ubezpieczenia zdrowotnego?
Jak zobaczymy, coraz powszechniejsza staje się obecnie tendencja do indywidualnego oceniania. Już teraz jednak ubezpieczyciele wykorzystują dane do tego, by dzielić nas na coraz mniejsze plemiona, i oferują każdemu z nich inne produkty i usługi w różnych cenach. Dla niektórych może to być równoznaczne ze spersonalizowaną obsługą, problem jednak tkwi w tym, że nie jest to obsługa zindywidualizowana. Modele łączą nas w niewidzialne kategorie, skupiające jednostki o schematach zachowań podobnych do naszego. Niezależnie od jakości wykorzystywanej w tym celu analizy, brak transparentności takich systemów może prowadzić do szkodliwych skutków.
"Beemzety" zwiększają nierówności społeczne i zagrażają demokracji
Weźmy na przykład ubezpieczenia motoryzacyjne. W 2015 roku badacze z Consumer Reports przeprowadzili w skali kraju poszerzoną analizę różnic cenowych. Uwzględnili w niej ponad dwa miliony propozycji od wszystkich najważniejszych ubezpieczycieli, zaoferowane hipotetycznym klientom z obszaru każdego z 33 419 kodów pocztowych w kraju. Rezultaty ich badań wskazały skrajnie niesprawiedliwe różnice, osadzone w e-punktacjach, które omawialiśmy w poprzednim rozdziale.
Ubezpieczyciele pobierają e-punktacje z raportów kredytowych, po czym, wykorzystując własne algorytmy, tworzą swoje ratingi, czyli kolejne e-punktacje, które są zmiennymi pośrednimi dla oceny odpowiedzialności przy prowadzeniu auta. Consumer Reports odkrył jednak, że takie e-punktacje, zawierające różnego rodzaju dane demograficzne, często mają dominujący wpływ na ocenę bezszkodowej jazdy. Innymi słowy, to jak zarządzasz swoimi pieniędzmi, liczy się bardziej niż to, w jaki sposób prowadzisz samochód.
Przykładowo, w stanie Nowy Jork spadek oceny zdolności kredytowej kierowcy z "doskonałej" na zaledwie "dobrą" mógł oznaczać wzrost rocznych kosztów ubezpieczenia komunikacyjnego o 255 dolarów. Natomiast na Florydzie osoby dorosłe z czystą historią szkód komunikacyjnych, ale kiepską oceną kredytową, płaciły przeciętnie 1552 dolary więcej niż tacy sami kierowcy z doskonałą zdolnością kredytową, lecz notowane jako skazane za jazdę po pijanemu.
Omówiliśmy już, jak narastająca praktyka opierania się na ocenie zdolności kredytowej w różnych branżach gospodarki działa na niekorzyść osób ubogich. Wskazane tutaj przypadki stanowią kolejny przykład takiego trendu, do tego przykład wyjątkowo rażący, z uwagi na fakt, że posiadanie ubezpieczenia komunikacyjnego jest obowiązkiem każdego kierowcy. Specyfiką tej branży jest koncentracja na zmiennych pośrednich, mimo dostępu do znacznie bardziej relewantnych danych.
Trudno mi wyobrazić sobie dane bardziej istotne dla ubezpieczyciela niż informację o skazaniu za jazdę po pijanemu. Świadczą one o wysokim ryzyku dokładnie w tej dziedzinie, którą stara się oszacować. Ta informacja ma w dodatku o wiele większą wagę niż inne zmienne pośrednie brane pod uwagę, takie jak np. średnia ocen w szkole. Pomimo tego, informacja ta może liczyć się mniej od punktacji opartej na danych finansowych zebranych w raporcie o zdolności kredytowej (które, jak mieliśmy okazję się przekonać, mogą zawierać błędy).
Dlaczego więc modele przywiązują taką wagę do oceny kredytowej? Otóż, podobnie jak inne "beemzety", systemy automatyczne mogą przetwarzać oceny kredytowe z dużą wydajnością oraz w ogromnej skali. Osobiście jednak uważam, że główną przyczyną takiego działania jest chęć zysku. Skoro ubezpieczyciel ma do dyspozycji system, za pomocą którego może wyciągać dodatkowe 1552 dolary od kierowcy z czystym kontem szkód, po co go zmieniać?
Podobnie jak w innych przypadkach, ofiary ich "beemzetów" będą z reguły ubogie i gorzej wykształcone, a znaczna ich część to imigranci. Istnieje mniejsze prawdopodobieństwo, że zorientują się, że są oszukiwani. W dzielnicach, w których jest więcej firm udzielających pożyczek krótkoterminowych niż brokerów ubezpieczeniowych, trudno szukać niższych stawek. W skrócie, e-punktacja nie musi przekładać się na bezpieczne prowadzenie samochodu, jednakże jej wykorzystywanie pozwala na wyodrębnienie przynoszącej potencjalne zyski grupy kierowców, którzy są podatni na nadużycia. Wiele z tych osób bardzo potrzebuje samochodu, ponieważ zależy od tego ich zatrudnienie. Pobieranie od nich opłat według zawyżonych stawek dobrze zaś wpływa na wyniki finansowe.
Model jest dopasowywany tak, żeby od każdej z podgrup wyciągać jak najwięcej pieniędzy
Z perspektywy ubezpieczyciela sytuacja jest podwójnie korzystna. Dobry kierowca z kiepską oceną kredytową stwarza niskie ryzyko oraz staje się dobrym źródłem dochodu. Dzięki temu firma może pożytkować część z zysków z takich polis w innych obszarach na pokrycie strat, wynikających z niedoskonałości swojego modelu. Mogą to być między innymi kierowcy z doskonałymi ocenami kredytowymi, płacący niskie składki i rozbijający samochody pod wpływem alkoholu.
Może to brzmieć cynicznie, ale to nic w porównaniu np. z algorytmem optymalizacyjnym firmy Allstate, ubezpieczyciela, który reklamuje się hasłem "specjaliści od dobrego traktowania". Grupa monitorująca zachowania antykonsumenckie Consumer Federation of America (CFA) twierdzi, że Allstate analizuje dane konsumenckie i demograficzne po to, by ustalić prawdopodobieństwo, że klienci będą poszukiwać niższych cen. Jeżeli jest ono niskie, rozsądne jest oferowanie im wyższych stawek. I dokładnie tak postępuje.
A bywa jeszcze gorzej. Składając skargę do Departamentu Ubezpieczeń stanu Wisconsin, CFA wskazała sto tysięcy mikrosegmentów w schematach cenowych Allstate uzależnionych od szacunków, ile członkowie każdej z tych grup byliby skłonni zapłacić za ubezpieczenie. W rezultacie niektóre osoby otrzymują zniżki od średniej stawki, sięgające 90 procent, podczas gdy inni otrzymują oferty zawyżone o 800 procent.
Robert Hunter, dyrektor CFA do spraw ubezpieczeń oraz były komisarz do spraw ubezpieczeń stanu Teksas, twierdzi, że "polityka cenowa Allstate oderwała się nie tylko od zasad premiowania opartego na szacowaniu ryzyka, lecz także od zasad praworządności". Allstate odpowiedziało na zarzuty twierdzeniem, że były one nieścisłe. Przyznało jednak, iż "przy kształtowaniu cen ubezpieczeń były wykorzystywane analizy rynkowe, zgodne z praktyką przyjętą w tej branży". Innymi słowy, modele tej firmy analizują szereg zmiennych pośrednich po to, by wyliczać, na ile można kasować klientów, reszta zaś tej branży robi dokładnie to samo.
Polityka cenowa wynikająca z takiej praktyki jest niesprawiedliwa. Można by uniknąć tego typu nadużyć, gdyby schematy cen ubezpieczeń były przejrzyste, a klienci mogli z łatwością je porównywać. Podobnie jednak jak inne "beemzety", również ten jest nietransparentny. Każdy klient jest traktowany w inny sposób, a modele są zoptymalizowane tak, aby od osób zdesperowanych i nieświadomych wyciągać tyle pieniędzy, ile się tylko da. Skutkuje to powstaniem kolejnego sprzężenia zwrotnego powodującego, że biedni kierowcy, którzy najmniej mogą sobie pozwolić na wysokie stawki, pozbawiani są każdego centa.
Model jest dopasowywany tak, żeby od każdej z podgrup wyciągać jak najwięcej pieniędzy. Część z nich nieuchronnie popadnie przez to w tarapaty finansowe, zaprzestając spłacania kredytów na samochód, rachunków kredytowych lub płacenia czynszu. To z kolei jeszcze bardziej obniży ich oceny kredytowe i sprawi, że spadną do jeszcze niższego mikrosegmentu.
Cathy O'Neil, "Broń matematycznej zagłady. Jak algorytmy zwiększają nierówności i zagrażają demokracji". Wydawnictwo Naukowe PWN, data wydania: 20.09.2017.