Big Data

Coraz częściej serfując po internecie napotykamy na interesujące nas informacje i produkty. Wchodząc na stronę internetową sklepu z muzyką otrzymujemy propozycję zakupu płyt naszych ulubionych zespołów, informując znajomych o planach wakacyjnych przez Facebooka dostajemy informacje o noclegach w wybranym przez nas miejscu, a zaraz po zalogowaniu się na stronę banku dostajemy ofertę pożyczki, lub zakupu nowego smartfona. Czyżby bank czytał w naszych myślach?

Od kilkudziesięciu lat cena systemów gromadzących i przetwarzających dane stale spada. Średnio co dwa lata podwaja się moc obliczeniowa i ilość pamięci, jakie możemy nabyć za tę samą sumę pieniędzy. Gromadzenie olbrzymich ilości danych stało się tanie, co umożliwiło powstanie nowej dziedziny informatyki – „Big Data”, czyli systemów operujących petabajtami danych. Z możliwości oferowanych przez Big Data korzystają banki, koncerny telekomunikacyjne, instytuty naukowe, organizacje rządowe i inne instytucje, a także coraz większa liczba użytkowników indywidualnych. Jeśli brakuje ci miejsca na dysku, zawsze możesz przechować kilka gigabajtów danych na Google Disc, Dropbox, czy Chomikuj. Korporacje internetowe chętnie przyjmą od ciebie dane i przechowają za darmo przez długi okres czasu. Dodatkową zachętą dla powierzenia naszych danych korporacjom jest możliwość dostępu do nich z dowolnego miejsca świata i dzielenia się nimi z przyjaciółmi. W zamian za to musisz udzielić zgody na przetwarzanie tych danych i udostępnianie ich innym firmom bez twojej wiedzy.

Jednym z najważniejszych miejsc, gdzie internauci przesyłają swoje dane internetowym korporacjom są serwisy społecznościowe. Większość użytkowników podaje w nich swoje prawdziwe dane osobowe, zdjęcia umożliwiające identyfikację, oraz niemal kompletną listę osób, z którymi utrzymują kontakty. Profile w portalach społecznościowych są jednym z najważniejszych źródeł informacji o internautach, gdyż na podstawie informacji w nich zawartych można ustalić, z kim dana osoba się kontaktuje, jakie są jej zainteresowania i przekonania, czym zajmuje się na co dzień, co robi w czasie wolnym i jakie ma plany na przyszłość. Historie aktywności w serwisach społecznościowych są pierwszym w historii tak dokładnym zapisem życia setek milionów mieszkańców naszej planety. Coraz więcej ludzi zaczyna swoją „karierę” na serwisie społecznościowym jeszcze przed narodzinami, gdyż ich matki wrzucają tam swoje zdjęcia z USG.

Kolejnym przejawem przejmowania przez korporacje naszych danych jest korzystanie przez większość internautów z bezpłatnej poczty elektronicznej. Większość firm oferujących tę usługę żąda od użytkowników wyrażenia zgody na dostęp do przesyłanych informacji. Prywatność korespondencji, która w świecie poczty tradycyjnej była ceniona bardzo wysoko, w XXI wieku coraz częściej spychana jest na drugi plan.

Jedną z najcenniejszych informacji, jakie możemy podarować korporacjom, są dane o tym, co kupujemy. Dane o naszych zakupach przekazujemy bankom poprzez korzystanie z należących do nich kart płatniczych, lub zakupy w sklepach internetowych gromadzących dane o swoich klientach. Korzystanie z wszelkiego rodzaju programów lojalnościowych i kart klubowych też oznacza przesyłanie danych o swoich zakupach odpowiednim firmom. Wiele wyszukiwarek internetowych gromadzi informacje o wpisywanych do nich tekstach i przyporządkowuje je do konkretnych użytkowników.

Również informacje o tym, na jakie strony wchodzimy, mogą być łatwo gromadzone przez korporacje. Gdy otwieramy nową stronę internetową, na naszym komputerze pojawia się mały plik „cookie” (ciasteczko). Plik ten zbiera informacje o tym, na jakie strony internetowe (w obrębie danego serwera) wchodzimy i co na nich robimy. Informacje te są następnie przesyłane na serwer, z którym się komunikowaliśmy, co umożliwia stworzenie historii naszej aktywności. Połączenie danych gromadzonych o nas przez różne serwery pozwala całkiem dobrze określić, co robimy w internecie, jakie są nasze zainteresowania i potrzeby. Istnieje możliwość zablokowania obsługi ciasteczek w przeglądarce internetowej, lecz bardzo niewielu internautów zdaje sobie z tego sprawę, a jeszcze mniej z tej możliwości korzysta.

Większość współczesnych ludzi przyjęłaby ze zgrozą myśl, że ktoś może im bez ich zgody wszczepić pod skórę czip, który śledzi każdy ich ruch. Uznaliby, że to permanentna inwigilacja, na którą nigdy nie zgodzi się żadne społeczeństwo obywatelskie. Stosowanie takich urządzeń, wysyłających non-stop sygnały radiowe informujące o lokalizacji użytkownika byłoby nie do pomyślenia w państwie demokratycznym, prawda?

A czym jest telefon komórkowy, jeśli nie właśnie takim urządzeniem? Jeśli każdy obywatel nosi przy sobie działające non-stop urządzenie lokalizujące, czipy wszczepiane pod skórę nie są już potrzebne. Nowoczesne smartfony przesyłają informacje o swoim położeniu pozyskane nie tylko poprzez komunikację ze stacjami przekaźnikowymi, ale również dzięki wbudowanemu w urządzenie odbiornikowi GPS. Wielu ich użytkowników przekazuje na bieżąco dane o swojej lokalizacji twórcom aplikacji wykorzystujących lokalizację.

Tak zebrane dane nie pozostają oczywiście na zawsze w bazach danych firm, którym je przekazaliśmy, lecz są przedmiotem handlu pomiędzy sklepami internetowymi, instytucjami finansowymi, reklamodawcami, dostawcami usług internetowych i innymi podmiotami zainteresowanymi wiedzą o nas.

Najpowszechniejszym i najbardziej irytującym sposobem wykorzystywania pozostawionych przez nas w sieci danych jest podsuwanie nam specjalnie sprofilowanych reklam. Napisałeś na Facebooku, że jedziesz do Barcelony? Na przeglądanych przez ciebie stronach zaraz pojawią się oferty biletów lotniczych i hoteli w Barcelonie. Wpisałeś w wyszukiwarkę „układanie parkietów, tanio”? Możesz liczyć na reklamy przeznaczone dla remontujących dom. Na podstawie twojej aktywności na portalach społecznościowych, w sklepach internetowych i historii przeglądanych przez ciebie stron reklamodawca wyświetli Ci reklamę dopasowaną do twoich zainteresowań.

Innym bardzo ważnym celem, do którego korporacje wykorzystują wiedzę o nas jest ocena naszej wiarygodności kredytowej i ofert finansowych, które mogą nas zainteresować. Mając dokładny bilans naszych wydatków, banki mogą obliczyć, na jaką pożyczkę nas stać. Korzystając z informacji z portali społecznościowych, banki domyślą się, na co będziemy chcieli wziąć pożyczkę, lub który fundusz inwestycyjny może nas zainteresować. Zaglądając na strony internetowe banku i interesując się konkretnymi produktami, możemy już po kilku minutach dostać SMSa z konkretną ofertą. Bank oszacuje nasze potrzeby i możliwości finansowe na podstawie zgromadzonych wcześniej informacji. Odnajdując podejrzane wzorce w naszych zachowaniach banki mogą przewidzieć naszą przyszłość i wkalkulować ją w swoje ryzyko. Jeśli mężczyzna będący od dziesięciu lat w małżeństwie nagle zaczyna regularnie wysyłać kwiaty pod obcy adres, to znaczy, że w najbliższym czasie grozi mu rozwód, więc nie należy udzielać mu pożyczki. Jeśli kobieta w wieku 30 lat, będąca od pięciu lat w nieformalnym związku zaczyna kupować witaminy i poradniki dla młodych mam, to należy zacząć serwować jej reklamy artykułów dla niemowląt.

Szczególnie groźne dla obywatela jest upublicznianie danych dotyczących jego stanu zdrowia. Informacje o przebytych chorobach i przyjmowanych lekarstwach mogą uniemożliwić skorzystanie z dodatkowego ubezpieczenia zdrowotnego, lub ubezpieczenia na życie. Szczególnie narażone na to jest najmłodsze pokolenie obywateli, których rodzice od pierwszych dni ich życia zasypują internet masą zdjęć i informacji o stanie ich zdrowia.

Równie ważne, jak informacja o tym, co chcemy kupić jest informacja o tym, ile możemy na to wydać. Bogatemu klientowi można zaoferować produkt w wyższej cenie, jeśli w reklamie użyjemy haseł typu „premium”, „exclusive”, czy „luksusowy”. Klient biedny dostanie inną ofertę, być może korzystniejszą finansowo, ale będzie mu znacznie trudniej sfinansować ją z pożyczonych pieniędzy.

Profilowanie klientów przyniesie wielu z nich konkretne korzyści – dzięki lepszej wiedzy o nich bank chętniej i taniej sprzeda im pożyczkę, lub ubezpieczenie na życie, łatwiej będzie im też znaleźć interesujące ich produkty. Czasem jednak chęć korzystania z tych usług postawi konsumenta w niewygodnej sytuacji. Jeśli nasz przyjaciel straci pracę, lub co gorsza popadnie w konflikt z prawem, my też, kontaktując się z nim, możemy zostać zaliczeni do grupy „podwyższonego ryzyka”. Czy nie lepiej będzie więc usunąć go z grona znajomych i zerwać z nim wszelkie kontakty? W świecie Big Data znacznie trudniej będzie osobom, które nie udostępniają korporacjom informacji o sobie. Nie mając wiedzy o nich banki i potencjalni pracodawcy będą z góry traktować ich jako osoby podejrzane.

Kolejnym, być może groźniejszym posiadaczem informacji o nas są służby i instytucje podległe rządom. Agencje rządowe dysponują nie tylko danymi pozostawianymi przez nas korporacjom, pozyskiwanymi w programach takich, jak PRISM, ale też danymi telekomunikacyjnymi i e-mailami, co umożliwia jeszcze dokładniejsze określenie tego, z kim się komunikujemy, czym się interesujemy i gdzie przebywamy. Istnieją bardzo mocne przypuszczenia, że rząd USA monitoruje całą przechodzącą przez ten kraj łączność za pomocą urządzeń wpiętych w podmorskie kable światłowodowe wchodzące i wychodzące z tego kraju. Aby udostępnić swoje dane podmiotom takim, jak National Security Agency (NSA), wcale nie musisz wysyłać maila właśnie do Stanów Zjednoczonych. Wystarczy, że gdzieś po drodze przepłynie on przez serwer w USA, co w dzisiejszym świecie zdarza się dość często. W ten sposób również amerykańskie agencje wywiadowcze mogą legalnie szpiegować własnych obywateli, kiedy ich dane są przesyłane przez serwery za granicą.

Wszystkie liczące się na świecie mocarstwa wydają coraz większe sumy na gromadzenie i przetwarzanie danych. W Utah, na zachodzie USA powstaje właśnie za dwa miliardy dolarów olbrzymie centrum przetwarzania danych. Utah Data Center będzie prawdopodobnie najpotężniejszym tego typu ośrodkiem na świecie, dającym rządowi USA możliwości, o jakich nie mógł wcześniej nawet marzyć. W Wielkiej Brytanii służba o nazwie Government Comunications Headquarters (GCHQ) od kilku lat prowadzi podobny do PRISM tajny program zbierania danych o internautach. Rządy Chin i Rosji też nie pozostają bierne, a służby tych krajów też zgromadziły już głęboką wiedzę na temat obywateli swojego i innych krajów.

Większość danych przesyłanych światłowodami jest zakodowana i odszyfrowanie ich wymaga pewnego wysiłku. Nie są jednak szyfrowane tzw. metadane – czyli informacje np. o tym, skąd pochodzi plik i do kogo jest wysyłany, oraz jaka może być jego treść. To wystarczy, aby ocenić, czy jest on wart zapisania i odszyfrowania, czy też można go pominąć. W ten sposób służby gromadzą bazę „podejrzanych” informacji, czyli danych pochodzących od „podejrzanych” użytkowników, lub z „podejrzanych” miejsc. Pozwala to dokładnie inwigilować osoby, które nas interesują i jednocześnie nie tracić czasu na analizowanie masy mniej wartościowych informacji.

Pierwszym i najmniej kontrowersyjnym sposobem wykorzystywania zebranych danych jest wyszukiwanie sprawców przestępstw i osób, które mogą się przestępstw dopuścić. Do takich osób należą np. potencjalni terroryści. Każde udaremnienie zamachu terrorystycznego jest uznawane za wielki sukces służb, a każdy przeprowadzony zamach za wielką ich porażkę. Wynika to przede wszystkim z olbrzymiego zainteresowania mediów, a nie z rzeczywistego zagrożenia, które jest dla przeciętnego obywatela znacznie mniejsze, niż zagrożenie powodowane przez cukrzycę, lub wypadki samochodowe. Potencjalni terroryści mogą być namierzeni przez służby gdy piszą o swoich planach w internecie, wyjeżdżają do podejrzanych krajów, lub kontaktują się z innymi, już znanymi służbom terrorystami. Również sprawcy innych przestępstw coraz częściej namierzani są dzięki analizie zebranych o nich danych. Jeśli złodziej smartfona zacznie go używać do robienia sobie nim zdjęć, które potem wrzuci do internetu, namierzenie go będzie bardzo proste. Jeśli chuligan dokona w krótkim okresie czasu kilku aktów wandalizmu w różnych miejscach, można zidentyfikować go dzięki danym o lokalizacji jego telefonu komórkowego.

Kolejnym celem, do którego organy państwa mogą wykorzystywać zebrane od obywateli informacje, jest wykrywanie oszustw podatkowych i przypadków wyłudzania świadczeń od opieki społecznej. Bywa, że osoba, która od dłuższego czasu pobiera świadczenie dla bezrobotnych, pochwali się na portalu społecznościowym wyjazdem na drogie wakacje lub zakupem ekskluzywnego sprzętu. W takim wypadku warto wysłać do niej kontrolę, która sprawdzi, czy dalsze wypłacanie zasiłku jest zasadne. Również zarejestrowanie drogiego samochodów przez skromnie zarabiającego urzędnika państwowego może wzbudzić podejrzenia odpowiednich służb.

Interesująca dla państwa może być też wszelkiego rodzaju aktywność osób dopuszczonych do tajemnic państwowych, które mogłyby potencjalnie uciec za granicę, zabierając ze sobą ściśle strzeżone tajemnice. Wraz z rozszerzaniem zakresu inwigilacji osoby te i ich bliscy będą coraz lepiej monitorowani.

Dziś możliwości serwerów posiadanych przez agencje wywiadowcze umożliwiają im odczytywanie na bieżąco tylko niewielkiej części strumienia przechwytywanych danych. Nowe serwery należące do służb mają coraz większą moc obliczeniową, lecz równocześnie rośnie strumień danych przesyłanych przez światłowody i jakość stosowanych zabezpieczeń. Oznacza to, że nowe, liczne i dobrze zabezpieczone dane są przez pewien czas bezpieczne, lecz te pochodzące sprzed kilku lat, mające mniejszą objętość i słabsze zabezpieczenia, nie stanowią już dla służb tajemnicy. Za kilka lat możliwe więc będzie odszyfrowanie, skatalogowanie i przeanalizowanie wszystkich danych przesłanych przez terytorium USA przed 2013 rokiem.

Najciekawszym i najbardziej kontrowersyjnym zastosowaniem Big Data jest używanie tych technologii w kampanii wyborczej. W 2008 roku Barack Obama w swojej kampanii wyborczej na masową skalę korzystał z mediów społecznościowych. Rzesze jego zwolenników wspierały czarnoskórego kandydata na Facebooku, Twitterze, oraz w rozsyłanych przez siebie mailach. John McCain nie korzystał na taka skalę ze wsparcia w internecie i przegrał wybory zdobywając o połowę mniej głosów elektorskich. W 2012 roku, gdy Obama znowu potrzebował poparcia swoich zwolenników, jego sztab miał już przygotowaną listę adresów mailowych 13 milionów ludzi, którzy poparli go w poprzedniej kampanii. Wysyłając do nich na próbę wiadomości z prośbą o poparcie, ludzie Obamy uczyli się, które hasła działają na jaki typ wyborców, z jakimi postulatami zgadzają się młodzi, z jakimi kobiety, a z jakimi Afroamerykanie. Sortując swoich wyborców według odpowiednich algorytmów, sztab Obamy był w stanie dokładnie dopasować swój przekaz do wyborców w konkretnym stanie, z konkretnej grupy społecznej, o konkretnych zainteresowaniach, czy przekonaniach politycznych. Sztab republikanów, który w 2012 roku zorientował się, jak wielka rolę w polityce odgrywają dane o wyborcach, również próbował wykorzystywać dane o swoich zwolennikach, lecz wtedy było już na to za późno. Barack Obama znowu wygrał wybory, choć tym razem już znacznie mniejszą różnicą głosów.

Od czasu Baracka Obamy rola mediów społecznościowych w podejmowaniu decyzji przez wyborców jest już ewidentna. W każdej kolejnej kampanii wyborczej członkowie sztabów wyborczych będą coraz więcej uwagi poświęcać na reklamę w serwisach społecznościowych i analizowanie danych o wyborcach. Na naszych oczach zmienia się model relacji pomiędzy kandydatem, a wyborcą. Dzięki nowym narzędziom możliwe jest wyświetlanie każdemu internaucie innej reklamy wyborczej w zależności od jego poglądów i zainteresowań. Bezrobotny obywatel dostanie informację, że promowany kandydat chce stworzyć dużo nowych miejsc pracy, osoba zainteresowana ochroną środowiska dowie się o tym, że promowany kandydat też uważa to za ważne, nauczyciel zostanie poinformowany o stanowisku jego partii w kwestii edukacji, a ktoś, kto niedawno narzekał na mandat odkryje, że pewien konkretny polityk też uważa, że należy zrobić z tym porządek. Odpowiednie dopasowanie komunikatu do odbiorcy pozwoli odwrócić uwagę od sprzeczności w programie partii i pomoże zbudować jej pozytywny wizerunek. Dzięki bieżącemu monitorowaniu serwisów społecznościowych wolontariusze ze sztabów wyborczych będą mogli dzwonić do wyborców, kiedy ci akurat mają czas i są w dobrym humorze. Portal społecznościowy, który zna preferencje wyborcze swojego użytkownika najchętniej podsunie mu linki do odpowiadających mu inicjatyw wyborczych. Jeśli dodatkowo odpowiednio sprofilowane informacje ukażą się na odwiedzanych przez niego stronach internetowych, to spowoduje to odcięcie użytkownika od wszelkich informacji niezgodnych z linią popieranej przez niego partii.

Indywidualizacja przekazu stwarza możliwość promowania, lub wyciszania inicjatyw obywatelskich, w zależności od tego, która z opcji bardziej opłaca się decydentom. Jeśli wezwanie do protestów rozpowszechniane przez Facebooka będzie często i wysoko pojawiać się na tablicy osób, które je poparły i ich znajomych, szansa na odniesienie sukcesu znacząco wzrośnie. Rząd, który przekupi media społecznościowe, może znacznie łatwiej i taniej zapewnić sobie spokój, niż przeprowadzając niezbędne dla kraju reformy.

Wiadomości, jakie czytamy na stronach internetowych, na podstawie których budujemy swoją wiedzę i światopogląd, stanowią potężne narzędzie oddziaływania na konsumenta. Przeczytanie artykułu informacyjnego stawiającego jakiś produkt, lub firmę w pozytywnym świetle może zachęcić nas do skorzystania z jej usług znacznie efektywniej, niż profesjonalnie wykonana kampania reklamowa. Reklamodawcy gotowi byliby wiele zapłacić, aby redaktorzy gazet i portali informacyjnych pisali pozytywnie o ich produktach. Większość internautów nie chce płacić za dostęp do informacji, dlatego właściciele popularnych portali informacyjnych coraz częściej oszczędzają na zawartości merytorycznej stron, lub szukają dodatkowych źródeł dochodu, takich jak pisanie artykułów na zamówienie firm, lub sprzedaż danych o internautach.

Przekazywanie przez korporacje naszych danych rządom jest zjawiskiem powszechnym i najczęściej uregulowanym prawnie. Możliwy jest też jednak przepływ informacji w drugą stronę. W roku 1986 administracja prezydenta Reagana sprzedała nielegalnie Iranowi sporą ilość nowoczesnego uzbrojenia, aby pozyskać środki na wsparcie partyzantów w Nikaragui. Nielegalna sprzedaż danych byłaby znacznie prostszym i bezpieczniejszym sposobem na pozyskanie przez agencję wywiadowczą dodatkowych pieniędzy, niż przemycanie rakiet. Udostępnianie własnym firmom danych o obywatelach może dać im przewagę konkurencyjną nad firmami z zagranicy, na przykład przesłanie koncernowi samochodowemu danych o wszystkich podróżach użytkownika pozwoli mu zaoferować konsumentowi konkretny, dopasowany do jego potrzeb model samochodu.

Uzupełnieniem informatycznych metod zbierania informacji o obywatelach mogą być też bardziej klasyczne metody inwigilacji, takie jak system tysięcy kamer zdolnych rozpoznawać twarze, numery rejestracyjne, i automatycznie wyszukiwać podejrzane zachowania. System inteligentnych kamer umożliwiłby monitorowanie również osób bezdomnych, nielegalnych imigrantów, oraz tych, którzy nie chcą się poddać innym metodom inwigilacji. Już dziś każdy, kto chce podróżować samolotem, musi podać swoje dane osobowe i wyrazić zgodę na ich gromadzenie i przetwarzanie. W przyszłości taki sam system może objąć również podróżujących kolejami i autobusami, a nawet komunikacją miejską. Już dziś coraz więcej miast wydaje spersonalizowane karty miejskie, a aby wypożyczyć rower publiczny w Warszawie trzeba podać swoje dane osobowe i wyrazić zgodę na ich przetwarzanie.

Coraz większy apetyt rządów i korporacji na informacje o nas umożliwi już niedługo stworzenie ogromnej bazy danych, zawierającej prawie wszystkie informacje o obywatelach od ich urodzin aż do śmierci. W takiej bazie danych można będzie zgromadzić między innymi Twoje kompletne dane o zainteresowaniach, wiedzy, aktywności, stosunkach towarzyskich ze wszystkimi znajomymi, wszystkie transakcje wykonane kartami kredytowymi, lub przez internet, dokładną lokalizację w każdej chwili czasu, wszystkie popełnione grzechy i wykroczenia, historię stanu zdrowia i przyjmowanych lekarstw, ewolucję poglądów politycznych, ekonomicznych i religijnych, przynależność do organizacji i subkultur, wahania nastrojów, preferencje konsumenckie czy wyznawane wartości.

Mając tak kompletną bazę danych o obywatelach, można będzie sterować wyborami konsumenckimi, społecznymi i politycznymi, oraz wytropić każde zachowanie, które władze uznają za niewłaściwe, można będzie wreszcie ukryć każdą niekorzystną informację i zdusić każdy bunt wobec systemu.

Decyzje o przyszłym wykorzystaniu naszych danych podejmowane są właśnie teraz, za naszego pokolenia. Jeśli dzisiaj nie będziemy protestować przeciwko wykorzystywaniu wiedzy o nas przez banki, sklepy i agencje wywiadowcze różnych krajów, to proces ograniczania naszej prywatności będzie postępował. Po protestach przeciwko ACTA przywódcy europejscy wycofali się z porozumienia przewidującego możliwość blokowania niewygodnych stron bez wyroku sądu. Gromadzenie danych o każdej aktywności internautów jest daleko większym zagrożeniem dla społeczeństwa, bez względu na to, czy zostały one udostępnione poprzez kartę kredytową, portal społecznościowy, czy „ciasteczka”. Od tego, czy przestaniemy bezmyślnie udostępniać nasze dane dziś, zależy nasza przyszłość.

Bernard Swoczyna