Zpracování osobních údajů aneb Co datascientisti nechtějí slyšet

Ochrana osobních údajů byla ještě před několika lety hrubě podceňována. Když se o svá data člověk staral trochu více a například chtěl při podpisu smlouvy vidět všeobecné podmínky s pravidly pro zpracování osobních údajů, na které se odkazovala, byl za podivína. Pokud v mobilním telefonu sledoval oprávnění aplikací či používal nějakou speciální aplikaci pro šifrovanou komunikaci, byl za mafiána, nebo rovnou blázna. Častý názor okolí se dá shrnout do jedné věty: „Máš co skrývat?“. Nikdy nezapomenu na konferenci ML Prague 2018, kde zaznělo, že Facebook vyvinul interní prediktor rozchodu páru – vstupem byly zprávy, polohy telefonů, telefonáty. Úspěšnost? Přes 90 %.

Tento stav umožnila změnit Evropská Unie a nařízení, jehož zkratku zná už skoro každý, GDPR. Málokdo ho bohužel četl, a proto se často neví, že většinu povinností stanovených nařízením dřívější zákon o ochraně osobních údajů 101/2000 Sb obsahoval. Tím klíčovým, co vedlo k tání ledovců i u těch nejzkostnatělejších korporací, je klauzule o výši pokut. Novou povinností je zdarma poskytnout soupis informací, které o vás daná firma vede.

Divoký západ, kdy datascientisti zákazníkům hlásali: „Mám data a můžu si s nimi dělat, co chci.“, skončil. Bernard Marr, jedna z hvězd na poli zpracování dat a jejich následné monetizace, k mému velkému překvapení v knize Data Strategy přímo doporučuje mít u všech dat informaci, z jakého jsou zdroje a jaká je k nim licence. Tedy už neplatí teze: „Je to veřejně na internetu, my to stáhli a teď to můžeme používat.“ Lidé bohužel stále lehkovážně poskytují souhlas se zpracováním svých údajů téměř komukoliv.

Níže uvedu několik medializovaných příkladů zpracování masivního množství dat z poslední doby.

Prvním příkladem je společnost Avast, která poskytuje jeden z nejlepších antivirů na světě. V článku na serveru Forbes je popsáno, jak firma získává data o pohybu klientů na webu, tedy třeba i o tom, co si koupili v e-shopu. Nejen tento článek vyvolal znepokojení ze strany Avastu a následoval článek na Lupa.cz, ve kterém popisuje, že nejde o osobní data, ale jen o odosobněné agregáty. Dále firma odkázala na další články, kde situaci blíže rozvádí. Ve světle těchto informací by tedy bylo pravděpodobně možné, aby Avast rozdělil uživatele například dle toho, jestli nakupují na Aliexpressu, Košíku, nebo Rohlíku a i za kolik tam v určitých částech města nakupují. Nebo podle toho, k jaké politické straně tíhnou a koho budou pravděpodobně volit. Tato data mohou být pro řadu lidí cenná a nelze vyloučit jejich zneužití. Za přečtení stojí určitě ještě rozhovor Deníku N s profesorem Pěchoučkem, CTO Avast: „Chci, aby i flegmatici dostali za svá data na internetu zaplaceno.“

Druhým příkladem, kde již jde o zpracování osobních dat, je tzv. TelcoScore. Z veřejně dostupných zdrojů je možné zjistit princip fungování této služby.

Telco Score je služba, kterou poskytuje Společnost pro informační databáze (SID). Nejdříve probíhá 3 měsíce sběr informací od mobilních operátorů. Ze sesbíraných dat se následně určí hodnota Telco Score 1 až 1 000 s tím, že 1 je nejhorší a 1 000 nejlepší. Výslednou hodnotu si poté může od SID kdokoliv vyžádat, aby posoudil vaši bonitu.

Reportér Českého rozhlasu Jan Cibulka se v roce 2018 snažil zjistit, jaká přesně data do TelcoScore vstupují. V článku odkazuje na platný zákon, který lidem umožňuje dostat detailní informace, jakým způsobem se jejich data zpracovávají, nicméně informace mu poskytnuty nebyly.

Následně proběhlo několik kontrol ze strany UOOU. V jedné z nich UOOU konstatuje, že telekomunikační společnost stěžovatele chybně informovala o principu zpracování jeho dat.

Třetím příkladem je produkt ClearView AI. Jde o společnost, která v minulých letech nastahovala miliardy volně přístupných fotografií uživatelů internetu, provedla biometrické výpočty a nabízí svým zákazníkům schopnost téměř okamžité identifikace osoby z fotografie. Zamyslete se nad tím, kolik máte veřejně přístupných fotografií na internetu, kde je možné k Vašemu obličeji přiřadit jméno. Produkt se ujal hlavně v USA, kde výrazně zrychlil identifikaci pachatelů u některých trestných činů. Okamžitě se rozpoutala diskuze o tom, jestli podobné techniky zákonem nezakázat. To je velice odlišný přístup k tématu, třeba na rozdíl od Číny. Diskuzi rozpoutal i nedávný krok policie v Praze.

Nakonec nezbývá než uvést sociální sítě Facebook, Twitter, Instagram, Linkedin, VKontakte a samozřejmě i Google. Mají obrovské množství dat, jako například navštívené stránky, kamarády, kolegy, nakupované zboží, atd., které nějakým způsobem využívají, naštěstí mnoho z nich umožňuje provést tzv. „Takeout“. Všechna data si můžete stáhnout a promyslet, jestli o sobě přeci jen neuvádíte víc, než by bylo zdrávo. Rychlým testem může být odpověď na otázku, jestli tato data můžete volně uveřejnit.

28. 1. je Dnem ochrany osobních údajů. Jak bylo zmíněno výše, nejen podle GDPR máte právo na informace o tom, jak jsou Vaše data zpracovávána. Pro tento účel existují předpřipravené formuláře, mj. zde: https://github.com/good-lly/gdpr-documents/tree/master/docs/cz_%C4%8Desky

Oslavte Den ochrany osobních údajů tak, že si budete svých osobních údajů vážit. Zeptejte se třeba potenciálního zpracovatele Vašich osobních údajů, k jakému účelu je použije.

Autor: Marek Sušický

Head of Big Data