O dataismu – velká data a naše intuice

26. 8. 2019

Říká se, že manažeři utrácejí velké peníze za data a jejich analýzy, ale nakonec se rozhodují víceméně jen podle své intuice.

Co je intuice si vykládáme mnoha různými způsoby – podle někoho může být projevem iracionálních procesů, jako protiklad k jinak racionálnímu fungování našeho myšlení. Jiné vysvětlení je, že intuice vzniká v našem nevědomí, které předkládá výsledky své práce našemu vědomému já, které pak nakonec jedná a rozhoduje. Také je možné věřit, že intuice je něco transcendentálního, co k nám přichází zvenčí. Jednoduchá definice říká, že intuice je znalost získaná bez porozumění důvodům (bez znalosti „proč”).

Na první pohled se tedy zdá, že celý svět algoritmů, dat a analytiky stojí na přesně opačné straně a je v přímém rozporu s fungováním naší intuice. Ale možná, že právě tento pohled je vzdálen pravdě víc, než si myslíme.

Ačkoliv mojí profesí jsou data, vždycky jsem měl pochyby ohledně schopnosti počítačů, při analytickém zpracování dat, přinést do našich každodenních životů něco více, než jen omezený užitek. Vícekrát jsem byl svědkem toho, jak nákladné a časově náročné datové analýzy nakonec jen exaktně potvrdily to, co již bylo všeobecně známou informací.

Nedávno jsem dočetl skvělou knihu Homo Deus od izraelského autora Yuvala Noaha Harariho, která mi pořád nejde z mysli. Byla to jedna z těch knížek, které k vám přijdou přesně v ten okamžik, kdy jste na ně připraveni. Knížky, které vám pomůžou pojmenovat myšlenky, které se už zrodily někde ve vašem podvědomí, ale ještě se vám je nepodařilo rozumově uchopit – a najednou je dostanete jak na stříbrném talíři na několika stránkách před vámi.

Závod zvaný evoluce

Zmíněná knížka dohromady s první částí nazvanou jednoduše Homo Sapiens přináší „stručnou historii a budoucnost“ lidského druhu. Vývoj člověka popisuje z perspektivy neustálého vývoje našich poznávacích schopností. Začíná tím, jak si naši předkové vysvětlovali záhady jejich místních okolních světů pomocí animismu, kdy živým i neživým objektům ve svém okolí přiznávali nadpřirozené schopnosti. Později, kdy si člověk začal uvědomovat složitost a velikost světa, přešel k deismu – tedy přesvědčení, že všechno musí být výsledkem nějakého inteligentního designu od jednoho nebo více bohů. Nyní jsme dospěli k humanismu, převažující ideologii dneška. Ta je založena na víře, že naše lidské životy a jejich pokračování jsou tím hlavním smyslem a cílem snad celého vesmíru. A také na přesvědčení, že ta nejhlubší místa našich myslí a srdcí jsou zdrojem odpovědí na všechny otázky.

Jenže, jako už mnohokrát v historii, lidé znovu a znovu zjišťují, že nejsou středem vesmíru. Že Slunce neobíhá kolem nás – ale obráceně, že Země je jen zrnko prachu v převážně prázdném a „obrovsky obrovském” prostoru atd. A zdá se, že ani celá historie neskončí právě humanismem. Nová ideologie je už na světě. Nástupcem humanismu má být data-ismus. Tento termín byl zřejmě poprvé použitý v článku Davida Brookse z New York Times nazvaném „The Philosophy of Data“.

Harari předkládá mnoho důkazů ze známé minulosti, že jakýkoliv systém (ať už je to buňka, organizmus, národ, stát nebo obchodní společnost) získává evoluční výhodu nad ostatními, které nebo kteří jsou méně efektivní ve zpracování a výměně dat a informací. Také říká, že lidé (a konkrétně naše mozky) jsou zatím nejefektivnější datové procesory ve známém vesmíru, a proto jsme také aktuálně na vedoucí pozici v evolučním procesu. Ale máme vyzyvatele. A možná, že ve „žlutém trikotu” vedoucího závodníka se už dlouho neudržíme.

Velká data a malá data

Podle Brookse dataismus říká, že naše lidská intuice lže a pokud se my lidé spoléháme na vlastní intuici, tak pak také dost často děláme špatná rozhodnutí. Tomu podle něj lze předejít tím, že se spolehneme na data, nejlépe „velká data“. Pravda je v datech. Dataisté (pokud jim tak můžeme říkat) dávají za příklad herečku Angelinu Jolie, která podstoupila radikální chirurgický zákrok, ke kterému se rozhodla na základě toho, že podle statistického zjištění bylo velké riziko fatálního onemocnění kvůli jejím genetickým předpokladům. Ona sama se ale pravděpodobně cítila skvěle a její intuice mlčela, žádný vnitřní hlas jí tiše neradil, ať jde na operaci. Ale ona se rozhodla racionálně, věřila svým lékařům a ti věřili statistice založené na velkém množství nasbíraných dat a jejich zpracování počítačovými algoritmy.

Její intuice ale úplně nelhala. Jen neměla šanci zpracovat a poučit se z dostatečného množství dat v porovnání s počítači. Byla omezená jen na svoji individuální zkušenost, zatímco statistika čerpala z mnoha a mnoha případů jiných žen, které před ní bohužel onemocněly. Jednoduše řečeno – čím více dat, tím lepší rozhodnutí. Intuice Angeliny Jolie byla uzavřený a omezený systém. Uzavřené systémy prohrávají v konkurenci s otevřenými systémy (jako například uzavřený a nesvobodný Sovětský svaz prohrál studenou válku se Západem, kde byli lidé volní, otevření rozvoji a novým věcem).

Dalším příkladem je hypotetická matka varující svoji dceru před sňatkem s určitým chlapcem. Asi to mezi nimi nebude úplně klidná a racionální diskuze, spíše to bude matčina intuice proti dceřiným pocitům. Představme si ale, že čas nakonec ukáže, že matka měla pravdu. Její intuice nebyla nic než neučená zkušenost založená na mnoha podobných případech (určitě ne její vlastní, ale z jiných rodin, příbuzných, vyčtená z příběhů v novinách, ve filmech, v knížkách apod.). V tomto příkladu je matčina intuice něco jako stroj na zpracování velkých (mnoho podobných případů) dat. Rozhodnutí její dcery je také intuitivní, ale založené na malém množství dat. Takže podle dataistů rozhodnutí dcery bude asi horší, než rada její matky.

Postupně se nám tedy proměňuje naše vnímání toho, co je intuice. Podle dataistů není zdrojem intuice nic záhadného. Lidská intuice je „big data engine”, stroj na zpracování velkých objemů dat, zatím asi nejlepší v pozorovaném vesmíru. Nicméně, je to tedy jen stroj.

Pouhé stroje, pouhé algoritmy

Jeden z předpokladů dataismu je, že my lidé jsme jen algoritmy. Není to nic nového, dokonce i Stephen Hawking ve své poslední (posmrtně vydané) knížce tvrdí, že všechno živé, včetně nás lidí, jsou jen stroje. Logika dataistů je tedy zřejmá: všechno, co potřebujete k úspěchu v evolučním zápasu, je co nejefektivnější stroj na zpracování dat, a zároveň přístup k co největšímu rozsahu dat. Lidé mají nejefektivnější stroj díky neuronové síti svému mozku (její síla je dána komplexitou – neuvěřitelným počtem propojení mezi obrovským množstvím jeho základních prvků), ale stále operují nad spíše malými objemy dat. Současné počítače nejsou ještě ani zdaleka tak účinné v procesování dat, ale mají přístup k obrovským objemům dat (a také jsou v lecčems spolehlivější a pracují neúnavně). Takže se zdá, že je to jen otázka času, než se počítače stanou ještě více komplexní, více propojené a budou pracovat nad ještě většímu objemy dat. Pokud se lidé integrují s počítači ve formě nějaké symbiózy, mohou pokračovat na čele evolučního pelotonu společně s nimi.

Lidská intuice vypadala tak tajemně, protože se nám ji nedařilo rozumově uchopit. V určitých případech už dnes máme problém pochopit jak, a podle čeho, některé počítače s velmi dobře vytrénovanými neuronovými sítěmi dělají svá rozhodnutí. Vypadá to, že některé počítače už si také vybudovaly svoji intuici, přesně podle definice „znalost bez porozumění” (knowledge without understanding). Takže žádná záhada, jen enormní komplexita.

Pro řadu lidí toto všechno může znít dost děsivě. Pro jiné to může být zajímavá teorie. Mně se ta teorie také líbí, ale něco mi říká, že nám pořád něco uniká…

Asi všichni známe infografiku pyramidy založené na hierarchii: symboly > data > informace > znalosti > moudrost. Není moudrosti bez učení, učení je získávání znalostí prostřednictvím informací, informace pocházejí z interpretace dat a data jsou materializovány v symbolech. Čím více dat (a času), tím lépe jsou naše neuronové sítě vytrénované na úkoly, které jsou nezbytné pro přežití.

Velká data typicky ukazují korelace. Hodně se diskutuje o tom, do jaké míry, a zda vůbec, mohou data samy o sobě určit kauzální závislosti. Procesování velkých dat a výměna informací nám mohou pomoci vidět stále větší část světa, odhalit neznámé souvislosti, podívat se do detailu, něčemu lépe porozumět, být efektivnější a nakonec díky tomu uspět v evolučním vývoji. Díky zpracování velkých dat můžeme snáze a lépe rozlišit, co je pravda a co nepravda a můžeme bořit některé zažité mýty. Ale samy o sobě data nenesou porozumění a pochopení světa. Naše ambice rozumět světu, a toto pochopení samo o sobě, je skutečnou záhadou.

Autor: Petr Hájek

Information Management Advisor

Doporučené čtení:

Yuval Noah Harari: Homo Deus: A Brief History of Tomorrow, HarperCollins Publishers, ISBN 9780062663177

Stephen Hawking, Brief Answers to the Big Questions, Hodder & Stoughton/Bantam Books, ISBN: 9781529345421

https://bit.ly/ThePhilosophyOfData