Fundamentals of Data Visualization

Recenze knihy autora Claus O. Wilke

Celá knížka o grafech? Proč?!

Pomiňme na chvíli fakt, že je kniha plná krásných grafů, na které je radost pohledět. Data science, jíž se už roky věnuji, leží někde na pomezí 4 disciplín – statistiky, informatiky, strojového učení a vizualizace (pokud jste se s tímto konceptem ještě nesetkali, doporučuji více informací na naší microsite, kterou jsme nedávno pro účely osvěty o Data Science vytvořili).

Právě na čtvrtou disciplínu se ale trochu zapomíná. Sám to znám – promoval jsem ze statistiky, pracuji v IT firmě, která vehementně podporuje (především) informatické vzdělávání, strojové učení je mé hobby… Hrome, a co ta vizualizace! říkal jsem si…

Když tahle kniha před dvěma měsíci vyšla, četl jsem na ni samou chválu. Doporučil jsem ji proto do naší knihovničky a jen co došla, ihned jsem se do ní zabral. A rozhodně stojí za to!

Část první: ZOO

V první části se čtenáři dostane trochu teorie o tom, jak se při vizualizaci dat mapují jednotlivé veličiny na různé osy (x, y, barva, velikost, transparentnost, …). Pokud jste někdy četli Grammar of graphics (od Lelanda Wilkinsona) či pokud používáte k vizualizacím Ggplot2 (převedení téhož konceptu do světa R, za čímž stojí Hadley Wickham), budete doma.

Většinu první části bychom ale mohli označit za „Zoo“ obsahující snad všechny myslitelné (určitě pak všechny rozumně použitelné) grafy. A metafora zoologické zahrady je, myslím, trefná i při popisu různých čtenářů, kteří z této části budou čerpat.

  • První skupinou jsou nováčci v oboru, kteří s dětskou radostí přebíhají od klece ke kleci, od výběhu k výběhu a nadšeně vískají nad krásou a podivností stvoření, která jsou jim představována.
  • Druhou skupinou mohou být zvídaví školáci, kteří zjišťují, že teorie z hodin biologie má přeci jen reálný základ. Ti se už těší, jak nově osvojené znalosti použijí v příštím (školním) projektu.
  • Třetí skupinou jsou milovníci přírody, kteří tráví dlouhé hodiny pečlivým studiem informačních tabulí a pozorováním představovaných živočichů. Tříbí si tak své poznatky o přírodě vůkol, aby byli schopni precizně a do nejmenšího detailu reprodukovat své znalosti každému, kdo by se snad zeptal.
  • A poslední jsou umělci, kteří se vrací zas a znova na lavičku před tu svou voliéru, aby ve svých skicách dokonale zachytili tu správnou barvu a lom světla v pestrobarevných křídlech…

A to nemluvím o celé plejádě dalších návštěvníků: jinak se na voliéry bude dívat zámečník, jinak floristka, jinak ředitel banky, … zkrátka – každý si tu něco najde.

Část druhá a třetí: Když dva dělají totéž…

Původně jsem chtěl tuto kapitolku uvést citací z jiného díla:

Ne každé zlato třpytívá se,
ne každý, kdo bloudí, je ztracený.

Ale podobně přiléhavé je známé české přísloví – když dva dělají totéž, není to totéž. A platí to i o grafech – kolikrát jste třeba v posledním týdnu po otevření novin*) protočili oči, protože předkládaná infografika byla buď přeplácaná (či prostě škaredá), zavádějící, anebo vůbec nedávala smysl? Mně se to stává běžně.

Druhá a třetí část knihy obsahuje celou řadu tipů, jak data zachytit tak, aby si čtenář odnesl vaše sdělení (a pokud možno neutrpěl estetický šok). Jak odolat pokušení příliš komplikovaných grafů a raději vyprávět příběh jednoduššími, avšak trefnějšími obrázky. Jak brát ohled na čtenáře s poruchami barvocitu. (Dle uváděných odhadů se toto týká 8 % mužů a 0,5 % žen, sic!) Jak neutopit klíčovou informaci v záplavě barev a jaké barevné škály se hodí pro tu kterou příležitost. A spoustu dalšího…

*) Zde mimochodem narážíme na další skupiny lidí, kteří by knihy jako Fundamentals of Data Visualization měli číst – (datoví) novináři, lidé z BI, …

Pro fajnšmekry – GitHub verze se zdrojáky

Pokud ještě pořád váháte, zkuste dát knize šanci – její elektronická verze je volně k dispozici na tomto odkaze.

A zajímavost na závěr – celá byla vytvořena pomocí R balíčku Bookdown (za nímž stojí Yihui Xie) a její zdrojové kódy jsou k dispozici na GitHubu. Můžete si ji tedy (v mezích licence) přetvořit ku obrazu svému. Anebo se jen podívat, jak ten který graf byl vytvořen – v knize totiž zdrojové kódy k jednotlivým vizualizacím nenajdete. Sám autor to odůvodňuje tím, že by to strhávalo pozornost z poselství knihy k podružným technickým detailům

 

Autor: Dominik Matula

Senior Data Scientist