Reinforcement Learning – An Introduction

11. 11. 2019

Richard S. Sutton a Andrew G. Barto

Naše Profinití Meetup Big Data/Data Science tradičně doprovází čtenářské komunity, na které si připravujeme recenze zajímavých knih z těchto oborů. A jedna taková, která opravdu stojí za přečtení, je kniha o zpětnovazebném učení (angl. reinforcement learning) od autorů Richarda S. Suttona a Andrewa G. Barta, která po úspěšné první edici, vydané v roce 1998, loni vyšla v modernizované druhé edici. Tato více než pětiset stránková kniha nabízí čtenářům sedmnáct kapitol, ve kterých postupně představí zpětnovazebné učení od základů až po ty nejmodernější, komplikovanější přístupy.

V první části se tak můžeme dozvědět, jak vyhrát co nejvíce peněz na řadě hracích automatů (angl. multiarmed bandit problem) a postupně se propracujeme až k algoritmům, které zvládnou hrát i legendární hry z Atari (například pong). Všechny prezentované algoritmy jsou detailně vysvětlené – jak z hlediska implementačních detailů, tak z hlediska matematických základů.

Mimo jiné se dozvíte víc i o programech AlphaGo a AlphaGo Zero, které nedávno porazily i ty nejlepší lidské hráče šachu, go a šógi. I když jejich přesná implementace zůstává neveřejným majetkem Googlu a pořád skrývá několik tajemství, kniha poskytne dostatečně hluboký náhled do idejí algoritmu a do průběhu učení. Čtenář tak získá dobrý přehled o použitých přístupech pro prohledávání stromů těchto her.

V poslední části kniha prezentuje poslední pokroky v oboru, ukazuje praktické využití prezentovaných technik v robotice, hrách, návrhu počítačů a programů. Načrtne také současné hranice možností a povídání ukončí úvahou o budoucnosti umělé inteligence jako oboru.

Kromě hlavních témat každá kapitola končí sekcí bibliografických a historických poznámek, které čtenáři poskytnou reference na další materiály k tématu kapitoly, společně se shrnutím historie prezentovaných algoritmů.

Pokud pořád nevíte, jestli si knihu opravdu chcete koupit, přidám ještě informaci, že nemusíte. Kniha je totiž volně dostupná na webu Stanfordské University.

Autor: Vladislav Vancák, Data Scientist