O propojení Elona Muska s neziskovou organizacíOpenAI jsme vás již informovali. V dnešním videu zjistíte, jak se taková umělá inteligence učí na něčem tak jednoduchém, jako je hra na schovku. Více o aktuálním vývoji společnosti OpenAI zjistíte například v Elonovinkách.
Jednoduchá pravidla
přirozeného výběru a konkurence vedla na Zemi k vývoji
pokročilých forem inteligence. Otázkou je, zda jednoduchá pravidla
a konkurence několika agentů může v novém virtuálním světě
vést i k inteligentnímu chování. Tito agenti hrají na schovávanou. Začínají se teprve učit,
ale už zvládli pronásledování a útěk. Je to náročný svět pro hráče,
který se naučil jen utíkat. Nicméně po tréninku a mnoha kolech
hry na schovávanou našli hráči řešení.
Naučili se využít základní nástroje. Uchopením a uzamčením bloků
si vytvářejí ochranu. Hledači na počátku hry krátce čekají,
aby dali možnost hráčům se připravit. I tak se hráči musí
naučit spolupracovat, aby vyřešili úlohy,
které by samostatně nikdy nezvládli. Hráči nejsou jediní,
kdo se naučí používat nástroje. Po mnoha generacích selhání
prolomit ochranu hráčů se hledači naučí
přeskočit překážky pomocí ramp.
Po mnoha miliónech kol,
kdy je ochrana hráčů narušena, se hráči naučí odebrat hledačům
jejich základní nástroje. Žádné takové chování
jsme nijak nepodnítili. Když se nový tým naučí něco nového,
změní se výzvy, kterým čelí druhý tým, což vyvíjí tlak na přizpůsobení se. Agenty jsme také umístili
do otevřenějšího prostředí s náhodnými objekty,
velkostmi týmů i zdmi. V tomto světě se učí
vytvořit si úkryt úplně od základů, k vytvoření struktury úkrytu
tak musí použít několik objektů.
Aby hledači nemohli využít rampy, přesunou je hráči na okraj
hrací plochy a uzamknou je. Mysleli jsme, že to bude
poslední strategie, kterou se hráči naučí. Po dalším tréninku jsme však zjistili, že hledači objevili, že na krabice
mohou vyskočit a dojet na nich k úkrytu. Poslední pozorovaná strategie hráčů zahrnovala uzamčení maximálního počtu
krabic před vytvořením úkrytu, aby se uchránili před nájezdy.
Jak agenti
své schopnosti získávají? Učí se pomocí zpětnovazebního učení,
algoritmu inspirovaného učením zvířat. Agenti hráli souběžně tisíce kol
hry na schovávanou po dobu mnoha dnů. Učili se hrát proti sobě
i proti předchozím verzím díky algoritmu zvanému Self-Play. Koevoluce a konkurence na Zemi
vedla ke vzniku jediného známého
inteligentního druhu – lidí.
I když má tento svět
daleko do Země, našli jsme důkaz, že jednoduchá pravidla mohou vést
k inteligentnímu chování mnoha agentů. Věříme, že ve větším
a rozmanitějším prostředí by se jednoho dne vyvinuli opravdu
komplexní a inteligentní agenti. Překlad: sethe
wwwv.videacesky.cz