Jak se umělá inteligence zdokonaluje při hře na schovávanouSvět Elona Muska

Přidat do sledovaných sérií 26

95 %
	Tvoje hodnocení

Počet hodnocení:	119
Počet zobrazení:	9 836

O propojení Elona Muska s neziskovou organizací OpenAI jsme vás již informovali. V dnešním videu zjistíte, jak se taková umělá inteligence učí na něčem tak jednoduchém, jako je hra na schovku. Více o aktuálním vývoji společnosti OpenAI zjistíte například v Elonovinkách.

Přeložil/a: sethe | Publikováno: 24.09.2019

Přepis titulků

Jednoduchá pravidla přirozeného výběru a konkurence vedla na Zemi k vývoji pokročilých forem inteligence. Otázkou je, zda jednoduchá pravidla a konkurence několika agentů může v novém virtuálním světě vést i k inteligentnímu chování. Tito agenti hrají na schovávanou. Začínají se teprve učit, ale už zvládli pronásledování a útěk. Je to náročný svět pro hráče, který se naučil jen utíkat. Nicméně po tréninku a mnoha kolech hry na schovávanou našli hráči řešení.

Naučili se využít základní nástroje. Uchopením a uzamčením bloků si vytvářejí ochranu. Hledači na počátku hry krátce čekají, aby dali možnost hráčům se připravit. I tak se hráči musí naučit spolupracovat, aby vyřešili úlohy, které by samostatně nikdy nezvládli. Hráči nejsou jediní, kdo se naučí používat nástroje. Po mnoha generacích selhání prolomit ochranu hráčů se hledači naučí přeskočit překážky pomocí ramp.

Po mnoha miliónech kol, kdy je ochrana hráčů narušena, se hráči naučí odebrat hledačům jejich základní nástroje. Žádné takové chování jsme nijak nepodnítili. Když se nový tým naučí něco nového, změní se výzvy, kterým čelí druhý tým, což vyvíjí tlak na přizpůsobení se. Agenty jsme také umístili do otevřenějšího prostředí s náhodnými objekty, velkostmi týmů i zdmi. V tomto světě se učí vytvořit si úkryt úplně od základů, k vytvoření struktury úkrytu tak musí použít několik objektů.

Aby hledači nemohli využít rampy, přesunou je hráči na okraj hrací plochy a uzamknou je. Mysleli jsme, že to bude poslední strategie, kterou se hráči naučí. Po dalším tréninku jsme však zjistili, že hledači objevili, že na krabice mohou vyskočit a dojet na nich k úkrytu. Poslední pozorovaná strategie hráčů zahrnovala uzamčení maximálního počtu krabic před vytvořením úkrytu, aby se uchránili před nájezdy.

Jak agenti své schopnosti získávají? Učí se pomocí zpětnovazebního učení, algoritmu inspirovaného učením zvířat. Agenti hráli souběžně tisíce kol hry na schovávanou po dobu mnoha dnů. Učili se hrát proti sobě i proti předchozím verzím díky algoritmu zvanému Self-Play. Koevoluce a konkurence na Zemi vedla ke vzniku jediného známého inteligentního druhu – lidí.

I když má tento svět daleko do Země, našli jsme důkaz, že jednoduchá pravidla mohou vést k inteligentnímu chování mnoha agentů. Věříme, že ve větším a rozmanitějším prostředí by se jednoho dne vyvinuli opravdu komplexní a inteligentní agenti. Překlad: sethe wwwv.videacesky.cz

Jak se umělá inteligence zdokonaluje při hře na schovávanouSvět Elona Muska

Přepis titulků

Komentáře (0)