Jak se umělá inteligence zdokonaluje při hře na schovávanouSvět Elona Muska

Thumbnail play icon
Přidat do sledovaných sérií 26
95 %
Tvoje hodnocení
Počet hodnocení:119
Počet zobrazení:8 136

O propojení Elona Muska s neziskovou organizací OpenAI jsme vás již informovali. V dnešním videu zjistíte, jak se taková umělá inteligence učí na něčem tak jednoduchém, jako je hra na schovku. Více o aktuálním vývoji společnosti OpenAI zjistíte například v Elonovinkách.

Přepis titulků

Jednoduchá pravidla přirozeného výběru a konkurence vedla na Zemi k vývoji pokročilých forem inteligence. Otázkou je, zda jednoduchá pravidla a konkurence několika agentů může v novém virtuálním světě vést i k inteligentnímu chování. Tito agenti hrají na schovávanou. Začínají se teprve učit, ale už zvládli pronásledování a útěk. Je to náročný svět pro hráče, který se naučil jen utíkat. Nicméně po tréninku a mnoha kolech hry na schovávanou našli hráči řešení.

Naučili se využít základní nástroje. Uchopením a uzamčením bloků si vytvářejí ochranu. Hledači na počátku hry krátce čekají, aby dali možnost hráčům se připravit. I tak se hráči musí naučit spolupracovat, aby vyřešili úlohy, které by samostatně nikdy nezvládli. Hráči nejsou jediní, kdo se naučí používat nástroje. Po mnoha generacích selhání prolomit ochranu hráčů se hledači naučí přeskočit překážky pomocí ramp.

Po mnoha miliónech kol, kdy je ochrana hráčů narušena, se hráči naučí odebrat hledačům jejich základní nástroje. Žádné takové chování jsme nijak nepodnítili. Když se nový tým naučí něco nového, změní se výzvy, kterým čelí druhý tým, což vyvíjí tlak na přizpůsobení se. Agenty jsme také umístili do otevřenějšího prostředí s náhodnými objekty, velkostmi týmů i zdmi. V tomto světě se učí vytvořit si úkryt úplně od základů, k vytvoření struktury úkrytu tak musí použít několik objektů.

Aby hledači nemohli využít rampy, přesunou je hráči na okraj hrací plochy a uzamknou je. Mysleli jsme, že to bude poslední strategie, kterou se hráči naučí. Po dalším tréninku jsme však zjistili, že hledači objevili, že na krabice mohou vyskočit a dojet na nich k úkrytu. Poslední pozorovaná strategie hráčů zahrnovala uzamčení maximálního počtu krabic před vytvořením úkrytu, aby se uchránili před nájezdy.

Jak agenti své schopnosti získávají? Učí se pomocí zpětnovazebního učení, algoritmu inspirovaného učením zvířat. Agenti hráli souběžně tisíce kol hry na schovávanou po dobu mnoha dnů. Učili se hrát proti sobě i proti předchozím verzím díky algoritmu zvanému Self-Play. Koevoluce a konkurence na Zemi vedla ke vzniku jediného známého inteligentního druhu – lidí.

I když má tento svět daleko do Země, našli jsme důkaz, že jednoduchá pravidla mohou vést k inteligentnímu chování mnoha agentů. Věříme, že ve větším a rozmanitějším prostředí by se jednoho dne vyvinuli opravdu komplexní a inteligentní agenti. Překlad: sethe wwwv.videacesky.cz

Komentáře (6)

Zrušit a napsat nový komentář

Odpovědět

Když to doprovází ta dětská hudba a vlídný hlas, tak to ani nepůsobí tak děsivě...

20

Odpovědět

Nemohli v ramci hry bloknut tych cervenych v trojuholniku? To by bolo zaujimave

32

Odpovědět

Určitě mohli. Záleží, jak nastavíš startovací podmínky. Tady evidentně v prvních generacích měli k dispozici jen pár krabic a uzavřený prostor, do kterého se mohli schovat oni. Takže i v případě, že mají k dispozici víc typů zábran, dělají to, co dělali původně: schovávají se. Málokdy se stane, že se v následujících generacích agent výrazně odchýlí od základního chování.

Kdyby dostali ty podlouhlé zábrany hned na začátku, trvalo by možná mnohem déle, než by se s nimi naučili pracovat (nenechat se díky nim chytit), ale je mnohem pravděpodobnější, že by se naučili zamknout pronásledovatele.

41

Odpovědět

Nějak jsem si vzpomněl na robůtky z reklmních videí na Portal... Cave Johnson here... :-D

11

Odpovědět

Super video. Po jeho závěru mě napadlo: A není toto právě účel vesmíru? Vytrénovat si co nejlepší obecnou inteligenci.

35

Odpovědět

Být tam já, asi by mě po deseti pokusech schovka přestala bavit a postavil bych si rampu přes okraj herní plochy, kde bych serfoval na jezeře po bedně. Bod pro OpenAI.

73