Jak se umělá inteligence zdokonaluje při hře na schovávanouSvět Elona Muska
26
O propojení Elona Muska s neziskovou organizací OpenAI jsme vás již informovali. V dnešním videu zjistíte, jak se taková umělá inteligence učí na něčem tak jednoduchém, jako je hra na schovku. Více o aktuálním vývoji společnosti OpenAI zjistíte například v Elonovinkách.
Přepis titulků
Jednoduchá pravidla
přirozeného výběru a konkurence vedla na Zemi k vývoji
pokročilých forem inteligence. Otázkou je, zda jednoduchá pravidla
a konkurence několika agentů může v novém virtuálním světě
vést i k inteligentnímu chování. Tito agenti hrají na schovávanou. Začínají se teprve učit,
ale už zvládli pronásledování a útěk. Je to náročný svět pro hráče,
který se naučil jen utíkat. Nicméně po tréninku a mnoha kolech
hry na schovávanou našli hráči řešení.
Naučili se využít základní nástroje. Uchopením a uzamčením bloků si vytvářejí ochranu. Hledači na počátku hry krátce čekají, aby dali možnost hráčům se připravit. I tak se hráči musí naučit spolupracovat, aby vyřešili úlohy, které by samostatně nikdy nezvládli. Hráči nejsou jediní, kdo se naučí používat nástroje. Po mnoha generacích selhání prolomit ochranu hráčů se hledači naučí přeskočit překážky pomocí ramp.
Po mnoha miliónech kol, kdy je ochrana hráčů narušena, se hráči naučí odebrat hledačům jejich základní nástroje. Žádné takové chování jsme nijak nepodnítili. Když se nový tým naučí něco nového, změní se výzvy, kterým čelí druhý tým, což vyvíjí tlak na přizpůsobení se. Agenty jsme také umístili do otevřenějšího prostředí s náhodnými objekty, velkostmi týmů i zdmi. V tomto světě se učí vytvořit si úkryt úplně od základů, k vytvoření struktury úkrytu tak musí použít několik objektů.
Aby hledači nemohli využít rampy, přesunou je hráči na okraj hrací plochy a uzamknou je. Mysleli jsme, že to bude poslední strategie, kterou se hráči naučí. Po dalším tréninku jsme však zjistili, že hledači objevili, že na krabice mohou vyskočit a dojet na nich k úkrytu. Poslední pozorovaná strategie hráčů zahrnovala uzamčení maximálního počtu krabic před vytvořením úkrytu, aby se uchránili před nájezdy.
Jak agenti své schopnosti získávají? Učí se pomocí zpětnovazebního učení, algoritmu inspirovaného učením zvířat. Agenti hráli souběžně tisíce kol hry na schovávanou po dobu mnoha dnů. Učili se hrát proti sobě i proti předchozím verzím díky algoritmu zvanému Self-Play. Koevoluce a konkurence na Zemi vedla ke vzniku jediného známého inteligentního druhu – lidí.
I když má tento svět daleko do Země, našli jsme důkaz, že jednoduchá pravidla mohou vést k inteligentnímu chování mnoha agentů. Věříme, že ve větším a rozmanitějším prostředí by se jednoho dne vyvinuli opravdu komplexní a inteligentní agenti. Překlad: sethe wwwv.videacesky.cz
Naučili se využít základní nástroje. Uchopením a uzamčením bloků si vytvářejí ochranu. Hledači na počátku hry krátce čekají, aby dali možnost hráčům se připravit. I tak se hráči musí naučit spolupracovat, aby vyřešili úlohy, které by samostatně nikdy nezvládli. Hráči nejsou jediní, kdo se naučí používat nástroje. Po mnoha generacích selhání prolomit ochranu hráčů se hledači naučí přeskočit překážky pomocí ramp.
Po mnoha miliónech kol, kdy je ochrana hráčů narušena, se hráči naučí odebrat hledačům jejich základní nástroje. Žádné takové chování jsme nijak nepodnítili. Když se nový tým naučí něco nového, změní se výzvy, kterým čelí druhý tým, což vyvíjí tlak na přizpůsobení se. Agenty jsme také umístili do otevřenějšího prostředí s náhodnými objekty, velkostmi týmů i zdmi. V tomto světě se učí vytvořit si úkryt úplně od základů, k vytvoření struktury úkrytu tak musí použít několik objektů.
Aby hledači nemohli využít rampy, přesunou je hráči na okraj hrací plochy a uzamknou je. Mysleli jsme, že to bude poslední strategie, kterou se hráči naučí. Po dalším tréninku jsme však zjistili, že hledači objevili, že na krabice mohou vyskočit a dojet na nich k úkrytu. Poslední pozorovaná strategie hráčů zahrnovala uzamčení maximálního počtu krabic před vytvořením úkrytu, aby se uchránili před nájezdy.
Jak agenti své schopnosti získávají? Učí se pomocí zpětnovazebního učení, algoritmu inspirovaného učením zvířat. Agenti hráli souběžně tisíce kol hry na schovávanou po dobu mnoha dnů. Učili se hrát proti sobě i proti předchozím verzím díky algoritmu zvanému Self-Play. Koevoluce a konkurence na Zemi vedla ke vzniku jediného známého inteligentního druhu – lidí.
I když má tento svět daleko do Země, našli jsme důkaz, že jednoduchá pravidla mohou vést k inteligentnímu chování mnoha agentů. Věříme, že ve větším a rozmanitějším prostředí by se jednoho dne vyvinuli opravdu komplexní a inteligentní agenti. Překlad: sethe wwwv.videacesky.cz
Komentáře (6)
jjkOdpovědět
03.10.2019 11:08:23
Když to doprovází ta dětská hudba a vlídný hlas, tak to ani nepůsobí tak děsivě...
random (anonym)Odpovědět
26.09.2019 04:07:04
Nemohli v ramci hry bloknut tych cervenych v trojuholniku? To by bolo zaujimave
RazemOdpovědět
26.09.2019 08:54:16
Určitě mohli. Záleží, jak nastavíš startovací podmínky. Tady evidentně v prvních generacích měli k dispozici jen pár krabic a uzavřený prostor, do kterého se mohli schovat oni. Takže i v případě, že mají k dispozici víc typů zábran, dělají to, co dělali původně: schovávají se. Málokdy se stane, že se v následujících generacích agent výrazně odchýlí od základního chování.
Kdyby dostali ty podlouhlé zábrany hned na začátku, trvalo by možná mnohem déle, než by se s nimi naučili pracovat (nenechat se díky nim chytit), ale je mnohem pravděpodobnější, že by se naučili zamknout pronásledovatele.
BurgOdpovědět
25.09.2019 17:30:35
Nějak jsem si vzpomněl na robůtky z reklmních videí na Portal... Cave Johnson here... :-D
Reacher (anonym)Odpovědět
25.09.2019 12:44:07
Super video. Po jeho závěru mě napadlo: A není toto právě účel vesmíru? Vytrénovat si co nejlepší obecnou inteligenci.
Thoo (anonym)Odpovědět
25.09.2019 11:15:38
Být tam já, asi by mě po deseti pokusech schovka přestala bavit a postavil bych si rampu přes okraj herní plochy, kde bych serfoval na jezeře po bedně. Bod pro OpenAI.