Proč má AI problém s rukamaVox

Thumbnail play icon
Přidat do sledovaných sérií 61
94 %
Tvoje hodnocení
Počet hodnocení:23
Počet zobrazení:1 533
Jak poznáte obrázek, který vygenerovala umělá inteligence? Často podle rukou, které vypadají… no prostě divně. Proč tomu tak je a co bude potřeba ke zlepšení?

P. S.: Video je trošku starší (prosinec 2023), ale když si zadání zkusíte vygenerovat dnes, některé výsledky vás možná překvapí. 

Přepis titulků

Jste povoláni tvořit… Postapokalyptický žirafí astronaut… vygenerován. Čingischán hraje sólo na kytaru, pixelové umění… vygenerován. Muž, který drží lahodné jablko. Co to má s rukama? Proč neumí AI umění vygenerovat ruce? Je jedno, který AI model použijete.

Když půjde o muže držícího chutné jablko, jeho ruce budou vypadat divně. Proč je tohle tak těžké? Vypadá to tak jednoduše. Jsou situace, kdy AI umění zvládne okamžitě vygenerovat Abrahama Lincolna oblečeného jako šik David Bowie. Ale bojuje se ženou, která drží mobil. Nejde jen o divnou chybu. Z problému AI umění s generováním rukou lze vyčíst něco víc o tom, jak AI umění pracuje.

No, co může být tak těžkého na tomhle? Zeptal jsem se umělce, který učil tisíce lidí, jak nakreslit ruce „z hlavy“. Než se stanete nebo se začnete učit být umělcem, oficiálně, jde o rozpoznávání vzorů. Prostě vyrůstáš a vidíš spoustu rukou. A začneš chápat, jak ruce vypadají. Rozpoznáváním vzorů se během života učíme, jak věci vypadají. AI to má podobně, ale s důležitými rozdíly.

Představte si, že je AI jako vy. Jen je od narození uvězněná v muzeu. Stroj se může učit jen z obrazů a cedulek vedle nich. Jablko. Červené jablko na hnědém stole. Takové obrazy spolu s jejich popisy vidí na webu. Učí se podobně jako vy, jen stále uvězněná v muzeu. Pokud chcete poznat jablko, můžete ho otočit v ruce. Můžete se na něj dívat kdykoliv chcete. Když chce AI poznat jablko, musí najít jiný obraz jablka v muzeu.

Rozpoznávání vzorů umožnilo AI i lidem kreslit slušná jablka, ale postup je odlišný. Když se začnete učit na umělce, musíte se nejdřív naučit pravidla. A tady se učení od AI začne lišit. Aby umělci namalovali něco složitějšího, danou věc zjednoduší na základní tvary. Takže když se podíváte na ruku… máte v podstatě velkou kvádrovitou část dlaně.

Máte přední část, zadní část a pak je tu tloušťka. Můžete z toho vytvořit čtverec o určité tloušťce. Umělec pak může doplnit požadovaný styl, texturu a detaily. AI funguje jinak. Podívejte se na tuto ruku. Má prapodivný tvar, ale umělá inteligence odvedla dobrou práci při zobrazení světla a textury. Pamatujte si, že AI ví, jak věci vypadají, ale ne jak fungují. Takže tyto vzory v pixelech jsou snadno pochopitelné. Nikdy se však nedozvěděla, že prsty se takto opravdu neohýbají.

Nezjednodušuje formu. Nezapomeňte, že je uvězněná v muzeu. Snaží se tedy jen odhadnout, kde by měly být pixely podobné ruce, aniž by věděla, jak ruce fungují. Na rozdíl od nás. Tohle není vůbec uspokojující. V podstatě jen říkám, že AI neumí kreslit ruce, protože to není člověk. AI neví nic ani o stavebnictví, a přesto umí postavit hezký mrakodrap v New Yorku. Abych to lépe pochopil, mluvil jsem lidmi, kteří znají generativní umělecké modely.

Yilun Du je postgraduální student, který se nadchl pro robotiku. AI umění je však nová velká věc, takže si ho to přitáhlo. Tyto modely jsou v generativním umění populární, pracoval jsem tedy i na nich. Mluvil jsem také s Royem Shilkrotem, který má pestrý životopis, ale od roku 2018 učí o generativním umění. Dobří studenti, kteří přicházejí a snaží se modely prolomit, je posouvají na další úroveň. Rozhovor s nimi mi pomohl zjistit tři hlavní důvody, ne všechny, ale tři hlavní důvody, proč jsou pro umělecké modely AI ruce tak složité.

Velikost a kvalita dat, způsob, jak se ruce hýbou, a nízká tolerance pro chyby. Pokud jde o velikost dat, vraťme se k představě muzea. Muzeum, ve kterém se robot pohybuje, má spoustu místností věnovaných obličejům, ale jen málo místností pro ruce. To znamená, že má méně materiálu k učení. Jen pro představu, dostupné databáze jako Flickr HQ obsahují 70 000 obličejů.

Sedmdesát tisíc. A tato populární databáze anotuje 200 000 fotek celebrit s detaily jako brýle nebo špičaté nosy. Existuje spousta skvělých databází rukou, které jim opravdu rozumí, jako tahle s 11 000 rukama. Ale tyto databáze možná nebyly použity k trénování AI, která vytváří umění. Tento nedostatek dat se kombinuje s kvalitou a složitostí samotných dat. Data o rukou v muzeu umění nejsou zatím anotována tak, aby ukázala, jak fungují.

Jako ty špičaté nosy u celebrit. Říká to, že tady je obrázek, na obrázku člověk a ten člověk drží deštník. Neříkáte stroji mnoho indicií jako třeba: Tohle je člověk držící deštník. Palec jde z jedné strany držadla a prsty jsou stočené a palec pak překrývá ukazováček, ale ne jiný prst. To vše je ještě horší, protože ruce dělají spoustu věcí ve srovnání s obličeji.

Existuje celkem běžná fotka portrétu. Takových fotek je online spousta a vše je na nich pěkně ve středu. Oči jsou vždy tady, všechno má své místo. U rukou to tak ale není. Ty můžou dělat tohle, tamto nebo třeba ještě něco jiného. Přísahám, že jsem střízlivý. - Stan to také zmínil. - Kolik prstů vidíte teď? Dva, nebo tři? Neví, že jich je pět. Někdy jsou tam totiž dva, někdy tři, někdy čtyři a jindy pět. Tyto problémy vidíte u rukou vytvořených AI, ale nedokonalosti jsou v AI umění všude.

- Podívejte se třeba na koně. - Mohou mít 3, 5 nebo 6 nohou. Model to nechápe, protože je tam příliš různorodosti a nemá „bias“ jako my. Slyšeli jste jeho poslední větu? Dobře, tohle je moc důležité. Nemá tolik biasu jako my. Na rukou nám hodně záleží a potřebujeme, aby byly dokonalé.

Tolerance chyb je velmi nízká. Ale protože model rukám nerozumí, neviděl jich dost a protože ruce se chovají divně, vytváří obrázky, které jsou jako ruce, které viděl v muzeu, ale ne jako skutečná ruka. Je to dost dobré pro spoustu věcí, ale ne pro ruce. Dám vám pár příkladů. Pojďte sem. Zadal jsem mu, aby vytvořil osobu s přesně pěti pihami.

Toto vytvořila DALL-E 2, toto Stable Diffusion a toto MidJourney. Takže… skvělá práce. Máme zrzavého člověka, u kterého se pihy dají čekat. Ale není tam přesně pět pih. V tomhle případě to nevadí, protože vidíme pihatý obličej. Ale u rukou máme vyšší standardy. Podívejte se znovu na muže s jablkem. Udělal jsem tři další varianty.

Ruce jsou pořád divné, ale teď se na ně nedívejte. Změnily se proužky na košili, knoflíky, styl jablka. Nezáleží na tom, protože to vypadá jako proužky, knoflíky, jako jablko. Ale „jako ruce“ není dostatečné. Odnesl jsem si z toho dvě věci. AI umění prostě umění moc nejde. Nejlépe to vidíme na rukou. A za druhé, nikdy se to nezlepší. Ale ani jedno tvrzení není úplně pravdivé. Musím říct, že nejnovější generátor AI umění, který v době tohoto videa vyšel, je MidJourney verze 5 a u rukou rozhodně udělali pokrok, ale ještě to není úplně spravené.

Neříkejte AI, aby držela deštník. Tráví spoustu času na věcech, které oceníte, a proto se vám obrázky líbí, a taky na věcech, kterých si ani nevšimnete. Myslím, že u spousty přírodních scén může být model lepší než lidé. Pracují na dvou věcech. Zaprvé nechají AI zpracovat více obrázků, což vyžaduje větší výpočetní výkon. Snaží se to vyřešit ve velkém měřítku.

Pokud chcete trénovat na více než hrstce obrázků, více než 100 obrázcích, vyžaduje to obrovské zdroje, abyste model přeškolili. Druhým řešením je pozvat do muzea více lidí. Je tu zajímavá analogie. Slyšeli jste třeba o ChatGPT? Hlavní rozdíl byl v tom, že využíval zpětnou vazbu od lidí. Vygenerovali mnoho vět a nechali je lidi hodnotit podle kvality. Doladili model, aby generoval věty, které lidem přijdou přesvědčivé.

Chtělo by to hodně práce, aby lidé označili takové množství dat. Ale myslím, že kdyby lidé hodnotili, jak dobré jsou obrázky generované těmito modely, spousta problémů by zmizela. Trénovali by modely, aby dělaly to, co se lidem líbí. Nejde jen o ruce, ale taky o zuby a břišní svaly. Cokoliv s nějakým vzorem nebo velkým množstvím. Nezná pravidlo „je jich tolik“, protože trénoval na různých množstvích.

TOTO NENÍ ZDRAVÉ. Překlad: sethe www.videacesky.cz

Komentáře (3)

Zrušit a napsat nový komentář

Odpovědět

Souhlasím, také bych ocenil vice vědy, robotiky, AI. Dobré video a myslím, že tenhle problém nebude trvat dlouho podle toho jak rychle se AI vyvíjí.

11

Odpovědět

zase jednou dobry video a dobry preklad

31

Odpovědět

Jestli máš tip na další takové video, tak tudy: https://videacesky.cz/pridat-tip.

01