Jak umělá inteligence generuje obrázky z popiskuVox
61
V roce 2015 bylo za revoluci považováno automatické popisování obrázků. Dnes už se podařilo tento proces otočit. Stačí zadat pár slov do správného modelu umělé inteligence a získáte dechberoucí umělecké dílo. Toto video objasňuje, jak vlastně modely hlubokého učení poznají, co po nich chcete, a jak funguje revoluce převodu textu na obraz (text-to-image revolution).
Modely DALL-E ani Midjourney nejsou veřejně přístupné, ale pokud si chcete sami osahat podobný algoritmus, existují alternativy dostupné i zdarma. Z těch mi uživatelsky nejpřívětivější připadal Dream od společnosti Wombo. Nečekejte tak dokonalé výsledky, jako ve videu produkuje Midjourney, ale za zkoušku to rozhodně stojí!
Bonusové video zmiňované na konci najdete zde.
Přepis titulků
Před sedmi lety, v roce 2015, bylo automatické popisování obrázků velkým skokem ve výzkumu UI. Algoritmy strojového učení už dokázaly označovat předměty na fotkách a pak se naučily z jednotlivých slov sestavit přirozený popis. Jednu skupinu vědců to zaujalo. Napadlo je tento proces otočit. Když umíme z obrázku vyprodukovat text, proč nezkusit vygenerovat z textu obrázek. Bylo to složitější.
Nechtěli hledat existující obrázky jako vyhledávač Google, cílem bylo vygenerovat něco nového, co v realitě neexistuje. Chtěli tedy po svém modelu stvořit něco, co nikdy neviděl. Všechny školní autobusy mají žlutou barvu. Když zadáte zelený nebo červený autobus, pokusí se vygenerovat něco zeleného? Ukázalo se, že ano. Zelený autobus na parkovišti. Byl to čtvereček se stranou 32 pixelů a byly tam vidět jen nějaké skvrny.
Zkusili další zadání. Stádo slonů letící po modré obloze. Stará fotka kočky. Otevřená toaletní mísa leží na trávníku. Nebo mísa banánů na stole. Na zeď si to asi nepověsíte, ale studie těchto vědců z roku 2016 ukázala potenciál, který lze v budoucnu rozvíjet. A budoucnost už dorazila. Je téměř nemožné nadsadit, jak daleko se ta technologie posunula za pouhý rok.
- Mílové kroky. - Ano, opravdu to bylo docela dramatické. Neznám nikoho, kdo by nezareagoval naprostým šokem, otázkou, co se to děje. Můžu říct třeba „sledování tříštících se vln“? - Párty čepičky… - Sny z mořské pěny… - Korálový útes. - Kubismus. - Housenka. Moje zadání je „Horizont New Yorku namalovaný Salvadorem Dalím“.
CO JE NOVÉHO? Možná si říkáte, že obrazy generované UI nejsou nové. Asi už jste slyšeli o portrétu, co se roku 2018 dražil za víc než 400 000. Nebo znáte tuhle instalaci portrétů, které se prodaly rok nato. Vytvořil je Mario Klingemann, který mi vysvětlil, že takové UI umění vyžaduje konkrétní dataset obrázků, UI je pak vycvičena napodobovat tato data. Pokud chcete udělat krajinu, posbíráte spoustu obrazů krajiny, pokud portréty, učíte UI na portrétech.
Ten model na portréty by pak ale neuměl krajiny. Jako hyperrealistické falešné obličeje, kterých je plný LinkedIn a Facebook. Pochází od modelu, který umí vytvářet jen obličeje. Možnost vygenerovat cokoli podle zadání vyžaduje jiný, nový, širší přístup. Ano, teď máme obrovské modely, které už někdo jako já nemůže učit na svém počítači.
Ale jakmile je vytvoříte, obsahují opravdu všechno. Aspoň do jisté míry. To znamená, že můžeme vytvářet obrazy, aniž bychom je sami zpracovali, namalovali, vyfotili a podobně. Stačí zadat jednoduchý text. Dostanu se k tomu, jak ta technologie funguje, ale abychom pochopili, jak jsme se tu vzali, podíváme se na leden 2021. Tehdy oznámila velká firma zabývající se UI, OpenAI, program DALL-E, pojmenovaný po těchto dvou.
Tvrdili, že dokáže vytvořit obrázky podle textového zadání z různých oblastí. A nedávno oznámili DALL-E 2 slibující realističtější výsledky a jednoduché úpravy. Ale žádná verze není veřejně přístupná. Za poslední rok tedy nezávislá komunita programátorů vytvořila generátory obrazů z textů na základě modelů, které byly k dispozici. A ty můžete online zdarma vyzkoušet. Pár těchto programátorů teď pracuje pro Midjourney.
To vytvořilo komunitu na Discordu s boty, kteří během chvilky promění váš text v obrázek. Je k tomu v podstatě bezbariérový přístup, tím pádem je to revoluční změna. Byl jsem vzhůru do tří do rána a zkoušel různé variace, různě to zkombinovat, výsledkem bylo asi 7 000 obrázků. Na používání Midjourney je teď fronta, ale umožnili nám to vyzkoušet. Hledání zkamenělin na pláži v Lyme Regis, vlny se tříští.
Wow, no teda! To je skvělý! Dalo by se na tom ještě zapracovat. Tak úplně netančí, mohlo by to být… Mohlo to být lepší. Umění komunikace s modely hlubokého učení se přezdívá prompt engineering. Formulování zadání mi připadá skoro jako magie. Musíte pro to kouzlo najít správná slova. Zjistíte, že se způsob komunikace s tím modelem dá zdokonalovat.
Je z toho skoro dialog. Můžete zadat Octane Render, Blender 3D… - Unreal Engine. - Určité druhy objektivů a foťáků. - 50. léta, 60. léta… - Datumy. Ty jsou skvělé. - Linoryt, dřevoryt. - Legrační kombinace jako Fabergého vejce a McMuffin. Monochromatická infografika o typografii s čínskými znaky. Úžasné obrazy vznikají, když zadáte modelu, aby sloučil dlouhou řadu konceptů.
Je to jako když máte zvláštního kolegu, kterému házíte nápady, a on vám vrátí nepředvídatelné odpovědi. Kush Barbie panenka. To je super! Moje zadání bylo: Honba za sny z mořské pěny. To je text z písničky Biomusicology od Ted Leo and the Pharmacists. - Můžu to použít na svém prvním albu?
- Určitě. JAK TO FUNGUJE Aby generátor obrázků uměl reagovat na tak různá zadání, potřebuje se učit na obrovském datasetu. Stovky milionů obrázků z internetu a jejich textové popisky. Ty popisky získává z alternativního textu, který nahrávají majitelé stránek pro lidi s postižením a vyhledávače. Tak získávají inženýři obrovské datasety. Co s nimi ale potom ty modely dělají? Čekali bychom, že po zadání instrukcí jako „banán ve sněžítku ze 60.
let“ najdou v databázi příbuzné obrázky a některé pixely zkopírují. Tak to ale nefunguje. Vygenerovaný obrázek nepochází z trénovacích dat. Pochází z latentního prostoru modelu hlubokého učení. Hned to bude dávat smysl. Nejdřív se podíváme, jak se model učí. Kdybych vám dala tyto obrázky, abyste k nim přiřadili popisek, asi by to nebyl problém. Ale co teď? Tak vidí ty obrázky stroj.
Údaje o barvě pixelů. Museli byste hádat. A to počítač zprvu také dělá. Ale pokud byste to zkoušeli tisíckrát, asi byste se moc nezlepšili. Počítač ovšem časem najde metodu, která funguje. To je hluboké učení. Aby model pochopil, že tato skupina pixelů je banán a tato zase balónek, hledá metriky, které ty obrázky v matematickém prostoru odlišují. Co třeba barva? Když změříme, jak žlutý ten obrázek je, banán by v tom jednorozměrném prostoru patřil sem a balónek sem.
Ale co když najdeme tohle? Teď už žlutost banán a balónek neodlišuje. Potřebujeme jinou proměnou. Přidáme osu kulatosti. Teď máme dvourozměrný prostor, kde jsou balónky nahoře a banán dole. Další data ale mohou obsahovat docela kulatý banán a málo kulatý balónek. Možná bychom mohli měřit lesklost. Balónky se obvykle lesknou. Už máme trojrozměrný prostor. Když dostaneme další obrázek, měli bychom na základě těchto proměnných určit, zda je v tom prostoru blíž k oblasti banánů, nebo balónků.
Co když chceme, aby model poznal nejen banány a balónky, ale i všechno ostatní? Žlutost, kulatost a lesklost od sebe další předměty neodlišuje. Potřebujeme lepší proměnné a potřebujeme jich mnohem více. To algoritmy hlubokého učení dělají, když prochází trénovací data. Hledají proměnné, které zlepšují jejich výsledky. Ten proces vede k matematickému prostoru s mnohem větším počtem rozměrů.
Nedokážeme si představit mnohorozměrný prostor, ale Midjourney stvořilo toto. To je hezké. To je tedy latentní prostor modelu. A v tom je více než 500 rozměrů. Těch 500 os představuje proměnné, které by lidé nepoznali ani nepojmenovali, ale ve výsledku jsou v prostoru shluky významů, jedna oblast zachycuje esenci banánovitosti, další zase texturu a barvy fotek ze 60. let, je tam oblast pro sníh a pro koule a někde mezi tím jsou sněžítka.
Jakýkoliv bod v tomto prostoru si představte jako recept na obrázek. A textové zadání je jako navigace k tomu bodu. Pak je tu ale další krok. Přetvoření bodu v matematickém prostoru do skutečného obrázku z pixelů. Tomu generativnímu procesu se říká difuze. Na začátku je jen šum, ale po řadě opakování vznikne z pixelů kompozice, která dává lidem smysl. Kvůli určité nahodilosti procesu stejné zadání nevede ke stejnému obrazu.
A když dáte zadání jinému modelu s jinými tvůrci a trénovacími daty, vyjde něco jiného, protože se pohybujete v jiném latentním prostoru. Korálový útes od Gustava Klimta. To je naprosto boží! Jak to dělá? Ty tahy štětce, barevná paleta… Je to fascinující. Kéž bych mohla… Jasně, je mrtvý, ale moc ráda bych mu to ukázala. Horizont New Yorku od Dalího To je dost dobré.
Asi jediný Dalí, kterého si můžu dovolit. KOMPLIKACE Schopnost hlubokého učení nacházet vzorce v datech umožňuje napodobit styl umělce a nekopírovat obraz. Stačí zadat jeho jméno. Park Grand Canyon od Jamese Gurneyho James Gurney je americký ilustrátor a je velmi oblíbený pro tvorbu obrázků z textů. Ptala jsem se, jaké normy by měly přijít, až se tato technologie rozšíří.
Myslím, že diváci by měli vědět, jaké bylo zadání a jaký software byl použit. Umělci by měli mít možnost rozhodnout, zda se jejich těžká práce má používat jako dataset pro tato díla. James Gurney je podle mě skvělým příkladem člověka, který byl tématu otevřený, mluvil s těmi tvůrci, ale také jsem slyšela o jiných umělcích, kteří byli velmi nespokojení.
Otázky autorského práva na obrázky použité k trénování modelů i takto vygenerované obrázky zatím nemají odpovědi. A tato technologie vyvolá i mnoho jiných otázek. Latentní prostor modelů má také své temné kouty a realistické výstupy mohou být poměrně děsivé. Navíc si modely podle dat z internetu často vytvoří nevhodné asociace. Když chcete obrázek CEO, vyjde vždy starší bílý muž. Když chcete ošetřovatele, jsou to vždy ženy.
Neznáme přesný obsah datasetů, které používají OpenAI nebo Midjourney, ale víme, že internet je předpojatý. Preferuje angličtinu a některé kultury vůbec nejsou zahrnuty. V jednom open-source datasetu slovo Asiat generuje především porno. Ano, je to neskutečně složité zrcadlo nastavené naší společnosti. Ukazuje, co považujeme za hodné zveřejnění na internetu a jak nad tím, co nahrajeme, přemýšlíme.
Tato technologie je zcela unikátní v tom, že umožňuje komukoli z nás instruovat model, aby viděl to, co chceme. Panáček s párty čepicí, mimozemšťan, housenka a miska ramenu. Odstraňuje to barikádu mezi našimi nápady a výsledným obrazem. A časem také videi, animacemi a celými virtuálními světy. Vydali jsme se na cestu, která má dlouhodobější dopady, nejen okamžité technologické následky. Je to změna ve způsobu, jak lidé komunikují, pracují se svou kulturou, a bude to mít dlouhodobé dobré i špatné následky.
A ty už z podstaty nejsme schopni zcela odhadnout. Překlad: jesterka www.videacesky.cz Při rešerši pro toto video jsem mluvila s mnohými umělci, kteří ten nástroj zkoušeli. Ptala jsem se, co to podle nich znamená pro lidi, kteří se tvorbou obrázků živí.
Umělce, ilustrátory, designéry a fotografy. Sdíleli spoustu zajímavých pohledů, z těch jsem sestavila bonusové video. Můžete se na něj podívat a přidat své názory. Díky za pozornost.
Nechtěli hledat existující obrázky jako vyhledávač Google, cílem bylo vygenerovat něco nového, co v realitě neexistuje. Chtěli tedy po svém modelu stvořit něco, co nikdy neviděl. Všechny školní autobusy mají žlutou barvu. Když zadáte zelený nebo červený autobus, pokusí se vygenerovat něco zeleného? Ukázalo se, že ano. Zelený autobus na parkovišti. Byl to čtvereček se stranou 32 pixelů a byly tam vidět jen nějaké skvrny.
Zkusili další zadání. Stádo slonů letící po modré obloze. Stará fotka kočky. Otevřená toaletní mísa leží na trávníku. Nebo mísa banánů na stole. Na zeď si to asi nepověsíte, ale studie těchto vědců z roku 2016 ukázala potenciál, který lze v budoucnu rozvíjet. A budoucnost už dorazila. Je téměř nemožné nadsadit, jak daleko se ta technologie posunula za pouhý rok.
- Mílové kroky. - Ano, opravdu to bylo docela dramatické. Neznám nikoho, kdo by nezareagoval naprostým šokem, otázkou, co se to děje. Můžu říct třeba „sledování tříštících se vln“? - Párty čepičky… - Sny z mořské pěny… - Korálový útes. - Kubismus. - Housenka. Moje zadání je „Horizont New Yorku namalovaný Salvadorem Dalím“.
CO JE NOVÉHO? Možná si říkáte, že obrazy generované UI nejsou nové. Asi už jste slyšeli o portrétu, co se roku 2018 dražil za víc než 400 000. Nebo znáte tuhle instalaci portrétů, které se prodaly rok nato. Vytvořil je Mario Klingemann, který mi vysvětlil, že takové UI umění vyžaduje konkrétní dataset obrázků, UI je pak vycvičena napodobovat tato data. Pokud chcete udělat krajinu, posbíráte spoustu obrazů krajiny, pokud portréty, učíte UI na portrétech.
Ten model na portréty by pak ale neuměl krajiny. Jako hyperrealistické falešné obličeje, kterých je plný LinkedIn a Facebook. Pochází od modelu, který umí vytvářet jen obličeje. Možnost vygenerovat cokoli podle zadání vyžaduje jiný, nový, širší přístup. Ano, teď máme obrovské modely, které už někdo jako já nemůže učit na svém počítači.
Ale jakmile je vytvoříte, obsahují opravdu všechno. Aspoň do jisté míry. To znamená, že můžeme vytvářet obrazy, aniž bychom je sami zpracovali, namalovali, vyfotili a podobně. Stačí zadat jednoduchý text. Dostanu se k tomu, jak ta technologie funguje, ale abychom pochopili, jak jsme se tu vzali, podíváme se na leden 2021. Tehdy oznámila velká firma zabývající se UI, OpenAI, program DALL-E, pojmenovaný po těchto dvou.
Tvrdili, že dokáže vytvořit obrázky podle textového zadání z různých oblastí. A nedávno oznámili DALL-E 2 slibující realističtější výsledky a jednoduché úpravy. Ale žádná verze není veřejně přístupná. Za poslední rok tedy nezávislá komunita programátorů vytvořila generátory obrazů z textů na základě modelů, které byly k dispozici. A ty můžete online zdarma vyzkoušet. Pár těchto programátorů teď pracuje pro Midjourney.
To vytvořilo komunitu na Discordu s boty, kteří během chvilky promění váš text v obrázek. Je k tomu v podstatě bezbariérový přístup, tím pádem je to revoluční změna. Byl jsem vzhůru do tří do rána a zkoušel různé variace, různě to zkombinovat, výsledkem bylo asi 7 000 obrázků. Na používání Midjourney je teď fronta, ale umožnili nám to vyzkoušet. Hledání zkamenělin na pláži v Lyme Regis, vlny se tříští.
Wow, no teda! To je skvělý! Dalo by se na tom ještě zapracovat. Tak úplně netančí, mohlo by to být… Mohlo to být lepší. Umění komunikace s modely hlubokého učení se přezdívá prompt engineering. Formulování zadání mi připadá skoro jako magie. Musíte pro to kouzlo najít správná slova. Zjistíte, že se způsob komunikace s tím modelem dá zdokonalovat.
Je z toho skoro dialog. Můžete zadat Octane Render, Blender 3D… - Unreal Engine. - Určité druhy objektivů a foťáků. - 50. léta, 60. léta… - Datumy. Ty jsou skvělé. - Linoryt, dřevoryt. - Legrační kombinace jako Fabergého vejce a McMuffin. Monochromatická infografika o typografii s čínskými znaky. Úžasné obrazy vznikají, když zadáte modelu, aby sloučil dlouhou řadu konceptů.
Je to jako když máte zvláštního kolegu, kterému házíte nápady, a on vám vrátí nepředvídatelné odpovědi. Kush Barbie panenka. To je super! Moje zadání bylo: Honba za sny z mořské pěny. To je text z písničky Biomusicology od Ted Leo and the Pharmacists. - Můžu to použít na svém prvním albu?
- Určitě. JAK TO FUNGUJE Aby generátor obrázků uměl reagovat na tak různá zadání, potřebuje se učit na obrovském datasetu. Stovky milionů obrázků z internetu a jejich textové popisky. Ty popisky získává z alternativního textu, který nahrávají majitelé stránek pro lidi s postižením a vyhledávače. Tak získávají inženýři obrovské datasety. Co s nimi ale potom ty modely dělají? Čekali bychom, že po zadání instrukcí jako „banán ve sněžítku ze 60.
let“ najdou v databázi příbuzné obrázky a některé pixely zkopírují. Tak to ale nefunguje. Vygenerovaný obrázek nepochází z trénovacích dat. Pochází z latentního prostoru modelu hlubokého učení. Hned to bude dávat smysl. Nejdřív se podíváme, jak se model učí. Kdybych vám dala tyto obrázky, abyste k nim přiřadili popisek, asi by to nebyl problém. Ale co teď? Tak vidí ty obrázky stroj.
Údaje o barvě pixelů. Museli byste hádat. A to počítač zprvu také dělá. Ale pokud byste to zkoušeli tisíckrát, asi byste se moc nezlepšili. Počítač ovšem časem najde metodu, která funguje. To je hluboké učení. Aby model pochopil, že tato skupina pixelů je banán a tato zase balónek, hledá metriky, které ty obrázky v matematickém prostoru odlišují. Co třeba barva? Když změříme, jak žlutý ten obrázek je, banán by v tom jednorozměrném prostoru patřil sem a balónek sem.
Ale co když najdeme tohle? Teď už žlutost banán a balónek neodlišuje. Potřebujeme jinou proměnou. Přidáme osu kulatosti. Teď máme dvourozměrný prostor, kde jsou balónky nahoře a banán dole. Další data ale mohou obsahovat docela kulatý banán a málo kulatý balónek. Možná bychom mohli měřit lesklost. Balónky se obvykle lesknou. Už máme trojrozměrný prostor. Když dostaneme další obrázek, měli bychom na základě těchto proměnných určit, zda je v tom prostoru blíž k oblasti banánů, nebo balónků.
Co když chceme, aby model poznal nejen banány a balónky, ale i všechno ostatní? Žlutost, kulatost a lesklost od sebe další předměty neodlišuje. Potřebujeme lepší proměnné a potřebujeme jich mnohem více. To algoritmy hlubokého učení dělají, když prochází trénovací data. Hledají proměnné, které zlepšují jejich výsledky. Ten proces vede k matematickému prostoru s mnohem větším počtem rozměrů.
Nedokážeme si představit mnohorozměrný prostor, ale Midjourney stvořilo toto. To je hezké. To je tedy latentní prostor modelu. A v tom je více než 500 rozměrů. Těch 500 os představuje proměnné, které by lidé nepoznali ani nepojmenovali, ale ve výsledku jsou v prostoru shluky významů, jedna oblast zachycuje esenci banánovitosti, další zase texturu a barvy fotek ze 60. let, je tam oblast pro sníh a pro koule a někde mezi tím jsou sněžítka.
Jakýkoliv bod v tomto prostoru si představte jako recept na obrázek. A textové zadání je jako navigace k tomu bodu. Pak je tu ale další krok. Přetvoření bodu v matematickém prostoru do skutečného obrázku z pixelů. Tomu generativnímu procesu se říká difuze. Na začátku je jen šum, ale po řadě opakování vznikne z pixelů kompozice, která dává lidem smysl. Kvůli určité nahodilosti procesu stejné zadání nevede ke stejnému obrazu.
A když dáte zadání jinému modelu s jinými tvůrci a trénovacími daty, vyjde něco jiného, protože se pohybujete v jiném latentním prostoru. Korálový útes od Gustava Klimta. To je naprosto boží! Jak to dělá? Ty tahy štětce, barevná paleta… Je to fascinující. Kéž bych mohla… Jasně, je mrtvý, ale moc ráda bych mu to ukázala. Horizont New Yorku od Dalího To je dost dobré.
Asi jediný Dalí, kterého si můžu dovolit. KOMPLIKACE Schopnost hlubokého učení nacházet vzorce v datech umožňuje napodobit styl umělce a nekopírovat obraz. Stačí zadat jeho jméno. Park Grand Canyon od Jamese Gurneyho James Gurney je americký ilustrátor a je velmi oblíbený pro tvorbu obrázků z textů. Ptala jsem se, jaké normy by měly přijít, až se tato technologie rozšíří.
Myslím, že diváci by měli vědět, jaké bylo zadání a jaký software byl použit. Umělci by měli mít možnost rozhodnout, zda se jejich těžká práce má používat jako dataset pro tato díla. James Gurney je podle mě skvělým příkladem člověka, který byl tématu otevřený, mluvil s těmi tvůrci, ale také jsem slyšela o jiných umělcích, kteří byli velmi nespokojení.
Otázky autorského práva na obrázky použité k trénování modelů i takto vygenerované obrázky zatím nemají odpovědi. A tato technologie vyvolá i mnoho jiných otázek. Latentní prostor modelů má také své temné kouty a realistické výstupy mohou být poměrně děsivé. Navíc si modely podle dat z internetu často vytvoří nevhodné asociace. Když chcete obrázek CEO, vyjde vždy starší bílý muž. Když chcete ošetřovatele, jsou to vždy ženy.
Neznáme přesný obsah datasetů, které používají OpenAI nebo Midjourney, ale víme, že internet je předpojatý. Preferuje angličtinu a některé kultury vůbec nejsou zahrnuty. V jednom open-source datasetu slovo Asiat generuje především porno. Ano, je to neskutečně složité zrcadlo nastavené naší společnosti. Ukazuje, co považujeme za hodné zveřejnění na internetu a jak nad tím, co nahrajeme, přemýšlíme.
Tato technologie je zcela unikátní v tom, že umožňuje komukoli z nás instruovat model, aby viděl to, co chceme. Panáček s párty čepicí, mimozemšťan, housenka a miska ramenu. Odstraňuje to barikádu mezi našimi nápady a výsledným obrazem. A časem také videi, animacemi a celými virtuálními světy. Vydali jsme se na cestu, která má dlouhodobější dopady, nejen okamžité technologické následky. Je to změna ve způsobu, jak lidé komunikují, pracují se svou kulturou, a bude to mít dlouhodobé dobré i špatné následky.
A ty už z podstaty nejsme schopni zcela odhadnout. Překlad: jesterka www.videacesky.cz Při rešerši pro toto video jsem mluvila s mnohými umělci, kteří ten nástroj zkoušeli. Ptala jsem se, co to podle nich znamená pro lidi, kteří se tvorbou obrázků živí.
Umělce, ilustrátory, designéry a fotografy. Sdíleli spoustu zajímavých pohledů, z těch jsem sestavila bonusové video. Můžete se na něj podívat a přidat své názory. Díky za pozornost.
Komentáře (0)