Jak umělá inteligence generuje obrázky z popiskuVox

Thumbnail play icon
Přidat do sledovaných sérií 62
97 %
Tvoje hodnocení
Počet hodnocení:41
Počet zobrazení:1 810

V roce 2015 bylo za revoluci považováno automatické popisování obrázků. Dnes už se podařilo tento proces otočit. Stačí zadat pár slov do správného modelu umělé inteligence a získáte dechberoucí umělecké dílo. Toto video objasňuje, jak vlastně modely hlubokého učení poznají, co po nich chcete, a jak funguje revoluce převodu textu na obraz (text-to-image revolution).

Modely DALL-E ani Midjourney nejsou veřejně přístupné, ale pokud si chcete sami osahat podobný algoritmus, existují alternativy dostupné i zdarma. Z těch mi uživatelsky nejpřívětivější připadal Dream od společnosti Wombo. Nečekejte tak dokonalé výsledky, jako ve videu produkuje Midjourney, ale za zkoušku to rozhodně stojí!

Bonusové video zmiňované na konci najdete zde.

Přepis titulků

Před sedmi lety, v roce 2015, bylo automatické popisování obrázků velkým skokem ve výzkumu UI. Algoritmy strojového učení už dokázaly označovat předměty na fotkách a pak se naučily z jednotlivých slov sestavit přirozený popis. Jednu skupinu vědců to zaujalo. Napadlo je tento proces otočit. Když umíme z obrázku vyprodukovat text, proč nezkusit vygenerovat z textu obrázek. Bylo to složitější.

Nechtěli hledat existující obrázky jako vyhledávač Google, cílem bylo vygenerovat něco nového, co v realitě neexistuje. Chtěli tedy po svém modelu stvořit něco, co nikdy neviděl. Všechny školní autobusy mají žlutou barvu. Když zadáte zelený nebo červený autobus, pokusí se vygenerovat něco zeleného? Ukázalo se, že ano. Zelený autobus na parkovišti. Byl to čtvereček se stranou 32 pixelů a byly tam vidět jen nějaké skvrny.

Zkusili další zadání. Stádo slonů letící po modré obloze. Stará fotka kočky. Otevřená toaletní mísa leží na trávníku. Nebo mísa banánů na stole. Na zeď si to asi nepověsíte, ale studie těchto vědců z roku 2016 ukázala potenciál, který lze v budoucnu rozvíjet. A budoucnost už dorazila. Je téměř nemožné nadsadit, jak daleko se ta technologie posunula za pouhý rok.

- Mílové kroky. - Ano, opravdu to bylo docela dramatické. Neznám nikoho, kdo by nezareagoval naprostým šokem, otázkou, co se to děje. Můžu říct třeba „sledování tříštících se vln“? - Párty čepičky… - Sny z mořské pěny… - Korálový útes. - Kubismus. - Housenka. Moje zadání je „Horizont New Yorku namalovaný Salvadorem Dalím“.

CO JE NOVÉHO? Možná si říkáte, že obrazy generované UI nejsou nové. Asi už jste slyšeli o portrétu, co se roku 2018 dražil za víc než 400 000. Nebo znáte tuhle instalaci portrétů, které se prodaly rok nato. Vytvořil je Mario Klingemann, který mi vysvětlil, že takové UI umění vyžaduje konkrétní dataset obrázků, UI je pak vycvičena napodobovat tato data. Pokud chcete udělat krajinu, posbíráte spoustu obrazů krajiny, pokud portréty, učíte UI na portrétech.

Ten model na portréty by pak ale neuměl krajiny. Jako hyperrealistické falešné obličeje, kterých je plný LinkedIn a Facebook. Pochází od modelu, který umí vytvářet jen obličeje. Možnost vygenerovat cokoli podle zadání vyžaduje jiný, nový, širší přístup. Ano, teď máme obrovské modely, které už někdo jako já nemůže učit na svém počítači.

Ale jakmile je vytvoříte, obsahují opravdu všechno. Aspoň do jisté míry. To znamená, že můžeme vytvářet obrazy, aniž bychom je sami zpracovali, namalovali, vyfotili a podobně. Stačí zadat jednoduchý text. Dostanu se k tomu, jak ta technologie funguje, ale abychom pochopili, jak jsme se tu vzali, podíváme se na leden 2021. Tehdy oznámila velká firma zabývající se UI, OpenAI, program DALL-E, pojmenovaný po těchto dvou.

Tvrdili, že dokáže vytvořit obrázky podle textového zadání z různých oblastí. A nedávno oznámili DALL-E 2 slibující realističtější výsledky a jednoduché úpravy. Ale žádná verze není veřejně přístupná. Za poslední rok tedy nezávislá komunita programátorů vytvořila generátory obrazů z textů na základě modelů, které byly k dispozici. A ty můžete online zdarma vyzkoušet. Pár těchto programátorů teď pracuje pro Midjourney.

To vytvořilo komunitu na Discordu s boty, kteří během chvilky promění váš text v obrázek. Je k tomu v podstatě bezbariérový přístup, tím pádem je to revoluční změna. Byl jsem vzhůru do tří do rána a zkoušel různé variace, různě to zkombinovat, výsledkem bylo asi 7 000 obrázků. Na používání Midjourney je teď fronta, ale umožnili nám to vyzkoušet. Hledání zkamenělin na pláži v Lyme Regis, vlny se tříští.

Wow, no teda! To je skvělý! Dalo by se na tom ještě zapracovat. Tak úplně netančí, mohlo by to být… Mohlo to být lepší. Umění komunikace s modely hlubokého učení se přezdívá prompt engineering. Formulování zadání mi připadá skoro jako magie. Musíte pro to kouzlo najít správná slova. Zjistíte, že se způsob komunikace s tím modelem dá zdokonalovat.

Je z toho skoro dialog. Můžete zadat Octane Render, Blender 3D… - Unreal Engine. - Určité druhy objektivů a foťáků. - 50. léta, 60. léta… - Datumy. Ty jsou skvělé. - Linoryt, dřevoryt. - Legrační kombinace jako Fabergého vejce a McMuffin. Monochromatická infografika o typografii s čínskými znaky. Úžasné obrazy vznikají, když zadáte modelu, aby sloučil dlouhou řadu konceptů.

Je to jako když máte zvláštního kolegu, kterému házíte nápady, a on vám vrátí nepředvídatelné odpovědi. Kush Barbie panenka. To je super! Moje zadání bylo: Honba za sny z mořské pěny. To je text z písničky Biomusicology od Ted Leo and the Pharmacists. - Můžu to použít na svém prvním albu?

- Určitě. JAK TO FUNGUJE Aby generátor obrázků uměl reagovat na tak různá zadání, potřebuje se učit na obrovském datasetu. Stovky milionů obrázků z internetu a jejich textové popisky. Ty popisky získává z alternativního textu, který nahrávají majitelé stránek pro lidi s postižením a vyhledávače. Tak získávají inženýři obrovské datasety. Co s nimi ale potom ty modely dělají? Čekali bychom, že po zadání instrukcí jako „banán ve sněžítku ze 60.

let“ najdou v databázi příbuzné obrázky a některé pixely zkopírují. Tak to ale nefunguje. Vygenerovaný obrázek nepochází z trénovacích dat. Pochází z latentního prostoru modelu hlubokého učení. Hned to bude dávat smysl. Nejdřív se podíváme, jak se model učí. Kdybych vám dala tyto obrázky, abyste k nim přiřadili popisek, asi by to nebyl problém. Ale co teď? Tak vidí ty obrázky stroj.

Údaje o barvě pixelů. Museli byste hádat. A to počítač zprvu také dělá. Ale pokud byste to zkoušeli tisíckrát, asi byste se moc nezlepšili. Počítač ovšem časem najde metodu, která funguje. To je hluboké učení. Aby model pochopil, že tato skupina pixelů je banán a tato zase balónek, hledá metriky, které ty obrázky v matematickém prostoru odlišují. Co třeba barva? Když změříme, jak žlutý ten obrázek je, banán by v tom jednorozměrném prostoru patřil sem a balónek sem.

Ale co když najdeme tohle? Teď už žlutost banán a balónek neodlišuje. Potřebujeme jinou proměnou. Přidáme osu kulatosti. Teď máme dvourozměrný prostor, kde jsou balónky nahoře a banán dole. Další data ale mohou obsahovat docela kulatý banán a málo kulatý balónek. Možná bychom mohli měřit lesklost. Balónky se obvykle lesknou. Už máme trojrozměrný prostor. Když dostaneme další obrázek, měli bychom na základě těchto proměnných určit, zda je v tom prostoru blíž k oblasti banánů, nebo balónků.

Co když chceme, aby model poznal nejen banány a balónky, ale i všechno ostatní? Žlutost, kulatost a lesklost od sebe další předměty neodlišuje. Potřebujeme lepší proměnné a potřebujeme jich mnohem více. To algoritmy hlubokého učení dělají, když prochází trénovací data. Hledají proměnné, které zlepšují jejich výsledky. Ten proces vede k matematickému prostoru s mnohem větším počtem rozměrů.

Nedokážeme si představit mnohorozměrný prostor, ale Midjourney stvořilo toto. To je hezké. To je tedy latentní prostor modelu. A v tom je více než 500 rozměrů. Těch 500 os představuje proměnné, které by lidé nepoznali ani nepojmenovali, ale ve výsledku jsou v prostoru shluky významů, jedna oblast zachycuje esenci banánovitosti, další zase texturu a barvy fotek ze 60. let, je tam oblast pro sníh a pro koule a někde mezi tím jsou sněžítka.

Jakýkoliv bod v tomto prostoru si představte jako recept na obrázek. A textové zadání je jako navigace k tomu bodu. Pak je tu ale další krok. Přetvoření bodu v matematickém prostoru do skutečného obrázku z pixelů. Tomu generativnímu procesu se říká difuze. Na začátku je jen šum, ale po řadě opakování vznikne z pixelů kompozice, která dává lidem smysl. Kvůli určité nahodilosti procesu stejné zadání nevede ke stejnému obrazu.

A když dáte zadání jinému modelu s jinými tvůrci a trénovacími daty, vyjde něco jiného, protože se pohybujete v jiném latentním prostoru. Korálový útes od Gustava Klimta. To je naprosto boží! Jak to dělá? Ty tahy štětce, barevná paleta… Je to fascinující. Kéž bych mohla… Jasně, je mrtvý, ale moc ráda bych mu to ukázala. Horizont New Yorku od Dalího To je dost dobré.

Asi jediný Dalí, kterého si můžu dovolit. KOMPLIKACE Schopnost hlubokého učení nacházet vzorce v datech umožňuje napodobit styl umělce a nekopírovat obraz. Stačí zadat jeho jméno. Park Grand Canyon od Jamese Gurneyho James Gurney je americký ilustrátor a je velmi oblíbený pro tvorbu obrázků z textů. Ptala jsem se, jaké normy by měly přijít, až se tato technologie rozšíří.

Myslím, že diváci by měli vědět, jaké bylo zadání a jaký software byl použit. Umělci by měli mít možnost rozhodnout, zda se jejich těžká práce má používat jako dataset pro tato díla. James Gurney je podle mě skvělým příkladem člověka, který byl tématu otevřený, mluvil s těmi tvůrci, ale také jsem slyšela o jiných umělcích, kteří byli velmi nespokojení.

Otázky autorského práva na obrázky použité k trénování modelů i takto vygenerované obrázky zatím nemají odpovědi. A tato technologie vyvolá i mnoho jiných otázek. Latentní prostor modelů má také své temné kouty a realistické výstupy mohou být poměrně děsivé. Navíc si modely podle dat z internetu často vytvoří nevhodné asociace. Když chcete obrázek CEO, vyjde vždy starší bílý muž. Když chcete ošetřovatele, jsou to vždy ženy.

Neznáme přesný obsah datasetů, které používají OpenAI nebo Midjourney, ale víme, že internet je předpojatý. Preferuje angličtinu a některé kultury vůbec nejsou zahrnuty. V jednom open-source datasetu slovo Asiat generuje především porno. Ano, je to neskutečně složité zrcadlo nastavené naší společnosti. Ukazuje, co považujeme za hodné zveřejnění na internetu a jak nad tím, co nahrajeme, přemýšlíme.

Tato technologie je zcela unikátní v tom, že umožňuje komukoli z nás instruovat model, aby viděl to, co chceme. Panáček s párty čepicí, mimozemšťan, housenka a miska ramenu. Odstraňuje to barikádu mezi našimi nápady a výsledným obrazem. A časem také videi, animacemi a celými virtuálními světy. Vydali jsme se na cestu, která má dlouhodobější dopady, nejen okamžité technologické následky. Je to změna ve způsobu, jak lidé komunikují, pracují se svou kulturou, a bude to mít dlouhodobé dobré i špatné následky.

A ty už z podstaty nejsme schopni zcela odhadnout. Překlad: jesterka www.videacesky.cz Při rešerši pro toto video jsem mluvila s mnohými umělci, kteří ten nástroj zkoušeli. Ptala jsem se, co to podle nich znamená pro lidi, kteří se tvorbou obrázků živí.

Umělce, ilustrátory, designéry a fotografy. Sdíleli spoustu zajímavých pohledů, z těch jsem sestavila bonusové video. Můžete se na něj podívat a přidat své názory. Díky za pozornost.

Komentáře (13)

Zrušit a napsat nový komentář

Odpovědět

Tak nám ty chytré algoritmy (ne AI) zatím generují jen samé p******y.

02

Odpovědět

Nevím, jestli to bude DALLE 3, 4 nebo 5, ale jednou bude prakticky nemožné rozlišit, která fotka je reálná a která je jen podvrh. A od fotek k videu je už jen krok. V podstatě jakékoliv tvé představy dostanou virtuální podobu.

Už teď v DALLE 2 museli zavést omezení, aby se z toho nestal nekonečný generátor porna nebo dezinformačních materiálů typu "Obama si podává ruku s Putinem", "Hitler s židovským chlapcem v náručí" apod.

Nějak mě to děsí.

41

Odpovědět

Co je špatného na nekonečném generátoru porna? Vyřešilo by to docela velké procento zneužívání žen a - co si budeme namlouvat - i dětí. Proč hrozilo, že se z DALLE stane generátor porna? Protože tu po tom pornu prostě JE poptávka. Můžeme se kroutit jak žížaly, můžeme moralizovat do aleluja, ale světem hejbe frnda a kozy a když je tu možnost dát lidem porno nerozeznatelné od reality, kdy tam může být vygenerováno opravdu cokoli a přitom není ublíženo žádné lidské bytost ani zvířeti, proč tu možnost zamezovat a udržovat tak dál pornoprůmysl i se vším zneužíváním kdekoho? Jasně, nikdy se to nevymýtí úplně, pořád budou existovat lidé, kterým nestačí obrázky a videa, ale každé procento dobré.

72

Odpovědět

+FerdaProč omezovat lidi?
Protože my lidi jsme bohužel jen dementní zvířata, která se neřídí rozumem ale pudy a emocemi. Proto se kokain neprodává v Kauflandu. Proto se zvýší počet mrtvých, když lidem rozdáš pistole.

Jsem přesvědčený, že když dáš lidem přístup k pornografickému materiálu, který je aktuálně z dobrých důvodů zakázaný (nebo vůbec neexistuje), tak to nepřinese nic dobrého, a rozhodně ne snížení zneužívání žen nebo dětí. Když denně vizuálně uvidíš jak nečekaně příjemné a vzrušující je zneužít pár malých dětí, tak si neumím představit, jak by tě to mohlo odradit od té chuti, jednou to zkusit reálně zažít.

Já jsem byl dřív silný zastánce maximální svobody. Hořce jsem ale postupně zjistil, že to prostě není možné a že pro optimální existenci společnosti potřebuješ nějaká omezení.

26

Odpovědět

+jjkV rámci své profese jsem pracoval s pedofily. Nutno podotknout, že valnou většinu sexuálních zneužití dětí nepáchají pedofilové, ale různí sociopati, kteří volí dítě ne kvůli erotické preferenci, ale kvůli snadnosti přemožení daného dítěte - zkrátka troufnou si jen na slabšího. Většina reálných pedofilů dává přednost softcore pornografii, tj. je jim příjemnější provozovat autoerotiku třeba nad prostými fotkami nahých dětí někde na pláži, než nad skutečnou tvrdou dětskou pornografií. Ta je jim mnohdy naopak odporná, protože, jak říká starý vtip, "pedofil na rozdíl od učitele má děti doopravdy rád" - většina pedofilů, kteří nemají nějakou psycho- či socio- deviaci, nesnese ubližování dětem.

Já jsem se podílel na vývoji měřícího zařízení, které vyhodnocovalo korelaci mezi slovním vyjádřením testovaného člověka, nervovými impulsy v jeho mozku a měřitelnými veličinami vzrušení (dech, prokrvení sliznic, erekce a podobně). Při tom se pracovalo jak s reálnou pornografií, tak s počítačově generovanou (různé 3D modely). Naprosté většině pedofilů se podstatně více líbilo to umělé porno, protože vizuálně přinášelo atraktivní materiál a zároveň s tím šlo vědomí, že při tom nebylo zneužito a vlastně ani použito žádné reálné dítě.

To, co popisuješ, tedy to, že sledováním roste chuť k reálnému zážitku - týká se to překvapivě malého procenta lidí. Není to nula, ale osobně jsem si dříve taky myslel, že to bude masivnější záležitost. Ale kupodivu není.

50

Odpovědět

+FerdaTohle ve skutečnosti o pedofilech vím, takže s tebou souhlasím. Můj komentář byl mířený spíš na ty zakomplexované sociopaty, kteří si vyberou nezletilou holku, jen protože je to prostě jednodušší.

"sledováním roste chuť k reálnému zážitku" podle mě obecně platí u spousty různých činností, takže by mě dost překvapilo, kdyby to zrovna u porna nefungovalo. Ale je to jen můj dojem.

01

Odpovědět

+FerdaZneužívání žen? Žiješ v zemi kde je nejvíc pornohereček na světě a můžeš se spolehnout, že je do toho nikdo nenutí.

05

Odpovědět

+KillmisterNepíšu o dobrovolných pornoherečkách, píšu o zneužívaných ženách, které k tomu někdo nutí. Že existuje bambilion žen, které do toho jdou dobrovolně, je věc, která s tím v podstatě moc nesouvisí. I když i u těch dobrovolných hereček je ta dobrovolnost často všelijaká. Oficiálně je nikdo nenutí, neoficiálně za tím může být potřeba mít na drogy, mít na náročnější životní styl a podobně. Někdy je to kolotoč, který začíná dobrovolně a končí tím, že by se žena ráda vymanila, ale už to nejde, nebo ji lidé kolem ní vymanit nenechají.

50

Odpovědět

Jako člověk co umí prd anglicky bych ocenila přeložené i bonus video

10

Odpovědět

DALL-E mini dostupný je: https://dallemini.com/

40

Odpovědět

Tak to jsou s AI trochu dál, než jsem myslel. Tohle už je relativně tvůrčí práce.
No jo, dneska kreslí obrázky na netu, zítra už bude pronásledovat Johna Connora :-D

50

Odpovědět

DALL•Eho sleduju už nějaký pátek, tak jsem rád za komplexní rozšíření obzorů od těch nejpovolanějších a vtáhnutí do hloubky. Jenom mi to asi nedá a budu za blbce, že se chytnu zrovna tohohle, ale... z jakého důvodu si člověk dává filtr na obličej, aby mu to udělalo digitálně roušku? Docela se to hodilo k tématu o kterém paní mluvila kolem 12. minuty. Odraz společnosti.

A než se někdo chytne jakékoli domněnky – nepopírám v jakémkoli případě účinek roušek nebo jejich zastoupení a účel. Jenom mi přijde digitální rouška na obličeji stejně bizarní odraz společnosti jako to, že generátor vyhodí porno po zadání slova „asian“.

72

Odpovědět

Myslím, že si jí třeba přidala, aby nebylo možné její obličej dohledat po internetu a použít na cokoli. Samozřejmě se můžu mýlit. Jestli používá FB a třeba má špatně nastavenou viditelnost, tak to pak nemá smysl. Ale možná je to typ člověka, který má rád minimální elektronickou stopu a nic ze svého života nesdílí. Vlastně to tam i říká, tak bych se k tomu přiklonil. "Že to vypovídá o tom co považujeme za vhodné sdílet na internetu a jak nad tím přemýšlíme."

10