Co dokáže program Adobe VoCo

Thumbnail play icon
74 %
Tvoje hodnocení
Počet hodnocení:82
Počet zobrazení:5 297

Občas se stává, že jsou člověku vkládána do úst slova, která nikdy neřekl a ani říct nechtěl. Seznamte se s programem VoCo, který vám libovolný text převede do mluveného slova libovolného člověka. Stačí jen asi dvacet minut zvukového záznamu, kde dotyčný hovoří, a Photoshop pro práci se zvukem je připraven mluvit. Nástroj jako stvořený pro tvorbu fake news. Možná i proto se nikdy nedostal na veřejnost.

Video je ukázka programu na předloňské konferenci Adobe MAX, kterou spolumoderoval Jordan Peele.

Přepis titulků

Poslechněme si Zeyua, který nám řekne něco o Photoshopu pro úpravu hlasu. Přivítejte prosím na pódiu Zeyua! Všechny vás zdravím. Lidi na internetu dělají fakt divný věci... co se týká úpravy fotek. Dnes se ale posuneme o úroveň výš. Pojďme si trochu pohrát s lidskou řečí. Změníme třeba, co jste řekli na své svatbě.

Tak pojďme na to. Dostal se ke mně tenhle zvukový záznam, kde Michael Key říká Peeleovi, jak se cítí po tom, co byl nominován. Je tam docela zajímavý vtip, tak si to pojďme pustit. Ne, tohle ne. Tady. Vyskočil jsem z postele... a políbil jsem své psy a manželku... v tomhle pořadí.

Co kdybychom si teď pohráli s tím, koho ve skutečnosti políbil. Možná si říkáte: "Ve Photoshopu docela umím, ale zvukovým záznamům moc nerozumím. Jak se to dělá?" Tak to pro vás mám dobrou zprávu. Představuji vám projekt VoCo. Projekt VoCo umožňuje přidat hlas za pomoci textu. Pojďme se na to podívat.

Zvukový záznam tedy nahraji do VoCo. Vteřinku. A takhle to vypadá. Jak můžete vidět... Trochu to přiblížím. Jak můžete vidět, nahoře máme zvukový záznam a dole text. A když záznam přehrajeme, měly by se tyto části přehrát současně. Pojďme to zkusit. a políbil jsem své psy a manželku...

Dobře. Něco s tím uděláme. Řekněme, že chce Michael Key tenhle záznam poslat své manželce, takže chce ve skutečnosti políbit manželku dřív než psy. Takže co s tím uděláme? Jednoduše Kopírovat a Vložit. Pojďme na to. Kopírovat... a vložit. Je to tam.

Poslechneme si to. a políbil jsem svoji manželku a svoji manželku... Kam se poděli psi? Dobře, jak můžeme vypustit psy? Kdo, kdo, kdo, kdo? Hezky, Zeyu! Je to vlastně prosté. Můžeme sem to slovo psy napsat. ...a políbil jsem svou manželku a psy... Počkejte.

To není vše. Můžeme napsat i něco, co tu není. Takže... Zaslechl jsem, že ten den Michael ve skutečnosti políbil tady Jordana. - Pardon? - Takže abychom ukázali pravdu, dáme to tam. Odstraníme slovo svou... - Tvé tajemství je prozrazeno, Jordane.

- A napíšeme slovo Jordana. A tady je výsledek. a políbil jsem Jordana a své psy... - No... - Jste čarodějnice. - Jste démon. - To jo. Umím kouzlit. Moje poslední kouzlo, které vám ukážu, je, že tohle nemusíme dělat jen se slovy, ale klidně s celými frázemi. Řekněme třeba... Dobře, tahle slova odstraníme a napíšeme třikrát.

Pusťme si to. a třikrát jsem Jordana políbil... - Neuvěřitelné. - Pro fotky jsme toho už udělali dost. Úpravu fotek jsme už dovedli k dokonalosti. Nyní přišel čas udělat totéž se zvukem. Dobře. #VoCo! Zeyu! - Tohle je...

- To je tak... Zeyu... To je tak těžké vyhláskovat slovo něžně? - Nezasloužíme si trochu... - To nepotřebujeme slyšet, ne? - Ale no tak, každý má něco. - U vás to zjevně bylo dost polibků. - Tři. Maximálně. - O kterých víme. Nebudu popisovat, jak je v tom zapletený ten pes, ale... Pokud se tahle technologie dostane do nesprávných rukou... Nebojte.

Zkoumali jsme možnosti, jak zamezit padělání. Máme něco na způsob rozpoznávání vodoznaků. Mezitím, co se tady bavíme... Daří se nám tvořit lepší a lepší výsledný záznam a lidé mají problém rozeznat pravou nahrávku od falešné. Mezitím ale usilovně pracujeme na tom, aby byly rozpoznatelné. Jo, vidíte? Má to pokryté. Za podobné věci vám hrozí pěkný průšvih. Říkám ti, říkáš mi...

Je to úžasné, jsem ohromen. Nemůžu uvěřit, že je tohle možné. Prostě napíšete text a program ho přečte daným hlasem... Ano, učí se, jak mluvíte. Tak jako tady u Michaela. A k napodobení potřebuje jen to jedno slovní spojení jako příklad? - Nebo je zapotřebí víc? - Ve skutečnosti je potřeba o něco víc. Je potřeba přibližně dvacet minut mluveného projevu. Je možné přidat třeba audioknihy, podcasty a podobně. - Tohle je skvělá věc.

Díky moc, Zeyu. - Skvělá věc. Překlad: heindlik www.videacesky.cz

Komentáře (11)

Zrušit a napsat nový komentář

Odpovědět

To mají za to, že mluví anglicky. Ve slovanských jazycích, a extra v češtině s jejím klouzavým pořadím slov ve větách, by to nešlo tak snadno :D

31

Odpovědět

Text-to-speech obecně se v poslední dekádě posouvá dopředu mílovými kroky. I v případě češtiny existují poměrně fajn nástroje, nad jejichž kvalitou by ještě před 5 lety lidi jen kroutili hlavou. Zajímavost tohoto videa ale vlastně není ani tak v syntéze řeči jako takové, jako spíš v extrakci Jordanovy hlasové charakteristiky z velmi krátkého vzorku. Tam souhlasím, že to má angličtina o něco jednodušší. Jen škoda, že nezkusili napsat úplně jinou a delší větu. To by lépe demonstrovalo skutečnou kvalitu té extrakce.

70

Odpovědět

Konečně už nebude další Elder Scrolls dabovat jen 6 lidí...

30

Odpovědět

Pokud budou mít práva na hlas :O

40

Odpovědět

škoda že tej ženskej Peele jednu nevyjebal lakťom...

41

Odpovědět

Ta ženská je strašná.

210

Odpovědět

Whoooooooou, čo sa ti na nej nepáčí? Whoooooooou!

200

Odpovědět

Protože na ní to celé video stojí :D

20

Odpovědět

Copak to hodnocení? Něco se dětem nelíbí?

162

Odpovědět

Trošku techniky, žádné socanské žvásty, divíš se? :)

42