Zipfova záhadaVsauce
108
Jakými pravidly se řídí jazyk a jaké to má důsledky? Má cenu číst knihy, když je za pár let stejně zapomenete? Poznámka: Titulky k tomuto videu obsahují 2239 slov. Z toho bylo 720 slov (32 %) použito jen jednou.
Přepis titulků
Ahoj, tady Michael z Vsauce. Zhruba 6 % všeho, co v angličtině
řeknete, přečtete nebo napíšete, je "the". "The" je nejpoužívanější
slovo v angličtině. Každé šestnácté slovo, se kterým
se dennodenně setkáváme, je "the". 20 nejpoužívanějších slov
v pořadí od nejčastějšího jsou tato: být, a, se, v, na, ten, že, s, on, z, který, mít, do, o, k, ale, i, já, moci, svůj.
Je to taková malá zajímavost, ale má to i hlubší význam. Ať už spočítáte nejpoužívanější slova v celém jazyce, nebo jen v jedné knize nebo článku, téměř pokaždé se objeví zajímavý vzorec. Druhé nejpoužívanější slovo se objeví zhruba o polovinu méně než první nejpoužívanější. Výskyt třetího je jen třetinou výskytu prvního, výskyt čtvrtého je čtvrtinou prvního, výskyt pátého je pětinou, výskyt šestého šestinou a tak dále až k těm nejméně používaným.
Opravdu. Z nějakého důvodu je počet výskytů konkrétního slova nepřímo úměrný jeho pořadí na seznamu.
Graf frekvence a pořadí slov tvoří na logaritmickém grafu krásnou přímku. Mocninná závislost. Tomuto jevu se říká Zipfův zákon. Jeho uplatnění ale není jen v angličtině. Objevuje se i v ostatních jazycích. Například... ...no vlastně ve všech. I ve starobylých jazycích, které se nám ještě nepodařilo přeložit.
A zajímavé na tom všem je, že vůbec nevíme, proč tomu tak je. Je překvapivé, že něco tak složitého, jako je realita, je popisována něčím tak kreativním, jako je jazyk, tak předvídatelným způsobem. Jak předvídatelným? Sledujte tohle. Podle stránky wordcount.org, která seřadila slova podle výskytu v britském národním korpusu, "Sauce" je 5 555.
nejpoužívanější slovo v anglickém jazyce. Tohle je seznam, který ukazuje kolikrát se slova objevují na wikipedii a na Project Gutenberg, kde jsou uloženy desetitisíce volně dostupných knih. Nejpoužívanější slovo "the" se objevuje přibližně 181 milionkrát. Na základě těchto údajů můžeme odhadovat, že slovo "sauce" by se mělo objevit asi 30 000× na wikipedii a stránce Project Gutenberg.
A můžete se podívat, že to docela odpovídá. Jak je to možné, když je svět tak chaotický? Data jsou uspořádána mnoha různými způsoby, ne jen mocninnou závislostí, a jazyk je osobní, účelný, mnohoznačný. Jak je možné, že se tak komplexní aktivita a chování řídí tak jednoduchým pravidlem?
Nikdo vlastně neví proč. I po století výzkumu si stále nejsme jistí. Navíc Zipfův zákon nepopisuje jen používání slov. Také ho naleznete v údajích o počtu obyvatel ve městech, v intenzitách slunečních erupcí, proteinových sekvencích imunitních receptorů, v návštěvnosti webových stránek, v intenzitách zemětřesení, v počtu přečtení vědeckých článků, v počtech příjmení, struktuře aktivity sítě neuronů, ingrediencích v kuchařských knihách, počtu příchozích hovorů, průměru měsíčních kráterů, počtu lidí, kteří zemřeli ve válkách, oblíbenosti prvních tahů v šachách, dokonce i rychlost zapomínání.
Máme spoustu teorií o tom, proč je jazyk takový zazipfovaný, ale žádné přesvědčivé závěry. Ani toto video neobsahuje žádné pořádné vysvětlení. Omlouvám se, vím, že vás to zklamalo, protože "vědění" máme rádi víc než "záhady". Také se ale víc ptáme, než odpovídáme. Pojďme se tedy podívat na důsledky zipfu, některé podobné vzorce, možná vysvětlení a do hloubky této záhady.
Zipfův zákon popularizoval George Zipf, lingvista na Harvardské univerzitě. Je to diskrétní forma rozložení podle Pareta, který objevil Paretův princip. Protože se tolik slovních procesů podle toho chová, říká nám Paretův princip, že dvacet procent příčin je zodpovědných za 80 % výsledků.
Například v jazyce, kde 18 % nejpoužívanějších slov se objevuje ve více než 80 % případů. V roce 1896 Vilfredo Pareto spočítal, že přibližně 80 % pozemků v Itálii bylo vlastněno jen 20 % populace. Říká se, že si později ve své zahradě všiml, že 20 % lusků obsahovalo 80 % celkové úrody hrášku.
I další vědci se zaměřili na další statistiky a zjistili, že tato nerovnováha 20 - 80 se objevuje ve světě velmi často. Nejbohatších 20 % populace dostává 82,7 % světových příjmů. V USA 20 % pacientů může za 80 % výdajů ve zdravotnictví. V roce 2002 Microsoft uvedl, že 80 % všech poruch v MS Windows a Office je způsobeno 20 % odhalených chyb.
Říká se také že v podnikání 20 % vašich zákazníků je zodpovědných za 80 % všech vašich výdělků a 80 % stížností, které obdržíte, vám přijde od 20 % zákazníků. Kniha o principu 80 - 20 dokonce tvrdí, že doma nebo v kanceláři chodíte jen po 20 % koberce v 80 procentech případů. A jak kdysi řekl Woody Allen: "80 procent úspěchu je pustit se do práce."
Paretův princip je všude. Má to ale výhodu. Stačí se soustředit jen na 20 % chyb, abyste vyřešili 80 % problémů. Podílí se na tom velké množství nesouvisejících faktorů. Když se ale zaměříme aspoň na některé, možná zjistíme, že některé z nich jsou zodpovědné i za Zipfův zákon v jazyce.
George Zipf si myslel, že toto zajímavé rozložení pořadí a výskytu slov je důsledkem principu nejmenšího úsilí. Toho, že život a všechno okolo se snaží jít cestou nejmenšího odporu. Zipf si myslel, že to pramení z lidského chování, a když se u lidí jazyk vyvíjel, mluvčí se snažili svou myšlenku vyjádřit co nejjednodušeji. Bylo to pro ně lehčí. Ale aby posluchači porozuměli, co se jim snaží říct, vyžadovali naopak větší slovní zásobu, která lépe popisuje realitu, aby se nemuseli tolik snažit a přemýšlet.
Zipf si myslel, že kompromis mezi poslechem a mluvením vedl k současnému stavu jazyka. Malé množství slov používáme často a mnoho dalších slov se používá jen zřídka. Studie dokazují, že mít málo často užívaných slov pomáhá rozložit hustotu informací pro posluchače.
Oddělí se tím důležitá slova a přísun informací je pak konstantnější. To dává smysl. Uplatněním principu nejmenšího úsilí na jiné obory jsme se toho mnoho dozvěděli, pozdější výzkumy ale ukázaly, že u jazyka je ještě jednodušší vysvětlení. Pár let po Zipfově výzkumu Benoit Mandelbrot ukázal, že na Zipfově zákoně možná vůbec nic záhadného není. Protože i když jen náhodně stisknete písmena na klávesnici, vytvoříte slova rozložená podle Zipfova zákona.
Je to docela zajímavá připomínka. Ukážu vám, jak to funguje. Je exponenciálně víc různých dlouhých slov oproti krátkým slovům. Například z anglické abecedy můžete vytvořit jen 26 jednopísmenných slov, ale 26 na druhou dvoupísmenných slov. Kdykoliv při psaní stisknete mezerník, ukončíte tím slovo.
Jelikož je pořád určitá šance, že stisknete mezerník, dlouhá doba mezi stiskem mezerníku je exponenciálně méně pravděpodobná než krátká doba mezi mezerníky. Kombinace těchto exponenciál je docela zazipfovaná. Například když je stejná šance stisknutí všech 26 písmen a mezerníku, po stisknutí písmene, což započne nové slovo, pravděpodobnost, že další klávesou bude mezerník, který tak zakončí jednopísmenné slovo, je jen 1:27.
Když necháte náhodně vytvářet slova nebo si pořídíte opici, která bude psát na stroji, zhruba každé 27. slovo, 3,7 % množin znaků oddělených mezerou bude obsahovat jen jedno písmeno. Dvoupísmenná slova se objeví, když se po začátku slova stiskne jakákoliv klávesa kromě mezerníku, pravděpodobnost je 26:27, a hned potom mezerník.
Trojpísmenné slovo má pravděpodobnost stisknutí písmene, dalšího písmene a pak mezerníku. Když to vydělíme počtem jednotlivých slov, která můžou vzniknout, dostaneme očekávanou frekvenci výskytu slova v závislosti na jeho délce. Například slovo "V" má pravděpodobnost výskytu 0,142 % mezi všemi náhodnými slovy. Slovo Vsauce má pravděpodobnost 0.00000000993 %. Dlouhá slova jsou méně pravděpodobná.
Ale sledujte tohle. Pojďme si tyto frekvence vynést na graf podle pořadí, které by měly na seznamu výskytu slov. Máme 26 možných jednopísmenných slov. Každé z 26 nejčastějších slov se tedy objeví s touto pravděpodobností. Dalších 676 slov v pořadí budou dvojpísmenná slova. Ta se objeví s touto pravděpodobností. Pokud si protáhneme každou pravděpodobnost podle počtu slov, která zastupuje, Vyjde nám z toho Zipf.
Další výzkumy ukázaly, jak se změnou počátečních podmínek dají jednotlivé kroky vyhladit a zpřesnit. Tím jsme si vytvořili to naše tajemné rozložení pouze na základě nevyhnutelných zákonitostí matematiky. Takže to možná vůbec tajemné není. Možná slova jsou jen důsledkem toho, jak si lidé rozškatulkovali pozorovatelný i myšlenkový svět a Zipfův zákon jen popisuje, co se stane, když to tak provedete.
Případ uzavřen. A jako vždycky... Díky za sledo... Počkejte! Skutečné jazyky jsou přece odlišné od náhodného psaní. Komunikace je do určité míry předvídatelná. Slova a témata jsou určována tím, co bylo řečeno dříve.
Naše slovní zásoba není jen výsledkem čistě náhodného procesu. Tento model náhodného psaní nedokáže vysvětlit, proč i četnost názvů prvků, planet nebo dnů v týdnu se řídí Zipfovým zákonem. Tato slova jsou přeci určována skutečným světem. Nejsou závislá jen na našem rozškatulkování světa. Navíc když si uděláte seznam nových slov, slov, která ještě nikdo dříve nepoužil, například když máte napsat příběh o mimozemšťanech s podivnými jmény, lidé budou používat jméno jednoho mimozemšťana dvakrát častěji než druhého, třikrát častěji než třetího...
Jako by byl Zipfův zákon naprogramován v našem mozku. Možná to je důsledek toho, jak plynou naše myšlenky, co přispívá k Zipfovu zákonu. Další možnost vzniku Zipfova rozložení je díky procesům, které se mění podle předchozích výsledků. Říká se jim procesy preferenční návaznosti.
Objevují se, když se nějaká veličina, peníze, počet zhlédnutí, pozornost, proměny, přátelé, práce, vlastně cokoliv, přiděluje podle předchozích poměrů. Vzpomeňte si na ten příklad s kobercem. Když většina vašich cest vede z obýváku do kuchyně po určité trase, nábytek postavíte mimo tuto cestu. Tím používání této cesty ještě podpoříte.
Čím více zhlédnutí má video, obrázek nebo příspěvek, tím spíše se objeví v automatických doporučeních, nebo se začne mluvit o tom, kolik zhlédnutí už má. To k němu přivede další a další diváky. Je to jako sněhová koule valící se po zasněženém kopci. Čím více sněhu na sebe přilepí, tím víc zvětší svůj povrch a tím rychleji pak ještě roste. Tento proces preferenční návaznosti nemusí být záměrný.
Může k němu dojít přirozeně. Zkuste tohle. Nasypte si na hromádku kancelářské svorky a náhodně dvě vyberte. Spojte je dohromady a znovu je zamíchejte do hromádky. Teď tento postup několikrát opakujte. I když vytáhnete svorky, které už jsou spojené, spojte je dohromady. Po chvíli budete mít rozložení, které připomíná Zipfovo. Malé množství řetízků obsahuje velké množství svorek.
Je to proto, že čím delší řetízek vytvoříte, tím větší část celku obsahuje, což zvyšuje šanci, že ho později znovu vytáhnete a tím pádem ještě prodloužíte. Bohatí rychleji bohatnou, veliké se rychleji zvětšuje, oblíbené věci se stávají ještě oblíbenější. Je to jen matematika.
Možná je Zipfovo tajemné pravidlo jazyka, když ne přímo způsobeno, tak aspoň posíleno preferenční návazností. Když použijete slovo, zvyšuje se šance, že bude brzy použito znovu. Kritické body v tom také můžou hrát roli. Písemný projev a konverzace se často drží tématu, dokud se nedosáhne kritického bodu, téma se změní a slova se přizpůsobí novému tématu.
Důsledkem těchto procesů jsou mocninné závislosti. Nakonec se tedy ukazuje, že všechny tyto mechanismy můžou přispívat k tomu, aby Zipfův zákon byl tím nejpřirozenějším vzorcem pro jazyk. Podle Mandelbrotovy teorie možná některá slova a gramatika byla vytvořena náhodně a konverzace se přirozeně odvíjí od preferenční návaznosti a kritických bodů spojené s principem nejmenšího úsilí při mluvení a poslouchání. To všechno je zodpovědné za vztah mezi pořadím slov a frekvencí jejich používání.
Je škoda, že to nemá jednodušší odpověď. Je to ale fascinující kvůli důsledkům na průběh naší komunikace. Tohle je fascinující. Téměř polovina jakékoli knihy nebo článku bude složená jen z 50 - 100 slov a necelá druhá polovina bude tvořena slovy, která se objeví jen jednou. Není to až tak překvapivé, když si uvědomíte, že jedno slovo tvoří 6 % všeho, co říkáme.
Top 25 nejpoužívanějších slov tvoří třetinu veškeré komunikace a top 100 přibližně polovinu. Opravdu. Ať už sečtete všechna slova ve filmu Léto k nepřežití, nebo v Platónových knihách nebo v knihách E.A. Poea nebo i v samotné Bibli. Téměř polovina všeho, co je tam řečeno, je popsána jen 100 různými slovy.
Knihu Alenka v říši divů tvoří 44 % a Toma Sawyera 49,8 % slova, která se v knize objeví jen jednou. Slovo, které se vyskytuje v dané množině slov jen jednou, se označuje jako hapax legomenon. Hapax legomena jsou důležitá pro porozumění jazykům. Když najdete slovo, které se ve starověkém díle vyskytuje jen jednou, může být velmi obtížné pochopit, co to slovo vůbec znamená. Nikde není žádná databáze všeho, co kdy bylo řečeno nebo napsáno v angličtině, ale velké databáze máme a je zábava snažit se v nich najít hapax legomena.
Když vám o tom řeknu, už to nebude pravda, ale slovo "quizzaciously" je v Oxfordském anglickém slovníku, ale není nikde na wikipedii ani na Project Gutenberg ani na britském nebo americkém národním korpusu. Objeví se ale ve vyhledávání Googlu jako jeden výsledek.
V knize "Stará mluva", která ho označuje jako zastaralé slovo. "Quizzaciously" znamená "výsměšným způsobem". Jako když by mě někdo napodoboval následujícím způsobem. Ahoj, tady Michael z Vsauce. Ale kdo je Michael a kolik vůbec "tady" váží? Je docela smutné, že se toto slovo používá tak málo. Je to pěkné slovo. Ale tak to prostě funguje v zipfovském prostředí.
Některé věci dostanou veškerou pozornost, jiné věci téměř žádnou. Většina vašich každodenních prožitků je zapomenuta. Slovník obskurních trápení pro to vymyslel slovo. Oléka. Uvědomění si skutečnosti, že na většinu svých dnů nemáme žádné vzpomínky. Já jsem na světě už téměř 11 000 dní, ale nedokážu vám o každém z nich něco říct.
Ani o většině. Většinu věcí, co děláme, vidíme a prožíváme, brzy zapomeneme. Naše zapomínání se také blíží Zipfovu zákonu. Dává to smysl. Když je většina věcí, o kterých přemýšlíme a mluvíme založena na Zipfovu zákoně, dává smysl, že stejná pravidla platí i pro paměť. Málo vzpomínek si pamatujeme opravdu dobře, většinu ale skoro vůbec.
Někdy mě to ale mrzí. Znamená to, že toho tolik zapomínáme. I věci, o kterých jste si mysleli, že nikdy nezapomenete. Číslo skříňky ve škole, jakou kombinací se odemykal zámek, vtipy, které se mi líbily, jména lidí, které jsem před deseti lety vídal každý den. Tolik vzpomínek je pryč.
Když vidím svoji knihovnu a uvědomím si, že si nepamatuju detaily všech knih. Je to vážně smutné. Proč se vůbec snažit, když Paretův princip říká, že moje zipfovská mysl si stejně po pár letech bude pamatovat jen názvy knih a pár detailů. Ralph Waldo Emerson ale jednou řekl: "Nevzpomínám si na knihy, které jsem četl, stejně jako na jídla, která jsem snědl, přestože mě obojí stvořilo." A jako vždycky...
Díky za sledování. Překlad: Zarwan www.videacesky.cz
Je to taková malá zajímavost, ale má to i hlubší význam. Ať už spočítáte nejpoužívanější slova v celém jazyce, nebo jen v jedné knize nebo článku, téměř pokaždé se objeví zajímavý vzorec. Druhé nejpoužívanější slovo se objeví zhruba o polovinu méně než první nejpoužívanější. Výskyt třetího je jen třetinou výskytu prvního, výskyt čtvrtého je čtvrtinou prvního, výskyt pátého je pětinou, výskyt šestého šestinou a tak dále až k těm nejméně používaným.
Opravdu. Z nějakého důvodu je počet výskytů konkrétního slova nepřímo úměrný jeho pořadí na seznamu.
Graf frekvence a pořadí slov tvoří na logaritmickém grafu krásnou přímku. Mocninná závislost. Tomuto jevu se říká Zipfův zákon. Jeho uplatnění ale není jen v angličtině. Objevuje se i v ostatních jazycích. Například... ...no vlastně ve všech. I ve starobylých jazycích, které se nám ještě nepodařilo přeložit.
A zajímavé na tom všem je, že vůbec nevíme, proč tomu tak je. Je překvapivé, že něco tak složitého, jako je realita, je popisována něčím tak kreativním, jako je jazyk, tak předvídatelným způsobem. Jak předvídatelným? Sledujte tohle. Podle stránky wordcount.org, která seřadila slova podle výskytu v britském národním korpusu, "Sauce" je 5 555.
nejpoužívanější slovo v anglickém jazyce. Tohle je seznam, který ukazuje kolikrát se slova objevují na wikipedii a na Project Gutenberg, kde jsou uloženy desetitisíce volně dostupných knih. Nejpoužívanější slovo "the" se objevuje přibližně 181 milionkrát. Na základě těchto údajů můžeme odhadovat, že slovo "sauce" by se mělo objevit asi 30 000× na wikipedii a stránce Project Gutenberg.
A můžete se podívat, že to docela odpovídá. Jak je to možné, když je svět tak chaotický? Data jsou uspořádána mnoha různými způsoby, ne jen mocninnou závislostí, a jazyk je osobní, účelný, mnohoznačný. Jak je možné, že se tak komplexní aktivita a chování řídí tak jednoduchým pravidlem?
Nikdo vlastně neví proč. I po století výzkumu si stále nejsme jistí. Navíc Zipfův zákon nepopisuje jen používání slov. Také ho naleznete v údajích o počtu obyvatel ve městech, v intenzitách slunečních erupcí, proteinových sekvencích imunitních receptorů, v návštěvnosti webových stránek, v intenzitách zemětřesení, v počtu přečtení vědeckých článků, v počtech příjmení, struktuře aktivity sítě neuronů, ingrediencích v kuchařských knihách, počtu příchozích hovorů, průměru měsíčních kráterů, počtu lidí, kteří zemřeli ve válkách, oblíbenosti prvních tahů v šachách, dokonce i rychlost zapomínání.
Máme spoustu teorií o tom, proč je jazyk takový zazipfovaný, ale žádné přesvědčivé závěry. Ani toto video neobsahuje žádné pořádné vysvětlení. Omlouvám se, vím, že vás to zklamalo, protože "vědění" máme rádi víc než "záhady". Také se ale víc ptáme, než odpovídáme. Pojďme se tedy podívat na důsledky zipfu, některé podobné vzorce, možná vysvětlení a do hloubky této záhady.
Zipfův zákon popularizoval George Zipf, lingvista na Harvardské univerzitě. Je to diskrétní forma rozložení podle Pareta, který objevil Paretův princip. Protože se tolik slovních procesů podle toho chová, říká nám Paretův princip, že dvacet procent příčin je zodpovědných za 80 % výsledků.
Například v jazyce, kde 18 % nejpoužívanějších slov se objevuje ve více než 80 % případů. V roce 1896 Vilfredo Pareto spočítal, že přibližně 80 % pozemků v Itálii bylo vlastněno jen 20 % populace. Říká se, že si později ve své zahradě všiml, že 20 % lusků obsahovalo 80 % celkové úrody hrášku.
I další vědci se zaměřili na další statistiky a zjistili, že tato nerovnováha 20 - 80 se objevuje ve světě velmi často. Nejbohatších 20 % populace dostává 82,7 % světových příjmů. V USA 20 % pacientů může za 80 % výdajů ve zdravotnictví. V roce 2002 Microsoft uvedl, že 80 % všech poruch v MS Windows a Office je způsobeno 20 % odhalených chyb.
Říká se také že v podnikání 20 % vašich zákazníků je zodpovědných za 80 % všech vašich výdělků a 80 % stížností, které obdržíte, vám přijde od 20 % zákazníků. Kniha o principu 80 - 20 dokonce tvrdí, že doma nebo v kanceláři chodíte jen po 20 % koberce v 80 procentech případů. A jak kdysi řekl Woody Allen: "80 procent úspěchu je pustit se do práce."
Paretův princip je všude. Má to ale výhodu. Stačí se soustředit jen na 20 % chyb, abyste vyřešili 80 % problémů. Podílí se na tom velké množství nesouvisejících faktorů. Když se ale zaměříme aspoň na některé, možná zjistíme, že některé z nich jsou zodpovědné i za Zipfův zákon v jazyce.
George Zipf si myslel, že toto zajímavé rozložení pořadí a výskytu slov je důsledkem principu nejmenšího úsilí. Toho, že život a všechno okolo se snaží jít cestou nejmenšího odporu. Zipf si myslel, že to pramení z lidského chování, a když se u lidí jazyk vyvíjel, mluvčí se snažili svou myšlenku vyjádřit co nejjednodušeji. Bylo to pro ně lehčí. Ale aby posluchači porozuměli, co se jim snaží říct, vyžadovali naopak větší slovní zásobu, která lépe popisuje realitu, aby se nemuseli tolik snažit a přemýšlet.
Zipf si myslel, že kompromis mezi poslechem a mluvením vedl k současnému stavu jazyka. Malé množství slov používáme často a mnoho dalších slov se používá jen zřídka. Studie dokazují, že mít málo často užívaných slov pomáhá rozložit hustotu informací pro posluchače.
Oddělí se tím důležitá slova a přísun informací je pak konstantnější. To dává smysl. Uplatněním principu nejmenšího úsilí na jiné obory jsme se toho mnoho dozvěděli, pozdější výzkumy ale ukázaly, že u jazyka je ještě jednodušší vysvětlení. Pár let po Zipfově výzkumu Benoit Mandelbrot ukázal, že na Zipfově zákoně možná vůbec nic záhadného není. Protože i když jen náhodně stisknete písmena na klávesnici, vytvoříte slova rozložená podle Zipfova zákona.
Je to docela zajímavá připomínka. Ukážu vám, jak to funguje. Je exponenciálně víc různých dlouhých slov oproti krátkým slovům. Například z anglické abecedy můžete vytvořit jen 26 jednopísmenných slov, ale 26 na druhou dvoupísmenných slov. Kdykoliv při psaní stisknete mezerník, ukončíte tím slovo.
Jelikož je pořád určitá šance, že stisknete mezerník, dlouhá doba mezi stiskem mezerníku je exponenciálně méně pravděpodobná než krátká doba mezi mezerníky. Kombinace těchto exponenciál je docela zazipfovaná. Například když je stejná šance stisknutí všech 26 písmen a mezerníku, po stisknutí písmene, což započne nové slovo, pravděpodobnost, že další klávesou bude mezerník, který tak zakončí jednopísmenné slovo, je jen 1:27.
Když necháte náhodně vytvářet slova nebo si pořídíte opici, která bude psát na stroji, zhruba každé 27. slovo, 3,7 % množin znaků oddělených mezerou bude obsahovat jen jedno písmeno. Dvoupísmenná slova se objeví, když se po začátku slova stiskne jakákoliv klávesa kromě mezerníku, pravděpodobnost je 26:27, a hned potom mezerník.
Trojpísmenné slovo má pravděpodobnost stisknutí písmene, dalšího písmene a pak mezerníku. Když to vydělíme počtem jednotlivých slov, která můžou vzniknout, dostaneme očekávanou frekvenci výskytu slova v závislosti na jeho délce. Například slovo "V" má pravděpodobnost výskytu 0,142 % mezi všemi náhodnými slovy. Slovo Vsauce má pravděpodobnost 0.00000000993 %. Dlouhá slova jsou méně pravděpodobná.
Ale sledujte tohle. Pojďme si tyto frekvence vynést na graf podle pořadí, které by měly na seznamu výskytu slov. Máme 26 možných jednopísmenných slov. Každé z 26 nejčastějších slov se tedy objeví s touto pravděpodobností. Dalších 676 slov v pořadí budou dvojpísmenná slova. Ta se objeví s touto pravděpodobností. Pokud si protáhneme každou pravděpodobnost podle počtu slov, která zastupuje, Vyjde nám z toho Zipf.
Další výzkumy ukázaly, jak se změnou počátečních podmínek dají jednotlivé kroky vyhladit a zpřesnit. Tím jsme si vytvořili to naše tajemné rozložení pouze na základě nevyhnutelných zákonitostí matematiky. Takže to možná vůbec tajemné není. Možná slova jsou jen důsledkem toho, jak si lidé rozškatulkovali pozorovatelný i myšlenkový svět a Zipfův zákon jen popisuje, co se stane, když to tak provedete.
Případ uzavřen. A jako vždycky... Díky za sledo... Počkejte! Skutečné jazyky jsou přece odlišné od náhodného psaní. Komunikace je do určité míry předvídatelná. Slova a témata jsou určována tím, co bylo řečeno dříve.
Naše slovní zásoba není jen výsledkem čistě náhodného procesu. Tento model náhodného psaní nedokáže vysvětlit, proč i četnost názvů prvků, planet nebo dnů v týdnu se řídí Zipfovým zákonem. Tato slova jsou přeci určována skutečným světem. Nejsou závislá jen na našem rozškatulkování světa. Navíc když si uděláte seznam nových slov, slov, která ještě nikdo dříve nepoužil, například když máte napsat příběh o mimozemšťanech s podivnými jmény, lidé budou používat jméno jednoho mimozemšťana dvakrát častěji než druhého, třikrát častěji než třetího...
Jako by byl Zipfův zákon naprogramován v našem mozku. Možná to je důsledek toho, jak plynou naše myšlenky, co přispívá k Zipfovu zákonu. Další možnost vzniku Zipfova rozložení je díky procesům, které se mění podle předchozích výsledků. Říká se jim procesy preferenční návaznosti.
Objevují se, když se nějaká veličina, peníze, počet zhlédnutí, pozornost, proměny, přátelé, práce, vlastně cokoliv, přiděluje podle předchozích poměrů. Vzpomeňte si na ten příklad s kobercem. Když většina vašich cest vede z obýváku do kuchyně po určité trase, nábytek postavíte mimo tuto cestu. Tím používání této cesty ještě podpoříte.
Čím více zhlédnutí má video, obrázek nebo příspěvek, tím spíše se objeví v automatických doporučeních, nebo se začne mluvit o tom, kolik zhlédnutí už má. To k němu přivede další a další diváky. Je to jako sněhová koule valící se po zasněženém kopci. Čím více sněhu na sebe přilepí, tím víc zvětší svůj povrch a tím rychleji pak ještě roste. Tento proces preferenční návaznosti nemusí být záměrný.
Může k němu dojít přirozeně. Zkuste tohle. Nasypte si na hromádku kancelářské svorky a náhodně dvě vyberte. Spojte je dohromady a znovu je zamíchejte do hromádky. Teď tento postup několikrát opakujte. I když vytáhnete svorky, které už jsou spojené, spojte je dohromady. Po chvíli budete mít rozložení, které připomíná Zipfovo. Malé množství řetízků obsahuje velké množství svorek.
Je to proto, že čím delší řetízek vytvoříte, tím větší část celku obsahuje, což zvyšuje šanci, že ho později znovu vytáhnete a tím pádem ještě prodloužíte. Bohatí rychleji bohatnou, veliké se rychleji zvětšuje, oblíbené věci se stávají ještě oblíbenější. Je to jen matematika.
Možná je Zipfovo tajemné pravidlo jazyka, když ne přímo způsobeno, tak aspoň posíleno preferenční návazností. Když použijete slovo, zvyšuje se šance, že bude brzy použito znovu. Kritické body v tom také můžou hrát roli. Písemný projev a konverzace se často drží tématu, dokud se nedosáhne kritického bodu, téma se změní a slova se přizpůsobí novému tématu.
Důsledkem těchto procesů jsou mocninné závislosti. Nakonec se tedy ukazuje, že všechny tyto mechanismy můžou přispívat k tomu, aby Zipfův zákon byl tím nejpřirozenějším vzorcem pro jazyk. Podle Mandelbrotovy teorie možná některá slova a gramatika byla vytvořena náhodně a konverzace se přirozeně odvíjí od preferenční návaznosti a kritických bodů spojené s principem nejmenšího úsilí při mluvení a poslouchání. To všechno je zodpovědné za vztah mezi pořadím slov a frekvencí jejich používání.
Je škoda, že to nemá jednodušší odpověď. Je to ale fascinující kvůli důsledkům na průběh naší komunikace. Tohle je fascinující. Téměř polovina jakékoli knihy nebo článku bude složená jen z 50 - 100 slov a necelá druhá polovina bude tvořena slovy, která se objeví jen jednou. Není to až tak překvapivé, když si uvědomíte, že jedno slovo tvoří 6 % všeho, co říkáme.
Top 25 nejpoužívanějších slov tvoří třetinu veškeré komunikace a top 100 přibližně polovinu. Opravdu. Ať už sečtete všechna slova ve filmu Léto k nepřežití, nebo v Platónových knihách nebo v knihách E.A. Poea nebo i v samotné Bibli. Téměř polovina všeho, co je tam řečeno, je popsána jen 100 různými slovy.
Knihu Alenka v říši divů tvoří 44 % a Toma Sawyera 49,8 % slova, která se v knize objeví jen jednou. Slovo, které se vyskytuje v dané množině slov jen jednou, se označuje jako hapax legomenon. Hapax legomena jsou důležitá pro porozumění jazykům. Když najdete slovo, které se ve starověkém díle vyskytuje jen jednou, může být velmi obtížné pochopit, co to slovo vůbec znamená. Nikde není žádná databáze všeho, co kdy bylo řečeno nebo napsáno v angličtině, ale velké databáze máme a je zábava snažit se v nich najít hapax legomena.
Když vám o tom řeknu, už to nebude pravda, ale slovo "quizzaciously" je v Oxfordském anglickém slovníku, ale není nikde na wikipedii ani na Project Gutenberg ani na britském nebo americkém národním korpusu. Objeví se ale ve vyhledávání Googlu jako jeden výsledek.
V knize "Stará mluva", která ho označuje jako zastaralé slovo. "Quizzaciously" znamená "výsměšným způsobem". Jako když by mě někdo napodoboval následujícím způsobem. Ahoj, tady Michael z Vsauce. Ale kdo je Michael a kolik vůbec "tady" váží? Je docela smutné, že se toto slovo používá tak málo. Je to pěkné slovo. Ale tak to prostě funguje v zipfovském prostředí.
Některé věci dostanou veškerou pozornost, jiné věci téměř žádnou. Většina vašich každodenních prožitků je zapomenuta. Slovník obskurních trápení pro to vymyslel slovo. Oléka. Uvědomění si skutečnosti, že na většinu svých dnů nemáme žádné vzpomínky. Já jsem na světě už téměř 11 000 dní, ale nedokážu vám o každém z nich něco říct.
Ani o většině. Většinu věcí, co děláme, vidíme a prožíváme, brzy zapomeneme. Naše zapomínání se také blíží Zipfovu zákonu. Dává to smysl. Když je většina věcí, o kterých přemýšlíme a mluvíme založena na Zipfovu zákoně, dává smysl, že stejná pravidla platí i pro paměť. Málo vzpomínek si pamatujeme opravdu dobře, většinu ale skoro vůbec.
Někdy mě to ale mrzí. Znamená to, že toho tolik zapomínáme. I věci, o kterých jste si mysleli, že nikdy nezapomenete. Číslo skříňky ve škole, jakou kombinací se odemykal zámek, vtipy, které se mi líbily, jména lidí, které jsem před deseti lety vídal každý den. Tolik vzpomínek je pryč.
Když vidím svoji knihovnu a uvědomím si, že si nepamatuju detaily všech knih. Je to vážně smutné. Proč se vůbec snažit, když Paretův princip říká, že moje zipfovská mysl si stejně po pár letech bude pamatovat jen názvy knih a pár detailů. Ralph Waldo Emerson ale jednou řekl: "Nevzpomínám si na knihy, které jsem četl, stejně jako na jídla, která jsem snědl, přestože mě obojí stvořilo." A jako vždycky...
Díky za sledování. Překlad: Zarwan www.videacesky.cz
Komentáře (59)
000oq (anonym)Odpovědět
13.12.2017 20:05:49
skoro celé video je o Fibonačiho Fí.. ale na chudáka Fibonačiho jaksi zapoměl či co
geoorgOdpovědět
23.01.2016 10:01:27
Takže když se naučím 20% otázek, mám 80% pravděpodobnost, že udělám zkoušku?
Gemy (anonym)Odpovědět
24.01.2016 15:01:46
NE, znamená to že 80% testu bude obsahovat jen 20% z celého obsahu co se budeš učit, problém je že nevíš jakých 20% to bude, o to je to horší, že víš, že se musíš naučit vše, aby ti pak stačilo jen 20% na 80% výsledek testu. Kdybys přesně věděl jakých 20% to bude tak by ti to stačilo, jenže tahle hodnota 20% se dá určit až po té co test napíšeš a víš co bylo těch 80%. Jednoduše řečeno, tvá otázka by šla kdybys uměl vidět do budoucna a věděl co bude těch 80%.
Darksied (anonym)Odpovědět
10.10.2020 23:57:16
+GemyGemy prepac ale ty si to nepochopil ked takto pises.
Hall3006 (anonym)Odpovědět
22.01.2016 20:02:15
Dokončil bych citát - nepamatuji si jídla, která jsem snědl ani knihy, které jsem přečetl, proto rád budu obě činnosti opakovat
pes (anonym)Odpovědět
22.01.2016 13:27:53
nevíte, kde našel, kolikrát se slovo vyskytuje na wiki + project Gutt.
jjkOdpovědět
09.02.2018 17:43:10
https://corpus.byu.edu/wiki/
Liška (anonym)Odpovědět
19.01.2016 15:36:55
Já už jsem tak vymazaná ze zkoušek, že jsem se po pěti minutách ztratila. Tak jsem jen koukala na Mika, sluší mu to. Pustím si to po zkouškovým.
They (anonym)Odpovědět
19.01.2016 20:13:59
Sluší a jak :-) !
crazyWolfOdpovědět
19.01.2016 15:06:52
Konečně po dlouhé době Michael přišel s něčím zajímavým! A jeho video se dá lehce srovnat s jeho nejlepšími starými. Poslední dobou to nestálo za nic.
Fox (anonym)Odpovědět
19.01.2016 13:25:27
Jak mluvil o mimozemšťanech s uměle vytvořenými jmény, vzpomněl jsem si na Hobita a trpaslíky, vzal knižní vydání a zkusil, jestli skutečně platí Zipfův zákon...nuže:
Bilbo - 515
Thorin - 257 (přesně 1/2)
Gandalf 187 (lehce přes 1/3)
Glum 88
Šmak 85
Balin 70
Bombur 60
Fili 51
Kili 38
Dori 37
Gloin 23
Bofur 22
Nori 22
Dvalin 21
Bifur 19
Oin 19
Ori 11
eNj (anonym)Odpovědět
22.01.2016 00:16:13
Smutný je, že si člověk pamatuje z trpaslíků jenom jméno Torin :D
chcibejtpirát (anonym)Odpovědět
22.01.2016 20:29:00
Já to nechápu, vždyť to má přece jasnou souvislost s příběhem. V každém díle, knížce, filmu se budou nějaké postavy objevovat častěji, než ty druhé. Je ta pohádka kde jde chleba a potká chleba s máslem atd. atd. Zipfovým paradoxem?
komunardOdpovědět
22.01.2016 20:45:39
+chcibejtpirátViděl jste to video?
chcibejtpirát (anonym)Odpovědět
23.01.2016 00:34:58
+chcibejtpirátNa internetu se nevyká, what the f**k man? Viděl, co tím chceš říct? Logicky z mýho tvrzení samozřejmě vyplývá že poslední jmenovaný uherák je nejníže v Ziphově žebříčku...a s ním samozřejmě ti před ním...a když nad tím tak přemýšlím, chleba skutečně bude nejvíce jmenovaným...Chleba s máslem tedy budou tím nejlepším příkladem pro Ziphovu teorii, this is some hard s**t.
Možná jsem hloupý, ale pořád nechápu kam tím vším bylo mířeno...co Ziphova teorie znamená pro nás jako pro společnost? Že je většina toho co se nám v životech odehrává je redundantní? Už tak je všechno dost z******? a entropický na to, abychom nevěděli co se to vlastně s námi na světě a v celým vesmíru děje. Pokud by se jisté prvky neopakovaly, byli bychom všichni tak zmatení, že bychom zůstali někde v pravěku. Možná právě tam lidé objevili redundanci a nezbytnost opakování již poznaného! This is some great dope, I'm telling you man.
chcibejtpirát (anonym)Odpovědět
23.01.2016 01:00:08
+chcibejtpirátA možná, že modernizace společnosti která se odehrála v průběhu pár posledních stovek let nevzešla z nic jiného, než právě z navyšující se míry redundance...bojím se dne, kdy se lidstvo bude dorozumívat binárním kódem. RIP in the pork cpt. lieautenant Ransdorf
Pep (anonym)Odpovědět
19.01.2016 11:28:40
video super, ale když chcete přidat graf, tak by jste do něj měli dát víc úsílí, protože tohle je dost hrůza.
Řeknete si, že jsme nevděční, ale je lepší, žádný jogurt než plesnivý jogurt
icksOdpovědět
19.01.2016 11:26:27
Nemožnost vize socialistické unifikace lidí a všeho jde tedy matematicky dokázat.
Sláva matematice :-)
orcinusorca2014 (anonym)Odpovědět
19.01.2016 22:00:11
Základní požadavky komunistického manifestu byly:
progresivní daň z příjmu-ve většině Evropy (stále) dodržována
zákaz dědictví-ve většině Evropy existuje nějaká dědická daň
dostupné veřejné vzdělávání-ve většině Evropy existuje
Tedy vítej v socialistickém pekle jménem Evropa ;)
patejl (anonym)Odpovědět
19.01.2016 10:13:55
Grafu by slušely aspoň popisky os. Jak má člověk poznat na které ose je četnost jejich výskytu a na které jsou slova? :D .
Křivku samotnou by taky chtělo proložit, aby to vypadalo trošku čitelně.
A chybí název grafu, to je ale spíš detail.
Každopádně oceňuju, že si stím dal překladatel tu práci to spočítat.
Zarwan (Překladatel)Odpovědět
19.01.2016 10:22:43
osa x: pořadí slova v seznamu
osa y: počet výskytů
patejl (anonym)Odpovědět
19.01.2016 10:35:07
+ZarwanBtw neměl by jste ještě někde uložené, které slova byla nejčetnější? Třeba nejlepších 5, či 10. Jen by mě zajímalo, zda se tam dostalo něco jiného než spojky a sloveso "je", které bude předpokládám vítězem, díky .
Zarwan (Překladatel)Odpovědět
19.01.2016 10:52:19
+Zarwanvětšina odpovídala slovům v 0:27
1. "se"
2. "je"
výjimkou jsou: 10. ("slov"), 11. ("slovo"), 14. ("slova"), což je pochopitelné vzhledem k tématu videa
Zarwan (Překladatel)Odpovědět
19.01.2016 12:00:45
Trošku jsem ten graf upravil, snad je to už lepší.
patejl (anonym)Odpovědět
19.01.2016 12:42:34
+ZarwanZa mě palec nahoru, snad jen doporučuju příště použít jako značku bodů křížky, nesplývají tolik když je víc bodů u sebe.
Mike (anonym)Odpovědět
19.01.2016 00:34:07
Mimochodem, rád bych celé video o Paretově principu a 80-20. :D
Mike (anonym)Odpovědět
19.01.2016 00:22:36
Divím se, že nezmínil Fibonacciho posloupnost, která je též logaritmicky "lineární" a je téměř všude, od obyčejné šnečí ulity, přes slunečnici až po rozvrstvení čehokoliv v přírodě. :)
Mike (anonym)Odpovědět
20.01.2016 19:09:55
Za co minusy smím li se ptát? :)
Když už jsem napsal něco co je podle vás špatně, tak aspoň buďte tak hodní a napište kritiku, budu rád. :)
skywallOdpovědět
23.01.2016 15:59:19
Mínus jsem ti nedal, ale fibonacciho posloupnost má jasný řád, přesně víš, jaký prvek následuje apod. Problém řešený ve videu je více nedeterministický. Tušíš jak vypadá výsledek (frekvence slov), ale není jasné, proč je tomu přesně takto. Taková trošku magie.
Zed (anonym)Odpovědět
19.01.2016 00:18:45
Ve statistice existuje jedna základní poučka: Korelace neznamená kauzalitu ... Tohle aplikování logaritmický křivky na celej svět, podle mě přesně tuhle poučku porušuje.
Zarwan (Překladatel)Odpovědět
18.01.2016 23:26:53
Schválně, jestli se někomu podaří najít české slovo, které Google najde jen jednou.
Not Shakespeare (anonym)Odpovědět
19.01.2016 00:02:11
netříštitelný
komunardOdpovědět
19.01.2016 00:06:01
Vaporizovatelný.
Mike (anonym)Odpovědět
19.01.2016 00:24:49
Nemožné. Už jen z logického hlediska, když jsi zadal podmínku ČESKÉ slovo, tak musí být v nějakém slovníku spisovné či obecné češtiny, takže bude v několika slovnících, které budou online, tedy google je najde. To nemluvím ani o tom, kolikrát toto slovo je použito v textu analyzovaného Googlem...
Pokud bys zadal slovo, které je smyšlené, pak možná. Pak můžeš použít náhodný generátor a jistě uspěješ, ale za těchto podmínek je to nemožné. Případ uzavřen. :) :)
Neuge (anonym)Odpovědět
19.01.2016 02:03:19
+MikeSlovníky obsahují zpravidla jen základní tvar + pár předpon a přípon (přechodníky, koncovky žen. a stř. rodu, pádů a stupňování atp.), které jsou navíc uváděny samostatně (třeba předpony jsou stylem za-, do-, na-), takže nejde o souvislé řetězce.
Sorry, ale jsi úplně mimo ;)
K těm slovům z jedním výskytem třeba:
Čtrnáctistěnný
Sopkolezec
Nejnenormálnějšími
Nejkontaktnějšími
Myškovitými
Neuge (anonym)Odpovědět
19.01.2016 02:06:00
+MikeEdit: Místo sopkolezec jsem myslel "sopkolezci".
pav1 (anonym)Odpovědět
19.01.2016 18:46:05
+MikeA co takovy kopcolezec a stromolezec, pahorkolezec, panelákolezec, velokamenolezec...
komunardOdpovědět
19.01.2016 19:31:41
+MikeKopcolezec má stovky, stromolezec tisíce odkazů. Panelákolezec tři, tvar panelákolezci jeden. Ostatní nic.
jabled (anonym)Odpovědět
19.01.2016 20:52:18
+MikeA teď jste to zkazili :D když jsem si ty slova vyhledal už mi to našlo i tuto stránku :D
000oq (anonym)Odpovědět
03.12.2017 21:01:07
+jabledJe to autoreferenční past !
jjkOdpovědět
09.02.2018 18:00:43
nejnezpůsobilejšími
jerry (anonym)Odpovědět
18.01.2016 21:45:46
Ten pocit když jste se o Zipfově vzorci učili před týdnem ke zkoušce a ted ja na videacesky :D
ProchyOdpovědět
19.01.2016 00:56:16
Uniká my smysl tvého komentu. Jakej by to měl bejt pocit? Nebo ses chtěl pochlubit, že o tom něco víš?
jerry (anonym)Odpovědět
19.01.2016 12:08:33
+ProchyMě to přijde jako docela vtipná náhoda :)
Applik (anonym)Odpovědět
20.01.2016 11:17:11
Hele, já taky, socioekonomická geografie?