Zipfova záhadaVsauce
108
Jakými pravidly se řídí jazyk a jaké to má důsledky? Má cenu číst knihy, když je za pár let stejně zapomenete? Poznámka: Titulky k tomuto videu obsahují 2239 slov. Z toho bylo 720 slov (32 %) použito jen jednou.
Přepis titulků
Ahoj, tady Michael z Vsauce. Zhruba 6 % všeho, co v angličtině
řeknete, přečtete nebo napíšete, je "the". "The" je nejpoužívanější
slovo v angličtině. Každé šestnácté slovo, se kterým
se dennodenně setkáváme, je "the". 20 nejpoužívanějších slov
v pořadí od nejčastějšího jsou tato: být, a, se, v, na, ten, že, s, on, z, který, mít, do, o, k, ale, i, já, moci, svůj.
Je to taková malá zajímavost, ale má to i hlubší význam. Ať už spočítáte nejpoužívanější slova v celém jazyce, nebo jen v jedné knize nebo článku, téměř pokaždé se objeví zajímavý vzorec. Druhé nejpoužívanější slovo se objeví zhruba o polovinu méně než první nejpoužívanější. Výskyt třetího je jen třetinou výskytu prvního, výskyt čtvrtého je čtvrtinou prvního, výskyt pátého je pětinou, výskyt šestého šestinou a tak dále až k těm nejméně používaným.
Opravdu. Z nějakého důvodu je počet výskytů konkrétního slova nepřímo úměrný jeho pořadí na seznamu.
Graf frekvence a pořadí slov tvoří na logaritmickém grafu krásnou přímku. Mocninná závislost. Tomuto jevu se říká Zipfův zákon. Jeho uplatnění ale není jen v angličtině. Objevuje se i v ostatních jazycích. Například... ...no vlastně ve všech. I ve starobylých jazycích, které se nám ještě nepodařilo přeložit.
A zajímavé na tom všem je, že vůbec nevíme, proč tomu tak je. Je překvapivé, že něco tak složitého, jako je realita, je popisována něčím tak kreativním, jako je jazyk, tak předvídatelným způsobem. Jak předvídatelným? Sledujte tohle. Podle stránky wordcount.org, která seřadila slova podle výskytu v britském národním korpusu, "Sauce" je 5 555.
nejpoužívanější slovo v anglickém jazyce. Tohle je seznam, který ukazuje kolikrát se slova objevují na wikipedii a na Project Gutenberg, kde jsou uloženy desetitisíce volně dostupných knih. Nejpoužívanější slovo "the" se objevuje přibližně 181 milionkrát. Na základě těchto údajů můžeme odhadovat, že slovo "sauce" by se mělo objevit asi 30 000× na wikipedii a stránce Project Gutenberg.
A můžete se podívat, že to docela odpovídá. Jak je to možné, když je svět tak chaotický? Data jsou uspořádána mnoha různými způsoby, ne jen mocninnou závislostí, a jazyk je osobní, účelný, mnohoznačný. Jak je možné, že se tak komplexní aktivita a chování řídí tak jednoduchým pravidlem?
Nikdo vlastně neví proč. I po století výzkumu si stále nejsme jistí. Navíc Zipfův zákon nepopisuje jen používání slov. Také ho naleznete v údajích o počtu obyvatel ve městech, v intenzitách slunečních erupcí, proteinových sekvencích imunitních receptorů, v návštěvnosti webových stránek, v intenzitách zemětřesení, v počtu přečtení vědeckých článků, v počtech příjmení, struktuře aktivity sítě neuronů, ingrediencích v kuchařských knihách, počtu příchozích hovorů, průměru měsíčních kráterů, počtu lidí, kteří zemřeli ve válkách, oblíbenosti prvních tahů v šachách, dokonce i rychlost zapomínání.
Máme spoustu teorií o tom, proč je jazyk takový zazipfovaný, ale žádné přesvědčivé závěry. Ani toto video neobsahuje žádné pořádné vysvětlení. Omlouvám se, vím, že vás to zklamalo, protože "vědění" máme rádi víc než "záhady". Také se ale víc ptáme, než odpovídáme. Pojďme se tedy podívat na důsledky zipfu, některé podobné vzorce, možná vysvětlení a do hloubky této záhady.
Zipfův zákon popularizoval George Zipf, lingvista na Harvardské univerzitě. Je to diskrétní forma rozložení podle Pareta, který objevil Paretův princip. Protože se tolik slovních procesů podle toho chová, říká nám Paretův princip, že dvacet procent příčin je zodpovědných za 80 % výsledků.
Například v jazyce, kde 18 % nejpoužívanějších slov se objevuje ve více než 80 % případů. V roce 1896 Vilfredo Pareto spočítal, že přibližně 80 % pozemků v Itálii bylo vlastněno jen 20 % populace. Říká se, že si později ve své zahradě všiml, že 20 % lusků obsahovalo 80 % celkové úrody hrášku.
I další vědci se zaměřili na další statistiky a zjistili, že tato nerovnováha 20 - 80 se objevuje ve světě velmi často. Nejbohatších 20 % populace dostává 82,7 % světových příjmů. V USA 20 % pacientů může za 80 % výdajů ve zdravotnictví. V roce 2002 Microsoft uvedl, že 80 % všech poruch v MS Windows a Office je způsobeno 20 % odhalených chyb.
Říká se také že v podnikání 20 % vašich zákazníků je zodpovědných za 80 % všech vašich výdělků a 80 % stížností, které obdržíte, vám přijde od 20 % zákazníků. Kniha o principu 80 - 20 dokonce tvrdí, že doma nebo v kanceláři chodíte jen po 20 % koberce v 80 procentech případů. A jak kdysi řekl Woody Allen: "80 procent úspěchu je pustit se do práce."
Paretův princip je všude. Má to ale výhodu. Stačí se soustředit jen na 20 % chyb, abyste vyřešili 80 % problémů. Podílí se na tom velké množství nesouvisejících faktorů. Když se ale zaměříme aspoň na některé, možná zjistíme, že některé z nich jsou zodpovědné i za Zipfův zákon v jazyce.
George Zipf si myslel, že toto zajímavé rozložení pořadí a výskytu slov je důsledkem principu nejmenšího úsilí. Toho, že život a všechno okolo se snaží jít cestou nejmenšího odporu. Zipf si myslel, že to pramení z lidského chování, a když se u lidí jazyk vyvíjel, mluvčí se snažili svou myšlenku vyjádřit co nejjednodušeji. Bylo to pro ně lehčí. Ale aby posluchači porozuměli, co se jim snaží říct, vyžadovali naopak větší slovní zásobu, která lépe popisuje realitu, aby se nemuseli tolik snažit a přemýšlet.
Zipf si myslel, že kompromis mezi poslechem a mluvením vedl k současnému stavu jazyka. Malé množství slov používáme často a mnoho dalších slov se používá jen zřídka. Studie dokazují, že mít málo často užívaných slov pomáhá rozložit hustotu informací pro posluchače.
Oddělí se tím důležitá slova a přísun informací je pak konstantnější. To dává smysl. Uplatněním principu nejmenšího úsilí na jiné obory jsme se toho mnoho dozvěděli, pozdější výzkumy ale ukázaly, že u jazyka je ještě jednodušší vysvětlení. Pár let po Zipfově výzkumu Benoit Mandelbrot ukázal, že na Zipfově zákoně možná vůbec nic záhadného není. Protože i když jen náhodně stisknete písmena na klávesnici, vytvoříte slova rozložená podle Zipfova zákona.
Je to docela zajímavá připomínka. Ukážu vám, jak to funguje. Je exponenciálně víc různých dlouhých slov oproti krátkým slovům. Například z anglické abecedy můžete vytvořit jen 26 jednopísmenných slov, ale 26 na druhou dvoupísmenných slov. Kdykoliv při psaní stisknete mezerník, ukončíte tím slovo.
Jelikož je pořád určitá šance, že stisknete mezerník, dlouhá doba mezi stiskem mezerníku je exponenciálně méně pravděpodobná než krátká doba mezi mezerníky. Kombinace těchto exponenciál je docela zazipfovaná. Například když je stejná šance stisknutí všech 26 písmen a mezerníku, po stisknutí písmene, což započne nové slovo, pravděpodobnost, že další klávesou bude mezerník, který tak zakončí jednopísmenné slovo, je jen 1:27.
Když necháte náhodně vytvářet slova nebo si pořídíte opici, která bude psát na stroji, zhruba každé 27. slovo, 3,7 % množin znaků oddělených mezerou bude obsahovat jen jedno písmeno. Dvoupísmenná slova se objeví, když se po začátku slova stiskne jakákoliv klávesa kromě mezerníku, pravděpodobnost je 26:27, a hned potom mezerník.
Trojpísmenné slovo má pravděpodobnost stisknutí písmene, dalšího písmene a pak mezerníku. Když to vydělíme počtem jednotlivých slov, která můžou vzniknout, dostaneme očekávanou frekvenci výskytu slova v závislosti na jeho délce. Například slovo "V" má pravděpodobnost výskytu 0,142 % mezi všemi náhodnými slovy. Slovo Vsauce má pravděpodobnost 0.00000000993 %. Dlouhá slova jsou méně pravděpodobná.
Ale sledujte tohle. Pojďme si tyto frekvence vynést na graf podle pořadí, které by měly na seznamu výskytu slov. Máme 26 možných jednopísmenných slov. Každé z 26 nejčastějších slov se tedy objeví s touto pravděpodobností. Dalších 676 slov v pořadí budou dvojpísmenná slova. Ta se objeví s touto pravděpodobností. Pokud si protáhneme každou pravděpodobnost podle počtu slov, která zastupuje, Vyjde nám z toho Zipf.
Další výzkumy ukázaly, jak se změnou počátečních podmínek dají jednotlivé kroky vyhladit a zpřesnit. Tím jsme si vytvořili to naše tajemné rozložení pouze na základě nevyhnutelných zákonitostí matematiky. Takže to možná vůbec tajemné není. Možná slova jsou jen důsledkem toho, jak si lidé rozškatulkovali pozorovatelný i myšlenkový svět a Zipfův zákon jen popisuje, co se stane, když to tak provedete.
Případ uzavřen. A jako vždycky... Díky za sledo... Počkejte! Skutečné jazyky jsou přece odlišné od náhodného psaní. Komunikace je do určité míry předvídatelná. Slova a témata jsou určována tím, co bylo řečeno dříve.
Naše slovní zásoba není jen výsledkem čistě náhodného procesu. Tento model náhodného psaní nedokáže vysvětlit, proč i četnost názvů prvků, planet nebo dnů v týdnu se řídí Zipfovým zákonem. Tato slova jsou přeci určována skutečným světem. Nejsou závislá jen na našem rozškatulkování světa. Navíc když si uděláte seznam nových slov, slov, která ještě nikdo dříve nepoužil, například když máte napsat příběh o mimozemšťanech s podivnými jmény, lidé budou používat jméno jednoho mimozemšťana dvakrát častěji než druhého, třikrát častěji než třetího...
Jako by byl Zipfův zákon naprogramován v našem mozku. Možná to je důsledek toho, jak plynou naše myšlenky, co přispívá k Zipfovu zákonu. Další možnost vzniku Zipfova rozložení je díky procesům, které se mění podle předchozích výsledků. Říká se jim procesy preferenční návaznosti.
Objevují se, když se nějaká veličina, peníze, počet zhlédnutí, pozornost, proměny, přátelé, práce, vlastně cokoliv, přiděluje podle předchozích poměrů. Vzpomeňte si na ten příklad s kobercem. Když většina vašich cest vede z obýváku do kuchyně po určité trase, nábytek postavíte mimo tuto cestu. Tím používání této cesty ještě podpoříte.
Čím více zhlédnutí má video, obrázek nebo příspěvek, tím spíše se objeví v automatických doporučeních, nebo se začne mluvit o tom, kolik zhlédnutí už má. To k němu přivede další a další diváky. Je to jako sněhová koule valící se po zasněženém kopci. Čím více sněhu na sebe přilepí, tím víc zvětší svůj povrch a tím rychleji pak ještě roste. Tento proces preferenční návaznosti nemusí být záměrný.
Může k němu dojít přirozeně. Zkuste tohle. Nasypte si na hromádku kancelářské svorky a náhodně dvě vyberte. Spojte je dohromady a znovu je zamíchejte do hromádky. Teď tento postup několikrát opakujte. I když vytáhnete svorky, které už jsou spojené, spojte je dohromady. Po chvíli budete mít rozložení, které připomíná Zipfovo. Malé množství řetízků obsahuje velké množství svorek.
Je to proto, že čím delší řetízek vytvoříte, tím větší část celku obsahuje, což zvyšuje šanci, že ho později znovu vytáhnete a tím pádem ještě prodloužíte. Bohatí rychleji bohatnou, veliké se rychleji zvětšuje, oblíbené věci se stávají ještě oblíbenější. Je to jen matematika.
Možná je Zipfovo tajemné pravidlo jazyka, když ne přímo způsobeno, tak aspoň posíleno preferenční návazností. Když použijete slovo, zvyšuje se šance, že bude brzy použito znovu. Kritické body v tom také můžou hrát roli. Písemný projev a konverzace se často drží tématu, dokud se nedosáhne kritického bodu, téma se změní a slova se přizpůsobí novému tématu.
Důsledkem těchto procesů jsou mocninné závislosti. Nakonec se tedy ukazuje, že všechny tyto mechanismy můžou přispívat k tomu, aby Zipfův zákon byl tím nejpřirozenějším vzorcem pro jazyk. Podle Mandelbrotovy teorie možná některá slova a gramatika byla vytvořena náhodně a konverzace se přirozeně odvíjí od preferenční návaznosti a kritických bodů spojené s principem nejmenšího úsilí při mluvení a poslouchání. To všechno je zodpovědné za vztah mezi pořadím slov a frekvencí jejich používání.
Je škoda, že to nemá jednodušší odpověď. Je to ale fascinující kvůli důsledkům na průběh naší komunikace. Tohle je fascinující. Téměř polovina jakékoli knihy nebo článku bude složená jen z 50 - 100 slov a necelá druhá polovina bude tvořena slovy, která se objeví jen jednou. Není to až tak překvapivé, když si uvědomíte, že jedno slovo tvoří 6 % všeho, co říkáme.
Top 25 nejpoužívanějších slov tvoří třetinu veškeré komunikace a top 100 přibližně polovinu. Opravdu. Ať už sečtete všechna slova ve filmu Léto k nepřežití, nebo v Platónových knihách nebo v knihách E.A. Poea nebo i v samotné Bibli. Téměř polovina všeho, co je tam řečeno, je popsána jen 100 různými slovy.
Knihu Alenka v říši divů tvoří 44 % a Toma Sawyera 49,8 % slova, která se v knize objeví jen jednou. Slovo, které se vyskytuje v dané množině slov jen jednou, se označuje jako hapax legomenon. Hapax legomena jsou důležitá pro porozumění jazykům. Když najdete slovo, které se ve starověkém díle vyskytuje jen jednou, může být velmi obtížné pochopit, co to slovo vůbec znamená. Nikde není žádná databáze všeho, co kdy bylo řečeno nebo napsáno v angličtině, ale velké databáze máme a je zábava snažit se v nich najít hapax legomena.
Když vám o tom řeknu, už to nebude pravda, ale slovo "quizzaciously" je v Oxfordském anglickém slovníku, ale není nikde na wikipedii ani na Project Gutenberg ani na britském nebo americkém národním korpusu. Objeví se ale ve vyhledávání Googlu jako jeden výsledek.
V knize "Stará mluva", která ho označuje jako zastaralé slovo. "Quizzaciously" znamená "výsměšným způsobem". Jako když by mě někdo napodoboval následujícím způsobem. Ahoj, tady Michael z Vsauce. Ale kdo je Michael a kolik vůbec "tady" váží? Je docela smutné, že se toto slovo používá tak málo. Je to pěkné slovo. Ale tak to prostě funguje v zipfovském prostředí.
Některé věci dostanou veškerou pozornost, jiné věci téměř žádnou. Většina vašich každodenních prožitků je zapomenuta. Slovník obskurních trápení pro to vymyslel slovo. Oléka. Uvědomění si skutečnosti, že na většinu svých dnů nemáme žádné vzpomínky. Já jsem na světě už téměř 11 000 dní, ale nedokážu vám o každém z nich něco říct.
Ani o většině. Většinu věcí, co děláme, vidíme a prožíváme, brzy zapomeneme. Naše zapomínání se také blíží Zipfovu zákonu. Dává to smysl. Když je většina věcí, o kterých přemýšlíme a mluvíme založena na Zipfovu zákoně, dává smysl, že stejná pravidla platí i pro paměť. Málo vzpomínek si pamatujeme opravdu dobře, většinu ale skoro vůbec.
Někdy mě to ale mrzí. Znamená to, že toho tolik zapomínáme. I věci, o kterých jste si mysleli, že nikdy nezapomenete. Číslo skříňky ve škole, jakou kombinací se odemykal zámek, vtipy, které se mi líbily, jména lidí, které jsem před deseti lety vídal každý den. Tolik vzpomínek je pryč.
Když vidím svoji knihovnu a uvědomím si, že si nepamatuju detaily všech knih. Je to vážně smutné. Proč se vůbec snažit, když Paretův princip říká, že moje zipfovská mysl si stejně po pár letech bude pamatovat jen názvy knih a pár detailů. Ralph Waldo Emerson ale jednou řekl: "Nevzpomínám si na knihy, které jsem četl, stejně jako na jídla, která jsem snědl, přestože mě obojí stvořilo." A jako vždycky...
Díky za sledování. Překlad: Zarwan www.videacesky.cz
Je to taková malá zajímavost, ale má to i hlubší význam. Ať už spočítáte nejpoužívanější slova v celém jazyce, nebo jen v jedné knize nebo článku, téměř pokaždé se objeví zajímavý vzorec. Druhé nejpoužívanější slovo se objeví zhruba o polovinu méně než první nejpoužívanější. Výskyt třetího je jen třetinou výskytu prvního, výskyt čtvrtého je čtvrtinou prvního, výskyt pátého je pětinou, výskyt šestého šestinou a tak dále až k těm nejméně používaným.
Opravdu. Z nějakého důvodu je počet výskytů konkrétního slova nepřímo úměrný jeho pořadí na seznamu.
Graf frekvence a pořadí slov tvoří na logaritmickém grafu krásnou přímku. Mocninná závislost. Tomuto jevu se říká Zipfův zákon. Jeho uplatnění ale není jen v angličtině. Objevuje se i v ostatních jazycích. Například... ...no vlastně ve všech. I ve starobylých jazycích, které se nám ještě nepodařilo přeložit.
A zajímavé na tom všem je, že vůbec nevíme, proč tomu tak je. Je překvapivé, že něco tak složitého, jako je realita, je popisována něčím tak kreativním, jako je jazyk, tak předvídatelným způsobem. Jak předvídatelným? Sledujte tohle. Podle stránky wordcount.org, která seřadila slova podle výskytu v britském národním korpusu, "Sauce" je 5 555.
nejpoužívanější slovo v anglickém jazyce. Tohle je seznam, který ukazuje kolikrát se slova objevují na wikipedii a na Project Gutenberg, kde jsou uloženy desetitisíce volně dostupných knih. Nejpoužívanější slovo "the" se objevuje přibližně 181 milionkrát. Na základě těchto údajů můžeme odhadovat, že slovo "sauce" by se mělo objevit asi 30 000× na wikipedii a stránce Project Gutenberg.
A můžete se podívat, že to docela odpovídá. Jak je to možné, když je svět tak chaotický? Data jsou uspořádána mnoha různými způsoby, ne jen mocninnou závislostí, a jazyk je osobní, účelný, mnohoznačný. Jak je možné, že se tak komplexní aktivita a chování řídí tak jednoduchým pravidlem?
Nikdo vlastně neví proč. I po století výzkumu si stále nejsme jistí. Navíc Zipfův zákon nepopisuje jen používání slov. Také ho naleznete v údajích o počtu obyvatel ve městech, v intenzitách slunečních erupcí, proteinových sekvencích imunitních receptorů, v návštěvnosti webových stránek, v intenzitách zemětřesení, v počtu přečtení vědeckých článků, v počtech příjmení, struktuře aktivity sítě neuronů, ingrediencích v kuchařských knihách, počtu příchozích hovorů, průměru měsíčních kráterů, počtu lidí, kteří zemřeli ve válkách, oblíbenosti prvních tahů v šachách, dokonce i rychlost zapomínání.
Máme spoustu teorií o tom, proč je jazyk takový zazipfovaný, ale žádné přesvědčivé závěry. Ani toto video neobsahuje žádné pořádné vysvětlení. Omlouvám se, vím, že vás to zklamalo, protože "vědění" máme rádi víc než "záhady". Také se ale víc ptáme, než odpovídáme. Pojďme se tedy podívat na důsledky zipfu, některé podobné vzorce, možná vysvětlení a do hloubky této záhady.
Zipfův zákon popularizoval George Zipf, lingvista na Harvardské univerzitě. Je to diskrétní forma rozložení podle Pareta, který objevil Paretův princip. Protože se tolik slovních procesů podle toho chová, říká nám Paretův princip, že dvacet procent příčin je zodpovědných za 80 % výsledků.
Například v jazyce, kde 18 % nejpoužívanějších slov se objevuje ve více než 80 % případů. V roce 1896 Vilfredo Pareto spočítal, že přibližně 80 % pozemků v Itálii bylo vlastněno jen 20 % populace. Říká se, že si později ve své zahradě všiml, že 20 % lusků obsahovalo 80 % celkové úrody hrášku.
I další vědci se zaměřili na další statistiky a zjistili, že tato nerovnováha 20 - 80 se objevuje ve světě velmi často. Nejbohatších 20 % populace dostává 82,7 % světových příjmů. V USA 20 % pacientů může za 80 % výdajů ve zdravotnictví. V roce 2002 Microsoft uvedl, že 80 % všech poruch v MS Windows a Office je způsobeno 20 % odhalených chyb.
Říká se také že v podnikání 20 % vašich zákazníků je zodpovědných za 80 % všech vašich výdělků a 80 % stížností, které obdržíte, vám přijde od 20 % zákazníků. Kniha o principu 80 - 20 dokonce tvrdí, že doma nebo v kanceláři chodíte jen po 20 % koberce v 80 procentech případů. A jak kdysi řekl Woody Allen: "80 procent úspěchu je pustit se do práce."
Paretův princip je všude. Má to ale výhodu. Stačí se soustředit jen na 20 % chyb, abyste vyřešili 80 % problémů. Podílí se na tom velké množství nesouvisejících faktorů. Když se ale zaměříme aspoň na některé, možná zjistíme, že některé z nich jsou zodpovědné i za Zipfův zákon v jazyce.
George Zipf si myslel, že toto zajímavé rozložení pořadí a výskytu slov je důsledkem principu nejmenšího úsilí. Toho, že život a všechno okolo se snaží jít cestou nejmenšího odporu. Zipf si myslel, že to pramení z lidského chování, a když se u lidí jazyk vyvíjel, mluvčí se snažili svou myšlenku vyjádřit co nejjednodušeji. Bylo to pro ně lehčí. Ale aby posluchači porozuměli, co se jim snaží říct, vyžadovali naopak větší slovní zásobu, která lépe popisuje realitu, aby se nemuseli tolik snažit a přemýšlet.
Zipf si myslel, že kompromis mezi poslechem a mluvením vedl k současnému stavu jazyka. Malé množství slov používáme často a mnoho dalších slov se používá jen zřídka. Studie dokazují, že mít málo často užívaných slov pomáhá rozložit hustotu informací pro posluchače.
Oddělí se tím důležitá slova a přísun informací je pak konstantnější. To dává smysl. Uplatněním principu nejmenšího úsilí na jiné obory jsme se toho mnoho dozvěděli, pozdější výzkumy ale ukázaly, že u jazyka je ještě jednodušší vysvětlení. Pár let po Zipfově výzkumu Benoit Mandelbrot ukázal, že na Zipfově zákoně možná vůbec nic záhadného není. Protože i když jen náhodně stisknete písmena na klávesnici, vytvoříte slova rozložená podle Zipfova zákona.
Je to docela zajímavá připomínka. Ukážu vám, jak to funguje. Je exponenciálně víc různých dlouhých slov oproti krátkým slovům. Například z anglické abecedy můžete vytvořit jen 26 jednopísmenných slov, ale 26 na druhou dvoupísmenných slov. Kdykoliv při psaní stisknete mezerník, ukončíte tím slovo.
Jelikož je pořád určitá šance, že stisknete mezerník, dlouhá doba mezi stiskem mezerníku je exponenciálně méně pravděpodobná než krátká doba mezi mezerníky. Kombinace těchto exponenciál je docela zazipfovaná. Například když je stejná šance stisknutí všech 26 písmen a mezerníku, po stisknutí písmene, což započne nové slovo, pravděpodobnost, že další klávesou bude mezerník, který tak zakončí jednopísmenné slovo, je jen 1:27.
Když necháte náhodně vytvářet slova nebo si pořídíte opici, která bude psát na stroji, zhruba každé 27. slovo, 3,7 % množin znaků oddělených mezerou bude obsahovat jen jedno písmeno. Dvoupísmenná slova se objeví, když se po začátku slova stiskne jakákoliv klávesa kromě mezerníku, pravděpodobnost je 26:27, a hned potom mezerník.
Trojpísmenné slovo má pravděpodobnost stisknutí písmene, dalšího písmene a pak mezerníku. Když to vydělíme počtem jednotlivých slov, která můžou vzniknout, dostaneme očekávanou frekvenci výskytu slova v závislosti na jeho délce. Například slovo "V" má pravděpodobnost výskytu 0,142 % mezi všemi náhodnými slovy. Slovo Vsauce má pravděpodobnost 0.00000000993 %. Dlouhá slova jsou méně pravděpodobná.
Ale sledujte tohle. Pojďme si tyto frekvence vynést na graf podle pořadí, které by měly na seznamu výskytu slov. Máme 26 možných jednopísmenných slov. Každé z 26 nejčastějších slov se tedy objeví s touto pravděpodobností. Dalších 676 slov v pořadí budou dvojpísmenná slova. Ta se objeví s touto pravděpodobností. Pokud si protáhneme každou pravděpodobnost podle počtu slov, která zastupuje, Vyjde nám z toho Zipf.
Další výzkumy ukázaly, jak se změnou počátečních podmínek dají jednotlivé kroky vyhladit a zpřesnit. Tím jsme si vytvořili to naše tajemné rozložení pouze na základě nevyhnutelných zákonitostí matematiky. Takže to možná vůbec tajemné není. Možná slova jsou jen důsledkem toho, jak si lidé rozškatulkovali pozorovatelný i myšlenkový svět a Zipfův zákon jen popisuje, co se stane, když to tak provedete.
Případ uzavřen. A jako vždycky... Díky za sledo... Počkejte! Skutečné jazyky jsou přece odlišné od náhodného psaní. Komunikace je do určité míry předvídatelná. Slova a témata jsou určována tím, co bylo řečeno dříve.
Naše slovní zásoba není jen výsledkem čistě náhodného procesu. Tento model náhodného psaní nedokáže vysvětlit, proč i četnost názvů prvků, planet nebo dnů v týdnu se řídí Zipfovým zákonem. Tato slova jsou přeci určována skutečným světem. Nejsou závislá jen na našem rozškatulkování světa. Navíc když si uděláte seznam nových slov, slov, která ještě nikdo dříve nepoužil, například když máte napsat příběh o mimozemšťanech s podivnými jmény, lidé budou používat jméno jednoho mimozemšťana dvakrát častěji než druhého, třikrát častěji než třetího...
Jako by byl Zipfův zákon naprogramován v našem mozku. Možná to je důsledek toho, jak plynou naše myšlenky, co přispívá k Zipfovu zákonu. Další možnost vzniku Zipfova rozložení je díky procesům, které se mění podle předchozích výsledků. Říká se jim procesy preferenční návaznosti.
Objevují se, když se nějaká veličina, peníze, počet zhlédnutí, pozornost, proměny, přátelé, práce, vlastně cokoliv, přiděluje podle předchozích poměrů. Vzpomeňte si na ten příklad s kobercem. Když většina vašich cest vede z obýváku do kuchyně po určité trase, nábytek postavíte mimo tuto cestu. Tím používání této cesty ještě podpoříte.
Čím více zhlédnutí má video, obrázek nebo příspěvek, tím spíše se objeví v automatických doporučeních, nebo se začne mluvit o tom, kolik zhlédnutí už má. To k němu přivede další a další diváky. Je to jako sněhová koule valící se po zasněženém kopci. Čím více sněhu na sebe přilepí, tím víc zvětší svůj povrch a tím rychleji pak ještě roste. Tento proces preferenční návaznosti nemusí být záměrný.
Může k němu dojít přirozeně. Zkuste tohle. Nasypte si na hromádku kancelářské svorky a náhodně dvě vyberte. Spojte je dohromady a znovu je zamíchejte do hromádky. Teď tento postup několikrát opakujte. I když vytáhnete svorky, které už jsou spojené, spojte je dohromady. Po chvíli budete mít rozložení, které připomíná Zipfovo. Malé množství řetízků obsahuje velké množství svorek.
Je to proto, že čím delší řetízek vytvoříte, tím větší část celku obsahuje, což zvyšuje šanci, že ho později znovu vytáhnete a tím pádem ještě prodloužíte. Bohatí rychleji bohatnou, veliké se rychleji zvětšuje, oblíbené věci se stávají ještě oblíbenější. Je to jen matematika.
Možná je Zipfovo tajemné pravidlo jazyka, když ne přímo způsobeno, tak aspoň posíleno preferenční návazností. Když použijete slovo, zvyšuje se šance, že bude brzy použito znovu. Kritické body v tom také můžou hrát roli. Písemný projev a konverzace se často drží tématu, dokud se nedosáhne kritického bodu, téma se změní a slova se přizpůsobí novému tématu.
Důsledkem těchto procesů jsou mocninné závislosti. Nakonec se tedy ukazuje, že všechny tyto mechanismy můžou přispívat k tomu, aby Zipfův zákon byl tím nejpřirozenějším vzorcem pro jazyk. Podle Mandelbrotovy teorie možná některá slova a gramatika byla vytvořena náhodně a konverzace se přirozeně odvíjí od preferenční návaznosti a kritických bodů spojené s principem nejmenšího úsilí při mluvení a poslouchání. To všechno je zodpovědné za vztah mezi pořadím slov a frekvencí jejich používání.
Je škoda, že to nemá jednodušší odpověď. Je to ale fascinující kvůli důsledkům na průběh naší komunikace. Tohle je fascinující. Téměř polovina jakékoli knihy nebo článku bude složená jen z 50 - 100 slov a necelá druhá polovina bude tvořena slovy, která se objeví jen jednou. Není to až tak překvapivé, když si uvědomíte, že jedno slovo tvoří 6 % všeho, co říkáme.
Top 25 nejpoužívanějších slov tvoří třetinu veškeré komunikace a top 100 přibližně polovinu. Opravdu. Ať už sečtete všechna slova ve filmu Léto k nepřežití, nebo v Platónových knihách nebo v knihách E.A. Poea nebo i v samotné Bibli. Téměř polovina všeho, co je tam řečeno, je popsána jen 100 různými slovy.
Knihu Alenka v říši divů tvoří 44 % a Toma Sawyera 49,8 % slova, která se v knize objeví jen jednou. Slovo, které se vyskytuje v dané množině slov jen jednou, se označuje jako hapax legomenon. Hapax legomena jsou důležitá pro porozumění jazykům. Když najdete slovo, které se ve starověkém díle vyskytuje jen jednou, může být velmi obtížné pochopit, co to slovo vůbec znamená. Nikde není žádná databáze všeho, co kdy bylo řečeno nebo napsáno v angličtině, ale velké databáze máme a je zábava snažit se v nich najít hapax legomena.
Když vám o tom řeknu, už to nebude pravda, ale slovo "quizzaciously" je v Oxfordském anglickém slovníku, ale není nikde na wikipedii ani na Project Gutenberg ani na britském nebo americkém národním korpusu. Objeví se ale ve vyhledávání Googlu jako jeden výsledek.
V knize "Stará mluva", která ho označuje jako zastaralé slovo. "Quizzaciously" znamená "výsměšným způsobem". Jako když by mě někdo napodoboval následujícím způsobem. Ahoj, tady Michael z Vsauce. Ale kdo je Michael a kolik vůbec "tady" váží? Je docela smutné, že se toto slovo používá tak málo. Je to pěkné slovo. Ale tak to prostě funguje v zipfovském prostředí.
Některé věci dostanou veškerou pozornost, jiné věci téměř žádnou. Většina vašich každodenních prožitků je zapomenuta. Slovník obskurních trápení pro to vymyslel slovo. Oléka. Uvědomění si skutečnosti, že na většinu svých dnů nemáme žádné vzpomínky. Já jsem na světě už téměř 11 000 dní, ale nedokážu vám o každém z nich něco říct.
Ani o většině. Většinu věcí, co děláme, vidíme a prožíváme, brzy zapomeneme. Naše zapomínání se také blíží Zipfovu zákonu. Dává to smysl. Když je většina věcí, o kterých přemýšlíme a mluvíme založena na Zipfovu zákoně, dává smysl, že stejná pravidla platí i pro paměť. Málo vzpomínek si pamatujeme opravdu dobře, většinu ale skoro vůbec.
Někdy mě to ale mrzí. Znamená to, že toho tolik zapomínáme. I věci, o kterých jste si mysleli, že nikdy nezapomenete. Číslo skříňky ve škole, jakou kombinací se odemykal zámek, vtipy, které se mi líbily, jména lidí, které jsem před deseti lety vídal každý den. Tolik vzpomínek je pryč.
Když vidím svoji knihovnu a uvědomím si, že si nepamatuju detaily všech knih. Je to vážně smutné. Proč se vůbec snažit, když Paretův princip říká, že moje zipfovská mysl si stejně po pár letech bude pamatovat jen názvy knih a pár detailů. Ralph Waldo Emerson ale jednou řekl: "Nevzpomínám si na knihy, které jsem četl, stejně jako na jídla, která jsem snědl, přestože mě obojí stvořilo." A jako vždycky...
Díky za sledování. Překlad: Zarwan www.videacesky.cz
Komentáře (0)