Načítám přehrávač...

Zipfova záhada

Name: Zipfova záhada
Uploaded: 2016-01-18T17:00:00.000Z
Duration: 21 min 5 s
Description: Jakými pravidly se řídí jazyk a jaké to má důsledky? Má cenu číst knihy, když je za pár let stejně zapomenete? Poznámka: Titulky k tomuto videu obsahují 2239 slov. Z toho bylo 720 slov (32 %) použito jen jednou.

Vsauce

21:05

23.1K zhlédnutí

4.6 (19 hodnocení)

Zarwan

Publikováno: Před 10 lety

Naučná Vsauce Matematika Šifrování

Jakými pravidly se řídí jazyk a jaké to má důsledky? Má cenu číst knihy, když je za pár let stejně zapomenete? Poznámka: Titulky k tomuto videu obsahují 2239 slov. Z toho bylo 720 slov (32 %) použito jen jednou.

Ahoj, tady Michael z Vsauce. Zhruba 6 % všeho, co v angličtině
řeknete, přečtete nebo napíšete, je "the". "The" je nejpoužívanější
slovo v angličtině. Každé šestnácté slovo, se kterým
se dennodenně setkáváme, je "the". 20 nejpoužívanějších slov
v pořadí od nejčastějšího jsou tato: být, a, se, v, na, ten, že, s, on, z, který, mít, do, o, k, ale, i, já, moci, svůj.

Je to taková malá zajímavost, ale má to i hlubší význam. Ať už spočítáte nejpoužívanější
slova v celém jazyce, nebo jen v jedné
knize nebo článku, téměř pokaždé se objeví
zajímavý vzorec. Druhé nejpoužívanější slovo
se objeví zhruba o polovinu méně než první nejpoužívanější. Výskyt třetího je jen
třetinou výskytu prvního, výskyt čtvrtého
je čtvrtinou prvního, výskyt pátého je pětinou, výskyt šestého šestinou a tak dále až k těm nejméně používaným.

Opravdu. Z nějakého důvodu je
počet výskytů konkrétního slova nepřímo úměrný
jeho pořadí na seznamu.

Graf frekvence a pořadí slov tvoří
na logaritmickém grafu krásnou přímku. Mocninná závislost. Tomuto jevu se říká Zipfův zákon. Jeho uplatnění ale
není jen v angličtině. Objevuje se i v ostatních jazycích. Například... ...no vlastně ve všech. I ve starobylých jazycích, které se nám
ještě nepodařilo přeložit.

A zajímavé na tom všem je, že vůbec nevíme,
proč tomu tak je. Je překvapivé, že něco
tak složitého, jako je realita, je popisována něčím
tak kreativním, jako je jazyk, tak předvídatelným způsobem. Jak předvídatelným? Sledujte tohle. Podle stránky wordcount.org, která seřadila slova podle výskytu
v britském národním korpusu, "Sauce" je 5 555.

nejpoužívanější
slovo v anglickém jazyce. Tohle je seznam, který ukazuje kolikrát se slova objevují
na wikipedii a na Project Gutenberg, kde jsou uloženy desetitisíce
volně dostupných knih. Nejpoužívanější slovo "the" se objevuje přibližně 181 milionkrát. Na základě těchto
údajů můžeme odhadovat, že slovo "sauce"
by se mělo objevit asi 30 000× na wikipedii
a stránce Project Gutenberg.

A můžete se podívat,
že to docela odpovídá. Jak je to možné,
když je svět tak chaotický? Data jsou uspořádána mnoha různými
způsoby, ne jen mocninnou závislostí, a jazyk je osobní,
účelný, mnohoznačný. Jak je možné, že se
tak komplexní aktivita a chování řídí tak jednoduchým pravidlem?

Nikdo vlastně neví proč. I po století výzkumu
si stále nejsme jistí. Navíc Zipfův zákon
nepopisuje jen používání slov. Také ho naleznete v údajích
o počtu obyvatel ve městech, v intenzitách slunečních erupcí, proteinových sekvencích
imunitních receptorů, v návštěvnosti webových stránek, v intenzitách zemětřesení, v počtu přečtení vědeckých článků, v počtech příjmení,
struktuře aktivity sítě neuronů, ingrediencích v kuchařských knihách, počtu příchozích hovorů, průměru měsíčních kráterů, počtu lidí, kteří
zemřeli ve válkách, oblíbenosti prvních
tahů v šachách, dokonce i rychlost zapomínání.

Máme spoustu teorií o tom,
proč je jazyk takový zazipfovaný, ale žádné přesvědčivé závěry. Ani toto video neobsahuje
žádné pořádné vysvětlení. Omlouvám se, vím, že vás
to zklamalo, protože "vědění" máme rádi víc než "záhady". Také se ale víc ptáme,
než odpovídáme. Pojďme se tedy podívat
na důsledky zipfu, některé podobné vzorce,
možná vysvětlení a do hloubky této záhady.

Zipfův zákon
popularizoval George Zipf, lingvista na Harvardské univerzitě. Je to diskrétní forma
rozložení podle Pareta, který objevil Paretův princip. Protože se tolik slovních
procesů podle toho chová, říká nám Paretův princip, že dvacet procent příčin je zodpovědných za 80 % výsledků.

Například v jazyce, kde 18 % nejpoužívanějších slov se objevuje ve více
než 80 % případů. V roce 1896 Vilfredo Pareto spočítal,
že přibližně 80 % pozemků v Itálii bylo vlastněno jen 20 % populace. Říká se, že si později
ve své zahradě všiml, že 20 % lusků obsahovalo
80 % celkové úrody hrášku.

I další vědci se zaměřili
na další statistiky a zjistili, že tato
nerovnováha 20 - 80 se objevuje ve světě velmi často. Nejbohatších 20 % populace
dostává 82,7 % světových příjmů. V USA 20 % pacientů může za 80 % výdajů
ve zdravotnictví. V roce 2002 Microsoft uvedl, že 80 %
všech poruch v MS Windows a Office je způsobeno 20 %
odhalených chyb.

Říká se také že v podnikání
20 % vašich zákazníků je zodpovědných za 80 %
všech vašich výdělků a 80 % stížností, které obdržíte, vám přijde od 20 % zákazníků. Kniha o principu
80 - 20 dokonce tvrdí, že doma nebo v kanceláři
chodíte jen po 20 % koberce v 80 procentech případů. A jak kdysi řekl Woody Allen: "80 procent úspěchu je pustit se do práce."

Paretův princip je všude. Má to ale výhodu. Stačí se soustředit
jen na 20 % chyb, abyste vyřešili 80 % problémů. Podílí se na tom velké množství
nesouvisejících faktorů. Když se ale zaměříme
aspoň na některé, možná zjistíme, že některé z nich jsou
zodpovědné i za Zipfův zákon v jazyce.

George Zipf si myslel, že toto
zajímavé rozložení pořadí a výskytu slov je důsledkem principu
nejmenšího úsilí. Toho, že život a všechno okolo
se snaží jít cestou nejmenšího odporu. Zipf si myslel, že to
pramení z lidského chování, a když se u lidí jazyk vyvíjel, mluvčí se snažili svou myšlenku
vyjádřit co nejjednodušeji. Bylo to pro ně lehčí. Ale aby posluchači
porozuměli, co se jim snaží říct, vyžadovali naopak větší slovní
zásobu, která lépe popisuje realitu, aby se nemuseli
tolik snažit a přemýšlet.

Zipf si myslel, že kompromis
mezi poslechem a mluvením vedl k současnému stavu jazyka. Malé množství slov
používáme často a mnoho dalších slov
se používá jen zřídka. Studie dokazují, že mít
málo často užívaných slov pomáhá rozložit hustotu
informací pro posluchače.

Oddělí se tím důležitá slova
a přísun informací je pak konstantnější. To dává smysl. Uplatněním principu nejmenšího úsilí
na jiné obory jsme se toho mnoho dozvěděli, pozdější výzkumy ale ukázaly, že u jazyka je ještě
jednodušší vysvětlení. Pár let po Zipfově výzkumu Benoit Mandelbrot ukázal, že na Zipfově
zákoně možná vůbec nic záhadného není. Protože i když jen náhodně
stisknete písmena na klávesnici, vytvoříte slova rozložená
podle Zipfova zákona.

Je to docela zajímavá připomínka. Ukážu vám, jak to funguje. Je exponenciálně víc různých
dlouhých slov oproti krátkým slovům. Například z anglické abecedy můžete
vytvořit jen 26 jednopísmenných slov, ale 26 na druhou
dvoupísmenných slov. Kdykoliv při psaní
stisknete mezerník, ukončíte tím slovo.

Jelikož je pořád určitá šance,
že stisknete mezerník, dlouhá doba mezi stiskem mezerníku je exponenciálně méně pravděpodobná
než krátká doba mezi mezerníky. Kombinace těchto exponenciál
je docela zazipfovaná. Například když je stejná šance
stisknutí všech 26 písmen a mezerníku, po stisknutí písmene,
což započne nové slovo, pravděpodobnost,
že další klávesou bude mezerník, který tak zakončí jednopísmenné
slovo, je jen 1:27.

Když necháte náhodně vytvářet slova nebo si pořídíte opici,
která bude psát na stroji, zhruba každé 27. slovo, 3,7 % množin znaků
oddělených mezerou bude obsahovat
jen jedno písmeno. Dvoupísmenná slova se objeví,
když se po začátku slova stiskne jakákoliv klávesa
kromě mezerníku, pravděpodobnost je 26:27, a hned potom mezerník.

Trojpísmenné slovo má
pravděpodobnost stisknutí písmene, dalšího písmene a pak mezerníku. Když to vydělíme počtem jednotlivých
slov, která můžou vzniknout, dostaneme očekávanou frekvenci
výskytu slova v závislosti na jeho délce. Například slovo "V" má pravděpodobnost
výskytu 0,142 % mezi všemi náhodnými slovy. Slovo Vsauce má
pravděpodobnost 0.00000000993 %. Dlouhá slova jsou
méně pravděpodobná.

Ale sledujte tohle. Pojďme si tyto frekvence
vynést na graf podle pořadí, které by měly
na seznamu výskytu slov. Máme 26 možných
jednopísmenných slov. Každé z 26 nejčastějších slov se tedy
objeví s touto pravděpodobností. Dalších 676 slov v pořadí
budou dvojpísmenná slova. Ta se objeví s touto
pravděpodobností. Pokud si protáhneme každou pravděpodobnost
podle počtu slov, která zastupuje, Vyjde nám z toho Zipf.

Další výzkumy ukázaly,
jak se změnou počátečních podmínek dají jednotlivé kroky
vyhladit a zpřesnit. Tím jsme si vytvořili
to naše tajemné rozložení pouze na základě nevyhnutelných
zákonitostí matematiky. Takže to možná vůbec tajemné není. Možná slova jsou
jen důsledkem toho, jak si lidé rozškatulkovali
pozorovatelný i myšlenkový svět a Zipfův zákon jen popisuje,
co se stane, když to tak provedete.

Případ uzavřen. A jako vždycky... Díky za sledo... Počkejte! Skutečné jazyky jsou přece
odlišné od náhodného psaní. Komunikace je do určité
míry předvídatelná. Slova a témata jsou určována tím,
co bylo řečeno dříve.

Naše slovní zásoba není jen
výsledkem čistě náhodného procesu. Tento model náhodného psaní nedokáže
vysvětlit, proč i četnost názvů prvků, planet nebo dnů v týdnu
se řídí Zipfovým zákonem. Tato slova jsou přeci
určována skutečným světem. Nejsou závislá jen na našem
rozškatulkování světa. Navíc když si uděláte
seznam nových slov, slov, která ještě
nikdo dříve nepoužil, například když máte napsat příběh
o mimozemšťanech s podivnými jmény, lidé budou používat jméno jednoho
mimozemšťana dvakrát častěji než druhého, třikrát častěji než třetího...

Jako by byl Zipfův zákon
naprogramován v našem mozku. Možná to je důsledek toho,
jak plynou naše myšlenky, co přispívá k Zipfovu zákonu. Další možnost vzniku
Zipfova rozložení je díky procesům, které se mění
podle předchozích výsledků. Říká se jim procesy
preferenční návaznosti.

Objevují se, když
se nějaká veličina, peníze, počet zhlédnutí, pozornost, proměny,
přátelé, práce, vlastně cokoliv, přiděluje podle předchozích poměrů. Vzpomeňte si
na ten příklad s kobercem. Když většina vašich cest vede
z obýváku do kuchyně po určité trase, nábytek postavíte
mimo tuto cestu. Tím používání této
cesty ještě podpoříte.

Čím více zhlédnutí má video,
obrázek nebo příspěvek, tím spíše se objeví
v automatických doporučeních, nebo se začne mluvit o tom,
kolik zhlédnutí už má. To k němu přivede
další a další diváky. Je to jako sněhová koule
valící se po zasněženém kopci. Čím více sněhu na sebe přilepí,
tím víc zvětší svůj povrch a tím rychleji pak ještě roste. Tento proces preferenční
návaznosti nemusí být záměrný.

Může k němu dojít přirozeně. Zkuste tohle. Nasypte si na hromádku kancelářské
svorky a náhodně dvě vyberte. Spojte je dohromady a znovu
je zamíchejte do hromádky. Teď tento postup
několikrát opakujte. I když vytáhnete svorky, které už
jsou spojené, spojte je dohromady. Po chvíli budete mít rozložení,
které připomíná Zipfovo. Malé množství řetízků
obsahuje velké množství svorek.

Je to proto, že čím
delší řetízek vytvoříte, tím větší část celku obsahuje, což zvyšuje šanci,
že ho později znovu vytáhnete a tím pádem ještě prodloužíte. Bohatí rychleji bohatnou, veliké se rychleji zvětšuje, oblíbené věci se stávají
ještě oblíbenější. Je to jen matematika.

Možná je Zipfovo tajemné
pravidlo jazyka, když ne přímo způsobeno,
tak aspoň posíleno preferenční návazností. Když použijete slovo, zvyšuje se šance,
že bude brzy použito znovu. Kritické body v tom
také můžou hrát roli. Písemný projev a konverzace
se často drží tématu, dokud se nedosáhne
kritického bodu, téma se změní a slova se přizpůsobí
novému tématu.

Důsledkem těchto procesů
jsou mocninné závislosti. Nakonec se tedy ukazuje, že všechny
tyto mechanismy můžou přispívat k tomu, aby Zipfův zákon byl tím
nejpřirozenějším vzorcem pro jazyk. Podle Mandelbrotovy teorie možná některá
slova a gramatika byla vytvořena náhodně a konverzace se přirozeně odvíjí
od preferenční návaznosti a kritických bodů spojené s principem nejmenšího
úsilí při mluvení a poslouchání. To všechno je zodpovědné za vztah mezi pořadím slov
a frekvencí jejich používání.

Je škoda, že to nemá
jednodušší odpověď. Je to ale fascinující kvůli důsledkům
na průběh naší komunikace. Tohle je fascinující. Téměř polovina jakékoli
knihy nebo článku bude složená jen z 50 - 100 slov a necelá druhá polovina bude tvořena
slovy, která se objeví jen jednou. Není to až tak překvapivé,
když si uvědomíte, že jedno slovo tvoří 6 % všeho, co říkáme.

Top 25 nejpoužívanějších slov
tvoří třetinu veškeré komunikace a top 100 přibližně polovinu. Opravdu. Ať už sečtete všechna slova
ve filmu Léto k nepřežití, nebo v Platónových knihách nebo v knihách E.A. Poea nebo i v samotné Bibli. Téměř polovina všeho, co je tam řečeno,
je popsána jen 100 různými slovy.

Knihu Alenka v říši divů tvoří 44 % a Toma Sawyera 49,8 % slova,
která se v knize objeví jen jednou. Slovo, které se vyskytuje
v dané množině slov jen jednou, se označuje jako hapax legomenon. Hapax legomena jsou
důležitá pro porozumění jazykům. Když najdete slovo, které se
ve starověkém díle vyskytuje jen jednou, může být velmi obtížné pochopit,
co to slovo vůbec znamená. Nikde není žádná databáze všeho, co kdy
bylo řečeno nebo napsáno v angličtině, ale velké databáze máme a je zábava snažit se v nich
najít hapax legomena.

Když vám o tom řeknu,
už to nebude pravda, ale slovo "quizzaciously" je
v Oxfordském anglickém slovníku, ale není nikde na wikipedii ani na Project Gutenberg ani na britském nebo
americkém národním korpusu. Objeví se ale ve vyhledávání
Googlu jako jeden výsledek.

V knize "Stará mluva",
která ho označuje jako zastaralé slovo. "Quizzaciously" znamená
"výsměšným způsobem". Jako když by mě někdo
napodoboval následujícím způsobem. Ahoj, tady Michael z Vsauce. Ale kdo je Michael a kolik
vůbec "tady" váží? Je docela smutné,
že se toto slovo používá tak málo. Je to pěkné slovo. Ale tak to prostě funguje
v zipfovském prostředí.

Některé věci dostanou
veškerou pozornost, jiné věci téměř žádnou. Většina vašich každodenních
prožitků je zapomenuta. Slovník obskurních trápení
pro to vymyslel slovo. Oléka. Uvědomění si skutečnosti, že na většinu
svých dnů nemáme žádné vzpomínky. Já jsem na světě už téměř 11 000 dní, ale nedokážu vám
o každém z nich něco říct.

Ani o většině. Většinu věcí, co děláme, vidíme
a prožíváme, brzy zapomeneme. Naše zapomínání
se také blíží Zipfovu zákonu. Dává to smysl. Když je většina věcí, o kterých přemýšlíme a mluvíme založena
na Zipfovu zákoně, dává smysl, že stejná
pravidla platí i pro paměť. Málo vzpomínek
si pamatujeme opravdu dobře, většinu ale skoro vůbec.

Někdy mě to ale mrzí. Znamená to,
že toho tolik zapomínáme. I věci, o kterých jste si mysleli,
že nikdy nezapomenete. Číslo skříňky ve škole,
jakou kombinací se odemykal zámek, vtipy, které se mi líbily, jména lidí, které jsem
před deseti lety vídal každý den. Tolik vzpomínek je pryč.

Když vidím svoji knihovnu a uvědomím si,
že si nepamatuju detaily všech knih. Je to vážně smutné. Proč se vůbec snažit, když Paretův
princip říká, že moje zipfovská mysl si stejně po pár letech bude
pamatovat jen názvy knih a pár detailů. Ralph Waldo Emerson
ale jednou řekl: "Nevzpomínám si na knihy, které jsem četl,
stejně jako na jídla, která jsem snědl, přestože mě obojí stvořilo." A jako vždycky...

Díky za sledování. Překlad: Zarwan
www.videacesky.cz

Související videa