Oko Googlu do dějin: Najděte v knihách 500 miliard slov

17. 12. 2010 23:01

Jako vedlejší produkt vznikla největší databáze výrazů na světě, obsahuje 500 milionů slov

Silicon Valley/Praha - Velkolepý projekt digitalizace knih společnosti Google učinil dva důležité kroky.

Přiblížilo se vyřešení sporu o autorská práva, který jeho vznik provázejí, a to díky dohodě s asociací autorů a vydavatelů, na jejímž rámci už se obě strany dohodly.

Googlu se až dosud podařilo dát na stránky k dispozici celý obsah asi sedmi milionů knih, které nejsou chráněny autorským právem, nebo se duchovní majitel s autory projektu dohodl. Jedná se zhruba o jedenáct procent všech knih, které kdy byly vytištěny.

U knih, jejichž autoři ještě nedali souhlas se zpřístupněním online, mají čtenáři možnost číst úryvky nebo alespoň přístup k popisům a recenzím. Samozřejmostí je možnost zakoupení knihy online, informace o tom, kde si ji lze nejblíže vypůjčit.

Hledejte četnost slov až pět století zpátky

Kromě největší knihovny, kterou kdy lidstvo vytvořilo, ale vznikl i jeden zajímavý vedlejší produkt. Vývojáři Googlu využili 500 miliard z celkem dvou bilionů slov, které byly při digitalizací nahrány, k vytvoření unikátní aplikace Books Ngram Viewer, jež ocení nejen jazykovědci.

Graf výskytu slov | Foto: Google

Uživatelé mohou vyhledávat četnost výskytu jednotlivých slov i krátkých vět v čase. Google výsledky automaticky zakreslí do grafu. Vyhledávat lze libovolně v letech 1500 až 2010 a to i více slov najednou. Data si lze navíc stáhnout a využít pro vlastní výzkum.

V podstatě tak lze zjistit, jak se časem proměňoval jazyk i slovní zásoba a o čem se v dané době mluvilo. Porovnávání výskytu slov zatím funguje jen v autory nejpoužívanějších jazycích, tedy angličtině, francouzštině, španělštině, němčině, čínštině a ruštině.

Je neuvěřitelné, jací jsme ignoranti

"Chceme ukázat, jak může digitální databáze změnit naše vnímání jazyka a kultury," cituje The New York Times spoluautora porovnávače Ereze Libermana Aidena z Harvardovy univerzity.

Ukázalo se například, že na začátku devatenáctého století trvalo v průměru šestašedesát let, než se technologické objevy rozšířily do obecného povědomí. V letech 1880 a 1920 už se nové objevy ujímaly v průměru po sedmadvaceti letech, upozorňuje Aiden.

Pro lingvisty je samozřejmě takováto aplikace ohromujícím nástrojem. "Když jsem zjistil, že existuje podobná databáze, byl jsem ohromen. Vyplývá z ní, že jsme takoví ignoranti, že je na místě diskuze, co se může našemu jazyku stát," dodává Steven Pinker, Aidenův kolega z Harvardu.