České počítačové programy zkoumají databázi holocaustu

Josef Tuček
29. 1. 2010 20:00
Obdobný software by měl pomoci při automatickém přepisu řeči
Předvádění, jak se dá v knihovně Matematicko-fyzikální fakulty v Praze hledat v gigantické databázi v Kalifornii, která je přes internet nepřístupná.
Předvádění, jak se dá v knihovně Matematicko-fyzikální fakulty v Praze hledat v gigantické databázi v Kalifornii, která je přes internet nepřístupná. | Foto: Josef Tuček

Praha - Výpovědi lidí, které chtěli vyvraždit nacisté, jsou nyní k dispozici v Praze. V jejich zpracování pomáhají počítačové programy, které vymýšlejí i čeští vědci.

Obdobný software by mohl pomoci i při strojovém přepisu jakýchkoli jiných namluvených záznamů.

Čtyřicet let na zhlédnutí

Téměř 52 tisíce videozáznamů vyprávění pamětníků má dohromady přes 105 tisíc hodin. Kdyby je chtěl jeden badatel všechny zhlédnout a věnoval prohlížení deset hodin denně a pět dnů v týdnu, trvalo by mu to čtyřicet let. A to by ještě musel umět dvaatřicet jazyků, v nichž jsou výpovědi namluveny.

Je jasné, že úkol potřebuje nasazení techniky.

Začal to Schindlerův seznam

Vše začalo v roce 1994, kdy americký režisér Steven Spielberg inicioval založení veřejné nadace pro zachycení výpovědí svědků holocaustu. Bylo to po úspěchu jeho filmu Schindlerův seznam.

V devadesátých letech tedy týmy tazatelů navštěvovaly ve světě žijící pamětníky a nahrávaly jejich vzpomínky na analogový videozáznam, který byl později digitalizován. Dnes tento archiv, který velikostí osmi petabajtů (tisíců bilionů bajtů) patří mezi největší digitální knihovny na světě, spravuje Jihokalifornská univerzita v Los Angeles.

Internet by nestačil

Využívají jej historici, sociologové, studenti, ale také třeba filmaři. A nyní je do něj přístup i z knihovny Matematicko-fyzikální fakulty Univerzity Karlovy na Malostranském náměstí v Praze, která se tak stala šestadvacátým místem ve světě, které tuto možnost badatelům i veřejnosti nabízí.

"Přenos dat po běžném internetu je příliš pomalý na to, aby se v této digitální databázi dalo efektivně hledat. Naše knihovna však využívá optický kabel akademické organizace Cesnet, který umožňuje dostatečně velký i rychlý přenos dat. Díky tomu můžeme hledat v kalifornské databázi v reálném čase," říká Jan Hajič, profesor formální a aplikované lingvistiky.

Tady nyní mají badatelé i veřejnost přístup k databázi vzpomínek na holocaust.
Tady nyní mají badatelé i veřejnost přístup k databázi vzpomínek na holocaust. | Foto: Josef Tuček

Jen hrubé označení

Aby se však dalo v záznamech vůbec něco najít, museli správci nejdříve označit jednotlivé jejich sekvence klíčovými slovy, která určují, o jakém tématu, osobě či místu se v které části nahrávky mluví. Ukázalo se, že dobře označit dvouhodinový záznam trvá dva pracovní dny. Takže nezbylo než využít hrubého systému, při němž badatel záznam pouze jednou sledoval, zapsal do jednotlivých úseků jen tolik klíčových slov, kolik okamžitě stačil, ale nesměl se k žádnému úseku vracet, aby neztrácel čas.

V této podobě mohou svědectví o holocaustu nyní využívat i čeští badatelé - díky zvolenému klíčovému slovu se jim na obrazovce počítače objeví ty výpovědi, v nichž se vyskytuje, a kliknutím si hned promítnou příslušný úsek vyprávění, aby posoudili, jestli je pro ně podstatný a budou s ním dál pracovat.

Malach je anděl

Badatelům je jasné, že v databázi by mělo být možné hledat ještě lépe. Proto v roce 2002 zahájili mezinárodní projekt, do nějž se zapojili i vědci z pražské Matematicko-fyzikální fakulty a z katedry kybernetiky Západočeské univerzity v Plzni. Dostal pojmenování MALACH (z anglického Multilingual Access to Large Audio arCHives - mnohojazyčný přístup do velkých audioarchívů), což ovšem současně hebrejsky znamená "anděl".

Chtěli sestavit počítačové programy, které by dokázaly samy přepsat namluvené záznamy do psané podoby. Ukázalo se však, že je to mnohem složitější, než sestavit program například pro přepis diktovaného textu (takových už existuje několik).

Mluvčími na záznamech jsou totiž lidé ve věku od sedmdesáti let výše, z nichž řada opustila svůj domov a žije v cizině. Někteří tedy mluvili rodnou řečí, kterou však už pozapomněli, jiní jazykem své nové vlasti, v němž stále mají cizí přízvuk. Vyprávění je navíc často emotivní. S tím si současné počítačové přepisovací programy nedokážou poradit.

Třetina je zatím špatně

Vyprávění pamětníků je nyní snáze přístupné.
Vyprávění pamětníků je nyní snáze přístupné. | Foto: Josef Tuček

Zatím čeští vědci, kteří zpracovávají nahrávky v češtině, slovenštině, polštině, ruštině a maďarštině, dokázali dosáhnout přepisu s chybovostí více než třicet procent. To neumožňuje přepsaný text snadno číst. Na základě zvukové podobnosti je však možné v takto počítačově zpracovaných záznamech najít jakákoli slova, která v něm zazněla. Tedy i taková, která nebyla dříve zvolena jako klíčová, takže se do dřívějšího popisu vůbec nedostala.

Badatel si snadno najde sekvenci s příslušným slovem, poslechne si okolní věty a pozná, zda našel, co hledal.

Tento program představili pražští a plzeňští matematikové při nynějším slavnostním otevření přístupu do kalifornského archivu z Prahy.

Riziko nepoznali včas

"Díky naší databázi bychom mohli lépe zmapovat příčiny genocidy. I proto, abychom jí mohli příště zabránit," řekl výkonný ředitel kalifornské instituce Stephen Smith. Varovné totiž je, že - jak vyplývá z výpovědí přeživších - spousta z nich nedokázala včas rozpoznat, co jim opravdu hrozí, když se nacismus dostával k moci.

Pro matematiky je tato databáze současně obrovským zdrojem materiálu pro vylepšování počítačového rozpoznávání mluveného jazyka.

 

Právě se děje

Další zprávy