Praha - Počítač, který úplně porozumí lidské řeči? V Praze se sešlo 1100 odborníků z pěti desítek zemí světa, kteří pro něj vymýšlejí programy.
Počítačová (někdy se také říká matematická) lingvistika hledá metody, jimiž se dá popsat jazyk tak, aby s ním mohl pracovat stroj. Ale začíná si všímat i způsobu vzniku sdělení přímo v mozku. Což by vlastně mohlo teoreticky vést až ke čtení myšlenek.
Co to chtěl autor napsat?
Pražský kongres Mezinárodní asociace počítačové lingvistiky byl zatím největším v historii této organizace.
Prakticky každý uživatel počítače zná jedno z jednodušších využití tohoto oboru: je jím kontrola pravopisu. Počítačové programy už dávno umějí najít v napsaném textu neznámé slovo, třeba "htát". Naznačí uživateli, že se přepsal, a navrhnou mu varianty slov, která možná chtěl opravdu použít: "hnát", "hrát", "ptát", "stát", "tát" a podobně.
Programy, na nichž počítačoví lingvisté nyní pracují, mají umět mnohem víc. Třeba poznat, že věta "Pastevci se chystají hrát dobytek na pastvu." nedává smysl, a nabídnout správné slovo "hnát".
Tady je hrubka
"V průběhu několika let budeme mít i programy, které poznají gramatické chyby," předpokládá jedna z organizátorek kongresu Eva Hajičová, profesorka Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy.
Počítačový program pak sám najde a opraví třeba hrubku ve větě "Děti, na které rodiče nemají čas a dostatečně se jim nevěnují ještě před začátkem školní docházky mívají pak ve škole problémy." Současné programy na ni zatím nepřijdou. Musely by totiž rozpoznat vložené věty, které se v češtině oddělují čárkou.
Poezii stroj nikdy nepřeloží
Mezi další využití počítačové lingvistiky patří strojové překlady z jednoho jazyka do druhého.
"Jsou stále lepší, ale poezii nebo vůbec krásnou literaturu určitě nikdy nezvládnou, a to je nakonec dobře. Ovšem třeba směrnice Evropské unie a další úřední texty časem počítače přeloží uspokojivě," soudí profesorka Hajičová.
Počítači, najdi odpověď
Počítačoví lingvisté se také zaměřují na hledání ve velkých souborech dokumentů.
Zatím člověk při vyhledávání informace používá klíčová slova. Třeba do vyhledávače napíše "soutěž, let, vesmír". A pak se probírá lavinou odkazů. V budoucnu se však počítače rovnou zeptá: "Co to bylo za soutěž, kde vítěz vyhrál let do vesmíru?"
Program mu pak najde odpověď. Ne podle toho, že se v ní vyskytují zadaná slova, ale podle smyslu textu, který počítač rozpozná. (Takže mu třeba nabídne rešerši článku Angličan poletí do vesmíru za patent na rádio.)
Centrum.cz to má taky
Jedna z možností využití počítačového programu, který rozumí smyslu otázky, se najde třeba v lékařské ordinaci, předpokládají účastníci kongresu. Místo aby lékař dlouho listoval v dokumentaci, položí otázku (třeba: "Jaké nemoci související s kouřením měli pacientovi rodiče?") a počítač vyhledá a sestaví odpověď.
Mimochodem, čeští odborníci z Ústavu formální a aplikované lingvistiky vymysleli i technologii Morfeo, která umí skloňovat a časovat v češtině, takže například při dotazu na "stůl" hledá ve zkoumaných textech současně i varianty "stolu", "stolem", "stoly" a tak dále. Používá se na vyhledávači Centrum.cz.
Otec zakladatel v Praze
Samostatnou a hodně složitou kapitolou je pak počítačové rozpoznávání mluveného slova. Autorem hlavních statistických metod pro rozpoznávání řeči, které se dnes stále více používají i při zpracování psaného textu, je Frederick Jelinek.
O práci jeho žáků čtěte: Čeští programátoři učí číst Američany |
Český rodák, který zanedlouho oslaví pětasedmdesáté narozeniny, odešel po druhé světové válce do USA. Dlouho pracoval ve společnosti IBM a nyní je profesorem na Univerzitě Johnse Hopkinse v Baltimoru. Je významným hostem současné pražské konference.
Jeho výzkum umožnil i vznik mezinárodního projektu, na němž se podílejí také experti z pražské Matematicko-fyzikální fakulty a ze Západočeské univerzity.
Svědectví o holocaustu
Projekt má název MALACH a v jeho průběhu tazatelé nahráli kolem 52 000 vzpomínek lidí, kteří přežili holocaust.
"Vzniklo tak 116 000 hodin nahrávek ve dvaatřiceti jazycích. Někteří pamětníci navíc mluvili cizím jazykem, jiní mluvili rodnou řečí, ale žijí už desetiletí v cizině, takže v těchto případech není výslovnost obvyklá," popisuje profesorka Hajičová.
Takové nahrávky mají ovšem pro historiky cenu pouze tehdy, když budou zpracované a přístupné. Proto vědci pracují na systému, který dokáže výpovědi přeložit, ale také v nich vyhledávat. "Třeba na otázku o chování dozorce XY najde všechny zmínky o něm ve výpovědích všech lidí, kteří jeho koncentračním táborem prošli," konstatuje Eva Hajičová.
Čeští experti se v projektu zaměřují na analýzu výpovědí ve slovanských jazycích.
Kontrola telefonátu, i čtení myšlenek
Už nyní využívají poznatků počítačové lingvistiky také bezpečnostní služby. Poslouchat nahrávky telefonických hovorů je pro agenty časově náročné. Zato počítač najde podezřelé hovory sám, podle zadaných klíčových slov a dalšího kontextu. A to díky digitálním záznamům třeba i léta do minulosti.
Ještě větším zásahem do soukromí pak může být další postup, který účastníci konference v Praze zmiňovali zatím jenom okrajově.
Dnes umějí stále lépe analyzovat způsob vzniku napsané nebo vyslovené informace. Teoreticky je však možné zmapovat takové sdělení už ve chvíli, kdy se utváří v mozku. Což by mohlo v důsledku vést až ke čtení myšlenek.
"Výzkum je na samém počátku, takže se teprve pozná, jestli bude možné signály v mozku dešifrovat. Nicméně z pohledu vědeckého poznání je to fascinující myšlenka," shrnuje profesorka Hajičová. "Věda přináší možnosti zneužití. Když fyzikové poznali strukturu atomů, mohla v důsledku toho vzniknout jaderná elektrárna, ale také atomová bomba. Také počítačová lingvistika půjde využít, a někdy zneužít. Je na společnosti, jaká kritéria si nastaví."