Chatboti nejsou diskrétní. Co jim svěříte, nezůstane v soukromí „digitální zpovědnice“

Velké jazykové modely a na nich založení „povídací roboti“ se stali jednou z nejrychleji rostoucích digitálních služeb. Nabízejí je desítky technologických firem včetně těch největších a mají přes miliardu uživatelů. Škála problémů, jež s těmito digitálními poradci lidé řeší, je obrovská. A spolu s tím vzniká obrovské množství dat, nad jejichž osudem původní „majitelé“ nemají žádnou kontrolu.

Většina lidí patrně příliš nepřemýšlí o tom, co se s informacemi odeslanými na servery někde ve Spojených státech děje. Během posledních měsíců ovšem vzniklo hned několik studií, které upozorňují, že pocit soukromí v případě konverzování s umělou inteligencí nemůže být mylnější. Stejně jako představa, že poskytnuté údaje časem zmizí.

Krmivo pro roboty

Patrně nejméně znepokojivým důsledkem zpracování nejrůznějších dat, kterými stamiliony uživatelů po celém světě zásobují jazykové modely, je jejich využití pro další učení umělé inteligence. Modely fungují na jednoduchém principu: čím více dat mají k dispozici, tím lépe dokážou generovat text a reagovat na dotazy. Jejich schopnosti se do velké míry odvíjejí od rozsahu a rozmanitosti trénovacích dat.

Historicky se pro výcvik umělé inteligence využíval především veřejně dostupný internetový obsah, například knihy, články, diskusní fóra nebo webové stránky. Jenže tento zdroj není nevyčerpatelný. Vývojáři dnes otevřeně přiznávají, že velkou část dostupného textu na internetu pro trénování modelů už vytěžili, a je tak nutné je zásobovat daty dalšími. Chatboti proto otevírají nový zdroj: samotné uživatele.

Studie analytiků ze Stanfordovy univerzity podrobně zkoumala jednak fungování jazykových modelů a jednak rozsáhlé uživatelské podmínky služeb od společností jako Google, Microsoft, Meta nebo Amazon. Dospěla k závěru, že všechny tyto firmy konverzace uživatelů s chatboty právě pro tento další trénink používají. A jelikož mnohastránkové dokumenty o ochraně dat většina lidí nečte, vůbec o tom nevědí. Bezstarostně tak sdělují chatbotům detailní informace o svém soukromí nebo firemní data. Technologické firmy tyto údaje archivují na dobu neurčitou a poskytují je lidským zaměstnancům jako součást školicího procesu.

Prvním z rizik je, že se k těmto neanonymizovaným, citlivým a často velmi osobním údajům dostanou kyberútočníci. A druhým, že velké technologické firmy neprovozují jen jazykové modely, ale celé digitální ekosystémy.

Google má vedle chatbotu Gemini také vyhledávač, Gmail, cloudové dokumenty, YouTube nebo mobilní operační systém Android. Meta kontroluje Facebook, Instagram a WhatsApp. Microsoft kombinuje AI s vyhledávačem Bing, kancelářským balíkem Microsoft 365 nebo cloudovou platformou Azure. Tato infrastruktura umožňuje data z různých služeb postupně propojovat. Informace z vyhledávání, e-mailů, dokumentů nebo sociálních sítí mohou vytvářet rozsáhlé datové soubory, které firmy využívají pro vývoj a personalizaci svých AI systémů také.

Odhalené těhotenství

Nabízí se otázka, proč by vlastně mělo být toto „profilování“ nebezpečné, pokud uživatel zrovna nepáchá něco nekalého. I na to má studie odpověď. Analytici popisují realistický scénář: Požádáte svého chatbota, se kterým se běžně radíte o každodenních věcech, třeba o recept na zdravou večeři s nízkým obsahem tuků a cholesterolu. Model z této a dalších informací vyvodí závěr, že můžete mít kardiovaskulární onemocnění.

Vy se pak nestačíte divit, když se vám na sociálních sítích nebo webových stránkách začnou objevovat reklamy na patřičné léky. Ačkoliv jste se jen zeptali na zdravou večeři, systém na základě dotazu (případně také z dalších informací třeba z vyhledávání, vašich souborů nahraných v cloudovém úložišti nebo příspěvků na sociálních sítích) vytvořil zdravotní profil.

Umělá inteligence je navíc záludná – zvládá i téměř detektivní práci. Jiná studie vědců z Tokušimské univerzity v Japonsku letos v únoru zveřejnila rozsáhlá zjištění z analýzy téměř stovky vědeckých prací o vztahu mezi AI a soukromím. Varovala mimo jiné před tím, že dnešní algoritmy si dovozují informace, které uživatel nikdy výslovně nesdělil. Dělají to pomocí analýzy velkých datových souborů, v nichž hledají statistické vzorce. To úplně mění představu o tom, co ještě lze považovat za anonymní a neškodná data.

Studie jako příklad takové analýzy uvádí zkušenosti z amerického maloobchodního řetězce Target. Jeho analytický systém založený na umělé inteligenci dokázal z nákupní historie jedné ze zákaznic správně odhadnout, že je těhotná, a dokonce i v které fázi těhotenství se nachází. Algoritmus analyzoval kombinaci zdánlivě nevinných nákupů, například doplňků stravy s vysokým obsahem kyseliny listové, neparfémovaných hydratačních krémů, vitaminových doplňků a určitých zdravotních potřeb.

Případ se dostal na veřejnost poté, co řetězec začal této zákaznici posílat reklamní nabídky na dětské produkty. Její otec si kvůli tomu stěžoval vedení obchodu, protože se domníval, že jde o omyl. Později se ovšem ukázalo, že algoritmus měl pravdu, a nejen to – dokázal těhotenství mladé dívky odhalit ještě předtím, než se s tajemstvím svěřila vlastní rodině.

Indiskrétní kněží

Mnoho lidí komunikací s jazykovými modely nahradilo dříve běžné vyhledávání a dotazují se jich nejen na recepty a zboží. „Roboti“ se stali také praktickými lékaři či psychology, jimž se svěřují se starostmi a problémy, nebo osobními asistenty, kteří pomáhají řešit pracovní úkoly.

Pro marketingové účely jsou detailní osobní informace od jednotlivce, odeslané v dobré víře chatbotům, ideálním zdrojem pro ještě daleko přesnější profilování potenciálních zákazníků a cílování reklamy. Tito novodobí „zpovědníci“ však rozhodně nectí zpovědní tajemství.