Česká škola: Bořivoj Brdička: Co dokáží stroje schopné hlubokého učení

Komplexní informace o stavu vývoje technologií umělé inteligence disponujících schopností tzv. "hlubokého učení". Mají celou řadu souvislostí se vzděláváním lidí.

Úvod

Zdokonalování schopností technologií, způsobené rozvojem umělé inteligence, je tak obrovské, že nám někdy až bere dech a vyvolává v nás obavy z budoucnosti. Poslední skok kupředu je způsoben nově aplikovanou metodou tzv. hlubokého učení (Deep Learning), která spadá do oblasti strojového učení, což je postup umožňující počítačům se samostatně učit něco nového bez přímého řízení takové činnosti programem.

Přestože jsme dosud na Spomocníkovi o hlubokém učení explicitně nemluvili, již jsme na jeho aplikaci narazili. Poprvé před pěti lety jsme se divili, jak superpočítač IBM Watson dokázal zvítězit v Jeopardy (pozor, pro pochopení obsahu tohoto článku je důležité vědět, co Watson umí). Podruhé docela nedávno, když jsme se zabývali analýzou emocí (Analýza emocí v Horizon Reportu 2016). Kontext, v němž se současný vývoj umělé inteligence nachází, je vysvětlen zde – Přichází druhá počítačová revoluce.

Nevím, zda do našeho odborného slovníku vzdělávacích technologií zavádět pojem „hluboké učení“, protože ten se v pedagogice používá též v jiném významu – pro vrcholné stadium lidského poznání umožňující aplikaci získaných poznatků při řešení nových, dosud neznámých problémů (něco na způsob meliorace). Původní anglický výraz v tomto případě není „Deep Learning“, ale „Deeper Learning“. Vzhledem k tomu, že se „hluboké učení“ již běžně používá ve výuce informatických oborů (např. viz IB031 Úvod do strojového učení doc. Brázdila z FI MUNI) a jeho výskyt v jiných oborech rychle narůstá, je zřejmé, že původní pedagogický, málo používaný význam bude odsunut do pozadí.

V tomto článku se nebudeme zabývat hlubokým učením lidí, nýbrž strojů. Jedná se o aplikace simulující pomocí technologií funkci lidského mozku. K tomu je typicky využíván specifický software, napodobující šíření vzruchů mezi neurony prostřednictvím synapsí, zvaný neuronová síť. Princip je znám již od 50. let minulého století, kdy první simulace neuronových sítí pro tehdejší velké sálové digitální počítače vyvinuli vědci MIT. V té době byly možnosti neuronových sítí kvůli zatím velice nedokonalým technickým parametrům počítačů velmi omezené a nezdálo se, že by na nich postavená umělá inteligence mohla být někdy prakticky využitelná. Přesto se vědci po celou dobu pokoušeli nalézt postup, který by umožnil, aby neuronová síť skutečně fungovala co nejpodobněji lidskému mozku.

Vývoj strojového učení vedoucí k hlubokému je spojován s profesorem Geoffrey E. Hintonem, působícím od konce 80. let na University of Toronto. Ten přišel s představou, že vlastně veškerý rozvoj poznání (nebo dokonce inteligence) lze definovat pomocí jednotného principu – tzv. „mistrovského algoritmu“, který lze převést do počítačové podoby [1]. Prostředkem pro experimentování se mu stala právě neuronová síť. Skupina vědců, která se kolem profesora Hintona zformovala, musela projevit značnou dávku trpělivosti a zaujetí pro věc, protože trvalo desítky let, než dospěli k současnému světovému úspěchu.

Zlom nastal někdy kolem roku 2006. Byl způsoben zlepšením technických parametrů počítačů, zavedením víceúrovňových neuronových sítí se zpětnou propagací [2] a existencí velkých dat (Co je datafikace?). Právě tato poslední podmínka má zásadní význam. Je to poprvé v historii, kdy je možné mít z jednoho místa přístup k datům vyprodukovaným miliony (u FB víc než miliardou) uživatelů z celého světa. Vrcholné vědecké týmy dnes soutěží v tom, kdo vyvine nejlepší praktickou aplikaci hlubokého učení. Je zřejmé, že ideální podmínky mají vědci v korporacích, které disponují skutečně velkými daty – Google, Facebook, Microsoft, Baidu, IBM. Profesor Hinton dnes svůj pracovní čas dělí mezi univerzitu a laboratoř Google.

Zjednodušeně řečeno, aplikace hlubokého učení nejsou programovány, ale jsou cvičeny na skutečných velkých datech, jak se v různých situacích chovat. Ani to ale není jednoduché, protože jsou náchylné na chybovou interpretaci dat, takže se neobejdou bez týmu zkušených specialistů. Podívejme se, co aplikace hlubokého učení v současné době dokáží. Existují nejméně 4 typické oblasti, v nichž je patrný souboj špičkových vědeckých pracovišť a skoro každý den lze zaznamenat významný pokrok:

1. Analýza textových informací

Možnosti počítačů analyzovat text je již úplně jinde než v dobách, kdy nám Google umožnil fulltextové vyhledávání v téměř všech existujících webových stránkách. Hluboké učení posouvá analýzu textu směrem k „pochopení“ významu zkoumaného dokumentu. Vzpomeňme na Watsona, který umí na základě takové analýzy odpovídat skoro na libovolné otázky soutěže Riskuj.

Proces, který vede až k tomuto výsledku, není zrovna jednoduchý. Znamená to vytvořit co největší databázi (korpus) textových dokumentů, u nichž existuje systematicky popsaný obsah (v pozadí je vektorový popis jazyka naznačující nejčastější výskyt slov a umožňující odhadovat jejich pořadí). Systém, který ví, o čem se v textu píše, si pak již dokáže poradit se situací, když se objeví stejná či podobná věta ve zcela jiném kontextu. Problém je ve skutečnosti samozřejmě hodně složitý. Analýza dosud nefunguje stoprocentně. Dokumentovat to lze například na již běžně používaném automatickém překladu, který vychází z podobné klasifikace obsahu pro různé jazyky.

Známý anglický startup DeepMind, zakoupený Googlem za 400 mil. dolarů, použil pro hluboké učení svého nástroje pro textovou analýzu statisíce článků Daily Mail a CNN, které disponují klasifikací v podobě anotací popisujících obsah. S určitou nadsázkou můžeme konstatovat, že se stroje pomalu učí rozumět tomu, co píšeme. [3] [4]

2. Analýza mluveného slova

Od porozumění obsahu textového dokumentu ke schopnosti poslouchat a mluvit je ještě dlouhá cesta. Asi nejdále po ní zatím ušel čínský poskytovatel internetových služeb Baidu (tamní ekvivalent Google), který tvrdí, že jeho nejnovější aplikace (Deep Speech 2) pro mobily použitá osobním asistentem zvaným Duer rozumí mluvenému slovu dokonce lépe než člověk [5]. I ve ztížených podmínkách zachytí správně cca 95 % slov [6].

I zde se umělá inteligence musela nejprve naučit rozumět, a to tak, že dostala příležitost na velkých datech porovnávat zvukový a textový záznam stejného obsahu. Zvukový záznam byl navíc schválně zkreslován a maskován jinými zvuky. Duer ovládá kromě angličtiny též většinu čínských dialektů, takže se možná stane užitečným pomocníkem i při komunikaci samotných Číňanů mezi sebou. Šéf výzkumu hlubokého učení Baidu Andrew Ng tvrdí, že se rychle blíží doba, kdy „budeme všichni používat rozpoznávání hlasu k ovládání věcí kolem sebe neustále“ [6]. Podívejte se, jak vypadá současný automatický simultánní překlad v podání Skype od Microsoftu:

Timesaving Handy Interpreter

3. Rozpoznávání obrazu

Na počátku stálo rozpoznávání písmen tištěného textu. To se podařilo se slušnou úspěšností ještě před příchodem hlubokého učení. Mnohem obtížnějším úkolem bylo analyzovat text psaný rukou. I to již stroje s pomocí neuronových sítí dokáží a jdou dál. Asi nejznámější aplikací vyšší úrovně, s níž se již setkáváme každý den, je rozpoznávání obličejů lidí. Nejdále je v této oblasti Google a Facebook. Facebook se snaží zavádět rozpoznávání obličejů na fotkách co nejnenápadněji, přesto je tato funkce centrem všeobecného zájmu.

Začalo to v roce 2010 získáním izraelského startupu Face.com (11 zaměstnanců, cena cca 60 mil $ [7]), jehož software již tehdy uměl najít na fotkách obličeje lidí. Dnes se tato aplikace nazývá DeepFace, je integrální součástí Facebooku a rozeznává obličeje s 97% přesností. [8]

Hluboké učení se uskutečňuje v několika úrovních. Detailně analyzovat celou fotku zatím ani současné vyspělé technologie nezvládají, proto je třeba nejprve identifikovat místa, o která se zajímáme (podobně jako když tajné služby zkoumají satelitní snímky). V nejvyšších úrovních se pak zjišťují fyziologická data, která jednoznačně každého člověka identifikují. Poslední položkou, kterou je třeba vyplnit, je přiřazení osobních údajů. Stačí jediná fotka na Facebooku (či jinde), k níž někdo připsal jména osob, a je to. Facebook dnes již zná obličej milionů lidí. Disponuje největší podobnou databází na světě. V tomto se mu žádná státní bezpečnostní služba nevyrovná. [9]

How Does Facial Recognition Work? - Brit Lab

Riziko zneužití je značné. Evropa sice zkomplikovala Facebooku nejrychlejší způsob finalizace databáze obličejů, když zakázala přímé označování jmen uživateli na fotkách (ani nejnovější aplikace FB Moments nebude v Evropě dostupná), ale to neznamená, že by tyto služby, shromažďující biometrická data lidí (kromě FB totéž dělá Google i další), nebyly masivně rozšiřovány.

Zkoumáme-li možnosti umělé inteligence rozpoznávat obrazy, nesmíme zapomínat, že již dokáže mnohem více než přiřadit obličeji jméno. Umí určit pohlaví, odhadnout věk, rozeznávat osoby i podle jiných znaků, než je obličej, a dokáže dokonce analyzovat i emoce. Lidský obličej je samozřejmě velmi zajímavý objekt, který stojí za zkoumání. Takových je ale jistě mnohem více.

Celý článek na spomocnik.rvp.cz.