David Růžička: etcML analyzátor textu na webu

pondělí 15. září 2014 ·

Článek informuje o nástroji na automatickou analýzu textů pracujícího jak s volně dostupnými příspěvky online, tak s vloženými dokumenty (například pracemi žáků), který vyvinuli vědci ze Stanfordu.

Chcete se dozvědět, jaké obliby dosahuje váš sportovní tým na Twitteru? Nebo zda má váš podnikatelský záměr naději na úspěch? Prostřednictvím aplikace etcML lze několika jednoduchými kliky na podobné otázky získat odpovědi. Ale to není všechno. Můžete zdokonalovat již vytvořené algoritmy zadání úloh a podělit se o svá vylepšení s ostatními!

Toto je doslovný úvod oficiálních stránek analyzátoru textu etcML. O co vlastně jde? Počítačoví vědci ze Stanfordské univerzity zpřístupnili veřejnosti aplikaci, která každému umožňuje jednoduše řečeno klást analytické otázky a dostávat na ně odpovědi. Ve skutečnosti je to samozřejmě trochu složitější. Pokud máme k dispozici text, můžeme ho jednoduše vložit a zjistit za pomoci analýzy slov a frází, jeho emoční náboj (zda je článek myšlen v pozitivním, neutrálním či negativním smyslu). Analýzu ale ve skutečnosti umí aplikace provést na základě zadaných klíčových slov i u jiných online textových zdrojů [1].

Právě analýza pozitivních či negativních názorů je úzce spjata se sociální sítí Twitter. Na této síti zveřejňují uživatelé své myšlenky, dojmy, odkazy, ať už osobního či jiného rázu. Všechny tyto informace jsou veřejnosti přímo na Twitteru dostupné. Počet uživatelů Twitteru se přitom již blíží k miliardě. Z toho je přibližně 200 milionů uživatelů aktivních. Denní počet zpráv (tvítů), které uživatelé vyšlou do světa, je kolem 500 milionů [2]. Všechny tyto zprávy je etcML schopen projít a analyzovat. Naskýtá se nám tedy poměrně nová možnost provádět vlastní rychlý průzkum veřejného mínění, a to rovnou na velkých datech. Ve skutečnosti se vlastně jedná o jev, který stále více proniká do našeho běžného života – o tzv. datafikaci. Velká data dnes umožňují nové a nečekané způsoby sběru a analýzy informací [3].

Nejprve jsou vždy vybrány všechny zprávy, které by se podle klíčových slov mohly daným tématem zabývat, a poté jsou hlouběji analyzovány a zjišťuje se jejich emoční náboj. Například názor na prezidenta Spojených států Amerických či jakékoliv jiné téma, na které je vytvořen algoritmus který příspěvky klasifikuje, neboli klasifikátor.

Klasifikátory vytvářejí nejen tvůrci etcML ale i samotní uživatelé. Představme si skript, který je vyvíjen podle záměru autora. Například bude hodnotit obsah textu na základě určitých klíčových slov a ukáže se, že prvotní návrh není dostatečný, že je potřeba přidat další klíčová slova či jiná kritéria. Tyto úpravy klasifikátoru mohou kromě autora, pokud to je umožněno, dělat i ostatní uživatelé. Ti tak mohou touto formou sdílení možnosti využití tohoto analytického nástroje zdokonalovat. Vědci ze Stanfordu tvrdí, že k tvorbě klasifikátorů není třeba znalost programovacího jazyka. To je sice pravda, ale tak jednoduché to zase není, též proto, že celý projekt je v plenkách a pracuje výhradně s angličtinou.

Na obrázku je ukázka analýzy názorů uživatelů twitteru na téma z filmového průmyslu. Objevil se návrh, že v dalším filmu o batmanovi by postavu batmana měl hrát herec Ben Affleck. Ve výsledku vidíme časový průběh reakcí na oznámení této skutečnosti včetně vybraných tvítů na toto téma se zjištěnou hodnotou negativity či pozitivity.

Závěry nejsou zcela bezchybné. Průměrná úspěšnost analýzy se blíží 85 %, ale to není u všech témat stejné. Během zkoumání etcML jsem narazil na několik případů chybných analýz, třeba u reakce na smrt Hanse Gigera (malíř a sochař, autor hollywoodského monstra Vetřelec). V jednom textu, který byl vyhodnocen jako negativní, uživatel psal, že pan Giger nemůže odpočívat v pokoji, raději se někde prohání se svými příšerkami. Je zřejmé, že autor to myslel s lehkou nadsázkou, ale v dobrém. To však analyzátor zatím rozpoznat nedokáže.

Dodejme jen, že ironie bude asi strojům zatím dělat dost velké potíže, což potvrdila i nedávná zpráva vědců z Oxfordu (Kdo z našich žáků nejspíše nenajde práci?). Zdá se, že právě sociální inteligence je kompetencí, kterou zatím stroje nezvládají. Patří sem právě schopnost vnímat druhé lidi a rozumět jejich reakcím, schopnost sbližovat rozdílná stanoviska a hledat kompromisy, schopnost donutit druhé změnit názor nebo chování, poskytnout duševní podporu.

Celý článek na spomocnik.rvp.cz

0 komentářů:

Články dle data



Učitelské listy

Nabídka práce

Česká škola - portál pro ZŠ a SŠ

Česká škola poskytuje svým čtenářům diskusní prostor k vyjádření názorů na školskou problematiku. Tyto příspěvky se nemusí shodovat se stanoviskem redakce České školy a jsou uveřejňovány jako podnět k dalším diskusím.

Obsah článků nemusí vyjadřovat stanovisko redakce nebo vydavatele Albatros Media, a.s.


Všechna práva vyhrazena.

Tento server dodržuje právní předpisy
o ochraně osobních údajů.

ISSN 1213-6018




Licence Creative Commons

Obsah podléhá licenci Creative Commons Uveďte autora-Neužívejte dílo komerčně-Nezasahujte do díla 3.0 Česká republika, pokud není uvedeno jinak nebo nejde-li o tiskové zprávy.



WebArchiv - archiv českého webu



Tyto webové stránky používají k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Informace o tom, jak tyto webové stránky používáte, jsou sdíleny se společností Google. Používáním těchto webových stránek souhlasíte s použitím souborů cookie.