Systém umělé inteligence využívá speciální algoritmus schopný identifikovat charakteristické jazykové narážky ve falešných zprávách. V současné studii odhalil algoritmus falešné zprávy v 76 procentech, zatímco člověk jen v 70 procentech.
„Automatizované řešení by mohlo být důležitým nástrojem pro weby, které se potýkají s náporem falešných zpráv, často vytvořených buď pro generování kliknutí nebo pro manipulaci s veřejností,“ řekla Rada Mihalceaová, profesorka počítačových věd a inženýrství na Michiganské univerzitě, která za projektem stojí.
Zachycení falešných zpráv předtím, než mají reálné důsledky, může být obtížné. Zpravodajské agregátory a sociální média dnes silně spoléhají na lidské editory. Ti však často nemohou držet krok s přílivem zpráv. Navíc současné metody odhalování falešných zpráv často závisí na externím ověřování dat, což může být u nejnovějších příběhů obtížné. Často se stává, že v okamžiku, kdy je zpráva identifikována jako falešná, je škoda již napáchána.
Jazyková analýza, kterou používá algoritmus, pracuje s jiným přístupem. Analyzuje kvantifikovatelné atributy jako je gramatická struktura, výběr slov, interpunkce a komplexnost. Pracuje rychleji než člověk a může být použit na různých typech zpráv.
„Mohl by uživatelům poskytnout odhad důvěryhodnosti jednotlivých článků nebo celého zpravodajského webu. Nebo by mohl být první linií obrany v zákulisí zpravodajského média označující podezřelé články pro pozdější přezkoumání. Šestasedmdesáti procentní úspěšnost připouští poměrně mnoho chyb, ale přesto může poskytnout cenný vhled, když je používán s lidmi,“ dodala Mihalceaová.
Nejtěžší bylo algoritmus vycvičit
Jazykové algoritmy, které analyzují psanou řeč, jsou dnes běžné. Skutečná výzva při vytvoření detektoru falešných zpráv pak není podle Mihalceaové ve vybudování samotného algoritmu, nýbrž v nalezení správných dat, pomocí kterých se tento algoritmus vycvičí.
Falešné zprávy se objevují a mizí velice rychle, což ztěžuje jejich shromažďování. Proces sběru dále znesnadňuje i to, že se vyskytují v mnoha různých žánrech. Například satirické zprávy se sbírají nejsnáze, ale to, že používají ironii a absurditu, je činí nejméně vhodnými pro trénování algoritmu na detekování falešných zpráv, které mají čtenáře uvést v omyl.
Nakonec si vědci vytvořili vlastní data. Online tým přitom přepisoval ověřené pravdivé zprávy na falešné pomocí postupů, které používají skuteční autoři fake news. Na konci tohoto postupu měli vědci k dispozici databázi 500 skutečných a falešných zpravodajských článků.
Následně nakrmili algoritmus dvojicemi tvořenými pravou a falešnou zprávou. Na nich se tak pomocí lingvistické analýzy naučil rozlišovat mezi pravdou a lží. Nakonec tým předložil algoritmu soubor pravdivých a falešných zpráv stažených z internetu.
Detaily o novém systému a databázi, kterou použili pro jeho trénink, se rozhodli vědci zveřejnit zdarma. Podle Mihalceaové by je mohli použít zpravodajské servery nebo jiné subjekty, aby si vytvořily své vlastní detekční systémy na falešné zprávy. Budoucí systémy by mohly být dále vylepšovány pomocí metadat, jako jsou odkazy a komentáře spojené s danou zprávou.