znanost 22.8.2016 15:25

Raziskovalci IJS razvili sistem, ki dogajanje po svetu poda na vsem razumljiv način

Ljubljana, 22. avgusta - Slovenski raziskovalci so razvili sistem za spremljanje globalnih medijev v realnem času Event Registry. Sistem, ki so ga izdelali na IJS, spremlja novice iz preko 110.000 virov s celega sveta. Posebnost sistema je njegova čezjezičnost, kar pomeni, da je informacijam mogoče slediti preko različnih jezikov. Sistem omogoča iskanje, pregledovanje in analizo globalne družbene dinamike.

Ljubljana, IJS.
Raziskovalec IJS Marko Grobelnik.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Gregor Leban.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Marko Grobelnik.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Gregor Leban.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Marko Grobelnik.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Marko Grobelnik.
Foto: Anže Malovrh/STA

Ljubljana, IJS.
Raziskovalec IJS Gregor Leban.
Foto: Anže Malovrh/STA

Raziskovalci IJS so tehnologije, s katerimi lahko informaciji sledijo prek jezikov, razvili v okviru projekta Xlike, financiranega v okviru 7. okvirnega programa EU za raziskave in inovacije. Aplikacija tega projekta pa je bil Event Registry - napredno tehnološko orodje, ki na podlagi analize novic z vsega sveta zaznava dogodke, o katerih poročajo mediji.

"Ravno tako dobro pokrivamo Mursko Soboto kot tudi New York. Pokrivamo cel svet, zelo globoko," pojasnjuje nosilec projekta in raziskovalec IJS Marko Grobelnik. "Če dobimo portugalski ali španski članek, znamo vsebino iz španskega jezika abstrahirati in prikazati v obliki, ki jo lahko razumejo vsi, ki poznajo angleški jezik," dodaja znanstvenik IJS Gregor Leban.

Na spletno stran Event Registry po besedah Lebana prihajajo uporabniki s celega sveta. Na teden so dosegli tudi že od milijona do milijona in pol poizvedb. Do spletne strani dostopajo denimo raziskovalci s Stanforda, Harvarda in drugih univerz, kjer dogodke uporabljajo za raziskovalne namene, hkrati pa do strani dostopajo tudi založniki, kot sta denimo Reuters ali Spiegel.

Sistem v realnem času iz skupine člankov identificira dogodke

Kot pravita raziskovalca, primarni namen Event Registryja ni dostopanje do individualnih člankov, temveč do dogodkov. Event Registry lahko namreč v realnem času identificira skupino člankov, ki govorijo o istem dogodku.

Sistem lahko avtomatsko identificira ključne informacije o dogodku, in sicer kaj ali kje se je zgodilo, kdo je bil vpleten ... Izračuna lahko povezanost dogodkov, jih poveže s predhodnimi ter identificira koncepte. "Je neka meta informacija na vrhu osnovne informacije," pravi Leban.

Vsak izmed dogodkov ima svojo lokacijo in število člankov, ki o tem dogodku govorijo. "Namesto, da bi nekdo dobil celotno skupino člankov, ki se na določeno temo objavljajo po celem svetu, dobijo neke vrste povzetke. Gre za bistveno manjšo, zgoščeno obliko, ki ima dodanih še veliko dodatnih informacij," pojasnjuje Leban.

"Tipično imajo mediji eno novico na dogodek. Tukaj pa vidimo cel svet. Kar Event Registry omogoča, je, da nekaj sto tisoč ali milijon stisnemo v obvladljivo količino informacij, ki so lepo strukturirane," dodaja Grobelnik.

V sistemu že okoli 110 milijonov člankov

Trenutno je v sistemu že okoli 110 milijonov člankov, zbranih v dveh letih in pol, identificirali pa so okoli 3,5 milijona dogodkov. Količina podatkov za raziskovalce predstavlja tudi velik izziv, saj vzdrževanje takšnega sistema zahteva veliko napora, poudarja Grobelnik.

Wikifier - sistem za razdvoumljanje

Pri določanju, ali se gruče člankov v različnih jezikih nanašajo na isti dogodek, uporabljajo orodje Wikifier, ki so ga za ta namen razvili na IJS. Wikifier vsako besedo, ki jo v besedilu članka prepozna, poveže z ustrezno stranjo v spletni enciklopediji Wikipedia. Njegova primarna funkcija je wikificiranje oz. razdvoumljanje in identifikacija pravega pomena.

Na podlagi signalov, ki jih sistem dobi s pomočjo Wikifierja, se model strojnega učenja, ki je v ozadju celotnega sistema, odloči, ali gruče opisujejo isti dogodek. Ena beseda lahko namreč pomeni veliko stvari, veliko besed pa isto stvar, pojasnjuje Grobelnik. S pomočjo Wikifierja tako dokument označijo na jezikovno nevtralen in semantično oz. pomensko nevtralen način.

V prihodnje tudi do napovedovanja posledic dogodkov

V nadaljevanju projekta želijo raziskovalci vzpostaviti sistem, ki bo omogočal napovedovanje. Sposoben bo oceniti potencialno možnost, da se bo določen dogodek v bližnji prihodnosti zgodil ter kakšne posledice bo ta dogodek imel na različna področja, tipično na trge, pojasnjuje Grobelnik.

Pri razumevanju, kako svet funkcionira, imajo lahko bistveno vlogo računalniki. Slednji lahko namreč naenkrat zaobjame veliko več informacij kot človek. "Iz tega lahko izluščimo, kako so stvari v svetu povezane. Če to kavzalnost razumemo dovolj dobro, lahko iz tega izpeljemo napovedovanje in še kaj drugega. To je na akademski strani močan cilj, ki ima pa lahko tudi močne posledice za poslovno stran."

V sistem dodajajo različne medije

Raziskovalci trenutno širijo spekter medijev. Dodajajo vsebino iz televizije, želijo pa se povezati tudi z družbenimi mediji, kot je Twitter, ki informaciji dodajo emocije in sentiment, pravi Grobelnik.

"Želimo si narediti servis, ki bo predvsem uporaben za medije, raziskovalce, organizacije, ki bi jih zanimalo spremljanje vsebine, specifičnih tematik skozi medije. Mislim, da je orodje precej zmogljivo in lahko ogromno ponudi."