origo.hu hírportál

Dokumentumok automatikus kulcsszavazása

Dokumentumok automatikus kulcsszavazása

Körülmények

Az origo.hu 2009-ben bevezette az újságcikkek manuális címkézését/kulcsszavazását a tartalmak rendszerezettségének javítása érdekében. Cél volt a megelöző 10 év archívumának címkézése is.

Kihívás

Az archivum nagyságrendileg 500 ezer hírének kézi címkézése nagyon költséges lett volna, ezért automatikus megoldást keresett a hírportál. Címkék automatikus rendelése egy cikkhez számítógépes nyelvészeti megoldásokat igényel, hiszen azonosítani kell a fő témákat és szereplőket (személyek, szervezetek, helyek) a folyó szövegben.

Megoldás

Két különálló megoldást dolgoztunk ki, egyet a cikkek tartalmát leíró kulcsszavak (több szavas kifejezések) kiemelésére és normalizálására, és egyet a legfontosabb személy-, szervezet- és helynevek azonosítására.

Hatások,eredmények

Az automatikus címkézés minőségét a hírportál mintavételezéssel ellenőrízte és megfelelőnek találta, arra hogy a teljes archívum címkéjeként megjelenítse oldalán. Ezzel megspórolta a az archívum manuális címkézését.

Ügyfél
origo.hu hírportál
Szolgáltató
Teljes mértékben a Szegedi Tudományegyetem, Számítógépes Algoritmusok és Mesterséges Intelligencia tanszék
Üzleti funkció
Termelés