Salta al contenuto principale
Passa alla visualizzazione normale.

Team di ricerca UniPa primo classificato al 9° Challenge Internazionale di Author Profiling, la competizione sull'analisi automatica di testi e linguaggi naturali

Ascolta

Un team di ricerca del Dipartimento di Ingegneria dell’Università degli Studi di Palermo, composto dal dottorando in ICT, dott. Marco Siino, dai proff. Ilenia Tinnirello e Marco La Cascia, e con la collaborazione della dott.ssa Elisa Di Nuovo, dottoranda in Digital Humanities all’Università degli Studi di Torino, si è classificato primo, su oltre 60 gruppi di ricerca partecipanti da tutto il mondo, al 9° Challenge Internazionale di Author Profiling indetto dal PAN Lab, una competizione sull'analisi automatica di testi e linguaggi naturali, organizzata in occasione della conferenza CLEF 2021. 

“PAN è una serie di eventi scientifici e task condivisi sulla digital text forensics e sulla stilometria – spiega il team di ricerca -  Quest’anno, tra i task proposti, quello relativo all'author profiling ha riguardato il riconoscimento automatico dell'hate speech (HS), definito come qualsiasi testo che esprimesse odio verso una persona o un gruppo sulla base di qualche caratteristica come razza, colore, etnia, sesso, orientamento sessuale, nazionalità, religione o altro. Data l'enorme quantità di contenuti generati dagli utenti sul web, il problema consisteva nell’individuare automaticamente, e quindi eventualmente contrastare la diffusione, dell'HS, al fine di combattere, ad esempio, fenomeni quali la misoginia, la xenofobia o il cyberbulling. A tal fine, per questo specifico challenge, il task prevedeva di identificare i possibili utenti diffusori di HS su Twitter come primo passo per prevenire la propagazione di testi con contenuti di odio tra gli utenti online. In particolare, l'obiettivo era di classificare un utente come probabile hate speech spreader o meno, sulla base dei suoi ultimi 200 tweet. 

Il modello sviluppato – proseguono - facente parte del ramo dell'Intelligenza Artificiale relativo ai metodi di Deep Learning di uso comune nel campo della Computer Vision, ma meno frequentemente applicati nell'ambito del Natural Language Processing, è una rete neurale convoluzionale applicata a un layer non pre-addestrato di word embedding. L'architettura multilingua proposta è riuscita a classificare correttamente l'85% dei profili di utenti del dataset in lingua spagnola e il 73% di quelli presenti nel dataset relativo alla lingua inglese, totalizzando una media del 79% sull'intero dataset multilingua”.