Conferència: "XHATE-999: Analysis and Detection of Abusive Language Across Domains and Languages"

Data: 
11/01/2021
Lloc: 

Videoconferència. Enllaç: http://meet.google.com/zcy-zuri-qhw

El centre d’investigació PRHLT de la Universitat Politècnica de València, en el marc del projecte MISMIS (MISinformation and MIScommunication in Social Media, PGC2018-096212-B), en el qual participen la UPV, la UB i la UNED, i l'IP del qual és el professor amb PI Paolo Rosso, organitza una sèrie de xerrades sobre discursos d’odi i llenguatge tòxic en línia. En aquest projecte, per part de la UB, hi participa el grup de recerca CLiC, Centre de Llenguatge i Computació.

Dilluns 11 de gener a les 11:30 h tindrà lloc la tercera xerrada, amb el títol "XHATE-999: Analysis and Detection of Abusive Language Across Domains and Languages", a càrrec del professor Goran Glavaš, de la Universitat de Mannheim. Enllaç a la sessió: http://meet.google.com/zcy-zuri-qhw.

Goran Glavaš és professor assistent de Processament del llenguatge natural a la Universitat de Mannheim. Va obtenir el doctorat al Laboratori d’Anàlisi de Text i Enginyeria del coneixement (TakeLab) de la Universitat de Zagreb. La seva recerca es centra en el processament del llenguatge natural i la recuperació de la informació, més concretament en la semàntica lèxica i computacional multilingüe. 


Abstract: Abusive language takes many shapes and forms (e.g., hate speech, insults, offensive language, aggressiveness). Much of the existing efforts in detecting abusive language have focused on major languages and multilingual efforts have coupled the domain-shift and language-shift effects. In this talk, I will present XHATE-999, a multi-domain and multilingual evaluation data set for abusive language detection, designed to (1) test abusive language detection abilities for resource-lean languages and (2) decouple domain transfer from language transfer effects. By aligning test instances across six typologically diverse languages, XHATE-999 for the first time allows for disentanglement of the domain transfer and language transfer effects in abusive language detection. I will present results we obtained from a series of domain- and language-transfer experiments with state-of-the-art monolingual and multilingual transformer models, setting strong baseline results and profiling XHATE-999 as a comprehensive evaluation resource for abusive language detection.
Finally, I will cover domain- and language-adaptation, showing that intermediate masked language modeling on abusive corpora in the target language can lead to substantial performance gains.