El 'método' para detectar el odio en las redes sociales

Por Esperanza Calzado - Mayo 07, 2022
Compartir en X

Investigadores de Jaén y de Murcia diseñan un sistema que clasifica mensajes por motivos de raza, género, orientación sexual, nacionalidad o religión

Las redes sociales son capaces de sacar lo mejor y lo peor de las personas. Escaparate publicitario y álbum fotográfico de millones de ciudadanos, muchas veces son empleadas para una buena causa. Véase la de veces que el mensaje ha circulado por razones benéficas o para encontrar personas o animales perdidos. Pero también es cierto que sacan lo peor de cada personas, mensajes que incitan al odio y que en ocasiones pasan desapercibidos calandando en el subconsciente.

Para detectar estos mensajes, clasificarlos y aislarlos, se han unido científicos jiennenses y murcianos. Así, el equipo de investigación Sinai de la Universidad de Jaén y el equipo Tecnomod de la Universidad de Murcia han desarrollado un sistema automático de detección del discurso de odio en español en medios sociales. El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención, llamadas transformers.

Éstas permiten saber cuáles son los significados que más influyen sobre una palabra en concreto, útil en casos de polisemia o anáfora. De esta forma, alcanza unos resultados cercanos al 90% de precisión. El desafío de esta herramienta de procesamiento del lenguaje natural es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.

Proponen un método que combina un sistema de extracción de características lingüísticas diseñado para el español y modelos computacionales. Para ello, se utiliza la plataforma denominada UMUTextStats, desarrollada por el grupo Tecnomod de la Universidad de Murcia, que obtiene de los textos características morfológicas, pragmáticas, semánticas, sintácticas, y de corrección y estilo, que reflejan qué quiere decir un texto dado y cómo lo dice.

A esto se suma un modelo del lenguaje basado en transformers, es decir, un sistema pre-entrenado que ha aprendido cómo se relacionan las palabras, expresiones y otras características del lenguaje a partir de un gran conjunto de datos.

TEXTOS REPRESENTADOS

Para que el ordenador 'entienda' el lenguaje natural se requiere una codificación adecuada. Para ello, el texto se traduce a modelos estadísticos que capturan diversas dimensiones del lenguaje. De esta forma, los investigadores incluyen 365 rasgos de interés extraídos de la herramienta UMUTextStats organizados en distintas categorías como fonéticas, morfosintácticas, semánticas, pragmáticas, estilométricas o jerga de los medios sociales. Así se contabilizan verbos, pronombres, adverbios, frases hechas o marcadores del discurso. En el caso específico del odio, se atiende a cuestiones relacionadas como el género, los errores ortográficos, términos inclusivos, la presencia de términos relacionados con animales (zorra, perra...) o palabras malsonantes.

Junto a estos métodos que atienden a la propia palabra, se entrenan redes neuronales, es decir, algoritmos que funcionan como lo hace el cerebro humano, que cuenta con áreas especializadas en ciertas tareas, y que van aprendiendo con la incorporación de nuevos datos.

Grupos de investigación sobre el discurso del odio en redes sociales.
El resultado de esta combinación es un sistema para el idioma español más preciso, generalizable e interpretable. La propuesta supera la precisión de estudios anteriores y alcanza un 90,4% en algunos de los experimentos.

La siguiente fase de la investigación será mejorar la interpretabilidad del sistema para que estos modelos sean comprensibles por cualquier persona no experta, es decir, que puedan entender cómo el algoritmo ha decidido clasificar ese mensaje de una forma u otra.

El equipo de investigación apunta que este modelo se plasmará en aplicaciones que indiquen de forma rápida si un mensaje contiene elementos de odio o no. Así se agilizará el mecanismo de alerta en las plataformas de medios sociales para avisar sobre la presencia de elementos de odio en los contenidos o el seguimiento de usuarios que viertan continuamente este tipo de mensajes.

He visto un error

Únete a nuestro boletín

El 'método' para detectar el odio en las redes sociales

Investigadores de Jaén y de Murcia diseñan un sistema que clasifica mensajes por motivos de raza, género, orientación sexual, nacionalidad o religión

TEXTOS REPRESENTADOS

COMENTARIOS

COMENTA CON FACEBOOK