Author Profiling en Social Media: Identificación de Edad, Sexo y Variedad del Lenguaje
نویسنده
چکیده
The possibility of knowing people traits on the basis of what they write is a field of growing interest named author profiling. To infer a user’s gender, age, native language or personality traits, simply by analysing her texts, opens a wide range of possibilities from the point of view of forensics, security and marketing. Furthermore, social media proliferation, which allows for new communication models and human relations, strengthens this wide range of possibilities to bounds never seen before. Idiosyncrasy inherent to social media makes them a special environment of communication, where freedom of expression, informality and spontaneous generation of topics and trends, enhances the knowledge of the daily reality of people in their use of language. However, the same idiosyncrasy makes difficult, or extremely costly, the application of linguistic techniques. In this work we have proposed EmoGraph, a graph-based approach with the aim at modelling the way that users express their emotions, and the way they include them in their discourse, bearing in mind not only their frequency of occurrence, but also their position and relationship with other elements in the discourse. Our starting hypothesis is that users express themselves and their emotions differently depending on their age and gender, and besides, we think that this is independent on their language and social media where they write. We have collaborated in the creation of a common framework of evaluation at the PAN Lab of CLEF, generating resources that allowed us to verify our hypothesis achieving comparable and competitive results with the best ones obtained by other researchers on the field. In addition, we have investigated whether the expression of emotions would help to differentiate among users of different varieties of the same language, for example, Spanish from Spain, Mexican and Argentinian, or Portuguese from Portugal and Brazil. Our hypothesis is that the variation among languages is based more on lexical aspects, and we have corroborated it after comparing EmoGraph with representations based on word patterns, distributed representations and a representation that uses the whole vocabulary, but reducing its dimensionality to only 6 features per class, what is suitable for its application to big data environments such as social media.
منابع مشابه
Una Propuesta para el Etiquetado Automático de Roles Semánticos
Resumen: La identificación de los roles semánticos es una parte crucial en tareas que involucran tratamiento automático del lenguaje natural como la extracción y recuperación de información, sistemas de búsquedas de respuestas, generación de resúmenes, traducción automática, etc. Para el caso del español, la investigación en roles semánticos es escasa. El objetivo del actual trabajo es analizar...
متن کاملEpidemiología y registro de las cardiopatías congénitas en Costa Rica
Objetivo. Caracterizar la población de niños que nacen con cardiopatías congénitas (CC) en Costa Rica y evaluar sus procesos de registro. Métodos. Estudio observacional exploratorio que incluyó a todos los niños con CC diagnosticadas en el Hospital Nacional de Niños entre el 1 de mayo de 2006 y el 1 de mayo de 2007. Tomando en cuenta los niños menores de 1 año y su respectiva cohorte de nacimie...
متن کاملUna metodología para la detección del perfil de un autor
Resumen En este artículo se presenta una metodología para la detección del perfil de un autor usando los siguientes dos elementos: género y edad. Para esto se parte de un conjunto de diálogos, escritos en dos idiomas: inglés y español, proporcionado para la competencia Author Profiling dentro del foro de evaluación “Uncovering Plagiarism, Authorship, and Social Software Misuse” (PAN2013). Se ut...
متن کامل06. 785 D. Boixeda
Objetivo: la relación causal entre la rosácea y la infección por Helicobacter pylori es discutida. Se propuso valorar la evolución de los síntomas cutáneos de la rosácea tras la erradicación de la infección. Pacientes y métodos: se estudió prospectivamente a 44 pacientes diagnosticados de rosácea. Se determinó la infección por Helicobacter pylori y se administró terapia erradicadora a los pacie...
متن کاملiMplicationS of pReBaSic and a pReViouSly undeScRiBed pRealteRnate Molt foR aging RuSty BlackBiRdS
reprintinfo.asp. doi: 10.1525/cond.2010.100150 Resumen. la determinación de la edad de las aves a menudo se realiza a partir de diferencias de plumaje entre individuos inmaduros y adultos. entender estos patrones puede mejorar nuestra capacidad de distinguir patrones demográficos dentro de las poblaciones. investigamos patrones de muda prebásica de Euphagus carolinus durante el otoño en whiteho...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 58 شماره
صفحات -
تاریخ انتشار 2017