Guía de aprendizaje para la recolección, análisis y uso de datos para prevenir y atender la violencia a causa de orientación sexual e identidad de género
Parte del proyecto: Mapeo para el mejoramiento de datos sobre violencia por orientación sexual e identidad de género
Un análisis sobre: Costa Rica, El Salvador, Guatemala, Honduras y Nicaragua
Esta guía está disponible bajo una licencia Creative Commons Attribution 4.0. Cite cualquier uso de ella como: Fallas, Hassel. ILDA/HIVOS (2021). Guía de aprendizaje para recolección, análisis y uso de datos para prevenir y atender la violencia a causa de orientación sexual e identidad de género.
Objetivo general del curso
Propiciar en les activistas y organizaciones LGBTIQ+ el aprendizaje y aplicación de técnicas de recopilación, estructura, análisis y uso de datos para prevenir y atender la violencia a causa de orientación sexual e identidad de género en Costa Rica, El Salvador, Honduras, Guatemala y Nicaragua
Objetivos específicos
Software del curso
Hojas de cálculo de Google. Por ello es indispensable que tengas o abras una cuenta de Gmail y utilices la aplicación Drive que se accede desde ese tipo de correo electrónico.
Archivo para descargar
Las hojas de cálculo usadas para este curso pueden descargarse desde este URL
Una vez que accedas al archivo desde tu cuenta de Gmail, haz una copia para guardarlo en tu Drive y poderlo manipular según las instrucciones siguientes
¡Bienvenide al curso: Recolección, análisis y uso de datos para prevenir y atender la violencia a causa de orientación sexual e identidad de género!
Este capacitación te introducirá en las temáticas relacionadas con el proceso de análisis de datos, yendo -paso a paso- por la ruta de las técnicas de la recolección de datos, la estructura de información desordenada, su exploración y, finalmente, la visualización de datos para comprender y evidenciar conclusiones de impacto para la audiencia por medio de gráficos.
El primer módulo de este programa se denomina el ABC de los datos y en él se responderán cuatro preguntas esenciales para comprender qué es un dato y sistematizarlo en una hoja de cálculo. Además, realizarás un ejercicio de comprensión y aplicación práctica del tema.
Preguntas por resolver:
Desde la teoría, un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa. Debe ser estructurado, comprensible para ser procesado por una computadora. En simple, un dato es un valor que se le asigna a cualquier cosa o persona. Ese valor, por lo general, suele ser un número o un texto.
Ejemplos:
Desde el punto de vista estadístico hay datos cualitativos y cuantitativos.
Datos cuantitativos: Son números fundamentalmente
Ejemplos:
Datos cualitativos: Datos que se representan con letras, texto.
Ejemplos:
Una variable estadística engloba cada uno de los valores o categorías que representan los datos y se expresan como características o cualidades que poseen los individuos de una población determinada.
Ejemplo:
Es un documento para introducir y/o manipular datos alfanuméricos (números y texto) dentro de celdas que se organizan dentro de una matriz de filas y columnas.
Para introducir datos correctamente en una hoja de cálculo deben seguirse dos pasos:
Ejemplo:
Como observas en el video de arriba, la columna A corresponde a la variable Orientación sexual. El nombre de la variable Orientación sexual se escribe en la celda A1. Los valores o categorías que engloban a la variable de Orientación sexual: Gay, Lesbiana, Bisexual, Heterosexual, se digitan también en la columna A, específicamente en las celdas: A2, A3, A4 y A5.
Debes seguir la misma lógica para la variable Identidad de Género, pero a partir de la columna B y sus celdas. Y así, consecutivamente para todas las variables que desees incluir en tu base de datos.
Ahora que ya tienes claras las nociones de dato, variable estadística y cómo ésta se descompone en distintas categorías o valores para asignar características o cualidades a los individuos de una población determinada, aprenderás a estructurar toda esa información en una base de datos.
Es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior consulta, análisis y uso.
Para crear una base de datos como la que muestra la imagen de arriba es necesario recurrir a la recopilación de datos de diferentes fuentes de información: Noticias publicadas por la prensa, comunicados de la Policía, entrevistas a víctimas y familiares, por citar algunas.
Pasos:
Ejemplo: Ana y Francella son dos mujeres trans y activistas que están documentando casos de crímenes de odio o prejuicio a causa de orientación sexual e identidad de género. Su fuente son notas de prensa. De esas notas quieren extraer información para sistematizar en una hoja de cálculo y construir una base de datos útil para evidenciar los casos, analizar la información y extraer de ellas conclusiones que les ayuden a hacer incidencia social y política para exigir respeto a sus derechos humanos. Ana y Francella empiezan por leer cada noticia que han recopilado:
Luego de la lectura, determinan que el texto de cada noticia suele contener detalles en común que pueden sistematizarse como variables dentro de una base de datos:
También determinan dentro del texto de la noticia cuáles son los valores o categorías en las que cada variable se desglosa:
Tanto la identificación de variables como los valores o categorías en que cada una de ellas se desglosa, son sistematizadas en una hoja de cálculo por Ana y Francella; tal y como se muestra en el video adjunto:
Ejemplo de sistematización manual de datos:
Francella y Ana repiten ese proceso de lectura de noticias, extracción de variables y de los valores que éstas adoptan en otros 50 casos. Al final de la semana, han recopilado y sistematizado una importante cantidad de información que les ayudará a cumplir su propósito de evidenciar los casos de violencia contra personas trans, analizar la información y extraer de ella conclusiones que les ayuden a hacer incidencia social y política para exigir respeto a sus derechos humanos.
Un diccionario de datos explica lógicamente de qué trata cada una de las variables y los valores y/o categorías en las que ellas se desglosan.
Crear un diccionario de datos para explicar las definiciones que incumben a esas variables y sus categorías es fundamental para:
Ejemplo: Ana y Francella han determinado que para construir su base de datos de casos de crímenes de odio o prejuicio a causa de orientación sexual e identidad de género utilizarán 14 variables distintas:
Ahora, a la par de la hoja de cálculo que contiene esa estructura, añadieron otra hoja para crear el diccionario de datos que permitirá a otras activistas de su organización recolectar y sistematizar datos con la claridad de que todas están usando las mismas definiciones y comprendiendo los mismos conceptos.
Al final del proceso, el diccionario de datos de Ana y Francella, luce así: (Puedes descargar el diccionario completo en la hoja de cálculo desde esta url)
Ahora que Ana y Francella tienen su base de datos recopilada manualmente y también su diccionario de datos, les han surgido varias dudas sobre la veracidad de algunos datos incluidos. Por esa razón, desean aplicar a su archivo un proceso de Fact-checking o comprobación de hechos.
Para ello, existen una serie de herramientas gratuitas que le pueden ayudar a resolver sus dudas y han decidido consultar este manual denominado: Pistas para chequear, elaborado por la organización Consejo de Redacción de Colombia
En esta segunda parte del curso aprenderás de estandarización o limpieza de datos, uno de los procesos claves para generar datos con la calidad necesaria para que las conclusiones de tus análisis realmente sirvan para prevenir y atender la violencia a causa de orientación sexual e identidad de género.
La estandarización o limpieza de datos es hacer un detallado proceso de inspección de nuestra base de datos para detectar inconsistencias, depurar la información y asegurarnos de que los datos con los que vamos a trabajar son precisos. Es decir: que en ellos no hay errores que nos conduzcan a conclusiones equivocadas.
La limpieza de datos es un proceso integral para detectar en un archivo de datos: Errores de digitación, ortográficos y de tipografía, por ejemplo. También para corregir formatos de fechas y números, por ejemplo.
Errores frecuentes en bases de datos
Ejemplo: Ana y Francella han avanzado en la sistematización de variables y datos relacionados con crímenes de personas LGBTIQ+. Ahora deben depurar su base de datos ya que han encontrado algunos errores, como los citados de seguido:
Ana y Francella, revisaron su diccionario de datos y coincidieron en que para la variable de identidad de género, la forma correcta de estandarizar su valor es Mujer trans.
Para estandarizar y automáticamente cambiar a Mujer trans las otras formas en que escribieron esa categoría (Mujertrans, Mujer_trans) van a su hoja de cálculo de Google y acceden al comando: BUSCAR/ REEMPLAZAR, que se activa oprimiendo, simultáneamente, las teclas:
Ana y Francella siguen estos mismos pasos en la imagen de arriba para cambiar la palabra hoteñ por hotel, corregir el & en la fecha por un / y para estandarizar Casa de la víctima por Domicilio de la víctima
El siguiente paso que siguen las activistas es remover el caso duplicado de Raúl González J. Para evitar contar dos veces a esa persona, ambas seleccionan todos los rótulos con los nombres de las variables y también todas las celdas que contienen los datos de la base. Luego acceden al menú “Datos” de la hoja de cálculo y eligen la opción de “Quitar duplicados”, tal y como se muestra en el ejemplo a continuación:
Las listas desplegables en hojas de cálculo con una de las mejores maneras de evitar que quienes introducen información en tu base, incluyan datos con errores de tipografía o fuera de los definidos en tu diccionario de definiciones. Las listas desplegables permiten que los usuarios elijan solamente un elemento preestablecido por tí en tus listas, tal y como muestra el siguiente video:
Nota: Si usas Excel, esta guía te enseñará cómo hacer listas desplegables de opciones en ese programa
Hasta este punto del curso, ya has cruzado todos los puentes que te permitieron aprender a sistematizar,organizar y limpiar datos. Ahora, llegó el momento de analizarlos o de entrevistarlos -como a mí también me gusta llamar a este paso-. Analizar o entrevistar a una base de datos es, fundamentalmente, obtener información mediante preguntas. Es un proceso similar al de elaborar un cuestionario para luego, con ayuda de herramientas como los filtros o las tablas dinámicas en tu hoja de cálculo, extraer las respuestas desde tu base de datos. El objetivo fundamental del análisis es encontrar información y conocimiento que revelen algo interesante para tu investigación y para tu público meta.
Para esta tercera parte del curso utilizaremos la base de datos de El Registro de Violencia LGBTI, recopilado por la CIDH en distintos países de América Latina entre 2013 y 2014.
En una base de datos hecha en hojas de cálculo de Google, los filtros son indispensables para encontrar información de interés (subconjuntos de datos) dentro de la gran masa de cifras que contiene el archivo.
Supón que Alex y Andy , activistas por los derechos humanos, preparan un informe de investigación para evidenciar actos de violencia contra personas LGBTIQ+ en Centroamérica. Saben que la base de datos de El Registro de Violencia LGBTI documentó 770 hechos en toda América, pero elles quieren saber:
Para determinarlo, crean filtros dentro de la base de datos de El Registro de Violencia LGBTI
Pasos:
Marcan/seleccionan todos los rótulos de las variables en la base de datos, a partir de la columna A y hasta la columna M
Luego, seleccionan el icono del embudo/filtro que aparece debajo de la barra de Menú de las hojas de cálculo, en la esquina derecha
Posteriormente, van a la columna B, llamada País y abren el filtro para seleccionar, únicamente a los países de interés: El Salvador, Honduras, Nicaragua, Guatemala y Panamá.
Una vez que han filtrado la base únicamente por los países de interés, Alex y Andy, van a la columna L, que contiene el Total de casos. La seleccionan completa y al final, en la esquina inferior derecha de la hoja de cálculo, aparece la sumatoria de 46 hechos de violencia ocurridos solamente en El Salvador, Honduras, Nicaragua, Guatemala y Panamá
Una tabla dinámica o pivote es una herramienta indispensable para hacer análisis de datos, es útil para resumir información, cruzar dos o más variables para encontrar respuestas complejas. Incluso permite hacer cálculos matemáticos y estadísticos básicos.
Por ejemplo, Andy y Alex desean saber cuántos de los 46 hechos de violencia registrados por la CIDH en Honduras, El Salvador, Panamá, Guatemala y Nicaragua se cometieron contra personas gay, lesbianas y trans. El resultado lo desean cruzar con el de la variable: Derecho que les fue vulnerado.
Andy y Alex:
Seleccionan todos los rótulos de las variables de la base de datos.
Para hacerlo:
Una vez seleccionadas todas las columnas y celdas de tu base de datos , van al menú de “Datos” y seleccionan la opción “Tabla dinámica”
Crean la Tabla dinámica en una nueva hoja. El resultado que verán será como este:
Ahora, usando las opciones de “Añadir” que aparecen en verde dentro de la interfaz del Editor de Tablas dinámicas, en los campos de Filas, Columnas, Valores y Filtros, Andy y Alex, seleccionan las variables que requieren para dar respuesta a su pregunta:
Después de hacer la tabla pivote o dinámica, Andy y Alex saben que de las 46 personas LGBTI afectadas por hechos de violencia en Honduras, El Salvador, Panamá, Guatemala y Nicaragua, la mayoría -22- eran mujeres trans, de las cuales 18 fueron asesinadas y a otras 4 se les afectó su integridad física.
¿Alguna vez has tenido un momento ¡Eureka!? Eureka es una exclamación para celebrar un descubrimiento, algo que nos deslumbra porque, ¡por fín! lo comprendemos. El origen del término proviene de una frase dicha por Arquímides, un famoso matemático griego, y aplica perfectamente para lo que un buen gráfico o infografía es capaz de producir en el cerebro humano.
Un gráfico es una representación visual de una serie de datos, pero detrás de esa sencilla explicación hay una serie de codificaciones necesarias para que el cerebro pueda comprender -casi intuitivamente- el mensaje y la complejidad que encierra esa imagen.
En esta clase conocerás algunas herramientas en línea para crear gráficos que te ayuden a representar, visualmente, la información contenida en tu base de datos.
Los gráficos de barras verticales son los más comunes para presentar información, pero no por eso deben de ser marginados. Son fáciles de entender y permiten comparar información y sacar conclusiones rápidamente.
Los gráficos de barras horizontales también son fáciles de comprender y particularmente útiles cuando se trata de evidenciar datos categóricos.
Los gráficos de líneas muestran una serie de puntos conectados en una sola línea. Se usan para representar cantidades significativas de datos que reflejan la evolución en un periodo de tiempo. Pueden ser de una o varias líneas.
Además de los tres gráficos mostrados arriba, existen muchos otros para presentar información visualmente. Puedes consultar una galería completa de ellos y las recomendaciones para su uso aquí:
Hoy en día, existen una serie de herramientas en línea que facilitan la creación de gráficos -estáticos e interactivos- para comunicar mensajes basados en análisis de datos.
Por ejemplo, Andy y Alex, los activistas por los Derechos Humanos que preparan un informe sobre violencia LGBTIQ+ en América Central, decidieron usar las mismas hojas de cálculo de Google para crear un gráfico que muestre la distribución de las distintas formas en que fueron atacadas o asesinadas las 46 personas de Panamá, Honduras, El Salvador, Nicaragua y Guatemala que aparecen en la base de datos de de El Registro de Violencia LGBTIde la CIDH.
Hojas de cálculo de Google
Más sitios para crear gráficos en línea
Has llegado al final del curso. En el camino, aprendiste de datos, variables y los valores que adoptan, diccionarios de datos, cómo estructurar una base de datos extrayendo información manualmente de diversas fuentes. También a limpiar datos, analizarlos y, por último, a crear gráficos para comunicar tus hallazgos.
Lo que resta son algunos consejos para que contruyas una narrativa que de el mejor contexto e insumos a tus usuarios para que comprendan por qué es importante visibilizar la violencia basada en odio o prejuicios contra las personas LGBTIQ+
Cada vez que vayas a elaborar un reporte basado en análisis de datos y gráficos, recuerda:
Créditos:
Esta guía está disponible bajo una licencia Creative Commons Attribution 4.0. Cite cualquier uso de ella como: Fallas, Hassel. ILDA/HIVOS (2021). Guía de aprendizaje para recolección, análisis y uso de datos para prevenir y atender la violencia a causa de orientación sexual e identidad de género.
2021