En esta segunda parte del curso aprenderás de estandarización o limpieza de datos, uno de los procesos claves para generar datos con la calidad necesaria para que las conclusiones de tus análisis realmente sirvan para prevenir y atender la violencia a causa de orientación sexual e identidad de género.
La estandarización o limpieza de datos es hacer un detallado proceso de inspección de nuestra base de datos para detectar inconsistencias, depurar la información y asegurarnos de que los datos con los que vamos a trabajar son precisos. Es decir: que en ellos no hay errores que nos conduzcan a conclusiones equivocadas.
La limpieza de datos es un proceso integral para detectar en un archivo de datos: Errores de digitación, ortográficos y de tipografía, por ejemplo. También para corregir formatos de fechas y números, por ejemplo.
Errores frecuentes en bases de datos
- Errores de tipografía
- Formato de fechas
- Detectar duplicados
Ejemplo: Ana y Francella han avanzado en la sistematización de variables y datos relacionados con crímenes de personas LGBTIQ+. Ahora deben depurar su base de datos ya que han encontrado algunos errores, como los citados de seguido:
- En la variable identidad de género de la víctima escribieron de tres formas distintas: Mujer trans: Mujertrans, Mujer Trans, Mujer_trans. Deben elegir una sola forma para estandarizar
- En la fecha del crimen hay un error: 04&03/2021
- En el lugar del hecho: Hotel aparece con ñ
- En el lugar del hecho escribieron: Domicilio de la víctima y Casa de la víctima. Deben elegir una sola forma para estandarizar
- Finalmente, el caso de Raúl González J está repetido
Puedes descargar la base de ejemplo aquí: