El arte de elegir una buena base de datos para análisis periodístico

Las buenas bases de datos no aparecen por obra de la casualidad en la vida de un periodista empeñado en aprender a analizarlas para crear noticias. Encontrarlas -cuando están disponibles en línea- es una tarea laboriosa que no debe tomarse a la ligera.

Si bien existen múltiples portales para descargar información, no toda la que ofrecen puede considerarse una base de datos o tiene las características necesarias para dar paso a un análisis profundo y con múltiples aristas.

Antes de embarcarte en la aventura de buscar una base de datos – o de estructurar una a partir de tablas de información- debes estar seguro de entender muy bien el tema que deseas investigar.

Esa es la piedra angular de todo el trabajo periodístico. Sin entender el asunto en cuestión es muy difícil que determines, con certeza y precisión, qué tipo de información necesitas para poner a prueba tu hipótesis.

Recuerda: El periodismo de datos no se trata de elegir cualquier base o serie de datos, esperando que de ella salga, mágicamente, una noticia explosiva, por el simple hecho de contener números.

Para comprender el tema de tu interés, y determinar qué bases de datos que pueden darte luz, primero debes indagar en documentos, leyes, reglamentos, informes y noticias al respecto.

El objetivo es entender el alcance y profundidad del fenómeno que investigarás. Encontrar los ángulos no explotados. Buscar los vacíos o portillos legales de influencia en la situación. Esa es la materia prima para plantear una hipótesis y delimitar los focos de investigación.

Una vez que lo has hecho debes responder estas preguntas:

  • ¿Qué bases de datos podrían servirte para hallar evidencia, ayudarte a explicar mejor el tema?
  • ¿Dónde están esos datos?
  • ¿Se pueden extraer en línea o requieren de una solicitud de acceso a información pública?
  • ¿Cuán reciente es la información disponible?

Esa última pregunta es importante. La actualidad es uno de los valores intrínsecos del periodismo. Si tu fin es hacer periodismo -no un ejercicio académico o meramente para practicar y aprender- lo recomendable es buscar datos lo más frescos posibles.

Eso sí debes considerar que, generalmente, las estadísticas se publican con un rezago.

Por ejemplo, si un periodista costarricense quisiera trabajar con las estadísticas de defunciones del país en este momento (24/03/2018) debe considerar que las mismas están actualizadas hasta febrero de 2018. Es probable que debe esperar varios meses antes de que incorporen las más recientes.

Escoger la información

Por lo general, cuando ingresamos a portales de datos como los del Instituto Nacional de Estadística y Censos de Costa Rica o a su homólogo de México, podemos acceder a la información de forma agregada o desagregada.

La imagen de abajo corresponde a una tabla de datos agregados por región de planificación en Costa Rica. Contiene el ingreso bruto promedio de los habitantes de cada hogar encuestado, para el III trimestre de 2017. La información se presenta como promedio, por género y general.
La tabla tiene 24 observaciones.

La segunda imagen es de la base de datos completa de la Encuesta Continua de Empleo, III Trimestre 2017, descargada del Instituto de Estadística y Censos de Costa Rica.

Contiene 247 tipos distintos de variables para cada una de las 26.473 personas entrevistadas. Las definiciones de cada variable pueden codificarse consultando el diccionario de datos provisto por el INEC.

La base contiene casi 1,5 millones de observaciones. Con ella podrían hacerse múltiples cruces de datos para explorar, con más detalle, la realidad del empleo y desempleo en las regiones del país. También la situación de la informalidad, de la disparidad de género por salarios, según rama de ocupación de los encuestados.

También podría investigarse sobre la realidad del empleo e ingreso en los hogares de mujeres jefas, indagar sobre el nivel de educación y experiencia laboral de los desempleados.

Creo que queda claro cuál de los dos ejemplos permite hacer un análisis a profundidad, con múltiples aristas.

Una de las grandes diferencias del periodismo basado en análisis de datos es que el reportero extrae y analiza un volumen considerable de datos por su propia cuenta, usando métodos estadísticos y/o de ciencia de datos.

No se limita, únicamente, a exponer en sus artículos una pequeña serie de datos, o los números que contiene un informe oficial, destacando cuatro o cinco datos de interés.

Eso último es lo que, habitualmente, hacemos en la redacción para generar nuestras noticias diarias. Para ello, no es necesaria toda la capacidad de un procesador de datos como Excel o de otros como Access, R o Python.

El volumen de datos es relevante y marca la diferencia entre hacer o no periodismo basado en análisis de datos. Claro está no todas las bases de datos deben de tener más de 1,5 millones de registros como condición para hacerlo. Pero sí deben de contener, al menos unos cuantos centenares de datos, e incluir una decente cantidad de variables de clasificación.

Este es un ejemplo de una base de datos con esas últimas características expuestas. Es sobre la incidencia del VIH SIDA en los países latinoamericanos en 2016. Contiene 12 variables y un total de 300 registros.

La clave siempre estará en si hay o no análisis a profundidad, hecho por el propio periodista (en colaboración con especialistas, por qué no) y capaz de ver el delgado hilo, desagregando información y superando las generalizaciones.

Eso solo se logra trabajando con datos estructurados y amasando una cantidad importante para procesarlos en un software. Solo así se logra hallar patrones y rebatir “mitos urbanos”, entre otras cosas.

 

error: No se puede descargar