Aplicando Business Intelligence al Periodismo de Datos, segunda parte
La integridad y la calidad de los datos no son negociables. Ambas cualidades conforman la piedra angular que tienen en común la filosofía de Business Intelligence y el buen Periodismo de Investigación basado en análisis de datos.
Veamos las similitudes:
Cuando una empresa decide aplicar la Inteligencia de Negocios a sus procesos, más allá de la elección de las tecnologías, debe hacerlo sobre datos de calidad e íntegros. Es la única forma de generar el conocimiento confiable que le permita tomar buenas decisiones e incrementar la rentabilidad y sostenibilidad financiera que persigue.
En el caso del periodismo de datos, para desarrollarlo, también son medulares la calidad y la integridad de la información. Es la única vía para transformar las bases de datos en conocimiento, de nuevo confiable, y cuyo interés público ponga al descubierto cuestiones que estaban ocultas, deliberadamente o no.
En periodismo, los datos no son un fin en sí mismo, son un medio para, mediante su análisis riguroso, encontrar una historia periodística, con valor para la audiencia. Las herramientas (software) tampoco son un fin en sí mismo. Estas responden en la medida de la inteligencia y estrategia del analista para conseguir resultados, monitorearlos y darles seguimiento.
De manera que esa utilidad, vertida en publicaciones interactivas, le permita a la audiencia decidir cuestiones de seguridad, salud, empleo o educación que afectan su calidad de vida; todo sobre datos de calidad y confiables.
Un ejemplo reciente de ello es este especial interactivo sobre Carreras Universitarias, posibilidades de empleo y de laborar en lo estudiado en 107 disciplinas.
Una investigación sostenida sobre datos erróneos puede implicar un considerable daño en los terceros que se fíen de ella y, por ende, una pérdida de credibilidad para la carrera del periodista y del medio que representa.
¿Qué es integridad de datos?
Cuando se trabaja con bases de datos, dudar de ellas es la regla. No se debe dar por sentada la integridad y calidad de las mismas; no importa si fueron generadas por fuentes internas o externas.
Como periodista de datos acostumbro advertir que una base de datos es como cualquier otra fuente a la que diariamente nos enfrentamos los reporteros. Es propensa a contarnos mentiras, escondernos información, darnos un panorama parcial de un fenómeno e inducir a equivocaciones.
Simple y sencillamente, las bases de datos están confeccionadas por personas. En ellas puede haber errores involuntarios o intencionales y siempre es recomendable tenerlo presente antes de utilizarlas como cimiento para una investigación.
Garantizar la integridad de la información que servirá de sustento a nuestra investigación depende de tres factores: la precisión, la confianza y cuán completos son los datos.
Un dato es preciso cuando es exacto y en él no hay inconsistencias.
Por ejemplo, la fecha de nacimiento, nombre completo, profesión de cada individuo citado en una base de datos debe estar digitada siempre de la misma forma.
Veamos este ejemplo de imprecisión con los datos de una misma persona:
Si no se corrigen esas imprecisiones arribaremos a conclusiones falsas porque, en el más simple de los casos, estaríamos contabilizando a Pedro Ramírez Zamora como tres personas distintas, cuando en realidad es una sola.
Por otra parte: ¿de dónde vienen esos datos? ¿Con qué metodología y fin se recolectaron? Son dos preguntas vitales para establecer el grado de confianza que podemos tener en esas bases y determinar el grado de riesgo por asumir al utilizarlas.
Finalmente, la integridad depende de qué tan completa esté la información. Si contiene todas las variables y atributos necesarios para nuestro análisis. Si al cruzarla con otras bases nos evidencia precisión y confianza.
Fuente: Integridad de Datos y BI, Power Data
¿Qué es calidad de datos?
La calidad de los datos garantiza su valor como insumo para convertir la información en conocimiento. En ella, son fundamentales procesos y técnicas ingenieriles que ayudan a mejorarla y minimizar sus defectos.
Por ejemplo, errores de digitación de cifras o de ortografía, repeticiones o espacios en blanco
Para conseguirlo necesitamos conocer la trazabilidad de los datos (su origen y las diferentes etapas de su producción y distribución), su significado, el contexto en el que fueron recopilados y el objetivo.
También es importante contar con el diccionario de datos (contiene la meta data o características de la información contenida en la base).
Sin embargo, pese a todos esos cuidados, siempre es probable que a nuestro almacén de datos se ingresen datos sucios, (con inconsistencias o repetidos, por ejemplo).
Cuando se hace análisis basado en datos siempre hay un riesgo implícito en que su calidad no sea la idónea.
Lo importante es minimizar ese riesgo y si debe asumirse, que este sea lo más bajo posible.
Una buena práctica de BI también invaluable en Periodismo de Datos es definir las reglas para determinar la calidad de los datos.
Lo anterior tiene más sentido si se considera que el Periodismo de Datos se nutre primordialmente de bases de datos de fuentes externas (las de las diversas instituciones gubernamentales y estatales, por ejemplo.)
Ese ciclo de calidad debe contemplar la definición de:
- Reglas de calidad: faltantes de información, datos incorrectos, repetidos, con formatos distintos.
- El tipo de correcciones que se aplicarán a los datos: eliminación de faltas ortográficas, formatos para almacenarlos, usar la misma nomenclatura para una entidad (Rav4 para todas aquellos estilos de autos registrados en la base como Rav-4 Rav Four o Toyota Rav4, por ejemplo).
- Verificar que las correcciones se hicieron y validarlas.
Mantener la integridad y la calidad de los datos es un trabajo constante.
Solo sobre el cimiento de una buena actualización de las bases de datos que nos sirven de materia prima se puede, realmente, producir conocimiento que sirva a nuestras audiencias.