Segunda parte
La integridad y la calidad de los datos no son negociables. Ambas cualidades conforman la piedra angular que tienen en común la filosofía de Business Intelligence y el Periodismo de Investigación basado en análisis de datos.
Una base de datos cumple con la integridad cuando contiene datos precisos, confiables y completos. La calidad de esa información depende de que en ella no haya, por ejemplo, errores de digitación de cifras o de ortografía; repeticiones o espacios en blanco.
Validar que ambos principios se cumplan es un factor crítico que debe garantizarse antes de emprender cualquier tipo de análisis.
Cuando una empresa, por ejemplo, decide aplicar la Inteligencia de Negocios, más allá de la elección de las tecnologías, debe garantizarse que la implementará sobre datos de calidad e integridad. Es la única forma de generar el conocimiento confiable que le permita tomar buenas decisiones e incrementar la rentabilidad y sostenibilidad financiera que persigue.
En el caso del periodismo de datos, para desarrollarlo, también son medulares la calidad y la integridad de la información. Es la única vía para transformar las bases de datos en conocimiento confiable y cuyo interés público sea de utilidad para la audiencia, o bien, ponga al descubierto cuestiones que estaban ocultas.
En periodismo, los datos no son un fin en sí mismo, son un medio para, mediante su análisis riguroso, encontrar una historia periodística con valor para la gente.
Las herramientas (software) tampoco son un fin en sí mismo. Estas responden en la medida de la estrategia y conocimiento del analista para conseguir resultados, monitorearlos y darles seguimiento. Los programas también se buscan e implementan de acuerdo con las necesidades y retos particulares que exija cada proyecto.
El propósito es que todo ese conocimiento extraíble desde las bases de datos sirva de fundamento para hacer periodismo y verterlo en publicaciones donde las personas puedan apoyarse para decidir cuestiones de seguridad, salud, empleo o educación que afectan su calidad de vida. Todo, insisto, sobre datos de calidad y confiables.
“BI es un proceso interactivo para explorar y analizar información estructurada sobre un área (normalmente almacenada en un data warehourse), para descubrir tendencias o patrones a partir de los cuales derivar ideas y extraer conclusiones”, según la consultora Gartner
¿Qué es integridad de datos?
Cuando se trabaja con bases de datos, dudar de ellas es la regla. No se debe dar por sentada la integridad y calidad de las mismas; no importa si fueron generadas por fuentes internas o externas.
Como periodista de datos acostumbro advertir que una base de datos es como cualquier otra fuente a la que diariamente nos enfrentamos los reporteros. Es propensa a contarnos mentiras, escondernos información, darnos un panorama parcial de un fenómeno e inducir a equivocaciones.
Simple y sencillamente, las bases de datos están confeccionadas por personas. En ellas puede haber errores involuntarios o intencionales y siempre es recomendable tenerlo presente antes de utilizarlas como cimiento para una investigación. Por ello es vital verificar la integridad y la calidad de la información, contrastándola con otras fuentes de datos, documentales o incluso expertos con criterio en el tema.
Garantizar la integridad de la información que servirá de sustento a nuestra investigación depende de tres factores: la precisión, la confianza y cuán completos son los datos.
Un dato es preciso cuando es exacto y en él no hay inconsistencias.
Por ejemplo, la fecha de nacimiento, nombre completo, profesión de cada individuo citado en una base de datos debe estar digitada siempre de la misma forma.
Veamos este ejemplo de imprecisión con los datos de una misma persona:
Si no se corrigen esas imprecisiones arribaremos a conclusiones falsas porque, en el más simple de los casos, estaríamos contabilizando a Pedro Ramírez Zamora como tres personas distintas, cuando en realidad es una sola.
Por otra parte: ¿de dónde vienen esos datos? ¿Con qué metodología y fin se recolectaron? Son dos preguntas vitales para establecer el grado de confianza que podemos tener en esas bases y determinar cuán alto podría ser el riesgo de utilizarlas.
Finalmente, la integridad depende de qué tan completa esté la información. Si contiene todas las variables y atributos necesarios para nuestro análisis. Si al cruzarla con otras bases nos evidencia precisión y confianza.
¿Qué es calidad de datos?
La calidad de los datos garantiza su valor como insumo para convertir la información en conocimiento. En ella, son fundamentales procesos y técnicas ingenieriles que ayudan a mejorarla y minimizar sus potenciales defectos.
Por ejemplo, errores de digitación de cifras o de ortografía, repeticiones o espacios en blanco.
Para conseguirlo necesitamos conocer la trazabilidad de los datos (su origen y las diferentes etapas de su producción y distribución), su significado, el contexto en el que fueron recopilados y el objetivo.
También es importante contar con el diccionario de datos, vital para prevenir malas interpretaciones sobre la naturaleza de entidades o variables que conforman la base. El diccionario de datos contiene la meta data o características de la información que vamos a utilizar.
Por ejemplo, esta porción del diccionario del Censo 2011 en Costa Rica permite conocer el nombre de las variables, su descripción, los rangos y códigos. Así, tendremos certeza de que el 1 en la variable Sexo es Hombre y 2 corresponde a Mujer, por citar solo un par de casos.
Sin embargo, pese a todos esos cuidados, siempre es probable que a nuestro almacén de datos se ingresen datos sucios, (con inconsistencias o repetidos, por ejemplo). Cuando se hace análisis basado en datos siempre hay un riesgo implícito en que su calidad no sea la idónea al 100%.
Lo importante es minimizar ese riesgo y si debe asumirse, que este sea lo más bajo posible.
Una buena práctica de BI también invaluable en Periodismo de Datos es definir las reglas para determinar la calidad de los datos.
Lo anterior tiene más sentido si se considera que el Periodismo de Datos se nutre primordialmente de bases de datos de fuentes externas (las de las diversas instituciones gubernamentales y estatales, por ejemplo.)
Ese ciclo de calidad debe contemplar la definición de:
- Reglas de calidad: qué hacer con los faltantes de información, los datos incorrectos, repetidos, con formatos distintos. Se suprimen, se utiliza alguna técnica estadística para aproximarlos a la realidad (en casos en los cuales es viable) o se busca en otras fuentes para tratar de completarlos.
- El tipo de correcciones que se aplicarán a los datos: eliminación de faltas ortográficas, formatos para almacenarlos, usar la misma nomenclatura para una entidad (por ejemplo, Asalto con arma de fuego para todos aquellos delitos registrados en la base como Asalto arma de fuego y Asalto arma fuego).
- Verificar que las correcciones se hicieron y validarlas.
Mantener la integridad y la calidad de los datos es un trabajo constante.
Solo sobre el cimiento de una buena actualización de las bases de datos que nos sirven de materia prima se puede, realmente, producir conocimiento que sirva a nuestras audiencias. Una última recomendación: no olvide, a la hora de efectuar su publicación, explicar a su audiencia el proceso y metodología que siguió para trabajar con sus bases de datos.