Las imágenes que ilustran este artículo son del proyecto: Better Images of AI (https://betterimagesofai.org) que pretende evidenciar que las imágenes que se utilizan comúnmente hoy en día sobre IA a menudo tergiversan la tecnología, refuerzan estereotipos dañinos y difunden ideas culturales engañosss.
Por Hassel Fallas, periodista y analista de datos
Desde la segunda década de este siglo, el periodismo de análisis de datos se ha convertido en una herramienta esencial para la investigación y la revelación de información de alto interés público. En este proceso, los algoritmos de inteligencia artificial (IA) juegan un papel cada vez más preponderante, facilitando el análisis de grandes volúmenes de datos para relacionar información y hallar patrones pertinentes que mejoren la calidad de los insumos y evidencia clave para dar sustento a las investigaciones.
¿Cuáles son los pasos a seguir para conseguir estos objetivos? Este artículo recoge las ideas que he presentado durante el foro: IA y Confusión; Periodismo en la Era de los Algoritmos, iniciando la discusión por el acceso a las fuentes de datos, los protocolos de limpieza y estructuración para el entrenamiento de modelos de IA destinados al periodismo. Sin olvidar lo más relevante: La necesidad de supervisión humana y consideraciones éticas.
La génesis del proceso
La información utilizada para hacer periodismo de análisis de datos y entrenar modelos de IA puede provenir de las mismas fuentes. Algunos ejemplos:
- Acceso a la Información Pública: Solicitudes formales a instituciones gubernamentales.
- Raspado de Datos (Scraping): Extracción de datos de sitios web.
- Datos Abiertos: Portales gubernamentales y de organizaciones internacionales.
- APIs: Interfaces que permiten la extracción masiva y sistemática de datos actualizables
- Redes Sociales: Datos recopilados desde las APIs de plataformas como Twitter, Instagram y Facebook.
- Encuestas y sensores: Datos recopilados de estudios de campo y dispositivos de monitoreo.
- Imágenes y datos geoespaciales: Información visual y de localización.
- Construcción manual de bases de datos a partir de la extracción de datos de noticias
Al usar esa información como fuente para análisis de datos periodísticos es crucial entender muy bien de qué tratan los datos para evitar interpretaciones erróneas (metadata).
Estas fuentes de datos también deben pasar por una depuración estricta antes de ser utilizadas para análisis. Los datos deben limpiarse, estandarizarse y estructurarse adecuadamente antes de usar cualquier software para realizar análisis matemáticos y estadísticos.
Ese proceso también es parte medular del entrenamiento de soluciones basadas en IA, pero deben añadirse otros pasos.
Antes de explicar esos pasos, es importante señalar que la inteligencia artificial (IA) es una tecnología que intenta hacer que las computadoras actúen de manera inteligente, como lo haría un ser humano. Para actuar con inteligencia similar a la humana, las computadoras necesitan algoritmos. Los algoritmos son conjuntos de reglas y procedimientos que guían a las computadoras para realizar tareas como el reconocimiento de patrones, el aprendizaje a partir de datos y la comprensión e interpretación del lenguaje natural.
Para que una máquina piense y resuelva problemas siempre es indispensable la intervención humana, porque son las personas quienes le proporcionan a las computadoras la materia prima para generar alternativas para resolver un problema y supervisan la calidad de la solución que ofrecen.
Entrenar un modelo de IA para uso periodístico
Entrenar un modelo de inteligencia artificial (IA) para hacer periodismo de datos es un proceso que requiere tiempo, meticulosidad y precisión.
Los periodistas científicos de datos deben seguir una serie de pasos estructurados para garantizar que los resultados sean lo más confiables posibles. A continuación, se presenta una síntesis de ellos.
- Definir claramente cuál es el problema que se abordará con ayuda de la IA.
- Reunir una cantidad de datos lo suficientemente grande, representativa y confiable para que la IA aprenda de ella y disminuya el riesgo de sesgos.
- Limpiar los datos: imputar valores faltantes, decidir qué hacer con los valores ausentes, cambiar formatos de datos, por ejemplo, fechas que aparecen como texto en la base de datos. En ciencia de datos hay una máxima: “Basura entra, basura sale”, lo que significa que ingresar datos de mala calidad resulta en obtener resultados no confiables. La información recopilada debe ser extremadamente precisa; de lo contrario, el análisis de datos no será fiable.
- Dividir los datos en conjuntos de entrenamiento y prueba. Determinar qué porcentaje de los datos se usará para entrenar y qué porcentaje para probar el modelo. Separar los datos en conjuntos de entrenamiento y prueba ayuda a determinar si el resultado del modelo es replicable en otros conjuntos de datos nuevos.
- Elegir un modelo y algoritmo adecuado para el problema. Por ejemplo, si el problema es determinar el valor de una propiedad basado en características como el tamaño, la ubicación y el número de habitaciones, se puede aplicar una regresión lineal. Si el problema es determinar la probabilidad de una enfermedad basada en datos de la historia clínica, se puede usar una regresión logística.
- Ajustar los parámetros que debe seguir el algoritmo para el aprendizaje.
- Entrenar el modelo.
- Revisar los resultados del modelo.
- Volver a ajustar los parámetros para la validación y ajuste.
- Implementación y monitoreo.
Para que quede más claro este proceso, a continuación, se presenta un video demostrativo que ilustra de manera práctica cada uno de los pasos explicados.
Supervisión humana y consideraciones éticas
El uso de inteligencia artificial (IA) en el periodismo de datos ofrece numerosas ventajas, pero también plantea importantes desafíos éticos y la necesidad de una supervisión humana constante. A medida que los algoritmos de IA y la propia IA generativa se integran cada vez más en las prácticas periodísticas es esencial abordar cuestiones clave como la precisión, la transparencia, el juicio humano y el principio de no hacer daño, tal y como se detalla en las siguientes precauciones.
Precisión y mitigación de sesgos
La precisión de los datos es vital para evitar sesgos y asegurar resultados representativos e inclusivos. Los algoritmos de IA pueden heredar sesgos de los datos con los que son entrenados, lo que puede resultar en reportajes desequilibrados y potencialmente injustos, especialmente en áreas sensibles como la justicia social, la política y la salud. Por ello, es fundamental que los equipos interdisciplinarios evalúen los resultados de los modelos de IA e implementen prácticas de diseño y mantenimiento que identifiquen y mitiguen los sesgos, como la selección cuidadosa de los conjuntos de datos y la revisión regular del funcionamiento de los algoritmos.
Principio de “No hacer daño”
Adherirse al “principio de no hacer daño” es crucial cuando se usan datos para entrenar soluciones de IA. Este principio busca garantizar que nadie sufra daños mayores debido a la implementación de IA. Por ejemplo, la publicación de coordenadas exactas de animales en peligro de extinción podría facilitar su caza ilegal. También es fundamental proteger la privacidad y la seguridad de los datos, tanto en el sector público como en el privado. Se deben implementar medidas para garantizar que los datos sensibles estén protegidos y se utilicen de manera ética y responsable.
Transparencia
Mantener la transparencia en el uso de la IA es crucial para preservar la confianza del público. Es importante que las organizaciones de noticias divulguen claramente cuándo y cómo se utilizan sistemas de IA en la creación de análisis de datos y contenidos. Esto incluye la explicación de los algoritmos empleados y la fuente de los datos para que el público pueda evaluar la credibilidad de los reportajes.
En el caso de la IA generativa, es relevante informar si los análisis y textos están siendo creados – en parte o totalmente- con esta tecnología es esencial.
Actualmente, algunas organizaciones de noticias prohíben el uso de IA generativa para estos propósitos, mientras otras lo avalan bajo estricta supervisión editorial y verificación de hechos, un aspecto clave porque es bien sabido que esta tecnología es tan propensa a errores como cualquier ser humano.
Pérdida del juicio periodístico humano
Finalmente, un aspecto a considerar es que, cuando se deja que la IA generativa asuma la mayoría de las tareas de análisis de datos y de redacción del reportaje, existe el gran riesgo de perder el juicio periodístico humano, que incorpora empatía con las personas y una comprensión profunda de los contextos sociales y culturales que los algoritmos no pueden replicar completamente.
Es crucial que los periodistas sigan desempeñando un papel activo en la interpretación y presentación de los datos analizados por la IA. El periodismo debe seguir siendo periodismo. Como alguna vez escribí en otro artículo: “ El periodismo sigue y seguirá siendo asunto de gastar saliva, neuronas y las suelas de los zapatos. Se trata de ir a los sitios y a las fuentes para confrontar números con realidad».