Uma base de dados é como qualquer outra fonte à qual nós jornalistas nos enfrentamos diariamente. É propensa a nos contar mentiras, esconder-nos informação, dar-nos um panorama parcial de um fenômeno e induzir a erros.
Ainda que esperamos muito dos números, a verdade é que são falhos e não possuem a verdade absoluta porque simplesmente as bases de dados estão confeccionadas por pessoas. Nelas pode haver erros involuntários ou deliberados e sempre é recomendável ter isso em mente antes de utilizá-los como cimento para uma investigação jornalística.
É por essa razão que é fundamental aplicar a qualquer banco de números o mesmo rigor dado a nossas fontes humanas ou documentários: validar seu conteúdo, verificando sua autenticidade com terceiros.
A reportagem convencional não somente é ineludível como também uma obrigação no jornalismo de dados para evitar a publicação de conclusões errôneas, que poderiam acabar sendo uma tragédia para a carreira do jornalista e até mesmo a seu meio.
A preparação
Tendo claridade sobre esses pontos, o seguinte a ser feito antes de entrevistar uma base de dados é conhecê-la profundamente. Indagar exaustivamente sobre:
- Quem copilou os números e quais foram seus propósitos?
- Como foi a metodologia da coleta compilação?
- Que tão confiável é pessoa ou instituição que a construiu?
- O documento está completo, alguma informação foi excluída ou trata-se de um documento que só contém alguns cruzamentos de dados básicos para satisfazer os requerimentos do jornalista?
- Quais interesses perseguem a pessoa que entrega a informação?
- Ou pelo contrário; o que a pessoa ou instituição que se nega a proporcioná-la pode estar tentando esconder?
- Esse registro de cifras fornece toda a informação necessária para iniciar um projeto, deve-se procurar outras bases ou inclusive criar suas próprias?
Torne-se obsessivo.
Respondidas essas perguntas e, se a maioria das respostas são satisfatórias para o jornalista, o seguinte é passar muito tempo examinando – as vezes até tornar-se obsessivo – essas folhas de cálculo no Excel, Tableau, SPSS, SQL ou qualquer programa informático que se utilize para a análise da informação. Pessoalmente, recorro aos dois primeiros porque já comprovei que, até o momento, sobram e bastam na execução da maioria dos estudos de jornalismo de dados que já realizei.
Somente se houver uma boa quantidade de horas investidas na compreensão da estrutura de uma base de dados será possível entrevistá-la adequadamente e extrair as conclusões significativas e proveitosas que se converterão nos pilares de um projeto de sucesso.
Fazê-lo é vital para dar-se conta de inconsistências como erros de digitação nas cifras e nomes repetidos ou escritos de diferente forma, ainda que pertençam a uma mesma entidade. Esses são descuidos que derivarão em cálculos subestimados e alterarão os resultados da investigação.
Um exemplo disso aconteceu durante um projeto sobre exclusão estudantil (deserção) em colégios públicos que fizemos na Unidade de Inteligência de Dados de “La Nación” da Costa Rica. Quando minha colega Amy Ross e eu inspecionávamos a base de dados com a informação de 643 colégios, um deles ressaltou como o que mais tinha diminuído esse fenômeno em todo o país.
Os números confiados no registro oficial do Ministério de Educação Pública diziam que nessa instituição a fuga de alunos tinha passado de 68% de matrícula em 2011 a 14% em 2013. O que significa que o problema tinha decrescido 53 pontos. A mudança era tão extrema que despertou suspeitas. Quando conversei com o diretor desse centro educativo para contrastar os dados absolutos e relativos, ele revisou seus expedientes e confirmou-me a má digitação da cifra de abandono estudantil do ano passado; a real alcançou 50% de seus alunos.
Outro benefício de explorar uma base de dados profundamente é advertir faltantes de números.
Mais uma vez no projeto de deserção colegial chamou-nos a atenção que em uma das instituições grandes (mais de 1000 alunos), a exclusão de estudantes tinha passado de 445 em 2012 e nenhuma em 2013.
Evidentemente faltava um dado aí. De fato, o Ministério de Educação Pública confirmou-nos que “por um erro involuntário” não foi incluída nessa célula os 694 estudantes que abandonaram o centro de ensino em 2013. Esse número era significativo; sem ele não teríamos percebido que essa secundária é uma onde o abandono escolar é mais problemático.
É crítico ser meticuloso com esses detalhes. Somente imagine o que poderia ocorrer se, usando o registro de cifras de criminalidade de seu país, não se adverte a ausência de números de roubos, assaltos e assassinatos no município chave. Todo seu trabalho iria parar no lixo por chegar a conclusões falsas.
Interrogue-a.
Uma vez terminado a examinação profunda na base de dados saberá com precisão se esta é capaz ou não de resolver, parcial ou totalmente, as incógnitas existentes sobre o tema a indagar. É conveniente, então, listar as perguntas às quais se buscará respostas quando analisar o documento no Excel com a ajuda de filtros e tabelas pivôs.
Se não sabe como usar essas ferramentas, recomendo a você(s) os seguintes tutoriais: Centro para o Jornalismo Investigativo e do Consórcio Internacional de Jornalismo Investigativo. (em inglês)
Suponhamos que a base em questão é a de criminalidade que mencionei anteriormente. Indo do geral ao específico, algumas consultas básicas que essa entrevista pode incluir aos dados são:
- Qual é a quantidade de crimes totais ocorridos no país durante o ano ou anos para os que contam com cifras?
- A criminalidade tem crescido ou diminuído?
- Quais são os tipos de crimes mais comuns e sua frequência por ano? Tem crescido ou diminuído?
- Qual é o município onde a criminalidade mais cresceu, em geral e por tipo de incidente?
- Pelo contrário; qual é o município onde os indicadores de crime diminuíram?
Lembre-se sempre de que para casos como este ou de incidência de enfermidades, deve-se calcular as taxas por cada 10 mil ou 100 mil habitantes. É a maneira mais fidedigna de comprovar se um fenômeno disparou ou aplacou no tempo. Para isso, deve-se ter o dado da quantidade total da população do país ou de cada município para os anos de interesse.
Suponhamos que em sua jurisdição ocorreram 40 delitos graves no ano passado e a quantidade de habitantes é de 50 mil – a fórmula em Excel para calcular a taxa é a seguinte:
Utilizando esse exemplo, conclui-se que houveram 8 crimes por cada 10 mil habitantes durante 2013. Cabe perguntar-se: essa quantidade é mais ou menos que em 2004 quando se registraram 25 crimes em total?
Se a população de 2004 na cidade era de 30 mil pessoas, seguindo a fórmula anterior, concluiríamos que a taxa de criminalidade mantém-se em 8 crimes por cada 10 mil habitantes.
Com esse dado comparativo, você poderia se perguntar:
- Qual foi o comportamento da criminalidade em meu município para cada um dos anos correspondente a 2005 e até 2012?
- A taxa manteve-se próxima aos 8 atos violentos por cada 10 mil habitantes ou houve variações entre os anos?
- Essas mudanças foram abruptas ou não?
- Se as mudanças foram abruptas: por que o combate à criminalidade é um sobe e baixa de um ano a outro?
- Se a taxa é estável, por que se mantém assim?
- Há quantos policiais na cidade para cada 10 mil habitantes?
- Qual é o valor no orçamento que as autoridades investem anualmente em segurança?
- A taxa de criminalidade de meu município é alta ou baixa com relação aos outros do estado ou do país?
Como pode observar, uma base de dados pode e deve ser entrevistada em várias ocasiões durante a investigação; como acontece com qualquer outra fonte. Além disso, muitas vezes, algumas das respostas que serão dadas desencadearão novas perguntas cujas respostas estarão imersas em outras bases de dados ou recorrendo a documentos e porta-vozes oficiais.
Finalmente, nunca me esqueci de refletir sobre a mais crucial das perguntas por fazer uma base de dados: por que é importante para as pessoas a história que contam suas cifras?
Um jornalista pode ter a melhor análise de informação e as melhores conclusões, mas se esquecer de mostrar o lado humano dos números, sua reportagem carecerá de significado.
Hassel Fallas (@HasselFallas)
Trabalha na Unidade de Inteligência de Dados do diário “La Nación”, Costa Rica. Participou em diversos projetos de visualização de dados e exploração de narrativa multimídia. Master em Jornalismo Digital da Universidade de Alcalá de Henares, Espanha. Possui também uma especialização no Centro de Jornalismo Digital da Universidade de Guadalajara e no Instituto de Tecnologia da Costa Rica. Recebeu o primeiro lugar em Desafio InnovaData 2013 e foi residente de ProPublica graças a uma bolsa de estudos Douglas Tweedale do ICFJ.