Artigo

Precisamos conversar sobre open data

02/08/2017

O desenvolvimento de uma nação depende, entre outras coisas, de acesso fácil a informações (econômicas, sociais, etc.) transparentes e confiáveis sobre o país. Com o avanço tecnológico na área de gestão de dados, muitas iniciativas têm sido tomadas nos últimos anos em ambientes eletrônicos, com base no conceito de “open data”.

Open data (ou conteúdo) são informações passíveis de serem acessadas, usadas ou compartilhadas por qualquer um e para qualquer propósito, segundo definição da organização especializada “Open definition”. Essa definição retrata bem a tendência mencionada, que não é nova, mas que ganhou novos ares com os avanços tecnológicos e a necessidade de as pessoas utilizarem dados para gerar e compartilhar conhecimento.

De acordo com a organização Open Knowledge International (“OKFN”)[1], que tem por missão perceber o valor dos dados abertos para a sociedade, ajudando a sociedade civil a pensar e agir sobre problemas sociais, quatros regras de ouro devem ser observadas ao se promover a abertura dos dados: (a) escolher a base de dados que você pretende tornar aberta; (b) definir uma licença para dados abertos; (c) tornar os dados disponíveis; e (d) torná-los fáceis de serem descobertos.

Os dois primeiros pontos abordados pela OKFN são importantes, mas, a menos que você tenha feito algum trabalho que tenha gerado uma nova informação relevante, em geral, escolher a base de dados a ser aberta e definir uma licença para dados abertos são encargos que cabem a grandes instituições, governos e empresas. Nesses casos, a nossa tarefa, como sociedade, é pressionar para que esses encargos sejam desenvolvidos satisfatoriamente. No Brasil, por exemplo, fruto de pressões da população, a Lei de Acesso a Informação foi um grande avanço na abertura dos dados do Executivo, Legislativo e Judiciário e permitiu iniciativas como a Operação Serenata de Amor, “focada em fiscalizar os reembolsos efetuados a partir da Cota para Exercício da Atividade Parlamentar, que custeia alimentação, transporte, hospedagem e até cultura, cursos e assinaturas de TV dos deputados federais”.

Contudo, as duas últimas questões permanecem: (i) apesar de acessíveis, quão disponíveis estão esses dados?; e, mais ainda, (ii) qual o grau de facilidade para descobri-los? Para atender à demanda da disponibilidade, no mundo e no Brasil há iniciativas no sentido da criação de APIs - Application Programming Interface (um conjunto de rotinas e padrões de programação para acesso a um aplicativo de software ou plataforma baseado na Web), para facilitar a comunicação e o acesso dos usuários a diferentes bases de dados.

Em termos de dados econômicos, por exemplo, o Federal Reserve de Saint Louis, criou a FRED API que permite que pesquisadores e desenvolvedores escrevam e construam aplicações com as quais se pode recuperar dados econômicos dos sites FRED e ALFRED[2]. Em outra iniciativa, o Banco Mundial criou três APIs que dão acesso a mais de 8.000 indicadores e permitem consultar os dados de diferentes maneiras. No Brasil, também há iniciativas importantes. O Instituto Brasileiro de Geografia e Estatística (IBGE), por exemplo, criou a API Sidra, que permite a extração gratuita dos dados agregados de estudos e pesquisas realizados pelo IBGE disponibilizadas no banco Sidra.

Quanto ao último ponto – a facilidade de se encontrar os dados –, uma iniciativa natural é criar websites para hospedá-los. Contudo, uma nova tendência tem sido a criação de pacotes que permitem acessar os dados diretamente de softwares que possibilitam a análise desses dados, como Python e R.  Para o software R, por exemplo, existe o pacote “alfred”, que permite fazer o download de diversas vintages da base de dados Alfred, e o pacote “congressbr” , que permite a extração de dados do Senado e da Câmara de Deputados do Brasil utilizando o API das casas. São mais de 15 mil pacotes (e.g. alfred, congressbr) criados apenas para o R.

Seguindo essa tendência, a FGV|IBRE, uma instituição privada que não está inserida no “guarda-chuva” da Lei de Acesso à Informação, mas que tem como missão o desenvolvimento do país, está desenvolvendo o pacote BETS (Brazilian Economic Time Series)[3]. Além de fornecer milhares de séries temporais econômicas brasileiras (são mais de dez mil) e ferramentas analíticas interessantes, o pacote possui um poderoso dispositivo para visualização de dados econômicos. Com algumas linhas de código –  em alguns casos, apenas uma linha –, o usuário é capaz de criar painéis de exibição profissional exibindo vários gráficos temáticos.

Na figura abaixo[4], por exemplo, todos os gráficos informam dados sobre os ciclos econômicos brasileiros, área de pesquisa liderada no Brasil pela FGV/IBRE com o desenvolvimento de indicadores como as sondagens empresariais, indicador de incerteza, entre outros.

 


(*) as áreas sombreadas representam as recessões datadas pelo CODACE. Fonte: FGV|IBRE; Economic Sentiment Indicator é uma média entre os indicadores de confiança da indústria, serviços, construção, comércio e consumidor.

Além disso, o pacote cria documentos dinâmicos para a análise de séries temporais, usando métodos como Box & Jenkins, Holt Winters e Redes Neurais, e facilita a análise de parâmetros, entre outras funcionalidades. São mais de dez mil instalações desde o lançamento do pacote. A RStudio Inc classificou o nosso pacote como um dos mais relevantes publicados no R no ano de 2016.

Por fim, é importante ressaltar a relevância dessas iniciativas, pois mais dados produzem mais conhecimento e assim é possível maximizar o bem-estar da população. Atitudes na direção de se abrirem bases de dados e de torná-las disponíveis devem ser intensificadas. Operações como o BETS e a Serenata de Amor devem tornar-se regra e não exceção.

[1] Visite também: Open Knowledge Brasil

[2] Permite que o pesquisador recupere versões vintage de dados econômicos disponíveis em datas específicas do histórico. Precisamos dessa iniciativa para o Brasil. Vamos falar disso nos próximos artigos.

[3] Para explorar o BETS: (a) Instale os programas R e RStudio; (b) digite os comando install.package("BETS") e require(BETS) no console; (c) acesse o artigo no site do IBRE e explore-o.

[4] Para entender como fazer dashboards usando o BETS, acesse aqui.

 

Comentários

José Henrique F...
Muito bom conteúdo. Obrigado por compartilharem tamanho conhecimento.
Pedro ferreira
Obrigado, José!
Paulo Lins
Para quem se interessar, há um pacote para baixar dados do Data SUS (https://github.com/rfsaldanha/downloadDataSUS) e um para baixar dados das eleições brasileiras (http://electionsbr.com/).
Pedro ferreira
Obrigado, Paulo! Excelente dica. Grande abraço,
Leo Monasterio
Parabéns pelo BETS! Excelente. Muito obrigado.
Pedro ferreira
Obrigado, Leo!!
Paulo Ricardo
Exelente conteudo parabéns!
Pedro Ferreira
Obrigado, Paulo Ricardo!!
Paulo Dominonni
Fantastico
Pedro Ferreira
obrigado, Paulo Dominonni!!

Deixar Comentário