“O começo de todas as ciências é o espanto de as coisas serem o que são.”
(Aristóteles)

Programando em R

R é atualmente uma das linguagens mais usada no mundo para Data Science. Sendo, utilizada desde coleta à análise de dados, por exemplo: coleta em páginas da web (institucionais, redes sociais), análise de dados (estatística frequentista, bayesiana, mineração de dados). O R é dessa forma o software que mais ganha espaço na comunidade acadêmica nas diversas áreas da ciência.

O objetivo desta seção apresentar a linguagem R com foco principal em coleta de dados na web (web scraping) , manipulação de banco de dados e análise estatística. Tentarei focar exemplos da área de Ciências Sociais, e mais especificamente em Ciência Política área que estou em formação.  

Atualizamos o pacote electionsBR em duas frentes principais: 1) incluir novos dados, por exemplo eleições 2018; e 2) tratar erros oriundos de modificação da estrutura de arquivos que o TSE disponibiliza. Neste último, o TSE  além de incluir novas variáveis também modificou a extensão de arquivos para alguns anos, abandonando o tradicional txt e adotando o csv.

Para alguns anos o TSE incluiu um arquivo chamado BR, que para alguns casos retorna o arquivo completo para todos os cargos e para outros só retorna informações para o cargo de Presidente da República, para abordar está situação incluimos o argumento br_archive que por padrão é falso.

 

Para os que não conhecem o pacote electionsBR, ele faz essencialmente três tarefas:

  1. Conecta o R ao Repositório do TSE para fazer o download das inforções por eleição;
  2. Extrai os dados de diversos arquivos que estão compactados (tarefa que se feita manualmente pode custar muitas horas de trabalho);
  3. Uni e padroniza as diversas informações dos diversos bancos de dados, que pode ser utilizado para as eventuais análises ou exportar diretamente para outros formatos (software) como Stata e SPSS, com a simples habilitação do arguemento export.

Segue abaixo um exemplo do uso do pacote electionsBR:

 

 

library(electionsBR)
library(ggpol)

consult18 <- candidate_fed(2018)

consult18 <- consult18[consult18$DESC_SIT_TOT_TURNO %in% c("ELEITO POR QP", "ELEITO POR MÉDIA", "ELEITO"), ]

fed <- as.data.frame(table(consult18[consult18$DESCRICAO_CARGO == "DEPUTADO FEDERAL", 43]))


ggplot(fed) +
geom_parliament(aes(seats = Freq, fill = Var1)) +
scale_fill_manual(name = "Sexo", values = c("#663399", "#d5e5e0"),
labels = c("Feminino", "Masculino")) +
coord_fixed() +
theme_void() +
theme(legend.position = "bottom") +
labs(title = "Câmara dos deputados 2018",
subtitle = "Eleitos por Sexo",
caption = "denissosilva.com")

Usando o pacote electionsBR para fazer download dos votos dos candidatos a presidente no segundo turno e compatabilizando os codigos IBGE e TSE usando o pacote ribge, para poder gerar um mapa coroplético com a porcentagem de votos do PT por município em 2010.

Slide para taller R en la Univesidad de Salamanca


Instrucciones de instalación del software R e RStudio

1 - Instalación R

1.1 Descargar gratis, en general: https://cloud.r-project.org   

         O directament: - Mac OS R-3.4.0.pkg 

                                  - Windows Download R 3.4.0 

                                  - linux, vea el enlace https://numerorojo.wordpress.com/2008/04/27/instalar-r-en-ubuntu/