Boas-vindas
Neste primeiro encontro são apresentados os objetivos do curso, a estrutura de aulas e os principais desafios para os alunos.
Venha conhecer os conceitos estatísticos que são a base da ciência de dados, com aplicações práticas do dia a dia e ensaios sobre o processo legislativo e a Ciência Política. Neste curso você aprenderá a formular as perguntas corretas, fazer inferências estatísticas e publicar resultados por meio do método científico.
Neste primeiro encontro são apresentados os objetivos do curso, a estrutura de aulas e os principais desafios para os alunos.
Nesta aula você aprenderá os conceitos de Estatística e Variabilidade. Conhecerá, também, os tipos de variáveis e os métodos observacional e experimental para a coleta de dados. Por fim, discutimos como o Big Data estruturou a Ciência de Dados em diversas disciplinas, e quais os principais métodos de análise utilizados atualmente.
Descreve técnicas de apresentação de dados: tabelas de distribuição de frequências, histogramas, medidas de tendência central (média, moda e mediana), medidas de dispersão (amplitude, amplitude interquartil, variância, desvio padrão e coeficiente de variação), distribuições simétricas e assimétricas, achatamento ou curtose.
Nesta aula você aprenderá as primeiras instruções do R e como utilizar o ambiente RStudio.
Este é o primeiro laboratório em que aprenderemos como reproduzir as técnicas de estatística descritiva utilizando scripts de código R e a tecnologia Markdown.
Nesta aula você aprenderá como migramos das nossas distribuições de frequência discretas, representadas por histogramas, para o modo contínuo, representado por funções de densidade de probabilidade. Veremos como calcular probabilidades por meio da integração das funções de densidade de probabilidade em intervalos determinados e conheceremos o conceito de curva normal padrão.
Neste laboratório você conhecerá funções do R para o cálculo de probabilidades sob a Curva Normal: Curva Normal - script dnormal(); Curva Normal Padrão - script dnormalp(); funções pnorm, qnorm, rnorm e dnorm.
Nesta aula você aprenderá os conceitos que formam a base da inferência estatística:
- Assintotismo.
- Lei dos Grandes Números.
- Teorema Central do Limite.
- Intervalos de Confiança.
Nesta aula o funcionamento do Teorema Central do Limite será mostrado por meio de simulações na linguagem R.
Nesta aula apresentaremos os passos do método científico, os conceitos de hipótese e teoria, o princípio da falseabilidade, como elaborar a pergunta de pesquisa e formular hipóteses, como testar as hipóteses, identificar os tipos de erro e, por fim, como estimar a força do teste.
Neste laboratório você conhecerá a função dnormalComp() escrita em R para efetuar testes de hipótese de uma e duas amostras, bem como calcular a força do teste de duas amostras. A função reproduz as respectivas distribuições normais, regiões críticas e intervalos de confiança, provendo uma representação gráfica do teste de hipótese que auxilia na compreensão dos conceitos teóricos.
Nesta aula estudaremos a estatística t, a distribuição de Student e como são definidos os intervalos de confiança para a realização de testes de hipótese. Serão apresentados os testes de grupos pareados e de grupos independentes, com variâncias iguais ou diferentes.
Neste laboratório você utilizará a função teste.t() escrita em R para apresentar graficamente os elementos do teste t-Student nos modos: status quo, grupos pareados, grupos independentes com variâncias iguais e grupos independentes com variâncias diferentes. Também serão apresentados os testes de Shapiro-Wilk e Kolmogorov-Smirnov para a verificação da normalidade de uma distribuição de dados.
Nesta aula estudaremos a Correlação Linear e o modelo de Regressão Linear. Veremos o algoritmo dos mínimos quadrados ordinários e como interpretar os coeficientes de regressão. Aprenderemos como a adição do erro gaussiano se insere ao modelo e estabelece as premissas de qualidade. Por fim, estudaremos os fatores de incerteza associados à predição de valores e o conceito do Coeficiente de Determinação.
Neste laboratório são propostos exercícios de regressão linear com os objetivos de: estimar os coeficientes de regressão; plotar o gráfico de dispersão e a reta de regressão; plotar o histograma dos resíduos e o gráfico dos resíduos em função do preditor; determinar o valor esperado para certos valores do preditor; verificar o valor de R2; determinar as bandas de confiança e de predição.
Nesta aula conheceremos o modelo linear geral e aprenderemos a interpretar os coeficientes da regressão múltipla. A base swiss do pacote dataset da linguagem R será utilizada para a proposição de modelo com múltiplos preditores.
Nesta aula abordaremos o conceito de variáveis dummies, que são variáveis que representam categorias de uma variável categórica, e aprenderemos como analisá-las no modelo de regressão linear. Também veremos quando o modelo de regressão é capaz de detectar possíveis efeitos decorrentes do agrupamento dos dados pelas categorias presentes nas variáveis dummies (efeito de grupo).
Nesta aula aprenderemos a testar as premissas do modelo de regressão linear por meio da análise dos resíduos. Discutiremos técnicas para a identificação de outliers e veremos como os conceitos de inflação de variância e da variação da Soma dos Erros Quadrados nos auxiliam na construção de um bom modelo de regressão.
Neste laboratório construiremos um modelo de regressão múltipla a partir da base de dados "Prestige", do pacote "car" da linguagem R.
Apresentaremos o passo-a-passo da escolha dos preditores combinando técnicas matemáticas que nos permitem avaliar a redução da soma dos erros quadráticos, que define a qualidade da estimativa pontual, e a inflação da variância, que define o intervalo de confiança e a qualidade da inferência do modelo.
Nesta aula veremos a situação em que a variável dependente é categórica e assume valores binários ou binomiais, com apenas duas categorias. Estudos dessa natureza são denominados problemas de classificação e não são lineares. Apresentaremos, também, a estrutura de modelos lineares generalizados e a função logística, ou sigmoide, utilizada para a representação de modelos cuja variável resposta é binária.
Nesta aula são apresentados o conceito de chance, como a razão entre a probabilidade de sucesso e a de insucesso, e transformação logit, definida pelo logarítmo natural da chance. O logarítmo natural da chance, calculada por meio da função sigmoide, tem comportamento linear e equivale ao componente sistemático da função sigmoide.
Neste laboratório apresentaremos o passo-a-passo da escolha dos preditores para um modelo de Regressão Logística. Serão utilizados a Estatística do Desvio, o Critério de Informação de Akaike e o Critério de Informação Baiesiano para auxiliar na decisão de incluir ou não vaiáveis ao modelo.
Nesta aula você aprenderá a técnica da Análise de Variância - ANOVA, utilizada para a comparação de médias de amostras independentes. Será apresentado o conceito da estatística F e suas distribuições de probabilidade, utilizados para testar a hipótese de que duas variâncias são iguais. Também são apresentados os testes post hoc e a ANOVA como um caso especial da Regressão Linear.
Nesta aula você conhecerá o Teste Qui-quadrado, que é um teste não paramétrico cujo princípio básico é verificar as possíveis divergências entre as frequências observadas e esperadas para um certo evento. Veremos a aplicação do teste nos casos em que conhecemos o valor esperado do evento e nos casos em que desejamos verificar a dependência de duas variáveis categóricas, por meio de tabelas de contingência.
Design your own web page with Mobirise