Análise de Regressão

Author
Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Lista de exercícios 6

  1. Considere os dados da Liga Nacional de Futebol Americano (NFL) na Tabela 1.
equipe <- c("Washington", "Minnesota", "New England", "Oakland", "Pittsburgh", 
            "Baltimore", "Los Angeles", "Dallas", "Atlanta", "Buffalo",
            "Chicago", "Cincinnati", "Cleveland", "Denver", "Detroit",
            "Green Bay", "Houston", "Kansas City", "Miami", "New Orleans",
            "New York Giants", "New York Jets", "Philadelphia", "St. Louis", "San Diego",
            "San Francisco", "Seattle", "Tampa Bay")

y <- c(10, 11, 11, 13, 10,
       11, 10, 11, 4, 2,
       7, 10, 9, 9, 6,
       5, 5, 5, 6, 4, 
       3, 3, 4, 10, 6, 
       8, 2, 0)

x1 <- c(2113, 2003, 2957, 2285, 2971,
        2309, 2528, 2147, 1689, 2566,
        2363, 2109, 2295, 1932, 2128,
        1722, 1498, 1873, 2118, 1775,
        1904, 1929, 2080, 2301, 2040,
        2447, 1416, 1503)

x2 <- c(1985, 2855, 1737, 2905, 1666,
        2927, 2341, 2737, 1414, 1838,
        1480, 2191, 2229, 2204, 2438,
        1730, 2072, 2929, 2268, 1983,
        1792, 1606, 1492, 2835, 2416,
        1638, 2649, 1503)

x3 <- c(38.9, 38.8, 40.1, 41.6, 39.2,
        39.7, 38.1, 37.0, 42.1, 42.3,
        37.3, 39.5, 37.4, 35.1, 38.8,
        36.6, 35.3, 41.1, 38.2, 39.3,
        39.7, 39.7, 35.5, 35.3, 38.7,
        39.9, 37.4, 39.3)


x4 <- c(64.7, 61.3, 60.0, 45.3, 53.8,
        74.1, 65.4, 78.3, 47.6, 54.2,
        48.0, 51.9, 53.6, 71.4, 58.3,
        52.6, 59.3, 55.3, 69.6, 78.3,
        38.1, 68.8, 68.8, 74.1, 50.0,
        57.1, 56.3, 47.0)

x5 <- c(4, 3, 14, -4, 15,
        8, 12, -1, -3, -1,
        19, 6, -5, 3, 6,
        -19, -5, 10, 6, 7,
        -9, -21, -8, 2, 0,
        -8, -22, -9)

x6 <- c(868, 615, 914, 957, 836,
        786, 754, 761, 714, 797,
        984, 700, 1037, 986, 819,
        791, 776, 789, 582, 901,
        734, 627, 722, 683, 576,
        848, 684, 875)

x7 <- c(59.7, 55.0, 65.6, 61.4, 66.1,
        61.0, 66.1, 58.0, 57.0, 58.9,
        67.5, 57.2, 57.8, 58.6, 59.2,
        54.4, 49.6, 54.3, 58.7, 51.7,
        61.9, 52.7, 57.8, 59.7, 54.9,
        65.3, 43.8, 53.5)

x8 <- c(2205, 2096, 1847, 1903, 1457,
        1848, 1564, 1821, 2577, 2476,
        1984, 1917, 1761, 1790, 1901,
        2288, 2072, 2861, 2411, 2289,
        2203, 2592, 2053, 1979, 2048,
        1786, 2876, 2560)

x9 <- c(1917, 1575, 2175, 2476, 1866,
        2339, 2092, 1909, 2001, 2254,
        2217, 1758, 2032, 2025, 1686,
        1835, 1914, 2496, 2670, 2202,
        1988, 2324, 2550, 2110, 2628,
        1776, 2524, 2241)




tabela1 <- data.frame(equipe, y, x1, x2, x3, x4, x5, x6, x7, x8, x9)

knitr::kable(tabela1, caption = "Tabela 1: Desempenho das Equipes da National Football League de 1976")
Tabela 1: Desempenho das Equipes da National Football League de 1976
equipe y x1 x2 x3 x4 x5 x6 x7 x8 x9
Washington 10 2113 1985 38.9 64.7 4 868 59.7 2205 1917
Minnesota 11 2003 2855 38.8 61.3 3 615 55.0 2096 1575
New England 11 2957 1737 40.1 60.0 14 914 65.6 1847 2175
Oakland 13 2285 2905 41.6 45.3 -4 957 61.4 1903 2476
Pittsburgh 10 2971 1666 39.2 53.8 15 836 66.1 1457 1866
Baltimore 11 2309 2927 39.7 74.1 8 786 61.0 1848 2339
Los Angeles 10 2528 2341 38.1 65.4 12 754 66.1 1564 2092
Dallas 11 2147 2737 37.0 78.3 -1 761 58.0 1821 1909
Atlanta 4 1689 1414 42.1 47.6 -3 714 57.0 2577 2001
Buffalo 2 2566 1838 42.3 54.2 -1 797 58.9 2476 2254
Chicago 7 2363 1480 37.3 48.0 19 984 67.5 1984 2217
Cincinnati 10 2109 2191 39.5 51.9 6 700 57.2 1917 1758
Cleveland 9 2295 2229 37.4 53.6 -5 1037 57.8 1761 2032
Denver 9 1932 2204 35.1 71.4 3 986 58.6 1790 2025
Detroit 6 2128 2438 38.8 58.3 6 819 59.2 1901 1686
Green Bay 5 1722 1730 36.6 52.6 -19 791 54.4 2288 1835
Houston 5 1498 2072 35.3 59.3 -5 776 49.6 2072 1914
Kansas City 5 1873 2929 41.1 55.3 10 789 54.3 2861 2496
Miami 6 2118 2268 38.2 69.6 6 582 58.7 2411 2670
New Orleans 4 1775 1983 39.3 78.3 7 901 51.7 2289 2202
New York Giants 3 1904 1792 39.7 38.1 -9 734 61.9 2203 1988
New York Jets 3 1929 1606 39.7 68.8 -21 627 52.7 2592 2324
Philadelphia 4 2080 1492 35.5 68.8 -8 722 57.8 2053 2550
St. Louis 10 2301 2835 35.3 74.1 2 683 59.7 1979 2110
San Diego 6 2040 2416 38.7 50.0 0 576 54.9 2048 2628
San Francisco 8 2447 1638 39.9 57.1 -8 848 65.3 1786 1776
Seattle 2 1416 2649 37.4 56.3 -22 684 43.8 2876 2524
Tampa Bay 0 1503 1503 39.3 47.0 -9 875 53.5 2560 2241

Definições das variáveis:

  • \(y\): Jogos vencidos (por temporada de 14 jogos)
  • \(x_1\): Jardas conquistadas em corrida (temporada)
  • \(x_2\): Jardas de passe (temporada)
  • \(x_3\): Média de punt (jardas/punt)
  • \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
  • \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
  • \(x_6\): Jardas de penalidade (temporada)
  • \(x_7\): Percentual de corrida (corridas/jogadas totais)
  • \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
  • \(x_9\): Jardas de passe dos adversários (temporada)
  1. Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).

  2. Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.

  3. Calcule as estatísticas \(t\) para testar as hipóteses: \(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\) e \(H_0: \beta_8 = 0\). Quais conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?

  4. Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.

  5. Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?

  6. Construa um gráfico de probabilidade normal dos resíduos. Há indícios de violação da suposição de normalidade? Realize os testes de normalidade de Shapiro-Wilk e Kolmogorov-Smirnov. O que você conclui?

  7. Calcule os resíduos studentizados e os resíduos Rstudent para este modelo. Que tipo de informação é fornecida por esses resíduos?

  8. Construa e interprete o gráfico dos resíduos studentizados em função da resposta predita. Realize o teste de homocedasticidade de Breusch-Pagan. O que você conclui?

  9. Calcule as correlações entre as variáveis independentes \(x_2\), \(x_7\) e \(x_8\). Existe multicolinearidade entre essas variáveis? Justifique sua resposta.

  10. Calcule o VIF (Variance Inflation Factor) para as variáveis \(x_2\), \(x_7\) e \(x_8\). O que você conclui? Os valores do VIF são úteis para indicar multicolinearidade. Valores de VIF superior a 5 ou 10 sugerem multicolinearidade. Use a função vif() do pacote car para calcular o VIF.

  11. Calcule a estatística PRESS (Press Residual Sum of Squares) para os modelos completo (com \(x_2\), \(x_7\) e \(x_8\)) e reduzido (apenas com \(x_2\) e \(x_8\)). O que você conclui?

  12. Calcule os valores dos pontos de alavancagem (leverage). Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2p/n\) (onde \(p\) é o número de parâmetros do modelo e \(n\) é o número de observações) são considerados influentes.

  13. Calcule os valores da distância de Cook. Quais observações são consideradas influentes? Lembre-se que valores superiores a 1 são considerados influentes.

  14. Calcule os valores de DFBETAS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2/\sqrt{n}\) merecem atenção.

  15. Calcule os valores de DFFITS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2\sqrt{p/n}\) merecem atenção.

  16. Construa um modelo de regressão linear relacionando o número de jogos vencidos com:

  • jardas terrestres dos adversários (\(x_8\)),

  • porcentagem de jogadas terrestres (\(x_7\)) e

  • diferença de turnovers (turnovers ganhos - turnovers perdidos) (\(x_5\)).

Especificamente, considere a diferença de turnovers como uma variável indicadora, cuja codificação depende de o valor real do diferencial ser positivo, negativo ou igual a zero. Ou seja, considere \(x_5\) como uma variável indicadora que assume os seguintes valores:

\[\begin{align*} x_5 = 1, & \text{ se } x_5 > 0 \\ x_5 = 0, & \text{ se } x_5 = 0 \\ x_5 = -1, & \text{ se } x_5 < 0. \end{align*}\]

Quais conclusões podem ser obtidas sobre o efeito dos turnovers no número de jogos vencidos?

  1. Considerando o enunciado da letra anterior, e se a variável indicadora for definida como:

\[\begin{align*} x_5 = 1, & \text{ se } x_5 > 0 \\ x_5 = 0, & \text{ se } x_5 \leq 0. \end{align*}\]

Qual é a interpretação do coeficiente estimado para \(x_5\)? O que você conclui sobre o efeito dos turnovers no número de jogos vencidos?

  1. Considerando todas as variáveis disponíveis, utilize o método de seleção de variáveis forward (seleção progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis forward (seleção progressiva) é um método de seleção de variáveis que começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis significativas a serem adicionadas.

  2. Utilize o método de seleção de variáveis backward (eliminacão progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis backward (eliminacão progressiva) é um método de seleção de variáveis que começa com um modelo completo (com todas as variáveis preditoras) e remove variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis insignificativas a serem removidas.

  3. Utilize o método de seleção de variáveis stepwise (passo a passo) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis stepwise (passo a passo) é um método de seleção de variáveis que combina os métodos forward e backward. Ele começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, mas também pode remover variáveis preditoras que se tornam não significativas à medida que novas variáveis são adicionadas.

  4. Usando o método de validação cruzada leave-one-out (LOOCV), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada leave-one-out (LOOCV) é uma técnica de validação cruzada onde cada observação do conjunto de dados é usada como um ponto de teste, enquanto todas as outras observações são usadas como pontos de treinamento. Isso é repetido para cada observação, e o erro médio de previsão é calculado. Existe também o método leave-p-out.

  5. Usando o método de validação cruzada k-fold, com \(k = 3\), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada k-fold é uma técnica de validação cruzada onde o conjunto de dados é dividido em k subconjuntos (folds). O modelo é treinado em k-1 folds e testado no fold restante. Isso é repetido k vezes, e o erro médio de previsão é calculado.


@profjulianobortolini      www.julianobortolini.com.br      linkedin      github       lattes