Tabela 1: Desempenho das Equipes da National Football League de 1976
equipe
y
x1
x2
x3
x4
x5
x6
x7
x8
x9
Washington
10
2113
1985
38.9
64.7
4
868
59.7
2205
1917
Minnesota
11
2003
2855
38.8
61.3
3
615
55.0
2096
1575
New England
11
2957
1737
40.1
60.0
14
914
65.6
1847
2175
Oakland
13
2285
2905
41.6
45.3
-4
957
61.4
1903
2476
Pittsburgh
10
2971
1666
39.2
53.8
15
836
66.1
1457
1866
Baltimore
11
2309
2927
39.7
74.1
8
786
61.0
1848
2339
Los Angeles
10
2528
2341
38.1
65.4
12
754
66.1
1564
2092
Dallas
11
2147
2737
37.0
78.3
-1
761
58.0
1821
1909
Atlanta
4
1689
1414
42.1
47.6
-3
714
57.0
2577
2001
Buffalo
2
2566
1838
42.3
54.2
-1
797
58.9
2476
2254
Chicago
7
2363
1480
37.3
48.0
19
984
67.5
1984
2217
Cincinnati
10
2109
2191
39.5
51.9
6
700
57.2
1917
1758
Cleveland
9
2295
2229
37.4
53.6
-5
1037
57.8
1761
2032
Denver
9
1932
2204
35.1
71.4
3
986
58.6
1790
2025
Detroit
6
2128
2438
38.8
58.3
6
819
59.2
1901
1686
Green Bay
5
1722
1730
36.6
52.6
-19
791
54.4
2288
1835
Houston
5
1498
2072
35.3
59.3
-5
776
49.6
2072
1914
Kansas City
5
1873
2929
41.1
55.3
10
789
54.3
2861
2496
Miami
6
2118
2268
38.2
69.6
6
582
58.7
2411
2670
New Orleans
4
1775
1983
39.3
78.3
7
901
51.7
2289
2202
New York Giants
3
1904
1792
39.7
38.1
-9
734
61.9
2203
1988
New York Jets
3
1929
1606
39.7
68.8
-21
627
52.7
2592
2324
Philadelphia
4
2080
1492
35.5
68.8
-8
722
57.8
2053
2550
St. Louis
10
2301
2835
35.3
74.1
2
683
59.7
1979
2110
San Diego
6
2040
2416
38.7
50.0
0
576
54.9
2048
2628
San Francisco
8
2447
1638
39.9
57.1
-8
848
65.3
1786
1776
Seattle
2
1416
2649
37.4
56.3
-22
684
43.8
2876
2524
Tampa Bay
0
1503
1503
39.3
47.0
-9
875
53.5
2560
2241
Definições das variáveis:
\(y\): Jogos vencidos (por temporada de 14 jogos)
\(x_1\): Jardas conquistadas em corrida (temporada)
\(x_2\): Jardas de passe (temporada)
\(x_3\): Média de punt (jardas/punt)
\(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
\(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
\(x_6\): Jardas de penalidade (temporada)
\(x_7\): Percentual de corrida (corridas/jogadas totais)
\(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
\(x_9\): Jardas de passe dos adversários (temporada)
Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).
Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.
Calcule as estatísticas \(t\) para testar as hipóteses: \(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\) e \(H_0: \beta_8 = 0\). Quais conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.
Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?
Construa um gráfico de probabilidade normal dos resíduos. Há indícios de violação da suposição de normalidade? Realize os testes de normalidade de Shapiro-Wilk e Kolmogorov-Smirnov. O que você conclui?
Calcule os resíduos studentizados e os resíduos Rstudent para este modelo. Que tipo de informação é fornecida por esses resíduos?
Construa e interprete o gráfico dos resíduos studentizados em função da resposta predita. Realize o teste de homocedasticidade de Breusch-Pagan. O que você conclui?
Calcule as correlações entre as variáveis independentes \(x_2\), \(x_7\) e \(x_8\). Existe multicolinearidade entre essas variáveis? Justifique sua resposta.
Calcule o VIF (Variance Inflation Factor) para as variáveis \(x_2\), \(x_7\) e \(x_8\). O que você conclui? Os valores do VIF são úteis para indicar multicolinearidade. Valores de VIF superior a 5 ou 10 sugerem multicolinearidade. Use a função vif() do pacote car para calcular o VIF.
Calcule a estatística PRESS (Press Residual Sum of Squares) para os modelos completo (com \(x_2\), \(x_7\) e \(x_8\)) e reduzido (apenas com \(x_2\) e \(x_8\)). O que você conclui?
Calcule os valores dos pontos de alavancagem (leverage). Quais observações são consideradas influentes? Lembre-se que valores superiores a\(2p/n\) (onde \(p\) é o número de parâmetros do modelo e \(n\) é o número de observações) são considerados influentes.
Calcule os valores da distância de Cook. Quais observações são consideradas influentes? Lembre-se que valores superiores a 1 são considerados influentes.
Calcule os valores de DFBETAS. Quais observações são consideradas influentes? Lembre-se que valores superiores a\(2/\sqrt{n}\) merecem atenção.
Calcule os valores de DFFITS. Quais observações são consideradas influentes? Lembre-se que valores superiores a\(2\sqrt{p/n}\) merecem atenção.
Construa um modelo de regressão linear relacionando o número de jogos vencidos com:
jardas terrestres dos adversários (\(x_8\)),
porcentagem de jogadas terrestres (\(x_7\)) e
diferença de turnovers (turnovers ganhos - turnovers perdidos) (\(x_5\)).
Especificamente, considere a diferença de turnovers como uma variável indicadora, cuja codificação depende de o valor real do diferencial ser positivo, negativo ou igual a zero. Ou seja, considere \(x_5\) como uma variável indicadora que assume os seguintes valores:
Qual é a interpretação do coeficiente estimado para \(x_5\)? O que você conclui sobre o efeito dos turnovers no número de jogos vencidos?
Considerando todas as variáveis disponíveis, utilize o método de seleção de variáveis forward (seleção progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis forward (seleção progressiva) é um método de seleção de variáveis que começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis significativas a serem adicionadas.
Utilize o método de seleção de variáveis backward (eliminacão progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis backward (eliminacão progressiva) é um método de seleção de variáveis que começa com um modelo completo (com todas as variáveis preditoras) e remove variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis insignificativas a serem removidas.
Utilize o método de seleção de variáveis stepwise (passo a passo) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis stepwise (passo a passo) é um método de seleção de variáveis que combina os métodos forward e backward. Ele começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, mas também pode remover variáveis preditoras que se tornam não significativas à medida que novas variáveis são adicionadas.
Usando o método de validação cruzada leave-one-out (LOOCV), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada leave-one-out (LOOCV) é uma técnica de validação cruzada onde cada observação do conjunto de dados é usada como um ponto de teste, enquanto todas as outras observações são usadas como pontos de treinamento. Isso é repetido para cada observação, e o erro médio de previsão é calculado. Existe também o método leave-p-out.
Usando o método de validação cruzada k-fold, com \(k = 3\), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada k-fold é uma técnica de validação cruzada onde o conjunto de dados é dividido em k subconjuntos (folds). O modelo é treinado em k-1 folds e testado no fold restante. Isso é repetido k vezes, e o erro médio de previsão é calculado.