Análise de Regressão

Author

Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Lista de exercícios 5

Considere os dados da Liga Nacional de Futebol Americano (NFL) na Tabela 1.

equipe <- c("Washington", "Minnesota", "New England", "Oakland", "Pittsburgh", 
            "Baltimore", "Los Angeles", "Dallas", "Atlanta", "Buffalo",
            "Chicago", "Cincinnati", "Cleveland", "Denver", "Detroit",
            "Green Bay", "Houston", "Kansas City", "Miami", "New Orleans",
            "New York Giants", "New York Jets", "Philadelphia", "St. Louis", "San Diego",
            "San Francisco", "Seattle", "Tampa Bay")

y <- c(10, 11, 11, 13, 10,
       11, 10, 11, 4, 2,
       7, 10, 9, 9, 6,
       5, 5, 5, 6, 4, 
       3, 3, 4, 10, 6, 
       8, 2, 0)

x1 <- c(2113, 2003, 2957, 2285, 2971,
        2309, 2528, 2147, 1689, 2566,
        2363, 2109, 2295, 1932, 2128,
        1722, 1498, 1873, 2118, 1775,
        1904, 1929, 2080, 2301, 2040,
        2447, 1416, 1503)

x2 <- c(1985, 2855, 1737, 2905, 1666,
        2927, 2341, 2737, 1414, 1838,
        1480, 2191, 2229, 2204, 2438,
        1730, 2072, 2929, 2268, 1983,
        1792, 1606, 1492, 2835, 2416,
        1638, 2649, 1503)

x3 <- c(38.9, 38.8, 40.1, 41.6, 39.2,
        39.7, 38.1, 37.0, 42.1, 42.3,
        37.3, 39.5, 37.4, 35.1, 38.8,
        36.6, 35.3, 41.1, 38.2, 39.3,
        39.7, 39.7, 35.5, 35.3, 38.7,
        39.9, 37.4, 39.3)


x4 <- c(64.7, 61.3, 60.0, 45.3, 53.8,
        74.1, 65.4, 78.3, 47.6, 54.2,
        48.0, 51.9, 53.6, 71.4, 58.3,
        52.6, 59.3, 55.3, 69.6, 78.3,
        38.1, 68.8, 68.8, 74.1, 50.0,
        57.1, 56.3, 47.0)

x5 <- c(4, 3, 14, -4, 15,
        8, 12, -1, -3, -1,
        19, 6, -5, 3, 6,
        -19, -5, 10, 6, 7,
        -9, -21, -8, 2, 0,
        -8, -22, -9)

x6 <- c(868, 615, 914, 957, 836,
        786, 754, 761, 714, 797,
        984, 700, 1037, 986, 819,
        791, 776, 789, 582, 901,
        734, 627, 722, 683, 576,
        848, 684, 875)

x7 <- c(59.7, 55.0, 65.6, 61.4, 66.1,
        61.0, 66.1, 58.0, 57.0, 58.9,
        67.5, 57.2, 57.8, 58.6, 59.2,
        54.4, 49.6, 54.3, 58.7, 51.7,
        61.9, 52.7, 57.8, 59.7, 54.9,
        65.3, 43.8, 53.5)

x8 <- c(2205, 2096, 1847, 1903, 1457,
        1848, 1564, 1821, 2577, 2476,
        1984, 1917, 1761, 1790, 1901,
        2288, 2072, 2861, 2411, 2289,
        2203, 2592, 2053, 1979, 2048,
        1786, 2876, 2560)

x9 <- c(1917, 1575, 2175, 2476, 1866,
        2339, 2092, 1909, 2001, 2254,
        2217, 1758, 2032, 2025, 1686,
        1835, 1914, 2496, 2670, 2202,
        1988, 2324, 2550, 2110, 2628,
        1776, 2524, 2241)




tabela1 <- data.frame(equipe, y, x1, x2, x3, x4, x5, x6, x7, x8, x9)

knitr::kable(tabela1, caption = "Tabela 1: Desempenho das Equipes da National Football League de 1976")

Tabela 1: Desempenho das Equipes da National Football League de 1976
equipe	y	x1	x2	x3	x4	x5	x6	x7	x8	x9
Washington	10	2113	1985	38.9	64.7	4	868	59.7	2205	1917
Minnesota	11	2003	2855	38.8	61.3	3	615	55.0	2096	1575
New England	11	2957	1737	40.1	60.0	14	914	65.6	1847	2175
Oakland	13	2285	2905	41.6	45.3	-4	957	61.4	1903	2476
Pittsburgh	10	2971	1666	39.2	53.8	15	836	66.1	1457	1866
Baltimore	11	2309	2927	39.7	74.1	8	786	61.0	1848	2339
Los Angeles	10	2528	2341	38.1	65.4	12	754	66.1	1564	2092
Dallas	11	2147	2737	37.0	78.3	-1	761	58.0	1821	1909
Atlanta	4	1689	1414	42.1	47.6	-3	714	57.0	2577	2001
Buffalo	2	2566	1838	42.3	54.2	-1	797	58.9	2476	2254
Chicago	7	2363	1480	37.3	48.0	19	984	67.5	1984	2217
Cincinnati	10	2109	2191	39.5	51.9	6	700	57.2	1917	1758
Cleveland	9	2295	2229	37.4	53.6	-5	1037	57.8	1761	2032
Denver	9	1932	2204	35.1	71.4	3	986	58.6	1790	2025
Detroit	6	2128	2438	38.8	58.3	6	819	59.2	1901	1686
Green Bay	5	1722	1730	36.6	52.6	-19	791	54.4	2288	1835
Houston	5	1498	2072	35.3	59.3	-5	776	49.6	2072	1914
Kansas City	5	1873	2929	41.1	55.3	10	789	54.3	2861	2496
Miami	6	2118	2268	38.2	69.6	6	582	58.7	2411	2670
New Orleans	4	1775	1983	39.3	78.3	7	901	51.7	2289	2202
New York Giants	3	1904	1792	39.7	38.1	-9	734	61.9	2203	1988
New York Jets	3	1929	1606	39.7	68.8	-21	627	52.7	2592	2324
Philadelphia	4	2080	1492	35.5	68.8	-8	722	57.8	2053	2550
St. Louis	10	2301	2835	35.3	74.1	2	683	59.7	1979	2110
San Diego	6	2040	2416	38.7	50.0	0	576	54.9	2048	2628
San Francisco	8	2447	1638	39.9	57.1	-8	848	65.3	1786	1776
Seattle	2	1416	2649	37.4	56.3	-22	684	43.8	2876	2524
Tampa Bay	0	1503	1503	39.3	47.0	-9	875	53.5	2560	2241

Definições das variáveis:

\(y\): Jogos vencidos (por temporada de 14 jogos)
\(x_1\): Jardas conquistadas em corrida (temporada)
\(x_2\): Jardas de passe (temporada)
\(x_3\): Média de punt (jardas/punt)
\(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
\(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
\(x_6\): Jardas de penalidade (temporada)
\(x_7\): Percentual de corrida (corridas/jogadas totais)
\(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
\(x_9\): Jardas de passe dos adversários (temporada)

Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).
Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.
Calcule as estatísticas \(t\) para testar as hipóteses: \(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\) e \(H_0: \beta_8 = 0\). Quais conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.
Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?
Construa um gráfico de probabilidade normal dos resíduos. Há indícios de violação da suposição de normalidade? Realize os testes de normalidade de Shapiro-Wilk e Kolmogorov-Smirnov. O que você conclui?
Calcule os resíduos studentizados e os resíduos Rstudent para este modelo. Que tipo de informação é fornecida por esses resíduos?
Construa e interprete o gráfico dos resíduos studentizados em função da resposta predita. Realize o teste de homocedasticidade de Breusch-Pagan. O que você conclui?
Calcule as correlações entre as variáveis independentes \(x_2\), \(x_7\) e \(x_8\). Existe multicolinearidade entre essas variáveis? Justifique sua resposta.
Calcule o VIF (Variance Inflation Factor) para as variáveis \(x_2\), \(x_7\) e \(x_8\). O que você conclui? Os valores do VIF são úteis para indicar multicolinearidade. Valores de VIF superior a 5 ou 10 sugerem multicolinearidade. Use a função vif() do pacote car para calcular o VIF.
Calcule a estatística PRESS (Press Residual Sum of Squares) para os modelos completo (com \(x_2\), \(x_7\) e \(x_8\)) e reduzido (apenas com \(x_2\) e \(x_8\)). O que você conclui?
Calcule os valores dos pontos de alavancagem (leverage). Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2p/n\) (onde \(p\) é o número de parâmetros do modelo e \(n\) é o número de observações) são considerados influentes.
Calcule os valores da distância de Cook. Quais observações são consideradas influentes? Lembre-se que valores superiores a 1 são considerados influentes.
Calcule os valores de DFBETAS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2/\sqrt{n}\) merecem atenção.
Calcule os valores de DFFITS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2\sqrt{p/n}\) merecem atenção.
Construa um modelo de regressão linear relacionando o número de jogos vencidos com:

jardas terrestres dos adversários (\(x_8\)),
porcentagem de jogadas terrestres (\(x_7\)) e
diferença de turnovers (turnovers ganhos - turnovers perdidos) (\(x_5\)).

Especificamente, considere a diferença de turnovers como uma variável indicadora, cuja codificação depende de o valor real do diferencial ser positivo, negativo ou igual a zero. Ou seja, considere \(x_5\) como uma variável indicadora que assume os seguintes valores:

\[\begin{align*} x_5 = 1, & \text{ se } x_5 > 0 \\ x_5 = 0, & \text{ se } x_5 = 0 \\ x_5 = -1, & \text{ se } x_5 < 0. \end{align*}\]

Quais conclusões podem ser obtidas sobre o efeito dos turnovers no número de jogos vencidos?

Considerando o enunciado da letra anterior, e se a variável indicadora for definida como:

\[\begin{align*} x_5 = 1, & \text{ se } x_5 > 0 \\ x_5 = 0, & \text{ se } x_5 \leq 0. \end{align*}\]

Qual é a interpretação do coeficiente estimado para \(x_5\)? O que você conclui sobre o efeito dos turnovers no número de jogos vencidos?

Considerando todas as variáveis disponíveis, utilize o método de seleção de variáveis forward (seleção progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis forward (seleção progressiva) é um método de seleção de variáveis que começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis significativas a serem adicionadas.
Utilize o método de seleção de variáveis backward (eliminacão progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis backward (eliminacão progressiva) é um método de seleção de variáveis que começa com um modelo completo (com todas as variáveis preditoras) e remove variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis insignificativas a serem removidas.
Utilize o método de seleção de variáveis stepwise (passo a passo) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis stepwise (passo a passo) é um método de seleção de variáveis que combina os métodos forward e backward. Ele começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, mas também pode remover variáveis preditoras que se tornam não significativas à medida que novas variáveis são adicionadas.
Usando o método de validação cruzada leave-one-out (LOOCV), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada leave-one-out (LOOCV) é uma técnica de validação cruzada onde cada observação do conjunto de dados é usada como um ponto de teste, enquanto todas as outras observações são usadas como pontos de treinamento. Isso é repetido para cada observação, e o erro médio de previsão é calculado. Existe também o método leave-p-out.
Usando o método de validação cruzada k-fold, com \(k = 3\), estime o erro de previsão para os modelos (1) com as variáveis regressoras \(x_2\), \(x_7\) e \(x_8\) e (2) com as variáveis regressoras \(x_2\) e \(x_8\). O que você conclui? O método de validação cruzada k-fold é uma técnica de validação cruzada onde o conjunto de dados é dividido em k subconjuntos (folds). O modelo é treinado em k-1 folds e testado no fold restante. Isso é repetido k vezes, e o erro médio de previsão é calculado.

@profjulianobortolini www.julianobortolini.com.br linkedin github lattes