Análise de Regressão
Bacharelado em Estatística - UFMT
Lista de exercícios 5
- Considere os dados da Liga Nacional de Futebol Americano (NFL) na Tabela 1.
Tabela 1: Desempenho das Equipes da National Football League de 1976
Equipe | \(y\) | \(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) | \(x_6\) | \(x_7\) | \(x_8\) | \(x_9\) |
---|---|---|---|---|---|---|---|---|---|---|
Washington | 10 | 2113 | 1985 | 38,9 | 64,7 | +4 | 868 | 59,7 | 2205 | 1917 |
Minnesota | 11 | 2003 | 2855 | 38,8 | 61,3 | +3 | 615 | 55,0 | 2096 | 1575 |
New England | 11 | 2957 | 1737 | 40,1 | 60,0 | +14 | 914 | 65,6 | 1847 | 2175 |
Oakland | 13 | 2285 | 2905 | 41,6 | 45,3 | −4 | 957 | 61,4 | 1903 | 2476 |
Pittsburgh | 10 | 2971 | 1666 | 39,2 | 53,8 | +15 | 836 | 66,1 | 1457 | 1866 |
Baltimore | 11 | 2309 | 2927 | 39,7 | 74,1 | +8 | 786 | 61,0 | 1848 | 2339 |
Los Angeles | 10 | 2528 | 2341 | 38,1 | 65,4 | +12 | 754 | 66,1 | 1564 | 2092 |
Dallas | 11 | 2147 | 2737 | 37,0 | 78,3 | −1 | 761 | 58,0 | 1821 | 1909 |
Atlanta | 4 | 1689 | 1414 | 42,1 | 47,6 | −3 | 714 | 57,0 | 2577 | 2001 |
Buffalo | 2 | 2566 | 1838 | 42,3 | 54,2 | −1 | 797 | 58,9 | 2476 | 2254 |
Chicago | 7 | 2363 | 1480 | 37,3 | 48,0 | +19 | 984 | 67,5 | 1984 | 2217 |
Cincinnati | 10 | 2109 | 2191 | 39,5 | 51,9 | +6 | 700 | 57,2 | 1917 | 1758 |
Cleveland | 9 | 2295 | 2229 | 37,4 | 53,6 | −5 | 1037 | 57,8 | 1761 | 2032 |
Denver | 9 | 1932 | 2204 | 35,1 | 71,4 | +3 | 986 | 58,6 | 1790 | 2025 |
Detroit | 6 | 2128 | 2438 | 38,8 | 58,3 | +6 | 819 | 59,2 | 1901 | 1686 |
Green Bay | 5 | 1722 | 1730 | 36,6 | 52,6 | −19 | 791 | 54,4 | 2288 | 1835 |
Houston | 5 | 1498 | 2072 | 35,3 | 59,3 | −5 | 776 | 49,6 | 2072 | 1914 |
Kansas City | 5 | 1873 | 2929 | 41,1 | 55,3 | +10 | 789 | 54,3 | 2861 | 2496 |
Miami | 6 | 2118 | 2268 | 38,2 | 69,6 | +6 | 582 | 58,7 | 2411 | 2670 |
New Orleans | 4 | 1775 | 1983 | 39,3 | 78,3 | +7 | 901 | 51,7 | 2289 | 2202 |
New York Giants | 3 | 1904 | 1792 | 39,7 | 38,1 | −9 | 734 | 61,9 | 2203 | 1988 |
New York Jets | 3 | 1929 | 1606 | 39,7 | 68,8 | −21 | 627 | 52,7 | 2592 | 2324 |
Philadelphia | 4 | 2080 | 1492 | 35,5 | 68,8 | −8 | 722 | 57,8 | 2053 | 2550 |
St. Louis | 10 | 2301 | 2835 | 35,3 | 74,1 | +2 | 683 | 59,7 | 1979 | 2110 |
San Diego | 6 | 2040 | 2416 | 38,7 | 50,0 | 0 | 576 | 54,9 | 2048 | 2628 |
San Francisco | 8 | 2447 | 1638 | 39,9 | 57,1 | −8 | 848 | 65,3 | 1786 | 1776 |
Seattle | 2 | 1416 | 2649 | 37,4 | 56,3 | −22 | 684 | 43,8 | 2876 | 2524 |
Tampa Bay | 0 | 1503 | 1503 | 39,3 | 47,0 | −9 | 875 | 53,5 | 2560 | 2241 |
Definições das variáveis:
- \(y\): Jogos vencidos (por temporada de 14 jogos)
- \(x_1\): Jardas conquistadas em corrida (temporada)
- \(x_2\): Jardas de passe (temporada)
- \(x_3\): Média de punt (jardas/punt)
- \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
- \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
- \(x_6\): Jardas de penalidade (temporada)
- \(x_7\): Percentual de corrida (corridas/jogadas totais)
- \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
- \(x_9\): Jardas de passe dos adversários (temporada)
Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).
Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.
Calcule as estatísticas \(t\) para testar as hipóteses:
\(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\), \(H_0: \beta_8 = 0\). Que conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?
d. Pesquise sobre \(R^2_{\text{aj}}\) (ajustado). Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.
e. Pesquise sobre teste \(F\) parcial. Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?
Usando os resultados do exercício 1, mostre numericamente que o quadrado do coeficiente de correlação simples entre os valores observados \(y_i\) e os valores ajustados \(\hat{y}_i\) é igual ao \(R^2\).
Considerando o exercício 1:
Encontre um intervalo de confiança (IC) de 95% para \(\beta_7\).
Encontre um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_2 = 2300\), \(x_7 = 56,0\) e \(x_8 = 2100\).
- Considerando os dados do exercício 1, ajuste um modelo usando apenas \(x_7\) e \(x_8\) como regressores.
Teste a significância da regressão.
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\). Como esses valores se comparam aos valores obtidos para o modelo do exercício 1, que incluía um regressor adicional (\(x_2\))?
Calcule um intervalo de confiança de 95% para \(\beta_7\). Calcule também um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_7 = 56,0\) e \(x_8 = 2100\). Compare o comprimento desses intervalos com os intervalos correspondentes obtidos no exercício 3.
Que conclusões você pode tirar deste problema sobre as consequências de se omitir um regressor importante de um modelo?
- McDonald e Ayers (1978) apresentam dados de um estudo inicial que examinou a possível relação entre poluição do ar e mortalidade. A Tabela B.15 resume os dados. A variável resposta MORT é a mortalidade total ajustada por idade, considerando todas as causas, em mortes por 100.000 habitantes. O regressor PRECIP é a precipitação anual média (em polegadas), EDUC é o número mediano de anos escolares completos para pessoas com idade igual ou superior a 25 anos, NONWHITE é a porcentagem da população não branca de 1960, NOX é o potencial relativo de poluição por óxidos de nitrogênio, e SO₂ é o potencial relativo de poluição por dióxido de enxofre. O “potencial relativo de poluição” é o produto das toneladas emitidas por dia por quilômetro quadrado e um fator de correção das dimensões e exposição das SMSA (áreas metropolitanas).
Ajuste um modelo de regressão linear múltipla relacionando a taxa de mortalidade a esses regressores.
Teste a significância da regressão. Que conclusões você pode tirar?
Utilize testes \(t\) para avaliar a contribuição de cada regressor ao modelo. Discuta seus achados.
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) para este modelo.
Obtenha um intervalo de confiança de 95% para o coeficiente de regressão de SO₂
- Suponha que desejamos utilizar o modelo desenvolvido no exercício 1 para prever o número de jogos que uma equipe vencerá se conseguir limitar o número de jardas conquistadas em corridas pelos adversários a 1800 jardas.
Encontre uma estimativa pontual para o número de jogos vencidos quando \(x_8 = 1800\).
Encontre um intervalo de predição de \(90\%\) para o número de jogos vencidos.