Análise de Regressão

Author
Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Lista de exercícios 5

  1. Considere os dados da Liga Nacional de Futebol Americano (NFL) na Tabela 1.

Tabela 1: Desempenho das Equipes da National Football League de 1976

Equipe \(y\) \(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\)
Washington 10 2113 1985 38,9 64,7 +4 868 59,7 2205 1917
Minnesota 11 2003 2855 38,8 61,3 +3 615 55,0 2096 1575
New England 11 2957 1737 40,1 60,0 +14 914 65,6 1847 2175
Oakland 13 2285 2905 41,6 45,3 −4 957 61,4 1903 2476
Pittsburgh 10 2971 1666 39,2 53,8 +15 836 66,1 1457 1866
Baltimore 11 2309 2927 39,7 74,1 +8 786 61,0 1848 2339
Los Angeles 10 2528 2341 38,1 65,4 +12 754 66,1 1564 2092
Dallas 11 2147 2737 37,0 78,3 −1 761 58,0 1821 1909
Atlanta 4 1689 1414 42,1 47,6 −3 714 57,0 2577 2001
Buffalo 2 2566 1838 42,3 54,2 −1 797 58,9 2476 2254
Chicago 7 2363 1480 37,3 48,0 +19 984 67,5 1984 2217
Cincinnati 10 2109 2191 39,5 51,9 +6 700 57,2 1917 1758
Cleveland 9 2295 2229 37,4 53,6 −5 1037 57,8 1761 2032
Denver 9 1932 2204 35,1 71,4 +3 986 58,6 1790 2025
Detroit 6 2128 2438 38,8 58,3 +6 819 59,2 1901 1686
Green Bay 5 1722 1730 36,6 52,6 −19 791 54,4 2288 1835
Houston 5 1498 2072 35,3 59,3 −5 776 49,6 2072 1914
Kansas City 5 1873 2929 41,1 55,3 +10 789 54,3 2861 2496
Miami 6 2118 2268 38,2 69,6 +6 582 58,7 2411 2670
New Orleans 4 1775 1983 39,3 78,3 +7 901 51,7 2289 2202
New York Giants 3 1904 1792 39,7 38,1 −9 734 61,9 2203 1988
New York Jets 3 1929 1606 39,7 68,8 −21 627 52,7 2592 2324
Philadelphia 4 2080 1492 35,5 68,8 −8 722 57,8 2053 2550
St. Louis 10 2301 2835 35,3 74,1 +2 683 59,7 1979 2110
San Diego 6 2040 2416 38,7 50,0 0 576 54,9 2048 2628
San Francisco 8 2447 1638 39,9 57,1 −8 848 65,3 1786 1776
Seattle 2 1416 2649 37,4 56,3 −22 684 43,8 2876 2524
Tampa Bay 0 1503 1503 39,3 47,0 −9 875 53,5 2560 2241

Definições das variáveis:

  • \(y\): Jogos vencidos (por temporada de 14 jogos)
  • \(x_1\): Jardas conquistadas em corrida (temporada)
  • \(x_2\): Jardas de passe (temporada)
  • \(x_3\): Média de punt (jardas/punt)
  • \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
  • \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
  • \(x_6\): Jardas de penalidade (temporada)
  • \(x_7\): Percentual de corrida (corridas/jogadas totais)
  • \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
  • \(x_9\): Jardas de passe dos adversários (temporada)
  1. Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).

  2. Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.

  3. Calcule as estatísticas \(t\) para testar as hipóteses:

\(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\), \(H_0: \beta_8 = 0\). Que conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?

d. Pesquise sobre \(R^2_{\text{aj}}\) (ajustado). Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.

e. Pesquise sobre teste \(F\) parcial. Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?

  1. Usando os resultados do exercício 1, mostre numericamente que o quadrado do coeficiente de correlação simples entre os valores observados \(y_i\) e os valores ajustados \(\hat{y}_i\) é igual ao \(R^2\).

  2. Considerando o exercício 1:

  1. Encontre um intervalo de confiança (IC) de 95% para \(\beta_7\).

  2. Encontre um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_2 = 2300\), \(x_7 = 56,0\) e \(x_8 = 2100\).

  1. Considerando os dados do exercício 1, ajuste um modelo usando apenas \(x_7\) e \(x_8\) como regressores.
  1. Teste a significância da regressão.

  2. Calcule o \(R^2\) e o \(R^2_{\text{aj}}\). Como esses valores se comparam aos valores obtidos para o modelo do exercício 1, que incluía um regressor adicional (\(x_2\))?

  3. Calcule um intervalo de confiança de 95% para \(\beta_7\). Calcule também um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_7 = 56,0\) e \(x_8 = 2100\). Compare o comprimento desses intervalos com os intervalos correspondentes obtidos no exercício 3.

  4. Que conclusões você pode tirar deste problema sobre as consequências de se omitir um regressor importante de um modelo?

  1. McDonald e Ayers (1978) apresentam dados de um estudo inicial que examinou a possível relação entre poluição do ar e mortalidade. A Tabela B.15 resume os dados. A variável resposta MORT é a mortalidade total ajustada por idade, considerando todas as causas, em mortes por 100.000 habitantes. O regressor PRECIP é a precipitação anual média (em polegadas), EDUC é o número mediano de anos escolares completos para pessoas com idade igual ou superior a 25 anos, NONWHITE é a porcentagem da população não branca de 1960, NOX é o potencial relativo de poluição por óxidos de nitrogênio, e SO₂ é o potencial relativo de poluição por dióxido de enxofre. O “potencial relativo de poluição” é o produto das toneladas emitidas por dia por quilômetro quadrado e um fator de correção das dimensões e exposição das SMSA (áreas metropolitanas).
  1. Ajuste um modelo de regressão linear múltipla relacionando a taxa de mortalidade a esses regressores.

  2. Teste a significância da regressão. Que conclusões você pode tirar?

  3. Utilize testes \(t\) para avaliar a contribuição de cada regressor ao modelo. Discuta seus achados.

  4. Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) para este modelo.

  5. Obtenha um intervalo de confiança de 95% para o coeficiente de regressão de SO₂

  1. Suponha que desejamos utilizar o modelo desenvolvido no exercício 1 para prever o número de jogos que uma equipe vencerá se conseguir limitar o número de jardas conquistadas em corridas pelos adversários a 1800 jardas.
  1. Encontre uma estimativa pontual para o número de jogos vencidos quando \(x_8 = 1800\).

  2. Encontre um intervalo de predição de \(90\%\) para o número de jogos vencidos.


@profjulianobortolini      www.julianobortolini.com.br      linkedin      github       lattes