Análise de Regressão
Bacharelado em Estatística - UFMT
Lista de exercícios 3
- A Tabela 1 apresenta dados sobre o desempenho das 26 equipes da National Football League em 1976. Suspeita-se que o número de jardas conquistadas em corridas pelos adversários \(x_8\) tenha um efeito sobre o número de jogos vencidos por uma equipe \(y\).
Ajuste um modelo de regressão linear simples relacionando o número de jogos vencidos \(y\) ao número de jardas conquistadas em corridas pelos adversários \(x_8\).
Construa a tabela de análise de variância e teste a significância da regressão.
Encontre um intervalo de confiança de 95% para o coeficiente angular.
Qual porcentagem da variabilidade total em \(y\) é explicada por este modelo?
Encontre um intervalo de confiança de \(95\%\) para o número médio de jogos vencidos se o número de jardas conquistadas em corridas pelos adversários for limitado a 2000 jardas.
Tabela 1: Desempenho das Equipes da National Football League de 1976
Equipe | \(y\) | \(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) | \(x_6\) | \(x_7\) | \(x_8\) | \(x_9\) |
---|---|---|---|---|---|---|---|---|---|---|
Washington | 10 | 2113 | 1985 | 38,9 | 64,7 | +4 | 868 | 59,7 | 2205 | 1917 |
Minnesota | 11 | 2003 | 2855 | 38,8 | 61,3 | +3 | 615 | 55,0 | 2096 | 1575 |
New England | 11 | 2957 | 1737 | 40,1 | 60,0 | +14 | 914 | 65,6 | 1847 | 2175 |
Oakland | 13 | 2285 | 2905 | 41,6 | 45,3 | −4 | 957 | 61,4 | 1903 | 2476 |
Pittsburgh | 10 | 2971 | 1666 | 39,2 | 53,8 | +15 | 836 | 66,1 | 1457 | 1866 |
Baltimore | 11 | 2309 | 2927 | 39,7 | 74,1 | +8 | 786 | 61,0 | 1848 | 2339 |
Los Angeles | 10 | 2528 | 2341 | 38,1 | 65,4 | +12 | 754 | 66,1 | 1564 | 2092 |
Dallas | 11 | 2147 | 2737 | 37,0 | 78,3 | −1 | 761 | 58,0 | 1821 | 1909 |
Atlanta | 4 | 1689 | 1414 | 42,1 | 47,6 | −3 | 714 | 57,0 | 2577 | 2001 |
Buffalo | 2 | 2566 | 1838 | 42,3 | 54,2 | −1 | 797 | 58,9 | 2476 | 2254 |
Chicago | 7 | 2363 | 1480 | 37,3 | 48,0 | +19 | 984 | 67,5 | 1984 | 2217 |
Cincinnati | 10 | 2109 | 2191 | 39,5 | 51,9 | +6 | 700 | 57,2 | 1917 | 1758 |
Cleveland | 9 | 2295 | 2229 | 37,4 | 53,6 | −5 | 1037 | 57,8 | 1761 | 2032 |
Denver | 9 | 1932 | 2204 | 35,1 | 71,4 | +3 | 986 | 58,6 | 1790 | 2025 |
Detroit | 6 | 2128 | 2438 | 38,8 | 58,3 | +6 | 819 | 59,2 | 1901 | 1686 |
Green Bay | 5 | 1722 | 1730 | 36,6 | 52,6 | −19 | 791 | 54,4 | 2288 | 1835 |
Houston | 5 | 1498 | 2072 | 35,3 | 59,3 | −5 | 776 | 49,6 | 2072 | 1914 |
Kansas City | 5 | 1873 | 2929 | 41,1 | 55,3 | +10 | 789 | 54,3 | 2861 | 2496 |
Miami | 6 | 2118 | 2268 | 38,2 | 69,6 | +6 | 582 | 58,7 | 2411 | 2670 |
New Orleans | 4 | 1775 | 1983 | 39,3 | 78,3 | +7 | 901 | 51,7 | 2289 | 2202 |
New York Giants | 3 | 1904 | 1792 | 39,7 | 38,1 | −9 | 734 | 61,9 | 2203 | 1988 |
New York Jets | 3 | 1929 | 1606 | 39,7 | 68,8 | −21 | 627 | 52,7 | 2592 | 2324 |
Philadelphia | 4 | 2080 | 1492 | 35,5 | 68,8 | −8 | 722 | 57,8 | 2053 | 2550 |
St. Louis | 10 | 2301 | 2835 | 35,3 | 74,1 | +2 | 683 | 59,7 | 1979 | 2110 |
San Diego | 6 | 2040 | 2416 | 38,7 | 50,0 | 0 | 576 | 54,9 | 2048 | 2628 |
San Francisco | 8 | 2447 | 1638 | 39,9 | 57,1 | −8 | 848 | 65,3 | 1786 | 1776 |
Seattle | 2 | 1416 | 2649 | 37,4 | 56,3 | −22 | 684 | 43,8 | 2876 | 2524 |
Tampa Bay | 0 | 1503 | 1503 | 39,3 | 47,0 | −9 | 875 | 53,5 | 2560 | 2241 |
Definições das variáveis:
- \(y\): Jogos vencidos (por temporada de 14 jogos)
- \(x_1\): Jardas conquistadas em corrida (temporada)
- \(x_2\): Jardas de passe (temporada)
- \(x_3\): Média de punt (jardas/punt)
- \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
- \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
- \(x_6\): Jardas de penalidade (temporada)
- \(x_7\): Percentual de corrida (corridas/jogadas totais)
- \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
- \(x_9\): Jardas de passe dos adversários (temporada)
- Em 1º de março de 1984, o Wall Street Journal publicou uma pesquisa sobre anúncios televisivos conduzida pela Video Board Tests, Inc., uma empresa de testes de publicidade de Nova York, que entrevistou 4000 adultos. Esses indivíduos eram consumidores regulares de produtos e foram questionados sobre comerciais que haviam assistido para determinada categoria de produto na última semana.
Neste caso, a variável resposta é o número de milhões de impressões retidas por semana. A variável explicativa é o valor gasto pela empresa em publicidade. Os dados são apresentados a seguir:
Tabela. Gastos em publicidade e impressões retidas
Empresa | Gasto (milhões) | Impressões Retidas (milhões) |
---|---|---|
Miller Lite | 50,1 | 32,1 |
Pepsi | 74,1 | 99,6 |
Stroh’s | 19,3 | 11,7 |
Federal Express | 22,9 | 21,9 |
Burger King | 82,4 | 60,8 |
Coca-Cola | 40,1 | 78,6 |
McDonald’s | 185,9 | 92,4 |
MCI | 26,9 | 50,7 |
Diet Cola | 20,4 | 21,4 |
Ford | 166,2 | 40,1 |
Levi’s | 27,0 | 40,8 |
Bud Lite | 45,6 | 10,4 |
ATT Bell | 154,9 | 88,9 |
Calvin Klein | 5,0 | 12,0 |
Wendy’s | 49,7 | 29,2 |
Polaroid | 26,9 | 38,0 |
Shasta | 5,7 | 10,0 |
Meow Mix | 7,6 | 12,3 |
Oscar Meyer | 9,2 | 23,4 |
Crest | 32,4 | 71,1 |
Kibbles N Bits | 6,1 | 4,4 |
Ajuste um modelo de regressão linear simples para esses dados.
Existe uma relação significativa entre o valor gasto por uma empresa em publicidade e as impressões retidas? Justifique sua resposta estatisticamente.
- Considere o modelo de regressão linear simples \(y = \beta_0 + \beta_1 x + \varepsilon\), com \(E(\varepsilon) = 0\), \(Var(\varepsilon) = \sigma^2\), e os erros \(\varepsilon\) são não correlacionados.
- Mostre que:
\[\text{Cov} \left( \hat{\beta}_0, \hat{\beta}_1 \right) = -\bar{x} \sigma^2/S_{xx}.\]
- Mostre que:
\[\text{Cov} \left( \bar{y}, \hat{\beta}_1 \right) = 0.\]
- Mostre que:
\[E(MS_R) = \sigma^2 + \beta_1^2 S_{xx}.\]
- Mostre que:
\[E(MS_{Res}) = \sigma^2.\]
- Considere um conjunto de dados com \(n\) observações, representado por pares ordenados \((x_i, y_i)\), \(i = 1, 2, \cdots, n\). As médias amostrais de \(x\) e \(y\) são, respectivamente, \(\bar{x}\) e \(\bar{y}\).
O coeficiente angular \(\beta_1\) da reta de regressão linear simples de \(Y\) sobre \(X\) é dado por:
\[b_1 = \frac{S_{xy}}{S_{xx}},\]
em que: \(S_{xy} = \sum (x_i - \bar{x})(y_i - \bar{y})\), \(S_{xx} = \sum (x_i - \bar{x})^2\) e \(S_{yy} = \sum (y_i - \bar{y})^2\).
O coeficiente de correlação de Pearson é: \[r = \frac{S_{xy}}{\sqrt{S_{xx} \cdot S_{yy}}}\]
Os desvios padrão amostrais de \(X\) e \(Y\) são: \[s_x = \sqrt{\frac{S_{xx}}{n - 1}}, \quad \text{e} \quad s_y = \sqrt{\frac{S_{yy}}{n - 1}}.\]
Demonstre que:
\[\beta_1 = r \sqrt{\frac{S_{yy}}{S_{xx}}}\]
\[\beta_1 = r \frac{s_y}{s_x}\]