Country | Sugar.consumption | Depression.rate |
---|---|---|
USA | 300 | 3.0 |
Canada | 390 | 5.2 |
France | 350 | 4.4 |
Germany | 375 | 5.0 |
New Zealand | 480 | 5.7 |
South Korea | 150 | 2.3 |
Análise de Regressão
Bacharelado em Estatística - UFMT
Lista de exercícios 4
- A Tabela 1 apresenta dados sobre o desempenho das 26 equipes da National Football League em 1976. Suspeita-se que o número de jardas conquistadas em corridas pelos adversários \(x_8\) tenha um efeito sobre o número de jogos vencidos por uma equipe \(y\).
Ajuste um modelo de regressão linear simples relacionando o número de jogos vencidos \(y\) ao número de jardas conquistadas em corridas pelos adversários \(x_8\).
Construa a tabela de análise de variância e teste a significância da regressão.
Encontre um intervalo de confiança de 95% para o coeficiente angular.
Qual porcentagem da variabilidade total em \(y\) é explicada por este modelo?
Encontre um intervalo de confiança de \(95\%\) para o número médio de jogos vencidos se o número de jardas conquistadas em corridas pelos adversários for limitado a 2000 jardas.
Tabela 1: Desempenho das Equipes da National Football League de 1976
Equipe | \(y\) | \(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) | \(x_6\) | \(x_7\) | \(x_8\) | \(x_9\) |
---|---|---|---|---|---|---|---|---|---|---|
Washington | 10 | 2113 | 1985 | 38,9 | 64,7 | +4 | 868 | 59,7 | 2205 | 1917 |
Minnesota | 11 | 2003 | 2855 | 38,8 | 61,3 | +3 | 615 | 55,0 | 2096 | 1575 |
New England | 11 | 2957 | 1737 | 40,1 | 60,0 | +14 | 914 | 65,6 | 1847 | 2175 |
Oakland | 13 | 2285 | 2905 | 41,6 | 45,3 | −4 | 957 | 61,4 | 1903 | 2476 |
Pittsburgh | 10 | 2971 | 1666 | 39,2 | 53,8 | +15 | 836 | 66,1 | 1457 | 1866 |
Baltimore | 11 | 2309 | 2927 | 39,7 | 74,1 | +8 | 786 | 61,0 | 1848 | 2339 |
Los Angeles | 10 | 2528 | 2341 | 38,1 | 65,4 | +12 | 754 | 66,1 | 1564 | 2092 |
Dallas | 11 | 2147 | 2737 | 37,0 | 78,3 | −1 | 761 | 58,0 | 1821 | 1909 |
Atlanta | 4 | 1689 | 1414 | 42,1 | 47,6 | −3 | 714 | 57,0 | 2577 | 2001 |
Buffalo | 2 | 2566 | 1838 | 42,3 | 54,2 | −1 | 797 | 58,9 | 2476 | 2254 |
Chicago | 7 | 2363 | 1480 | 37,3 | 48,0 | +19 | 984 | 67,5 | 1984 | 2217 |
Cincinnati | 10 | 2109 | 2191 | 39,5 | 51,9 | +6 | 700 | 57,2 | 1917 | 1758 |
Cleveland | 9 | 2295 | 2229 | 37,4 | 53,6 | −5 | 1037 | 57,8 | 1761 | 2032 |
Denver | 9 | 1932 | 2204 | 35,1 | 71,4 | +3 | 986 | 58,6 | 1790 | 2025 |
Detroit | 6 | 2128 | 2438 | 38,8 | 58,3 | +6 | 819 | 59,2 | 1901 | 1686 |
Green Bay | 5 | 1722 | 1730 | 36,6 | 52,6 | −19 | 791 | 54,4 | 2288 | 1835 |
Houston | 5 | 1498 | 2072 | 35,3 | 59,3 | −5 | 776 | 49,6 | 2072 | 1914 |
Kansas City | 5 | 1873 | 2929 | 41,1 | 55,3 | +10 | 789 | 54,3 | 2861 | 2496 |
Miami | 6 | 2118 | 2268 | 38,2 | 69,6 | +6 | 582 | 58,7 | 2411 | 2670 |
New Orleans | 4 | 1775 | 1983 | 39,3 | 78,3 | +7 | 901 | 51,7 | 2289 | 2202 |
New York Giants | 3 | 1904 | 1792 | 39,7 | 38,1 | −9 | 734 | 61,9 | 2203 | 1988 |
New York Jets | 3 | 1929 | 1606 | 39,7 | 68,8 | −21 | 627 | 52,7 | 2592 | 2324 |
Philadelphia | 4 | 2080 | 1492 | 35,5 | 68,8 | −8 | 722 | 57,8 | 2053 | 2550 |
St. Louis | 10 | 2301 | 2835 | 35,3 | 74,1 | +2 | 683 | 59,7 | 1979 | 2110 |
San Diego | 6 | 2040 | 2416 | 38,7 | 50,0 | 0 | 576 | 54,9 | 2048 | 2628 |
San Francisco | 8 | 2447 | 1638 | 39,9 | 57,1 | −8 | 848 | 65,3 | 1786 | 1776 |
Seattle | 2 | 1416 | 2649 | 37,4 | 56,3 | −22 | 684 | 43,8 | 2876 | 2524 |
Tampa Bay | 0 | 1503 | 1503 | 39,3 | 47,0 | −9 | 875 | 53,5 | 2560 | 2241 |
Definições das variáveis:
- \(y\): Jogos vencidos (por temporada de 14 jogos)
- \(x_1\): Jardas conquistadas em corrida (temporada)
- \(x_2\): Jardas de passe (temporada)
- \(x_3\): Média de punt (jardas/punt)
- \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
- \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
- \(x_6\): Jardas de penalidade (temporada)
- \(x_7\): Percentual de corrida (corridas/jogadas totais)
- \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
- \(x_9\): Jardas de passe dos adversários (temporada)
- Suponha que desejamos utilizar o modelo desenvolvido no exercício 1 para prever o número de jogos que uma equipe vencerá se conseguir limitar o número de jardas conquistadas em corridas pelos adversários a 1800 jardas.
Encontre uma estimativa pontual para o número de jogos vencidos quando \(x_8 = 1800\).
Encontre um intervalo de predição de \(90\%\) para o número de jogos vencidos.
- Em 1º de março de 1984, o Wall Street Journal publicou uma pesquisa sobre anúncios televisivos conduzida pela Video Board Tests, Inc., uma empresa de testes de publicidade de Nova York, que entrevistou 4000 adultos. Esses indivíduos eram consumidores regulares de produtos e foram questionados sobre comerciais que haviam assistido para determinada categoria de produto na última semana.
Neste caso, a variável resposta é o número de milhões de impressões retidas por semana. A variável explicativa é o valor gasto pela empresa em publicidade. Os dados são apresentados a seguir:
Tabela. Gastos em publicidade e impressões retidas
Empresa | Gasto (milhões) | Impressões Retidas (milhões) |
---|---|---|
Miller Lite | 50,1 | 32,1 |
Pepsi | 74,1 | 99,6 |
Stroh’s | 19,3 | 11,7 |
Federal Express | 22,9 | 21,9 |
Burger King | 82,4 | 60,8 |
Coca-Cola | 40,1 | 78,6 |
McDonald’s | 185,9 | 92,4 |
MCI | 26,9 | 50,7 |
Diet Cola | 20,4 | 21,4 |
Ford | 166,2 | 40,1 |
Levi’s | 27,0 | 40,8 |
Bud Lite | 45,6 | 10,4 |
ATT Bell | 154,9 | 88,9 |
Calvin Klein | 5,0 | 12,0 |
Wendy’s | 49,7 | 29,2 |
Polaroid | 26,9 | 38,0 |
Shasta | 5,7 | 10,0 |
Meow Mix | 7,6 | 12,3 |
Oscar Meyer | 9,2 | 23,4 |
Crest | 32,4 | 71,1 |
Kibbles N Bits | 6,1 | 4,4 |
Ajuste um modelo de regressão linear simples para esses dados.
Existe uma relação significativa entre o valor gasto por uma empresa em publicidade e as impressões retidas? Justifique sua resposta estatisticamente.
Construa as bandas de confiança e predição de \(95\%\) para esses dados.
Forneça os intervalos de confiança e predição de \(95\%\) para o número de impressões retidas da empresa MCI.
Forneça os intervalos de confiança e predição de \(95\%\) para o número de impressões retidas quando houver um gasto de 50 milhões.
- Considere o modelo de regressão linear simples \(y = \beta_0 + \beta_1 x + \varepsilon\), com \(E(\varepsilon) = 0\), \(Var(\varepsilon) = \sigma^2\), e os erros \(\varepsilon\) são não correlacionados.
- Mostre que:
\[\text{Cov} \left( \hat{\beta}_0, \hat{\beta}_1 \right) = -\bar{x} \sigma^2/S_{xx}.\]
- Mostre que:
\[\text{Cov} \left( \bar{y}, \hat{\beta}_1 \right) = 0.\]
- Mostre que:
\[E(MS_R) = \sigma^2 + \beta_1^2 S_{xx}.\]
- Mostre que:
\[E(MS_{Res}) = \sigma^2.\]
- Por muitos anos, o pó de borracha tem sido utilizado no cimento asfáltico para melhorar o desempenho. O artigo “Experimental Study of Recycled Rubber-Filled High-Strength Concrete” (Mag. Concrete Res. 2009: 549–556) incluiu uma regressão de \(y\) = resistência axial (MPa) sobre \(x\) = resistência cúbica (MPa) com base nos seguintes dados amostrais:
Tabela. Resistência Cúbica (\(x\)) e Resistência Axial (\(y\)) (MPa)
\(x\) | 112,3 | 97,0 | 92,7 | 86,0 | 102,0 |
---|---|---|---|---|---|
\(y\) | 75,0 | 71,0 | 57,7 | 48,7 | 74,3 |
\(x\) | 99,2 | 95,8 | 103,5 | 89,0 | 86,7 |
---|---|---|---|---|---|
\(y\) | 73,3 | 68,0 | 59,3 | 57,8 | 48,5 |
Verifique se um diagrama de dispersão apoia a suposição de que as duas variáveis estão relacionadas por um modelo de regressão linear simples.
Obtenha a equação da reta dos mínimos quadrados e interprete seu coeficiente angular.
O coeficiente de determinação (ou simplesmente \(R^2\)) é uma medida que indica a proporção da variabilidade total em \(y\) que é explicada pelo modelo de regressão. O valor de \(R^2\) varia entre 0 e 1, onde 0 indica que o modelo não explica nenhuma variabilidade em \(y\) e 1 indica que o modelo explica toda a variabilidade em \(y\). O valor de \(R^2\) é calculado como: \[R^2 = 1 - \frac{SQErro}{SQTotal}.\] Calcule e interprete o coeficiente de determinação para o modelo de regressão linear simples ajustado.
Calcule um intervalo de confiança de \(95\%\) para a verdadeira resistência axial quando a resistência cúbica for 100 MPa.
Calcule um intervalo de predição de \(95\%\) para a resistência axial quando a resistência cúbica for 100 MPa.
Uma análise de regressão é realizada com \(y\) representando a temperatura, expressa em °C. Como os valores resultantes de \(\hat{\beta}_0\) e \(\hat{\beta}_1\) se relacionam com aqueles obtidos se \(y\) for reexpressado em °F? Justifique sua afirmação. Dica: A nova variável \(y_i\) é dada por: \(y_i^{novo} = 1,8 y_i + 32.\)
(Cinestose no Transporte Público Rodoviário) Como a aceleração lateral — forças laterais experimentadas em curvas que estão amplamente sob o controle do motorista — afeta a náusea percebida pelos passageiros de ônibus? O artigo “Motion Sickness in Public Road Transport: The Effect of Driver, Route, and Vehicle” (Ergonomics 1999: 1646–1664) apresentou dados sobre \(x\) = dose de movimento cinetósico (calculada de acordo com um padrão britânico para avaliar movimento semelhante no mar) e \(y\) = náusea relatada (%). Os valores estatísticos relevantes são:
\[ n = 17, \quad \sum x_i = 222,1, \quad \sum y_i = 193,0, \]
\[ S_{xx} = 155,02, \quad S_{yy} = 783,88, \quad S_{xy} = 238,11 \]
Os valores de dose na amostra variaram de 6,0 a 17,6.
Supondo que o modelo de regressão linear simples seja válido para relacionar essas duas variáveis (isso é apoiado pelos dados brutos), calcule e interprete uma estimativa do coeficiente angular que forneça informações sobre a precisão e confiabilidade da estimativa.
Parece haver uma relação linear útil entre essas duas variáveis?
Seria sensato usar o modelo de regressão linear simples como base para prever a porcentagem de náusea quando a dose for igual a 5,0? Explique seu raciocínio.
- O aquecimento global é uma questão importante, e as emissões de CO₂ desempenham um papel fundamental nessa discussão O artigo “Effects of Atmospheric CO₂ Enrichment on Biomass Accumulation and Distribution in Eldarica Pine Trees” (J. Exp. Bot. 1994: 345–349) descreve os resultados do crescimento de pinheiros sob diferentes níveis de CO₂ no ar.
Os dados abaixo correspondem às observações onde:
- \(x\) = concentração atmosférica de CO₂ (partes por milhão)
- \(y\) = massa em quilogramas após 11 meses de experimento.
Tabela. Concentração de CO₂ (\(x\)) e Massa (\(y\))
\(x\) | 408 | 408 | 554 | 554 | 680 | 680 | 812 | 812 |
---|---|---|---|---|---|---|---|---|
\(y\) | 1,1 | 1,3 | 1,6 | 2,5 | 3,0 | 4,3 | 4,2 | 4,7 |
Explique por que \(s_{\hat{y}}\) é maior quando \(x = 750\) do que quando \(x = 600\).
Calcule um intervalo de confiança com nível de confiança de \(95\%\) para a verdadeira massa média de todas as árvores cultivadas com uma concentração de CO₂ de 600 partes por milhão.
Calcule um intervalo de predição com nível de predição de \(95\%\) para a massa de uma árvore cultivada com uma concentração de CO₂ de 600 partes por milhão.
Se um intervalo de confiança de \(95\%\) for calculado para a verdadeira massa média quando a concentração de CO₂ for 750, qual será o nível de confiança simultâneo para esse intervalo e o intervalo calculado na parte (b)?
- Nenhum apreciador de tortilhas gosta de chips encharcados, portanto, é importante identificar características do processo de produção que resultem em chips com uma textura agradável.
Os seguintes dados sobre:
- \(x\) = tempo de fritura (s)
- \(y\) = teor de umidade (%)
foram apresentados no artigo “Thermal and Physical Properties of Tortilla Chips as a Function of Frying Time” (J. Food Process. Preserv. 1995: 175–189).
Tabela. Tempo de Fritura (\(x\)) e Teor de Umidade (\(y\))
\(x\) | 5 | 10 | 15 | 20 | 25 | 30 | 45 | 60 |
---|---|---|---|---|---|---|---|---|
\(y\) | 16,3 | 9,7 | 8,1 | 4,2 | 3,4 | 2,9 | 1,9 | 1,3 |
Construa um diagrama de dispersão dos dados e comente.
Construa um diagrama de dispersão dos pares \((\ln(x), \ln(y))\), ou seja, transforme \(x\) e \(y\) aplicando logaritmo natural e comente.
Considere o modelo de potência multiplicativa:
\[Y = \alpha x^{\beta} \varepsilon.\]
O que esse modelo implica sobre a relação entre \(y' = \ln(y)\) e \(x' = \ln(x)\), assumindo que \(\varepsilon\) tem uma distribuição lognormal?
Obtenha um intervalo de confiança para o teor de umidade quando o tempo de fritura for 25s. Dica: Primeiro, realize uma regressão linear simples de \(y'\) em \(x'\) e calcule um intervalo de confiança apropriado. Depois, retorne para a escala original da variável.
Obtenha um intervalo de predição para o teor de umidade quando o tempo de fritura for 40s.
- Marque verdadeiro (V) ou falso (F):
Um modelo de regressão linear com um termo de intercepto sempre passará pelo centróide dos dados.
A variância da resposta prevista em um modelo de regressão linear é mínima no valor médio da variável preditora.
O intervalo de confiança para a resposta média em um determinado valor da variável preditora é sempre mais largo que o intervalo de predição para uma nova observação no mesmo ponto.
O método dos mínimos quadrados garante que os estimadores da inclinação e do intercepto em um modelo de regressão linear sejam os melhores estimadores lineares não viesados (BLUE - Best Linear Unbiased Estimator).
Para qualquer modelo de regressão linear simples que tenha um intercepto, a soma dos resíduos é sempre zero.
- O artigo “A Cross-National Relationship Between Sugar Consumption and Major Depression?” (Depression and Anxiety 2002: 118–120) relatou os seguintes dados sobre \(x =\) consumo diário de açúcar (calorias per capita) e \(y =\) taxa anual de depressão majoritária (casos por 100 pessoas) para uma amostra de seis países.
Construa o gráfico de dispersão dos dados. Há evidência visual de relação linear entre as variáveis?
Calcule as quantidades: \(\sum x_i\), \(\sum y_i\), \(\sum x_i^2\), \(\sum y_i^2\), \(\sum x_i y_i\), \(\bar{x}\), \(\bar{y}\), \(S_{xx}\), \(S_{yy}\) e \(S_{xy}\).
Calcule o coeficiente de correlação entre as duas variáveis. Há evidência de correlação linear entre as variáveis?
Verifique se a correlação é significativa a um nível de significância de \(5\%\). Construa o intervalo de confiança de \(95\%\) para o coeficiente de correlação.
Ajuste um modelo de regressão linear simples relacionando a taxa de depressão ao consumo diário de açúcar.
Construa a tabela de análise de variância e teste a significância da regressão.
Qual porcentagem da variabilidade total em \(y\) é explicada por este modelo?
Calcule os erros-padrões do coeficiente angular e do coeficiente linear.
Calcule o intervalo de confiança de \(95\%\) para o coeficiente angular e interprete-o.
Realize o teste t para o coeficiente angular. Há evidência de que o consumo diário de açúcar afeta a taxa de depressão? Essa conclusão já foi obtida anteriormente?
Encontre um intervalo de confiança de \(95\%\) para a taxa média de depressão se o consumo diário de açúcar for limitado a 350 calorias.
Encontre um intervalo de confiança de \(90\%\) para a taxa média de depressão se o consumo diário de açúcar for limitado a 350 calorias.
Encontre um intervalo de predição de \(95\%\) para a taxa média de depressão se o consumo diário de açúcar for limitado a 400 calorias.
Encontre um intervalo de predição de \(90\%\) para a taxa média de depressão se o consumo diário de açúcar for limitado a 400 calorias.
Apresente uma expressão para o intervalo de confiança de \(95\%\) para a taxa média de depressão se o consumo diário de açúcar for \(x\).
Apresente uma expressão para o intervalo de predição de \(95\%\) para a taxa média de depressão se o consumo diário de açúcar for \(x\).