| Country | Sugar.consumption | Depression.rate |
|---|---|---|
| USA | 300 | 3.0 |
| Canada | 390 | 5.2 |
| France | 350 | 4.4 |
| Germany | 375 | 5.0 |
| New Zealand | 480 | 5.7 |
| South Korea | 150 | 2.3 |
Análise de Regressão
Bacharelado em Estatística - UFMT
Lista de exercícios 2
- O coeficiente de correlação amostral (estimador da correlaçao) para os \(n\) pares \((x_1, y_1), \dots, (x_n, y_n)\) é dado por:
\[\begin{align*} r = & \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right) = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} = \frac{S_{xy}}{\sqrt{S_{xx}} \sqrt{S_{yy}}}, \end{align*}\] em que \(S_{xy}= \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\), \(S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2\) e \(S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2\).
Cálcule o coeficiente de correlação amostral para os seguintes dados:
’O artigo “A Cross-National Relationship Between Sugar Consumption and Major Depression?” (Depression and Anxiety 2002: 118–120) relatou os seguintes dados sobre \(x =\) consumo diário de açúcar (calorias per capita) e \(y =\) taxa anual de depressão majoritária (casos por 100 pessoas) para uma amostra de seis países.
Demonstre que \[\frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right) = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}.\]
Para o teste de hipóteses \(H_0: \rho = 0\) versus \(H_a: \rho \neq 0\), em que \(\rho\) é o coeficiente de correlação populacional, o teste de correlação de Pearson é baseado na estatística de teste \[ T = \frac{R \sqrt{n - 2}}{\sqrt{1 - R^2}} \] que segue uma distribuição \(t\) com \(n - 2\) graus de liberdade. A estatística \(R\) é o coeficiente de correlação amostral.
Para um teste de hipóteses sobre a correlação, as hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:
| Hipótese Alternativa | Região de Rejeição para um Teste de Nível \(\alpha\) |
|---|---|
| \(H_a: \rho > 0\) | \(t \geq t_{\alpha, n-2}\) |
| \(H_a: \rho < 0\) | \(t \leq -t_{\alpha, n-2}\) |
| \(H_a: \rho \neq 0\) | \(t \geq t_{\alpha/2, n-2}\) ou \(t \leq -t_{\alpha/2, n-2}\) |
O Turbine Oil Oxidation Test (TOST) e o Rotating Bomb Oxidation Test (RBOT) são dois procedimentos diferentes para avaliar a estabilidade à oxidação de óleos de turbinas a vapor. O artigo “Dependence of Oxidation Stability of Steam Turbine Oil on Base Oil Composition” (J. Soc. Tribologists Lubricat. Engrs., Out. 1997: 19–24) apresentou as seguintes observações para \(x =\) tempo do teste TOST (horas) e \(y =\) tempo do teste RBOT (minutos) em 12 amostras de óleo.
| TOST | RBOT |
|---|---|
| 4200 | 370 |
| 3600 | 340 |
| 3750 | 375 |
| 3675 | 310 |
| 4050 | 350 |
| 2770 | 200 |
| 4870 | 400 |
| 4500 | 375 |
| 3450 | 285 |
| 2700 | 225 |
| 3750 | 345 |
| 3300 | 285 |
- Calcule e interprete o valor do coeficiente de correlação amostral (como fizeram os autores do artigo).
- Como o valor de \(r\) seria afetado se tivéssemos escolhido \(x =\) tempo RBOT e \(y =\) tempo TOST?
- Como o valor de \(r\) seria afetado se o tempo RBOT fosse expresso em horas?
- Realize um teste de hipóteses para decidir se os tempos dos testes RBOT e TOST estão linearmente relacionados.
- Quando \((X_1, Y_1), \dots, (X_n, Y_n)\) é uma amostra de uma distribuição normal bivariada, a variável aleatória \[ V = \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) \] segue aproximadamente uma distribuição normal com média e variância: \[ \mu_V = \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right), \quad \sigma_V^2 = \frac{1}{n - 3}. \] A estatística de teste para \(H_0: \rho = \rho_0\) é dada por: \[ Z = \frac{V - \frac{1}{2} \ln [(1 + \rho_0) / (1 - \rho_0)]}{1 / \sqrt{n - 3}} \] As hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:
| Hipótese Alternativa | Região de Rejeição para um Teste de Nível \(\alpha\) |
|---|---|
| \(H_a: \rho > \rho_0\) | \(z \geq z_{\alpha}\) |
| \(H_a: \rho < \rho_0\) | \(z \leq -z_{\alpha}\) |
| \(H_a: \rho \neq \rho_0\) | \(z \geq z_{\alpha/2}\) ou \(z \leq -z_{\alpha/2}\) |
Um intervalo de confiança de \(100(1 - \alpha)\%\) para \(\rho\) é dado por: \[ \left( \frac{e^{2c_1} - 1}{e^{2c_1} + 1}, \quad \frac{e^{2c_2} - 1}{e^{2c_2} + 1} \right), \] em que \(c_1\) e \(c_2\) são os extremos inferior e superior do intervalo na seguinte expressão: \[ v \pm z_{\alpha/2} \cdot \sigma_V = \frac{1}{2} \ln \left( \frac{1 + r}{1 - r} \right) \pm \frac{z_{\alpha/2}}{\sqrt{n - 3}}. \]
Usando os dados do exercício anterior, verifique a hipótese \(H_0: \rho = 0,70\) versus \(H_a: \rho \neq 0,70\) ao nível de significância de 5%. Calcule o intervalo de confiança de 95% para \(\rho\).
O hidrogênio é considerado um fator importante na porosidade de fundições de ligas de alumínio. O artigo “The Reduced Pressure Test as a Measuring Tool in the Evaluation of Porosity/Hydrogen Content in A1–7 Wt Pct Si-10 Vol Pct SiC(p) Metal Matrix Composite” (Metallurg. Trans. 1993: 1857–1868) apresenta os seguintes dados sobre \(x =\) conteúdo de hidrogênio e \(y =\) porosidade do gás para uma técnica específica de medição.
| x | y |
|---|---|
| 0.18 | 0.46 |
| 0.20 | 0.70 |
| 0.21 | 0.41 |
| 0.21 | 0.45 |
| 0.21 | 0.55 |
| 0.22 | 0.44 |
| 0.23 | 0.24 |
| 0.23 | 0.47 |
| 0.24 | 0.22 |
| 0.24 | 0.80 |
| 0.25 | 0.88 |
| 0.28 | 0.70 |
| 0.30 | 0.72 |
| 0.37 | 0.75 |
- Calcule e interprete o valor do coeficiente de correlação amostral.
- Realize um teste de hipóteses para decidir se o conteúdo de hidrogênio e a porosidade do gás estão linearmente relacionados.
- Calcule um intervalo de confiança de 95% para o coeficiente de correlação populacional.
- Seja \(x\) o número de horas de estudo por semana e \(y\) a média de notas nas provas. Suponha que temos uma amostra de pares \((x, y)\) para mulheres e outra para homens. Queremos testar a hipótese: \[ H_0: \rho_1 - \rho_2 = 0 \] contra a alternativa de que os coeficientes de correlação populacional são diferentes.
Utilize as propriedades da variável transformada \[ V = \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) \] para propor uma estatística de teste apropriada e a região de rejeição. Considere \(R_1\) e \(R_2\) os coeficientes de correlação amostral das duas amostras.
O artigo “Relational Bonds and Customer’s Trust and Commitment: A Study on the Moderating Effects of Web Site Usage” (Serv. Ind. J. 2003: 103–124) relatou que: \(n_1 = 261\), \(r_1 = 0.59\), \(n_2 = 557\) e \(r_2 = 0.50\). A primeira amostra consistia de usuários corporativos de websites, enquanto a segunda amostra consistia de não usuários. Aqui, \(r\) representa a correlação entre a avaliação da força dos laços econômicos e o desempenho.
Realize o teste de hipóteses \(H_0: \rho_1 - \rho_2 = 0\) para esses dados, conforme feito pelos autores do artigo citado.
- A Tabela 1 apresenta dados sobre o desempenho das 26 equipes da National Football League em 1976. Suspeita-se que o número de jardas conquistadas em corridas pelos adversários \(x_8\) tenha um efeito sobre o número de jogos vencidos por uma equipe \(y\).
Ajuste um modelo de regressão linear simples relacionando o número de jogos vencidos \(y\) ao número de jardas conquistadas em corridas pelos adversários \(x_8\).
Teste a hipótese de que o número de jardas conquistadas em corridas pelos adversários tem um efeito significativo sobre o número de jogos vencidos. Justifique sua resposta estatisticamente.
Encontre um intervalo de confiança de 95% para o coeficiente angular.
Tabela 1: Desempenho das Equipes da National Football League de 1976
| Equipe | \(y\) | \(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) | \(x_6\) | \(x_7\) | \(x_8\) | \(x_9\) |
|---|---|---|---|---|---|---|---|---|---|---|
| Washington | 10 | 2113 | 1985 | 38,9 | 64,7 | +4 | 868 | 59,7 | 2205 | 1917 |
| Minnesota | 11 | 2003 | 2855 | 38,8 | 61,3 | +3 | 615 | 55,0 | 2096 | 1575 |
| New England | 11 | 2957 | 1737 | 40,1 | 60,0 | +14 | 914 | 65,6 | 1847 | 2175 |
| Oakland | 13 | 2285 | 2905 | 41,6 | 45,3 | −4 | 957 | 61,4 | 1903 | 2476 |
| Pittsburgh | 10 | 2971 | 1666 | 39,2 | 53,8 | +15 | 836 | 66,1 | 1457 | 1866 |
| Baltimore | 11 | 2309 | 2927 | 39,7 | 74,1 | +8 | 786 | 61,0 | 1848 | 2339 |
| Los Angeles | 10 | 2528 | 2341 | 38,1 | 65,4 | +12 | 754 | 66,1 | 1564 | 2092 |
| Dallas | 11 | 2147 | 2737 | 37,0 | 78,3 | −1 | 761 | 58,0 | 1821 | 1909 |
| Atlanta | 4 | 1689 | 1414 | 42,1 | 47,6 | −3 | 714 | 57,0 | 2577 | 2001 |
| Buffalo | 2 | 2566 | 1838 | 42,3 | 54,2 | −1 | 797 | 58,9 | 2476 | 2254 |
| Chicago | 7 | 2363 | 1480 | 37,3 | 48,0 | +19 | 984 | 67,5 | 1984 | 2217 |
| Cincinnati | 10 | 2109 | 2191 | 39,5 | 51,9 | +6 | 700 | 57,2 | 1917 | 1758 |
| Cleveland | 9 | 2295 | 2229 | 37,4 | 53,6 | −5 | 1037 | 57,8 | 1761 | 2032 |
| Denver | 9 | 1932 | 2204 | 35,1 | 71,4 | +3 | 986 | 58,6 | 1790 | 2025 |
| Detroit | 6 | 2128 | 2438 | 38,8 | 58,3 | +6 | 819 | 59,2 | 1901 | 1686 |
| Green Bay | 5 | 1722 | 1730 | 36,6 | 52,6 | −19 | 791 | 54,4 | 2288 | 1835 |
| Houston | 5 | 1498 | 2072 | 35,3 | 59,3 | −5 | 776 | 49,6 | 2072 | 1914 |
| Kansas City | 5 | 1873 | 2929 | 41,1 | 55,3 | +10 | 789 | 54,3 | 2861 | 2496 |
| Miami | 6 | 2118 | 2268 | 38,2 | 69,6 | +6 | 582 | 58,7 | 2411 | 2670 |
| New Orleans | 4 | 1775 | 1983 | 39,3 | 78,3 | +7 | 901 | 51,7 | 2289 | 2202 |
| New York Giants | 3 | 1904 | 1792 | 39,7 | 38,1 | −9 | 734 | 61,9 | 2203 | 1988 |
| New York Jets | 3 | 1929 | 1606 | 39,7 | 68,8 | −21 | 627 | 52,7 | 2592 | 2324 |
| Philadelphia | 4 | 2080 | 1492 | 35,5 | 68,8 | −8 | 722 | 57,8 | 2053 | 2550 |
| St. Louis | 10 | 2301 | 2835 | 35,3 | 74,1 | +2 | 683 | 59,7 | 1979 | 2110 |
| San Diego | 6 | 2040 | 2416 | 38,7 | 50,0 | 0 | 576 | 54,9 | 2048 | 2628 |
| San Francisco | 8 | 2447 | 1638 | 39,9 | 57,1 | −8 | 848 | 65,3 | 1786 | 1776 |
| Seattle | 2 | 1416 | 2649 | 37,4 | 56,3 | −22 | 684 | 43,8 | 2876 | 2524 |
| Tampa Bay | 0 | 1503 | 1503 | 39,3 | 47,0 | −9 | 875 | 53,5 | 2560 | 2241 |
Definições das variáveis:
- \(y\): Jogos vencidos (por temporada de 14 jogos)
- \(x_1\): Jardas conquistadas em corrida (temporada)
- \(x_2\): Jardas de passe (temporada)
- \(x_3\): Média de punt (jardas/punt)
- \(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
- \(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
- \(x_6\): Jardas de penalidade (temporada)
- \(x_7\): Percentual de corrida (corridas/jogadas totais)
- \(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
- \(x_9\): Jardas de passe dos adversários (temporada)
- Em 1º de março de 1984, o Wall Street Journal publicou uma pesquisa sobre anúncios televisivos conduzida pela Video Board Tests, Inc., uma empresa de testes de publicidade de Nova York, que entrevistou 4000 adultos. Esses indivíduos eram consumidores regulares de produtos e foram questionados sobre comerciais que haviam assistido para determinada categoria de produto na última semana.
Neste caso, a variável resposta é o número de milhões de impressões retidas por semana. A variável explicativa é o valor gasto pela empresa em publicidade. Os dados são apresentados a seguir:
Tabela. Gastos em publicidade e impressões retidas
| Empresa | Gasto (milhões) | Impressões Retidas (milhões) |
|---|---|---|
| Miller Lite | 50,1 | 32,1 |
| Pepsi | 74,1 | 99,6 |
| Stroh’s | 19,3 | 11,7 |
| Federal Express | 22,9 | 21,9 |
| Burger King | 82,4 | 60,8 |
| Coca-Cola | 40,1 | 78,6 |
| McDonald’s | 185,9 | 92,4 |
| MCI | 26,9 | 50,7 |
| Diet Cola | 20,4 | 21,4 |
| Ford | 166,2 | 40,1 |
| Levi’s | 27,0 | 40,8 |
| Bud Lite | 45,6 | 10,4 |
| ATT Bell | 154,9 | 88,9 |
| Calvin Klein | 5,0 | 12,0 |
| Wendy’s | 49,7 | 29,2 |
| Polaroid | 26,9 | 38,0 |
| Shasta | 5,7 | 10,0 |
| Meow Mix | 7,6 | 12,3 |
| Oscar Meyer | 9,2 | 23,4 |
| Crest | 32,4 | 71,1 |
| Kibbles N Bits | 6,1 | 4,4 |
Ajuste um modelo de regressão linear simples para esses dados.
Existe uma relação significativa entre o valor gasto por uma empresa em publicidade e as impressões retidas? Justifique sua resposta estatisticamente.
Calcule um intervalo de confiança de 95% para o coeficiente angular.
Qual é a impressão retida média para uma empresa que gasta 50 milhões em publicidade? E para uma empresa que gasta 20 milhões?
- Por muitos anos, o pó de borracha tem sido utilizado no cimento asfáltico para melhorar o desempenho. O artigo “Experimental Study of Recycled Rubber-Filled High-Strength Concrete” (Mag. Concrete Res. 2009: 549–556) incluiu uma regressão de \(y\) = resistência axial (MPa) sobre \(x\) = resistência cúbica (MPa) com base nos seguintes dados amostrais:
Tabela. Resistência Cúbica (\(x\)) e Resistência Axial (\(y\)) (MPa)
| \(x\) | 112,3 | 97,0 | 92,7 | 86,0 | 102,0 |
|---|---|---|---|---|---|
| \(y\) | 75,0 | 71,0 | 57,7 | 48,7 | 74,3 |
| \(x\) | 99,2 | 95,8 | 103,5 | 89,0 | 86,7 |
|---|---|---|---|---|---|
| \(y\) | 73,3 | 68,0 | 59,3 | 57,8 | 48,5 |
Verifique se um diagrama de dispersão apoia a suposição de que as duas variáveis estão relacionadas por um modelo de regressão linear simples.
Obtenha a equação da reta dos mínimos quadrados e interprete seu coeficiente angular.
O coeficiente de determinação (ou simplesmente \(R^2\)) é uma medida que indica a proporção da variabilidade total em \(y\) que é explicada pelo modelo de regressão. O valor de \(R^2\) varia entre 0 e 1, onde 0 indica que o modelo não explica nenhuma variabilidade em \(y\) e 1 indica que o modelo explica toda a variabilidade em \(y\). O valor de \(R^2\) é calculado como: \[R^2 = 1 - \frac{SQErro}{SQTotal}.\] Calcule e interprete o coeficiente de determinação para o modelo de regressão linear simples ajustado.
Uma análise de regressão é realizada com \(y\) representando a temperatura, expressa em °C. Como os valores resultantes de \(\hat{\beta}_0\) e \(\hat{\beta}_1\) se relacionam com aqueles obtidos se \(y\) for reexpressado em °F? Justifique sua afirmação. Dica: A nova variável \(y_i\) é dada por: \(y_i^{novo} = 1,8 y_i + 32.\)
(Cinestose no Transporte Público Rodoviário) Como a aceleração lateral — forças laterais experimentadas em curvas que estão amplamente sob o controle do motorista — afeta a náusea percebida pelos passageiros de ônibus? O artigo “Motion Sickness in Public Road Transport: The Effect of Driver, Route, and Vehicle” (Ergonomics 1999: 1646–1664) apresentou dados sobre \(x\) = dose de movimento cinetósico (calculada de acordo com um padrão britânico para avaliar movimento semelhante no mar) e \(y\) = náusea relatada (%). Os valores estatísticos relevantes são:
\[ n = 17, \quad \sum x_i = 222,1, \quad \sum y_i = 193,0, \]
\[ S_{xx} = 155,02, \quad S_{yy} = 783,88, \quad S_{xy} = 238,11 \]
Os valores de dose na amostra variaram de 6,0 a 17,6.
Supondo que o modelo de regressão linear simples seja válido para relacionar essas duas variáveis (isso é apoiado pelos dados brutos), calcule e interprete uma estimativa do coeficiente angular que forneça informações sobre a precisão e confiabilidade da estimativa.
Parece haver uma relação linear útil entre essas duas variáveis?
Seria sensato usar o modelo de regressão linear simples como base para prever a porcentagem de náusea quando a dose for igual a 5,0? Explique seu raciocínio.
- O aquecimento global é uma questão importante, e as emissões de CO₂ desempenham um papel fundamental nessa discussão O artigo “Effects of Atmospheric CO₂ Enrichment on Biomass Accumulation and Distribution in Eldarica Pine Trees” (J. Exp. Bot. 1994: 345–349) descreve os resultados do crescimento de pinheiros sob diferentes níveis de CO₂ no ar.
Os dados abaixo correspondem às observações onde:
- \(x\) = concentração atmosférica de CO₂ (partes por milhão)
- \(y\) = massa em quilogramas após 11 meses de experimento.
Tabela. Concentração de CO₂ (\(x\)) e Massa (\(y\))
| \(x\) | 408 | 408 | 554 | 554 | 680 | 680 | 812 | 812 |
|---|---|---|---|---|---|---|---|---|
| \(y\) | 1,1 | 1,3 | 1,6 | 2,5 | 3,0 | 4,3 | 4,2 | 4,7 |
Explique por que \(s_{\hat{y}}\) é maior quando \(x = 750\) do que quando \(x = 600\).
Teste a significância do efeito da concentração de CO₂ sobre a massa das árvores. Justifique sua resposta estatisticamente.
Qual é a porcentagem da variabilidade total em \(y\) que é explicada por um modelo de regressão linear simples que relaciona \(y\) a \(x\)? Interprete esse valor.
Qual é a massa média estimada para todas as árvores cultivadas com uma concentração de CO₂ de 600 partes por milhão?
Qual é a massa média estimada para todas as árvores cultivadas com uma concentração de CO₂ de 500 partes por milhão?
- Nenhum apreciador de tortilhas gosta de chips encharcados, portanto, é importante identificar características do processo de produção que resultem em chips com uma textura agradável.
Os seguintes dados sobre:
- \(x\) = tempo de fritura (s)
- \(y\) = teor de umidade (%)
foram apresentados no artigo “Thermal and Physical Properties of Tortilla Chips as a Function of Frying Time” (J. Food Process. Preserv. 1995: 175–189).
Tabela. Tempo de Fritura (\(x\)) e Teor de Umidade (\(y\))
| \(x\) | 5 | 10 | 15 | 20 | 25 | 30 | 45 | 60 |
|---|---|---|---|---|---|---|---|---|
| \(y\) | 16,3 | 9,7 | 8,1 | 4,2 | 3,4 | 2,9 | 1,9 | 1,3 |
Construa um diagrama de dispersão dos dados e comente.
Construa um diagrama de dispersão dos pares \((\ln(x), \ln(y))\), ou seja, transforme \(x\) e \(y\) aplicando logaritmo natural e comente.
Considere o modelo de potência multiplicativa:
\[Y = \alpha x^{\beta} \varepsilon.\]
O que esse modelo implica sobre a relação entre \(y' = \ln(y)\) e \(x' = \ln(x)\), assumindo que \(\varepsilon\) tem uma distribuição lognormal?
- Ajuste um modelo de regressão linear simples relacionando \(y' = \ln(y)\) a \(x' = \ln(x)\) e interprete o coeficiente angular.
- Refaça todos os exercícios usando recursos computacionais (por exemplo, R, Python, Excel, etc.) para calcular os coeficientes de correlação, realizar os testes de hipóteses e construir os intervalos de confiança. Atenção: apenas agora (nesse exercício) é para usar recursos computacionais.