Análise de Regressão

Author

Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Lista de exercícios 4

Considere os dados da Liga Nacional de Futebol Americano (NFL) na Tabela 1.

Tabela 1: Desempenho das Equipes da National Football League de 1976

Equipe	\(y\)	\(x_1\)	\(x_2\)	\(x_3\)	\(x_4\)	\(x_5\)	\(x_6\)	\(x_7\)	\(x_8\)	\(x_9\)
Washington	10	2113	1985	38,9	64,7	+4	868	59,7	2205	1917
Minnesota	11	2003	2855	38,8	61,3	+3	615	55,0	2096	1575
New England	11	2957	1737	40,1	60,0	+14	914	65,6	1847	2175
Oakland	13	2285	2905	41,6	45,3	−4	957	61,4	1903	2476
Pittsburgh	10	2971	1666	39,2	53,8	+15	836	66,1	1457	1866
Baltimore	11	2309	2927	39,7	74,1	+8	786	61,0	1848	2339
Los Angeles	10	2528	2341	38,1	65,4	+12	754	66,1	1564	2092
Dallas	11	2147	2737	37,0	78,3	−1	761	58,0	1821	1909
Atlanta	4	1689	1414	42,1	47,6	−3	714	57,0	2577	2001
Buffalo	2	2566	1838	42,3	54,2	−1	797	58,9	2476	2254
Chicago	7	2363	1480	37,3	48,0	+19	984	67,5	1984	2217
Cincinnati	10	2109	2191	39,5	51,9	+6	700	57,2	1917	1758
Cleveland	9	2295	2229	37,4	53,6	−5	1037	57,8	1761	2032
Denver	9	1932	2204	35,1	71,4	+3	986	58,6	1790	2025
Detroit	6	2128	2438	38,8	58,3	+6	819	59,2	1901	1686
Green Bay	5	1722	1730	36,6	52,6	−19	791	54,4	2288	1835
Houston	5	1498	2072	35,3	59,3	−5	776	49,6	2072	1914
Kansas City	5	1873	2929	41,1	55,3	+10	789	54,3	2861	2496
Miami	6	2118	2268	38,2	69,6	+6	582	58,7	2411	2670
New Orleans	4	1775	1983	39,3	78,3	+7	901	51,7	2289	2202
New York Giants	3	1904	1792	39,7	38,1	−9	734	61,9	2203	1988
New York Jets	3	1929	1606	39,7	68,8	−21	627	52,7	2592	2324
Philadelphia	4	2080	1492	35,5	68,8	−8	722	57,8	2053	2550
St. Louis	10	2301	2835	35,3	74,1	+2	683	59,7	1979	2110
San Diego	6	2040	2416	38,7	50,0	0	576	54,9	2048	2628
San Francisco	8	2447	1638	39,9	57,1	−8	848	65,3	1786	1776
Seattle	2	1416	2649	37,4	56,3	−22	684	43,8	2876	2524
Tampa Bay	0	1503	1503	39,3	47,0	−9	875	53,5	2560	2241

Definições das variáveis:

\(y\): Jogos vencidos (por temporada de 14 jogos)
\(x_1\): Jardas conquistadas em corrida (temporada)
\(x_2\): Jardas de passe (temporada)
\(x_3\): Média de punt (jardas/punt)
\(x_4\): Percentual de acerto em field goal (field goals convertidos/field goals tentados na temporada)
\(x_5\): Diferença de turnovers (turnovers ganhos - turnovers perdidos)
\(x_6\): Jardas de penalidade (temporada)
\(x_7\): Percentual de corrida (corridas/jogadas totais)
\(x_8\): Jardas conquistadas em corrida pelos adversários (temporada)
\(x_9\): Jardas de passe dos adversários (temporada)

# para carregar os dados no R:
# install.packages("MPV")
library(MPV)
data("table.b1")
head(table.b1)

   y   x1   x2   x3   x4 x5  x6   x7   x8   x9
1 10 2113 1985 38.9 64.7  4 868 59.7 2205 1917
2 11 2003 2855 38.8 61.3  3 615 55.0 2096 1575
3 11 2957 1737 40.1 60.0 14 914 65.6 1847 2175
4 13 2285 2905 41.6 45.3 -4 957 61.4 1903 2476
5 10 2971 1666 39.2 53.8 15 836 66.1 1457 1866
6 11 2309 2927 39.7 74.1  8 786 61.0 1848 2339

Ajuste um modelo de regressão linear múltipla relacionando o número de jogos ganhos com as jardas aéreas do time (\(x_2\)), a porcentagem de jogadas terrestres (\(x_7\)) e as jardas terrestres dos adversários (\(x_8\)).
Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.
Calcule as estatísticas \(t\) para testar as hipóteses:

\(H_0: \beta_2 = 0\), \(H_0: \beta_7 = 0\), \(H_0: \beta_8 = 0\). Que conclusões você pode tirar sobre os papéis das variáveis \(x_2\), \(x_7\) e \(x_8\) no modelo?

d. Pesquise sobre \(R^2_{\text{aj}}\) (ajustado). Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.

e. Pesquise sobre teste \(F\) parcial. Usando o teste \(F\) parcial, determine a contribuição de \(x_7\) para o modelo. Como essa estatística \(F\) parcial está relacionada ao teste \(t\) para \(\beta_7\) calculado no item c?

Usando os resultados do exercício 1, mostre numericamente que o quadrado do coeficiente de correlação simples entre os valores observados \(y_i\) e os valores ajustados \(\hat{y}_i\) é igual ao \(R^2\).
Considerando o exercício 1:

Encontre um intervalo de confiança (IC) de 95% para \(\beta_7\).
Encontre um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_2 = 2300\), \(x_7 = 56,0\) e \(x_8 = 2100\).

Considerando os dados do exercício 1, ajuste um modelo usando apenas \(x_7\) e \(x_8\) como regressores.

Teste a significância da regressão.
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\). Como esses valores se comparam aos valores obtidos para o modelo do exercício 1, que incluía um regressor adicional (\(x_2\))?
Calcule um intervalo de confiança de 95% para \(\beta_7\). Calcule também um intervalo de confiança de 95% para o número médio de jogos ganhos por um time quando \(x_7 = 56,0\) e \(x_8 = 2100\). Compare o comprimento desses intervalos com os intervalos correspondentes obtidos no exercício 3.
Que conclusões você pode tirar deste problema sobre as consequências de se omitir um regressor importante de um modelo?

McDonald e Ayers (1978) apresentam dados de um estudo inicial que examinou a possível relação entre poluição do ar e mortalidade. A Tabela B.15 (data(table.15) no R) resume os dados. A variável resposta Mort é a mortalidade total ajustada por idade, considerando todas as causas, em mortes por 100.000 habitantes. O regressor Precip é a precipitação anual média (em polegadas), Educ é o número mediano de anos escolares completos para pessoas com idade igual ou superior a 25 anos, Nonwhite é a porcentagem da população não branca de 1960, Nox é o potencial relativo de poluição por óxidos de nitrogênio, e SO2 é o potencial relativo de poluição por dióxido de enxofre. O “potencial relativo de poluição” é o produto das toneladas emitidas por dia por quilômetro quadrado e um fator de correção das dimensões e exposição das SMSA (áreas metropolitanas).

# install.packages("MPV")
library(MPV)
data("table.b15")
table.b15

                City    Mort Precip Educ Nonwhite Nox SO2
1       San Jose CA   790.73     13 12.2      3.0  32   3
2        Wichita KS   823.76     28 12.1      7.5   2   1
3      San Diego CA   839.71     10 12.1      5.9  66  20
4      Lancaster PA   844.05     43  9.5      2.9   7  32
5    Minneapolis MN   857.62     25 12.1      3.0  11  26
6         Dallas TX   860.10     35 11.8     14.8   1   1
7          Miami FL   861.44     60 11.5     11.5   1   1
8    Los Angeles CA   861.83     11 12.1      7.8 319 130
9   Grand Rapids MI   871.34     31 10.9      5.1   3  10
10        Denver CO   871.77     15 12.2      4.7   8  28
11     Rochester NY   874.28     32 11.1      5.0   4  18
12      Hartford CT   887.47     43 11.5      7.2   3  10
13    Fort Worth TX   891.71     31 11.4     11.5   1   1
14      Portland OR   893.99     37 12.0      3.6  21  44
15     Worcester MA   895.70     45 11.1      1.0   3   8
16       Seattle WA   899.26     35 12.2      5.7   7  20
17    Bridgeport CT   899.53     45 10.6      5.3   4   4
18   Springfield MA   904.16     45 11.1      3.4   4  20
19 San Francisco CA   911.70     18 12.2     13.7 171  86
20          York PA   911.82     42  9.0      4.8   8  49
21         Utica NY   912.20     40 10.3      2.5   2  11
22        Canton OH   912.35     36 10.7      6.7   7  20
23   Kansas City MO   919.73     35 12.0     12.6   4   4
24         Akron OH   921.87     36 11.4      8.8  15  59
25     New Haven CT   923.23     46 11.3      8.8   3   8
26    Milwasukee WI   929.15     30 11.1      5.8  23 125
27        Boston MA   934.70     43 12.1      3.5  32  62
28        Dayton OH   936.23     36 11.4     12.4   4  16
29    Providence RI   938.50     42 10.1      2.2   4  18
30         Flint MI   941.18     30 10.8     13.1   4  11
31       Reading PA   946.18     41  9.6      2.7  11  89
32      Syracuse NY   950.67     38 11.4      3.8   5  25
33       Houston TX   952.53     46 11.4     21.0   5   1
34   Saint Louis MO   953.56     34  9.7     17.2  15  68
35    Youngstown OH   954.44     38 10.7     11.7  13  39
36      Columbus OH   958.84     37 11.9     13.1   9  15
37       Detroit MI   959.22     31 10.8     15.8  35 124
38     Nashville TN   961.01     45 10.1     21.0  14  78
39     Allentown PA   962.35     44  9.8      0.8   6  33
40    Washington DC   967.80     41 12.3     25.9  28 102
41  Indianapolis IN   968.66     39 11.4     15.6   7  33
42    Cincinnati OH   970.47     40 10.2     13.0  26 146
43    Greensboro NC   971.12     42 10.4     22.7   3   5
44        Toledo OH   972.46     31 10.7      9.5   7  25
45       Atlanta GA   982.29     47 11.1     27.1   8  24
46     Cleveland OH   985.95     35 11.1     14.7  21  64
47    Louisville KY   989.27     30  9.9     13.1  37 193
48    Pittsburgh PA   991.29     36 10.6      8.1  59 263
49      New York NY   994.65     42 10.7     11.3  26 108
50        Albany NY   997.88     35 11.0      3.5  10  39
51       Buffalo NY  1001.90     36 10.5      8.1  12  37
52    Wilmington DE  1003.50     45 11.3     12.1  11  42
53       Memphis TE  1006.49     50 10.4     36.7  18  34
54  Philadelphia PA  1015.02     42 10.5     17.5  32 161
55   Chattanooga TN  1017.61     52  9.6     22.2   8  27
56       Chicago IL  1024.89     33 10.9     16.3  63 278
57      Richmond VA  1025.50     44 11.0     28.6   9  48
58    Birmingham AL  1030.38     53 10.2     38.5  32  72
59     Baltimore MD  1071.29     43  9.6     24.4  38 206
60   New Orleans LA  1113.06     54  9.7     31.4  17   1

Ajuste um modelo de regressão linear múltipla relacionando a taxa de mortalidade a esses regressores.
Teste a significância da regressão. Que conclusões você pode tirar?
Utilize testes \(t\) para avaliar a contribuição de cada regressor ao modelo. Discuta seus achados.
Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) para este modelo.
Obtenha um intervalo de confiança de 95% para o coeficiente de regressão de SO₂

Abaixo estão dados em que \(y\) = licor verde (g/l) e \(x\) = velocidade da máquina de papel (ft/min) de uma máquina de papel kraft. (Os dados foram obtidos a partir de um gráfico em um artigo publicado no Tappi Journal, março de 1986.)

dados <- data.frame(
  x = c(1700, 1720, 1730, 1740, 1750,
        1760, 1770, 1780, 1790, 1795),
  y = c(16.0, 15.8, 15.6, 15.5, 14.8,
        14.0, 13.5, 13.0, 12.0, 11.0)
)
dados

      x    y
1  1700 16.0
2  1720 15.8
3  1730 15.6
4  1740 15.5
5  1750 14.8
6  1760 14.0
7  1770 13.5
8  1780 13.0
9  1790 12.0
10 1795 11.0

Ajuste o modelo \(y = \beta_0 + \beta_1 x + \beta_2 x^2 + \varepsilon\) aos dados.
Teste a significância da regressão usando \(\alpha = 0.05\). Quais são suas conclusões?
Teste a contribuição do termo quadrático \(\beta_2\) para o modelo e a contribuição do termo linear \(\beta_1\), utilizando uma estatística \(F\). Se \(\alpha = 0.05\), qual conclusão pode ser obtida?
Construa o gráfico dos resíduos do modelo. O ajuste do modelo parece satisfatório?
Suponha que seja importante prever a resposta nos pontos \(x = 1750\) e \(x = 1775\). Encontre a resposta predita nesses pontos e os intervalos de predição de \(95\%\) para a resposta futura observada nesses pontos.
Suponha que um modelo de primeira ordem também esteja sendo considerado. Ajuste esse modelo e encontre a resposta predita nesses pontos. Calcule os intervalos de predição de \(95\%\) para a resposta futura observada nesses pontos. Isso fornece alguma indicação sobre qual modelo deve ser preferido?

@profjulianobortolini www.julianobortolini.com.br linkedin github lattes