| Country | Sugar.consumption | Depression.rate |
|---|---|---|
| USA | 300 | 3.0 |
| Canada | 390 | 5.2 |
| France | 350 | 4.4 |
| Germany | 375 | 5.0 |
| New Zealand | 480 | 5.7 |
| South Korea | 150 | 2.3 |
Análise de Regressão
Bacharelado em Estatística - UFMT
Lista de exercícios 1
’O artigo “A Cross-National Relationship Between Sugar Consumption and Major Depression?” (Depression and Anxiety 2002: 118–120) relatou os seguintes dados sobre \(x =\) consumo diário de açúcar (calorias per capita) e \(y =\) taxa anual de depressão majoritária (casos por 100 pessoas) para uma amostra de seis países.
Para o teste de hipóteses \(H_0: \rho = 0\) versus \(H_a: \rho \neq 0\), em que \(\rho\) é o coeficiente de correlação populacional, o teste de correlação de Pearson é baseado na estatística de teste \[ T = \frac{R \sqrt{n - 2}}{\sqrt{1 - R^2}} \]
que segue uma distribuição \(t\) com \(n - 2\) graus de liberdade. A estatística \(R\) é o coeficiente de correlação amostral.
Para um teste de hipóteses sobre a correlação, as hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:
| Hipótese Alternativa | Região de Rejeição para um Teste de Nível \(\alpha\) |
|---|---|
| \(H_a: \rho > 0\) | \(t \geq t_{\alpha, n-2}\) |
| \(H_a: \rho < 0\) | \(t \leq -t_{\alpha, n-2}\) |
| \(H_a: \rho \neq 0\) | \(t \geq t_{\alpha/2, n-2}\) ou \(t \leq -t_{\alpha/2, n-2}\) |
- Calcule e interprete o valor do coeficiente de correlação amostral.
- Apresente o modelo que relaciona a taxa de depressão ao consumo de açúcar.
- Usando o modelo ajustado, estime a taxa de depressão para um país com consumo diário de açúcar igual a 400 calorias per capita.
- Realize um teste de hipóteses para decidir se a taxa de depressão e o consumo de açúcar estão correlacionados.
- Quando \((X_1, Y_1), \dots, (X_n, Y_n)\) é uma amostra de uma distribuição normal bivariada, a variável aleatória \[ V = \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) \] segue aproximadamente uma distribuição normal com média e variância: \[ \mu_V = \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right), \quad \sigma_V^2 = \frac{1}{n - 3}. \] A estatística de teste para \(H_0: \rho = \rho_0\) é dada por: \[ Z = \frac{V - \frac{1}{2} \ln [(1 + \rho_0) / (1 - \rho_0)]}{1 / \sqrt{n - 3}} \] As hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:
| Hipótese Alternativa | Região de Rejeição para um Teste de Nível \(\alpha\) |
|---|---|
| \(H_a: \rho > \rho_0\) | \(z \geq z_{\alpha}\) |
| \(H_a: \rho < \rho_0\) | \(z \leq -z_{\alpha}\) |
| \(H_a: \rho \neq \rho_0\) | \(z \geq z_{\alpha/2}\) ou \(z \leq -z_{\alpha/2}\) |
Um intervalo de confiança de \(100(1 - \alpha)\%\) para \(\rho\) é dado por: \[ \left( \frac{e^{2c_1} - 1}{e^{2c_1} + 1}, \quad \frac{e^{2c_2} - 1}{e^{2c_2} + 1} \right), \] em que \(c_1\) e \(c_2\) são os extremos inferior e superior do intervalo na seguinte expressão: \[ v \pm z_{\alpha/2} \cdot \sigma_V = \frac{1}{2} \ln \left( \frac{1 + r}{1 - r} \right) \pm \frac{z_{\alpha/2}}{\sqrt{n - 3}}. \]
Usando os dados do exercício anterior, verifique a hipótese \(H_0: \rho = 0,70\) versus \(H_a: \rho \neq 0,70\) ao nível de significância de 5%. Calcule o intervalo de confiança de 95% para \(\rho\).
Usando o R
#1.
x <- c(300, 390, 350, 375, 480, 150)
y <- c(3.0, 5.2, 4.4, 5.0, 5.7, 2.3)
#a. Coeficiente de correlação amostral
cor(x, y)[1] 0.9444588
#b. Modelo de regressão linear
b1 <- cor(x,y) * (sd(y) / sd(x))
b1[1] 0.01143091
b0 <- mean(y) - b1 * mean(x)
b0[1] 0.3706319
# usando a funcao lm
modelo <- lm(y ~ x)
modelo
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
0.37063 0.01143
#c. Estimativa para consumo de açúcar igual a 400
y_400 <- b0 + b1 * 400
y_400[1] 4.942995
# usando resultados do modelo lm
beta <- coef(modelo)
beta(Intercept) x
0.37063194 0.01143091
y_400 <- beta[1] + beta[2] * 400
y_400(Intercept)
4.942995
#d. Teste de hipóteses para correlação
n <- length(x)
R <- cor(x, y)
T_c <- (R * sqrt(n - 2)) / sqrt(1 - R^2)
T_c[1] 5.747857
# valor crítico para α = 0.05
alpha <- 0.05
t_crit <- qt(1 - alpha / 2, df = n - 2)
t_crit[1] 2.776445
abs(T_c) > t_crit # rejeita H0[1] TRUE
# usando a função cor.test
cor.test(x, y)
Pearson's product-moment correlation
data: x and y
t = 5.7479, df = 4, p-value = 0.004542
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5691206 0.9940752
sample estimates:
cor
0.9444588
#2.
# Hipótese H0: ρ = 0.70 versus Ha: ρ ≠ 0.70
R <- cor(x, y)
R[1] 0.9444588
rho_0 <- 0.70
V <- 0.5 * log((1 + R) / (1 - R))
V[1] 1.777807
V_0 <- 0.5 * log((1 + rho_0) / (1 - rho_0))
V_0[1] 0.8673005
n <- length(x)
sigma_V <- 1 / sqrt(n - 3)
Z_c <- (V - V_0) / sigma_V
Z_c[1] 1.577043
# valor crítico para α = 0.05
alpha <- 0.05
z_crit <- qnorm(1 - alpha / 2)
z_crit[1] 1.959964
abs(Z_c) > z_crit # rejeita H0[1] FALSE
# Intervalo de confiança de 95% para ρ
z_alpha2 <- qnorm(1 - alpha / 2)
c1 <- V - z_alpha2 * sigma_V
c1[1] 0.6462211
LI <- (exp(2 * c1) - 1) / (exp(2 * c1) + 1)
LI[1] 0.5691206
c2 <- V + z_alpha2 * sigma_V
c2[1] 2.909393
LS <- (exp(2 * c2) - 1) / (exp(2 * c2) + 1)
LS[1] 0.9940752
IC <- c(LI, LS)
IC[1] 0.5691206 0.9940752
# usando a funçao cor.test
cor.test(x, y)
Pearson's product-moment correlation
data: x and y
t = 5.7479, df = 4, p-value = 0.004542
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5691206 0.9940752
sample estimates:
cor
0.9444588