Análise de Regressão

Author

Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Lista de exercícios 1

’O artigo “A Cross-National Relationship Between Sugar Consumption and Major Depression?” (Depression and Anxiety 2002: 118–120) relatou os seguintes dados sobre \(x =\) consumo diário de açúcar (calorias per capita) e \(y =\) taxa anual de depressão majoritária (casos por 100 pessoas) para uma amostra de seis países.

Consumo diário de açúcar e taxa anual de depressão por país
Country	Sugar.consumption	Depression.rate
USA	300	3.0
Canada	390	5.2
France	350	4.4
Germany	375	5.0
New Zealand	480	5.7
South Korea	150	2.3

Para o teste de hipóteses \(H_0: \rho = 0\) versus \(H_a: \rho \neq 0\), em que \(\rho\) é o coeficiente de correlação populacional, o teste de correlação de Pearson é baseado na estatística de teste \[ T = \frac{R \sqrt{n - 2}}{\sqrt{1 - R^2}} \]

que segue uma distribuição \(t\) com \(n - 2\) graus de liberdade. A estatística \(R\) é o coeficiente de correlação amostral.

Para um teste de hipóteses sobre a correlação, as hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:

Hipótese Alternativa	Região de Rejeição para um Teste de Nível \(\alpha\)
\(H_a: \rho > 0\)	\(t \geq t_{\alpha, n-2}\)
\(H_a: \rho < 0\)	\(t \leq -t_{\alpha, n-2}\)
\(H_a: \rho \neq 0\)	\(t \geq t_{\alpha/2, n-2}\) ou \(t \leq -t_{\alpha/2, n-2}\)

Calcule e interprete o valor do coeficiente de correlação amostral.
Realize um teste de hipóteses para decidir se a taxa de depressão e o consumo de açúcar estão correlacionados.

Quando \((X_1, Y_1), \dots, (X_n, Y_n)\) é uma amostra de uma distribuição normal bivariada, a variável aleatória \[ V = \frac{1}{2} \ln \left( \frac{1 + R}{1 - R} \right) \] segue aproximadamente uma distribuição normal com média e variância: \[ \mu_V = \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right), \quad \sigma_V^2 = \frac{1}{n - 3}. \] A estatística de teste para \(H_0: \rho = \rho_0\) é dada por: \[ Z = \frac{V - \frac{1}{2} \ln [(1 + \rho_0) / (1 - \rho_0)]}{1 / \sqrt{n - 3}} \] As hipóteses nula e alternativa, e a região de rejeição são dadas a seguir:

Hipótese Alternativa	Região de Rejeição para um Teste de Nível \(\alpha\)
\(H_a: \rho > \rho_0\)	\(z \geq z_{\alpha}\)
\(H_a: \rho < \rho_0\)	\(z \leq -z_{\alpha}\)
\(H_a: \rho \neq \rho_0\)	\(z \geq z_{\alpha/2}\) ou \(z \leq -z_{\alpha/2}\)

Um intervalo de confiança de \(100(1 - \alpha)\%\) para \(\rho\) é dado por: \[ \left( \frac{e^{2c_1} - 1}{e^{2c_1} + 1}, \quad \frac{e^{2c_2} - 1}{e^{2c_2} + 1} \right), \] em que \(c_1\) e \(c_2\) são os extremos inferior e superior do intervalo na seguinte expressão: \[ v \pm z_{\alpha/2} \cdot \sigma_V = \frac{1}{2} \ln \left( \frac{1 + r}{1 - r} \right) \pm \frac{z_{\alpha/2}}{\sqrt{n - 3}}. \]

Usando os dados do exercício anterior, verifique a hipótese \(H_0: \rho = 0,70\) versus \(H_a: \rho \neq 0,70\) ao nível de significância de 5%. Calcule o intervalo de confiança de 95% para \(\rho\).

Considere variáveis aleatórias \(X\) e \(Y\) com momentos de segunda ordem finitos. Defina \[ \operatorname{Cov}(X,Y)=E\big[(X-E(X))(Y-E(Y))\big] \] e, quando \(\sigma_X>0\) e \(\sigma_Y>0\), \[ \operatorname{Cor}(X,Y)=\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}. \]

Para uma amostra \((x_1,y_1),\cdots,(x_n,y_n)\), defina \[ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i, \qquad \bar{y}=\frac{1}{n}\sum_{i=1}^n y_i, \] \[ S_{xx}=\sum_{i=1}^n x_i^2 - \frac{\sum_{i=1}^n x_i^2}{n}, \qquad S_{yy}=\sum_{i=1}^n y_i^2 - \frac{\sum_{i=1}^n y_i^2}{n}, \qquad S_{xy}=\sum_{i=1}^n x_i y_i - \frac{\sum_{i=1}^n x_i \sum_{i=1}^n y_i}{n}, \] \[ r_{xy}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}. \]

Mostre que \[ \operatorname{Cov}(X,Y)=E(XY)-E(X)E(Y). \]
Demonstre que a covariância é simétrica, isto é, \[ \operatorname{Cov}(X,Y)=\operatorname{Cov}(Y,X). \]
Demonstre que \[ \operatorname{Cov}(X,X)=\operatorname{Var}(X). \]
Sejam \(a,b,c,d \in \mathbb{R}\). Mostre que \[ \operatorname{Cov}(aX+b,cY+d)=ac\,\operatorname{Cov}(X,Y). \]
Demonstre, como caso particular do exercício anterior, que a soma de constantes não altera a covariância, isto é, \[ \operatorname{Cov}(X+b,Y+d)=\operatorname{Cov}(X,Y). \]
Mostre que, para constantes \(a_1,\cdots,a_m\) e \(b_1,\cdots,b_n\), \[ \operatorname{Cov}\left(\sum_{i=1}^m a_iX_i,\sum_{j=1}^n b_jY_j\right) = \sum_{i=1}^m\sum_{j=1}^n a_i b_j\operatorname{Cov}(X_i,Y_j). \]
Demonstre que, se \(X\) e \(Y\) são independentes, então \[ \operatorname{Cov}(X,Y)=0. \]
Mostre, por meio de um contraexemplo, que a recíproca do exercício anterior é falsa; isto é, construa variáveis aleatórias dependentes \(X\) e \(Y\) tais que \[ \operatorname{Cov}(X,Y)=0. \]
Usando a desigualdade de Cauchy–Schwarz, demonstre que \[ |\operatorname{Cov}(X,Y)|\le \sigma_X\sigma_Y. \]
A partir do exercício anterior, demonstre que \[ -1\le \rho_{XY}\le 1. \]
Mostre que, para constantes \(a\neq 0\), \(c\neq 0\), \(b,d\in\mathbb{R}\), \[ \operatorname{Cor}(aX+b,cY+d)=\frac{ac}{|a||c|}\operatorname{Corr}(X,Y). \]
Deduza, a partir do exercício anterior, que:

translações não alteram a correlação;
mudanças de escala positiva não alteram a correlação;
multiplicações por constantes negativas alteram apenas o sinal da correlação.

Mostre que \[ S_{xy}=\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = \sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}. \]

\[ S_{xy}=\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) = \sum_{i=1}^n x_i y_i - \frac{(\sum_{i=1}^n x_i)( \sum_{i=1}^n y_i)}{n}. \]

Mostre a equivalência com \[ r_{xy}=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}. \]
Mostre que a correlação amostral é invariante por transformações lineares da forma \[ x_i^\star=ax_i+b,\qquad y_i^\star=cy_i+d, \] com \(a\neq 0\) e \(c\neq 0\), a menos de possível mudança de sinal.
Demonstre que, se \(a>0\) e \(c>0\), então \[ r(x^\star,y^\star)=r(x,y). \]
Demonstre que, se \(ac<0\), então \[ r(x^\star,y^\star)=-r(x,y). \]
Pesquise e demonstre, supondo amostragem de uma distribuição normal bivariada com correlação populacional \(\rho=0\), a estatística \[ t=r\sqrt{\frac{n-2}{1-r^2}} \] tem distribuição \(t\) com \(n-2\) graus de liberdade.
Pesquise e demonstre, sob normalidade bivariada e para \(n\) grande, a utilidade da transformação de Fisher \[ z_r=\frac{1}{2}\log\left(\frac{1+r}{1-r}\right) \] na construção de intervalos de confiança para \(\rho\).
Explique por que a covariância depende da unidade de medida das variáveis, mas a correlação não.
Explique por que correlação nula não implica ausência de associação entre \(X\) e \(Y\).
Dê um exemplo de relação não linear forte entre duas variáveis aleatórias com correlação igual a zero.
Mostre que, se \(Y=a+bX+\varepsilon\) com \(\operatorname{Cov}(X,\varepsilon)=0\), então \[ \operatorname{Cov}(X,Y)=b\operatorname{Var}(X). \]

Considere uma série temporal, ou seja, uma sequência de observações \(X_1, X_2, \dots\) sobre alguma variável resposta (por exemplo, a concentração de um poluente, valor de uma ação, temperatura em uma região) ao longo do tempo. Suponha que os valores observados são \(x_1, x_2, \dots, x_n\) ao longo de \(n\) períodos de tempo. O coeficiente de autocorrelação de defasagem 1 (lag 1), que avalia a força da relação entre os valores da série separados por uma unidade de tempo, é definido como: \[r_1 = \frac{\sum_{i=1}^{n-1} (x_i - \bar{x}) (x_{i+1} - \bar{x})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\] Os coeficientes de autocorrelação \(r_2, r_3, \dots\) para defasagens \(2, 3, \cdots\) são definidos de maneira análoga.

Calcule o valor de \(r_1\) para os seguintes dados de temperatura coletados ao longo do tempo:

Dados da temperatura ao longo do tempo
Tempo	Temperatura
1	47
2	54
3	53
4	50
5	46
6	46
7	47
8	50
9	51
10	50
11	46
12	52
13	50

Faça um gráfico de dispersão da temperatura \(x_t\) contra o tempo \(t\) (gráfico de série temporal). Você observa algum padrão?
Analogamente ao coeficiente de correlação populacional \(\rho\), seja \(\rho_i\) (para \(i = 1, 2, 3, \dots\)) o coeficiente de autocorrelação teórica para diferentes defasagens. Se todos esses \(\rho\)’s forem zero, não há relação linear entre as observações da série temporal em nenhuma defasagem. Nesse caso, se \(n\) for grande, cada \(R_i\) segue aproximadamente uma distribuição normal com média 0 e desvio padrão \(1/\sqrt{n}\), e diferentes \(R_i\) são quase independentes. Portanto, a hipótese nula \(H_0: \rho_i = 0\) pode ser rejeitada em um nível de significância de aproximadamente \(0.05\) se: \[r_i \geq \frac{2}{\sqrt{n}} \quad \text{ou} \quad r_i \leq -\frac{2}{\sqrt{n}}.\] Se \(n = 100\) e os coeficientes amostrais observados forem: \[r_1 = 0.16, \quad r_2 = -0.09, \quad r_3 = -0.15,\] há evidências de autocorrelação teórica nas três primeiras defasagens? Está claro o motivo de rejeitar \(H_0\) quando \(|r_i| > 2/\sqrt{n}\)? Dica: qual é o valor de \(z_{0.025}\)?

@profjulianobortolini www.julianobortolini.com.br linkedin github lattes