Análise de Regressão

Author
Affiliation

Universidade Federal de Mato Grosso

Bacharelado em Estatística - UFMT

Prova 2

Resolva a prova usando Quarto ou Rmarkdown. Envie o arquivo .qmd ou .Rmd e o arquivo .html ou .pdf com as respostas. A prova vale 10,00 pontos e deve ser entregue até o dia 18/9/2025 às 23:59h no AVA.

A Leishmaniose Visceral Canina (LVC) é uma zoonose causada pelo protozoário Leishmania infantum e transmitida por flebotomíneos, principalmente do gênero Lutzomyia. Os cães são os principais reservatórios domésticos da infecção, desempenhando papel central na cadeia de transmissão para seres humanos. A doença apresenta evolução crônica e multissistêmica, com manifestações clínicas diversas, como perda de peso, lesões dermatológicas, linfadenopatia, alterações oculares e comprometimento renal.

O tratamento utilizado neste estudo foi o Alopurinol. Esse medicamento atua inibindo a proliferação do parasito, promovendo melhora clínica e prolongando a sobrevida do animal, sendo uma das principais opções terapêuticas para o manejo da LVC.

Coleta de Dados

Foram incluídos no estudo 17 cães diagnosticados com Leishmaniose Visceral Canina. Todos os animais foram submetidos exclusivamente ao tratamento com Alopurinol e acompanhados por um período inicial de 29 dias. As coletas de dados foram realizadas em dois momentos:

  • Tempo 0: na data do diagnóstico da LVC;
  • Tempo 29: 29 dias após o início do tratamento.

Variáveis Coletadas

As seguintes variáveis clínicas, imunológicas, hematológicas e bioquímicas foram registradas para cada animal:

  • Escore clínico: medida semiquantitativa da gravidade clínica do animal, sendo que valores mais altos indicam maior comprometimento sistêmico.
  • IL-2 (pg/mL): concentração de interleucina 2, associada à resposta imune do tipo Th1 (imunidade celular).
  • IL-4 (pg/mL): concentração de interleucina 4, relacionada à resposta imune do tipo Th2 (imunidade humoral).
  • Hemoglobina (g/dL): indicador da capacidade de transporte de oxigênio, avalia presença de anemia.
  • Hematócrito (%): percentual de células vermelhas no sangue total, também utilizado na avaliação de anemia.
  • Plaquetas (mil/mm³): contagem plaquetária, utilizada para avaliação de hemostasia e possíveis citopenias.
  • Leucócitos (mil/mm³): número total de leucócitos circulantes, indicando resposta inflamatória ou imunossupressão.
  • Ureia (mg/dL): marcador da função renal, com elevação em casos de comprometimento glomerular ou tubular.
  • Creatinina (mg/dL): outro indicador da função renal, mais específico para avaliação da taxa de filtração glomerular.
  • Albumina (g/dL): proteína sintetizada no fígado, indicadora do estado nutricional e de processos inflamatórios crônicos.
  • Proteína Total (g/dL): soma das proteínas plasmáticas, incluindo albumina e globulinas.
  • Globulina (g/dL): fração proteica relacionada à resposta imunológica e inflamação crônica.

Todos os dados são fictícios (simulados)!

ID_Animal <- c(1, 1, 2, 2, 3, 
        3, 4, 4, 5, 5, 
        6, 6, 7, 7, 8, 
        8, 9, 9, 10, 10, 
        11, 11, 12, 12, 13, 
        13, 14, 14, 15, 15, 
        16, 16, 17, 17)

Tempo <- c(0, 29, 0, 29, 0, 
           29, 0, 29, 0, 29, 
           0, 29, 0, 29, 0, 
           29, 0, 29, 0, 29, 
           0, 29, 0, 29, 0, 
           29, 0, 29, 0, 29, 
           0, 29, 0, 29)

Escore <- c(16, 7, 17, 12, 7, 
            2, 9, 5, 5, 3, 
            16, 12, 12, 10, 22, 
            15, 14, 11, 14, 8, 
            13, 9, 5, 6, 10, 
            8, 16, 11, 14, 11, 
            19, 14, 11, 8)

IL_2 <- c(12.6, 17.44, 18.08, 17.02, 6.24, 
          14.67, 18.97, 13.26, 15.42, 19.2, 
          22.92, 20.14, 12.76, 11.05, 3.98, 
          9.79, 14.31, 12.76, 14.13, 16.81, 
          10.62, 11.65, 13.26, 13.6, 12.93, 
          18.97, 18.97, 14.67, 17.44, 11.8, 
          14.67, 15.62, 22.65, 12.6)

IL_4 <- c(20.63, 16.41, 29.38, 23.35, 16.19, 
          22.78, 20.89, 20.37, 22.22, 29.03, 
          19.13, 38.5, 21.15, 22.5, 16.19, 
          9.5, 21.68, 23.64, 23.06, 27.34, 
          18.41, 19.13, 19.13, 17.5, 19.13, 
          16.62, 43.7, 23.06, 25.74, 21.15, 
          23.93, 26.69, 30.45, 28.69)

Hemoglobina <- c(9.1, 10.4, 9.6, 11.4, 12.5, 
                 12.8, 13.8, 15.0, 15.0, 14.4, 
                 8.1, 7.7, 15.1, 15.7, 8.6, 
                 8.5, 8.0, 8.9, 9.2, 10.5, 
                 9.7, 11.2, 7.5, 9.4, 9.3, 
                 13.5, 12.4, 11.5, 9.7, 11.5, 
                 7.3, 7.7, 7.3, 10.1)

Hematocrito <- c(30, 32, 28, 34, 39, 
                 39, 41, 46, 44, 41, 
                 25, 24, 46, 45, 28, 
                 26, 23, 26, 28, 31, 
                 30, 32, 23, 29, 31, 
                 43, 38, 34, 29, 34, 
                 22, 24, 24, 32)

Plaquetas <- c(66, 132, 240, 432, 226, 
               426, 200, 162, 192, 147, 
               84, 126, 150, 156, 150, 
               168, 294, 122, 120, 174, 
               257, 312, 192, 216, 72, 
               95, 50, 78, 149, 273, 
               200, 216, 96, 324)

Leucocitos <- c(13.3, 11.9, 9.4, 6.5, 13.6, 
                12.4, 8.2, 9.4, 8.3, 8.4, 
                3.6, 3.2, 8.5, 7.2, 8.1, 
                6.7, 27.7, 17.7, 6.6, 8.4, 
                7.3, 7.2, 7.2, 2.4, 7.1, 
                6.8, 7.3, 6.9, 8.8, 11.7, 
                3.0, 7.4, 6.2, 5.8)

Ureia <- c(22, 36, 31, 29, 33, 
           36, 27, 29, 38, 36, 
           38, 41, 58, 72, 32, 
           61, 16, 14, 28, 25, 
           27, 59, 42, 46, 49, 
           35, 25, 28, 27, 14, 
           34, 25, 34, 31)

Creatinina <- c(0.6, 0.8, 0.7, 0.7, 1.0, 
                1.0, 1.1, 1.2, 1.1, 0.9, 
                0.8, 0.8, 1.4, 1.4, 0.9, 
                0.9, 0.7, 0.7, 0.7, 0.7, 
                0.7, 0.9, 0.9, 0.9, 1.1, 
                1.2, 0.6, 0.7, 0.7, 0.8, 
                0.8, 1.4, 0.9, 0.8)

Albumina <- c(1.2, 1.5, 2.6, 2.6, 2.2, 
              2.5, 2.7, 2.8, 3.4, 3.5, 
              1.6, 2.1, 2.6, 2.7, 2.2, 
              1.6, 1.5, 1.4, 2.3, 3.3, 
              3.3, 3.2, 2.8, 3.1, 2.5, 
              2.4, 2.4, 2.4, 2.4, 2.7, 
              2.2, 2.7, 2.2, 2.8)

Proteina_Total <- c(7.1, 8.2, 9.3, 9.9, 9.8, 
                    9.8, 8.1, 7.9, 7.3, 7.3, 
                    12.5, 16.1, 8.0, 8.3, 13.2, 
                    13.1, 9.9, 9.9, 7.6, 9.7, 
                    9.1, 9.8, 15.5, 11.5, 7.4, 
                    8.7, 8.4, 8.6, 11.8, 8.8, 
                    8.5, 9.5, 8.2, 12.0)

Globulina <- c(5.9, 6.7, 6.7, 7.3, 7.6, 
               7.3, 5.4, 5.1, 3.9, 3.8, 
               10.9, 14.0, 5.4, 5.6, 11.0, 
               11.5, 8.4, 8.5, 5.3, 6.4, 
               5.8, 6.6, 12.7, 8.4, 4.9, 
               6.3, 6.0, 6.2, 9.4, 6.1, 
               6.3, 6.8, 6.0, 9.2)

dados <- data.frame(
  ID_Animal, Tempo, Escore, IL_2, IL_4,
  Hemoglobina, Hematocrito, Plaquetas, Leucocitos,
  Ureia, Creatinina, Albumina, Proteina_Total, Globulina
)


knitr::kable(dados)
ID_Animal Tempo Escore IL_2 IL_4 Hemoglobina Hematocrito Plaquetas Leucocitos Ureia Creatinina Albumina Proteina_Total Globulina
1 0 16 12.60 20.63 9.1 30 66 13.3 22 0.6 1.2 7.1 5.9
1 29 7 17.44 16.41 10.4 32 132 11.9 36 0.8 1.5 8.2 6.7
2 0 17 18.08 29.38 9.6 28 240 9.4 31 0.7 2.6 9.3 6.7
2 29 12 17.02 23.35 11.4 34 432 6.5 29 0.7 2.6 9.9 7.3
3 0 7 6.24 16.19 12.5 39 226 13.6 33 1.0 2.2 9.8 7.6
3 29 2 14.67 22.78 12.8 39 426 12.4 36 1.0 2.5 9.8 7.3
4 0 9 18.97 20.89 13.8 41 200 8.2 27 1.1 2.7 8.1 5.4
4 29 5 13.26 20.37 15.0 46 162 9.4 29 1.2 2.8 7.9 5.1
5 0 5 15.42 22.22 15.0 44 192 8.3 38 1.1 3.4 7.3 3.9
5 29 3 19.20 29.03 14.4 41 147 8.4 36 0.9 3.5 7.3 3.8
6 0 16 22.92 19.13 8.1 25 84 3.6 38 0.8 1.6 12.5 10.9
6 29 12 20.14 38.50 7.7 24 126 3.2 41 0.8 2.1 16.1 14.0
7 0 12 12.76 21.15 15.1 46 150 8.5 58 1.4 2.6 8.0 5.4
7 29 10 11.05 22.50 15.7 45 156 7.2 72 1.4 2.7 8.3 5.6
8 0 22 3.98 16.19 8.6 28 150 8.1 32 0.9 2.2 13.2 11.0
8 29 15 9.79 9.50 8.5 26 168 6.7 61 0.9 1.6 13.1 11.5
9 0 14 14.31 21.68 8.0 23 294 27.7 16 0.7 1.5 9.9 8.4
9 29 11 12.76 23.64 8.9 26 122 17.7 14 0.7 1.4 9.9 8.5
10 0 14 14.13 23.06 9.2 28 120 6.6 28 0.7 2.3 7.6 5.3
10 29 8 16.81 27.34 10.5 31 174 8.4 25 0.7 3.3 9.7 6.4
11 0 13 10.62 18.41 9.7 30 257 7.3 27 0.7 3.3 9.1 5.8
11 29 9 11.65 19.13 11.2 32 312 7.2 59 0.9 3.2 9.8 6.6
12 0 5 13.26 19.13 7.5 23 192 7.2 42 0.9 2.8 15.5 12.7
12 29 6 13.60 17.50 9.4 29 216 2.4 46 0.9 3.1 11.5 8.4
13 0 10 12.93 19.13 9.3 31 72 7.1 49 1.1 2.5 7.4 4.9
13 29 8 18.97 16.62 13.5 43 95 6.8 35 1.2 2.4 8.7 6.3
14 0 16 18.97 43.70 12.4 38 50 7.3 25 0.6 2.4 8.4 6.0
14 29 11 14.67 23.06 11.5 34 78 6.9 28 0.7 2.4 8.6 6.2
15 0 14 17.44 25.74 9.7 29 149 8.8 27 0.7 2.4 11.8 9.4
15 29 11 11.80 21.15 11.5 34 273 11.7 14 0.8 2.7 8.8 6.1
16 0 19 14.67 23.93 7.3 22 200 3.0 34 0.8 2.2 8.5 6.3
16 29 14 15.62 26.69 7.7 24 216 7.4 25 1.4 2.7 9.5 6.8
17 0 11 22.65 30.45 7.3 24 96 6.2 34 0.9 2.2 8.2 6.0
17 29 8 12.60 28.69 10.1 32 324 5.8 31 0.8 2.8 12.0 9.2
  1. (0,50) Ajuste um modelo de regressão linear múltipla relacionando o Escore com as variáveis Tempo, IL_2, Albumina, Leucocitos e Ureia.

  2. (0,25) Construa a tabela de análise de variância (ANOVA) e teste a significância da regressão.

  3. (1,00) Calcule as estatísticas \(t\) para testar as hipóteses para cada coeficiente do modelo. Quais conclusões você pode tirar sobre a influência dessas variáveis no modelo?

  4. (0,25) Calcule o \(R^2\) e o \(R^2_{\text{aj}}\) (ajustado) para este modelo.

  5. (0,50) Usando o teste \(F\) parcial, determine a contribuição da variável Tempo no modelo. Qual conclusão você pode tirar sobre a influência dessa variável no modelo?

  6. (0,50) Usando o teste \(F\) parcial, determine a contribuição das variáveis Ureia e IL_2 no modelo. Qual conclusão você pode tirar sobre a influência dessas variáveis no modelo?

  7. (0,50) Construa um gráfico de probabilidade normal dos resíduos. Há indícios de violação da suposição de normalidade? Realize os testes de normalidade de Shapiro-Wilk e Kolmogorov-Smirnov. O que você conclui?

  8. (0,50) Construa e interprete o gráfico dos resíduos studentizados em função da resposta predita. Realize o teste de homocedasticidade de Breusch-Pagan. O que você conclui?

  9. (0,50) Calcule e interprete as correlações entre as variáveis independentes presentes no modelo.

  10. (0,25) Calcule o VIF (Variance Inflation Factor) para as variáveis presentes no modelo. O que você conclui? Os valores do VIF são úteis para indicar multicolinearidade. Valores de VIF superior a 5 ou 10 sugerem multicolinearidade. Use a função vif() do pacote car para calcular o VIF.

  11. (0,50) Calcule a estatística PRESS (Press Residual Sum of Squares) para os modelos completo (com as variáveis Tempo, Albumina, Leucocitos, Ureia e IL_2) e reduzido (apenas com Tempo, Albumina e Leucocitos). O que você conclui? Defina um modelo como o que melhor representa os dados.

  12. (0,25) Considerando o modelo definido no item k: calcule os valores dos pontos de alavancagem (leverage). Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2p/n\) (onde \(p\) é o número de parâmetros do modelo e \(n\) é o número de observações) são considerados influentes.

  13. (0,25) Considerando o modelo definido no item k: calcule os valores da distância de Cook. Quais observações são consideradas influentes? Lembre-se que valores superiores a 1 são considerados influentes.

  14. (0,25) Considerando o modelo definido no item k: calcule os valores de DFBETAS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2/\sqrt{n}\) merecem atenção.

  15. (0,25) Considerando o modelo definido no item k: calcule os valores de DFFITS. Quais observações são consideradas influentes? Lembre-se que valores superiores a \(2\sqrt{p/n}\) merecem atenção.

  16. (0,25) Considerando todas as variáveis disponíveis, utilize o método de seleção de variáveis forward (seleção progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis forward (seleção progressiva) é um método de seleção de variáveis que começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis significativas a serem adicionadas.

  17. (0,25)Utilize o método de seleção de variáveis backward (eliminacão progressiva) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis backward (eliminacão progressiva) é um método de seleção de variáveis que começa com um modelo completo (com todas as variáveis preditoras) e remove variáveis preditoras uma a uma, com base em critérios estatísticos, até que não haja mais variáveis insignificativas a serem removidas.

  18. (0,25) Utilize o método de seleção de variáveis stepwise (passo a passo) para selecionar um modelo de regressão com subconjunto de variáveis. Comente sobre o modelo final. O método de seleção de variáveis stepwise (passo a passo) é um método de seleção de variáveis que combina os métodos forward e backward. Ele começa com um modelo nulo (sem variáveis preditoras) e adiciona variáveis preditoras uma a uma, com base em critérios estatísticos, mas também pode remover variáveis preditoras que se tornam não significativas à medida que novas variáveis são adicionadas.

  19. (3,00) Usando todo o conjunto de dados e os métodos de seleção de variáveis (itens p, q e r) defina um modelo de regressão linear múltipla. Comente sobre o modelo final. O modelo final deve ser interpretado com cautela, considerando a significância das variáveis, medidas de ajuste, análise de resíduos e pontos influentes.


@profjulianobortolini      www.julianobortolini.com.br      linkedin      github       lattes