Como fazer a comparação de médicas no bioestat

  1. 1. APLICAÇÕES ESTATÍSTICAS NAS ÁREAS DAS CIÊNCIAS BIO-MÉDICAS Desenvolvimento estatístico: Manuel Ayres Professor Emérito da Universidade Federal do Pará Manuel Ayres Jr. Ph.D., Universidade de Maryland Desenvolvimento do software Daniel Lima Ayres Engenheiro de Computação Universidade de Illinois Alex de Assis Santos dos Santos Tecnólogo em Processamento de Dados Instituto Bioestatístico de Ciência e Tecnologia BELÉM – PARÁ – BRASIL ANO 2007
  2. 2. Manuel Ayres, Manuel Ayres Júnior, Daniel Lima Ayres, Alex de Assis Santos dos Santos e Lucas Lima Ayres dedicam esta versão – 5.0 – do BioEstat a IZA DO AMARAL CORRÊA AYRES, com um abraço carinhoso, repassado com admiração e apreço. Ao longo de mais de dez (10) anos ininterruptos, você IZA tem nos proporcionado apoio incondicional na elaboração de nosso trabalho científico, participando direta e indiretamente com sugestões, na escolha de textos e imagens que enriquecem nosso livro, e no apoio material e espiritual desmedido para o aperfeiçoamento de uma ferramenta imprescindível para todos aqueles que desenvolvem pesquisa em nosso País. Sua bondade e humanidade nos tem sido preciosos e você tem sido a grande responsável por nossa alegria e energia nesse labor, não havendo qualquer exagero nessa afirmação. A unanimidade dentre aqueles que tem sorte de conhecê-la de perto não deixa margem a equívocos quanto ao estofo de que é feita a sua personalidade, sendo uma criatura singular – difícil de encontrar nesse mundo conturbado em que vivemos. Você é a Mãe admirável, a Mulher incomparável e a amiga mais carinhosa que poderíamos desejar. Um muito obrigado de todos os seus fiéis admiradores: Manuel Ayres Manuel Ayres Júnior Daniel Lima Ayres Alex Santos dos Santos Lucas Lima Ayres
  3. 3. Prefácio da 5a Edição O universo encontra-se em constante evolução. A idéia de que o mundo seria imutável, com toda a sua monotonia, foi alterada por outra, de uma dinâmica incessante. Da mesma maneira, a família Ayres e seu fiel companheiro Alex Santos dos Santos também não param. Estamos agora diante da quinta versão de um manual que já provou sua imensa utilidade junto à comunidade científica brasileira. Tendo como origem texto publicado há 20 anos atrás, as diferentes versões do BioEstat estão sempre procurando manter-se alertas às necessidades desta comunidade, em uma área que tradicionalmente é considerada difícil por alunos e profissionais da biologia e biomedicina. Esta natural (será mesmo natural?) aversão de biólogos e biomédicos à matemática e à estatística está sendo vencida, e boa parte do progresso alcançado vincula-se à revolução causada pela eletrônica. Com a internet houve uma considerável democratização do saber. Informações que antes levavam meses para transitar entre o Primeiro e o Terceiro Mundos atualmente podem ser obtidas de maneira quase instantânea. Da mesma forma, os pacotes estatísticos tornaram imensamente mais fácil a tarefa dos neófitos, como pode ser perfeitamente testemunhado por todos os usuários das versões anteriores do BioEstat. O que pode ser encontrado nas mesmas, bem como na versão atual? Bem, ali (e aqui) estão matérias presentes também em qualquer tratado de bioestatística, como probabilidades; amostragem; construção de gráficos e tabelas; fórmulas mais empregadas; estimação de parâmetros clássicos; correlação e regressão; e análise de variância. Mas também há tópicos mais especializados e de grande valor, como análise de sobrevivência; “bootstrap”; ou meta-análises diversas. O que há de novo? O teste de Mantel; acréscimo aos testes de risco relativo; índices de diversidade; e diversos outros aplicativos que complementam de maneira importante aspectos de processos considerados anteriormente. Qual seria a mensagem final desta breve introdução? A de que devemos agradecer que cérebros como os dos autores deste livro estejam se dedicando à difícil tarefa de colocar à disposição de seus colegas ou de qualquer outro interessado as ferramentas básicas necessárias à utilização de conceitos e interpretação de processos científicos. Em uma época em que lado a lado com os fantásticos progressos da ciência pululam por todo o mundo movimentos anticiência é salutar encontrar obras como esta: uma aragem revigorante que parte do ambiente quase sempre escaldante da nossa Amazônia! Francisco M. Salzano Professor Emérito Universidade Federal do Rio Grande do Sul
  4. 4. Prefácio da 1a e 2a Edições “O alívio da pobreza na Amazônia só pode ser feito se diminuirmos a migração da zona rural para as grandes cidades. Para mantermos a população humana na zona rural, além de darmos infra-estrutura escolar, sanitária e médica, precisamos manejar os recursos naturais de forma sustentável com base científica sólida e assim manter a estrutura dos ecossistemas através da conservação dos processos ecológicos e evolutivos”. José Márcio Ayres APRESENTAÇÃO O pacote estatístico BioEstat, aqui apresentado, tem como objetivo propiciar aos acadêmicos de diversas áreas do conhecimento um instrumento de grande praticidade e de fácil manuseio na avaliação de informações originadas através de pesquisa, sendo composto por este manual e de um aplicativo. Este estudo representa na verdade uma evolução bastante significativa dos mesmos autores de Aplicações Estatísticas em Basic, publicado em 1987 pela editora McGraw-Hill e, através de observações ao longo dos anos, oriundas do curso de Bioestatística fornecido pelo autor principal na Universidade Federal do Pará. Este trabalho foi realizado por três gerações dos Ayres: a primeira está representada por Manuel Ayres, professor de Estatística da Universidade Federal do Pará; a segunda, por Manuel Ayres Jr., PhD em engenharia civil pela Universidade de Maryland (EUA); e a terceira, pelo estudante do segundo grau, Daniel Lima Ayres, com 15 anos de idade, que desenvolveu o aplicativo, juntamente com Alex de Assis Santos dos Santos, em Visual Basic, e a diagramação deste manual. BioEstat é dirigido especialmente aos estudantes de graduação e pós- graduação das áreas médica e biológica que possuam noções básicas de estatística. O pacote é bastante facilitado pelo emprego do aplicativo e deste manual, onde a escolha do teste adequado poderá ser feita de maneira prática de acordo com a natureza dos dados, número de amostras e tipo de experimento. Ainda, para facilitar seu uso, cada teste tem seu respectivo exemplo que auxilia o emprego deste pacote estatístico. Os exemplos aqui
  5. 5. fornecidos podem ter sido originados de situações práticas reais ou puramente hipotéticas. Embora os testes estatísticos aqui apresentados sejam empregados nas mais diversas áreas da ciência, a escolha foi baseada na demanda levantada ao longo dos últimos anos por estudantes das áreas médicas e de diversos segmentos da área biológica. Poderão ser observadas pequenas divergências de resultados quando comparados a outros pacotes desse gênero. Essas diferenças, porventura detectadas, podem estar relacionadas ao emprego de distintos algoritmos. Sugestões para melhoria do pacote e possíveis erros encontrados durante o seu uso serão bem recebidos pelos autores. Essas modificações também poderão ser inseridas em futuras versões. J. Márcio C. Ayres MPEG/CNPq Wildlife Conservation Society – NY Belém, Pará, Maio de 1998. In memorian: o Autor desta Apresentação faleceu em 7 de março de 2003 e, se vive fosse, o segundo parágrafo desta Apresentação teria certamente o seguinte teor: Este trabalho foi realizado por três gerações dos Ayres: a primeira está representada por Manuel Ayres, ex-professor de Estatística da Universidade Federal do Pará; a segunda, por Manuel Ayres Jr., PhD em engenharia civil pela Universidade de Maryland (EUA); e a terceira, por Daniel Lima Ayres, engenheiro de computação pela Universidade de Illinois (EUA), que desenvolveu o aplicativo, juntamente com Alex de Assis Santos dos Santos, e a diagramação deste manual, e, mais recentemente, Lucas Lima Ayres, estudante de medicina veterinária da Universidade Federal de Minas Gerais, o qual contribuiu no desenvolvimento do Capítulo 18 sobre Estatísticas Circulares.
  6. 6. Prefácio da 3a Edição A conservação da biodiversidade é componente essencial para qualquer política de desenvolvimento sustentável. A falta de uma política consistente para este fim poderá levar a contínua eliminação de diferentes formas de vida, perda de recursos genéticos e a modificação de processos ecológicos e evolutivos que são essenciais para a própria sobrevivência da nossa própria espécie. Como demonstrado por inúmeros estudos, a perda da diversidade biológica terá custos enormes para toda a humanidade, tanto se utilizarmos os indicadores econômicos tradicionais, como se considerarmos também os valores sociais, estéticos e espirituais que fazem parte da nossa cultura. A Conservation International acredita que conservação da biodiversidade deve ser baseada em ciência de boa qualidade. Por isso, estamos estabelecendo, através dos nossos Centros de Conservação da Biodiversidade, parcerias diversas para o desenvolvimento de pesquisas e capacitação em todas as áreas do conhecimento relevantes para a ação de conservação. Independente da área, o conhecimento da estatística é fundamental. Uma necessidade comum no Brasil, tanto para os cientistas mais novos como para os que já possuem anos de experiência, é a existência de programas de computador que sejam efetivos para as análises estatísticas. É nesse contexto, que temos a honra de apoiar a publicação da terceira edição do livro BIOESTAT, escrito com toda a competência por Manuel Ayres, Manuel Ayres Júnior, Daniel Lima Ayres e Alex Santos dos Santos. Há poucos cientistas no Brasil que não conhecem as versões anteriores e certamente são milhares os estudantes de graduação e pós-graduação no país que iniciaram ou aprofundaram seus estudos de estatística utilizando este livro. O sucesso das duas versões anteriores foi tão grande, que os autores tiveram que trabalhar bastante para atender a uma demanda enorme para a atualização e publicação periódica de um livro tão importante para todos. Em nome de todos os que se dedicam ao estudo e a conservação da biodiversidade brasileira e mundial, desejamos agradecer o extraordinário esforço dos autores para produzir uma obra tão importante para todos, assim como reconhecer a importância do trabalho realizado por nosso grande amigo José Márcio Ayres, cujo trabalho fenomenal para demonstrar de forma inequívoca a indissociabilidade entre ciência e conservação. Russel A. Mittermeier Gustavo A. B. da Fonseca Presidente Vice-Presidente Executivo Conservation International Conservation International
  7. 7. Prefácio da 4a Edição A Estatística tem tido grande importância ao longo de sua história, que começa Antes de Cristo, com os registros egípcios “de presos de guerra”, a partir da organização de bancos de dados que possibilitaram o estabelecimento de uma relação-verdade entre o passado, o presente e o futuro. O BioEstat trilha a égide que fortalece o conhecimento da Estatística como ciência, desvendando modelos matemáticos e procedimentos de análises e, assim, possibilitando maior facilidade na interpretação dos fenômenos que se manifestam espontaneamente ou são induzidos à natureza dos seres vivos, sobretudo pelo próprio Homem. A evolução deste trabalho didático deve-se, entre outros fatores, às fases evolutivas dos conhecimentos estatísticos. A princípio houve a preocupação de introduzir aqueles aplicativos de uso mais geral, e assim o BioEstat 1.0 se apresentou como ferramenta destinada a oferecer aspectos voltados sobretudo para estudantes de graduação e pós-graduação das áreas médicas e biológicas. Na segunda etapa, o BioEstat 2.0 não perde seu foco inicial, mas evolui com a inclusão de novos modelos de análises e ultrapassa as fronteiras brasileiras e alcança o público técnico-científico da língua espanhola. Na fase seguinte, com a adição de novos aplicativos, a sugestão da escolha dos testes estatísticos e o cálculo do tamanho das amostras, o BioEstat 3.0 solidifica-se como ferramenta didática quase obrigatória devida, sobretudo, à facilidade de sua aplicação e interpretação dos fenômenos biológicos, sejam de ordem observacional, quer de natureza experimental. Tem assim início, e de forma definitiva, a empatia entre usuários e autores, cada um interpretando as necessidades de desenvolvimento do outro. Por fim, ocorre a interdependência de diversas áreas do conhecimento das ciências biomédicas com a Biometria – o BioEstat 4.0 chega com nova roupagem, com mais 15 aplicativos, sem se despir de sua trajetória histórica, mas atendendo as exigências dos usuários, ávidos por ampliar seus conhecimentos e se coloca, com seus 184 testes, como alternativa didática para outras áreas das ciências, com sugestões dos próprios usuários. Esta edição do BioEstat 4.0 consolida a relação de dependência com o seu público fiel, onde as trocas se igualam à vontade de evoluir, com ganhos de conhecimentos e confiabilidade, diante da necessidade de aprender a ensinar ensinando. Desperta interesse maior e permite a sua inserção, como instrumento de consultas, por estudiosos de outras áreas de conhecimento técnico-científico, que se auxiliam do BioEstat nas avaliações de seus estudos experimentais e observacionais. Do mesmo modo como a Estatística surgiu e ganhou reconhecimento, o projeto BioEstat vem evoluindo a cada lançamento. Esta evolução só se tornou possível pelo forte empenho e competência de seus autores, os quais tem se dedicado ao longo de 20 anos no aperfeiçoamento e na produção desta obra. Ana Rita Pereira Alves Diretora
  8. 8. AGRADECIMENTOS Os autores penhoradamente agradecem o desvelo da Professora JUSSARA MORETTO MARTINELLI, da Universidade Federal do Pará, na revisão minuciosa e com primor do manuscrito do BioEstat 5.0. O interesse inexcedível da ilustre Professora na execução dessa árdua tarefa, trouxe grande satisfação, incentivo e alegria aos participantes do trabalho ora publicado. Ao LUCAS LIMA AYRES, aluno de Medicina Veterinária da Universidade Federal de Minas Gerais, outro componente da família Ayres engajado nesta tarefa, agradecemos seu incentivo na introdução dos índices de Shannon-Wiener e de Simpson no BioEstat 5.0 e, sobretudo, no desenvolvimento das Estatísticas Circulares, ainda de menor utilização em nosso meio acadêmico. NOTA: Manuel Ayres, Manuel Ayres Júnior, Daniel Lima Ayres e Alex Assis Santos dos Santos têm a satisfação em lançar a mais nova edição do BioEstat (5.0), com 210 aplicativos voltados sobretudo para as áreas de ciências biológicas e médicas, resultantes do aperfeiçoamento das versões anteriores e de sugestões recebidas dos Usuários deste softwere, esclarecendo, todavia, que possíveis incorreções no programa e no texto são de inteira responsabilidade dos seus autores.
  9. 9. Agradecemos, também, a todas as pessoas que colaboraram direta ou indiretamente na construção do BioEstat, tornando público o nosso reconhecimento àquelas indicadas em seguimento e, ainda, aos docentes e discentes das Universidades brasileiras que muito contribuíram com suas sugestões no aperfeiçoamento deste trabalho: Ademar Ayres do Amaral Jeffrey Shaw Alberto Cargnelutti Filho José Márcio Corrêa Ayres * Alex Fiúza de Melo José Maria Cardoso da Silva Altino Pinheiro José Maria de Azevedo Barbosa * Ana Rita Pereira Alves José Maria de Sousa Anis Rassi Júnior José Sílvio Govone Antonio Carlos Simões Pião Jussara Moretto Martinelli Arno Holf Hamel Lucimar Macedo Rodrigues Bernardo Beiguelman Lúcio Flávio Pinto Cecília Banhara Marigo Luiz Claudio Marigo Cristovam Diniz Marcos Porpino de Oliveira Deborah Magalhães Lima Maria Aparecida Pion Abuabara Edson Elias Andrade Berbary Miguel Petrere Jr. Elon Lages Lima Oswaldo Frota-Pessoa Fábio Pereira Alves Paulo A. Otto Fernanda Sagica Peter Toledo Francisco Mauro Salzano Renata Gomes G. Oliveira Giorgini Augusto Venturieri Roberto B. Cavalcanti Gustavo A. B. da Fonseca Russel A. Mittermeier Helder Lima de Queiroz Sérgio Cacela Alves Horácio Schneider Sídia M. Callegari Jacques Ima Vieira Suely Fraiha Israel Roisenberg Victoria J. Isaac Iza do Amaral Corrêa Ayres William D. Hamilton * J. C. Voltolini * : In memorian Os autores estendem seus agradecimentos às seguintes Instituições: Conselho Nacional de Pesquisa - CNPq Conservation Internacional - CI Instituto de Desenvolvimento Sustentável Mamirauá Imprensa Oficial do Estado do Pará - IOEPA Museu Paraense “Emílio Goeldi” - MPEG Ministério da Ciência e Tecnologia – MCT Universidade Federal do Pará - UFPA Wildlife Conservation Society - WCS
  10. 10. - xi - SUMÁRIO CAPÍTULO 1 Usando o BioEstat1 1 1.1 Requerimentos de sistema, 1 1.7 Imprimindo, 6 1.2 Instalando o BioEstat, 1 1.8 Escolhendo o teste, 6 1.3 Expressão de casas decimais, 1 1.9 Executando o teste, 6 1.4 Entrando com os dados, 3 1.10 Configurando o BioEstat, 7 1.5 Salvando os dados, 4 1.10 Obtendo ajuda, 7 1.6 Abrindo arquivos, 5 1.12 Capacidade do geral do sistema, 7 CAPÍTULO 2 Amostragem 9 2.1 Introdução, 9 2.5 Amostra por Conglomerados, 11 2.2 Amostra Aleatória Simples, 10 2.6 Amostragem dos Escores do Grid, 13 2.3 Amostra Sistemática, 10 2.7 Aumento da amostra, 14 2.4 Amostra Estratificada, 11 CAPÍTULO 3 Análise Multivariada. 17 3.1 Introdução, 17 3.6 Distância Euclidiana, 30 3.2 Análise de Conglomerados, 17 3.7 Distância Penrose-Mahalanobis, 31 3.3 Análise Discriminante, 20 3.8 Teste de Bartlett, 33 3.4 Componentes Principais, 23 3.9 Teste de Hotelling, 33 3.5 Correlação Canônica, 25 3.10 Teste de Mantel, 34 CAPÍTULO 4 Análise de Sobrevivência . 39 4.1 Introdução, 39 4.6 Log-Rank Test, 47 4.2 Atuarial, 40 4.7 Gehan (Wilcoxon Gerneralizado), 51 4.3 Modelo de Cox-Mantel, 41 4.8 Mantel-Haenszel, 52 4.4 Cox: Modelo de Risco Proporcional, 42 4.9 Pirâmide Populacional, 53 4.5 Kaplan-Meyer, 46
  11. 11. - xii - SUMÁRIO CAPÍTULO 5 Análise de Variância 59 5.1 Introdução, 59 5.5 ANOVA: fatorial a x b x c, 67 5.2 ANOVA: um critério, 59 5.6 Teste de Friedman, 68 5.3 ANOVA: dois critérios, 64 5.7 Teste de Kruskal-Wallis, 70 5.4 ANOVA: fatorial a x b, 65 5.8 Teste Q de Cochran, 72 CAPÍTULO 6 Bootstrap – Tira de Bota 75 6.1 Introdução, 75 6.6 IC da Proporção , 80 6.2 Dados Dicotômicos, 75 6.7 Teste t, 2 amostras independentes, 81 6.3 Dados Contínuos, 77 6.8 ANOVA, um critério, 82 6.4 IC da Correlação Linear, 78 6.9 Correlação Linear, 83 6.5 IC da Média , 79 *IC: Intervalo de Confiança CAPÍTULO 7 Correlação 85 7.1 Introdução, 85 7.6 Coeficiente de Contingência C, 90 7.2 Correlação Linear de Pearson, 85 7.7 Concordância de Kendall, 91 7.3 Matriz de Correlação, 86 7.8 Correlação de Kendall, 92 7.4 Correlação Parcial, 88 7.9 Coeficiente Phi: rφ, 93 7.5 Correlação Linear: ρ ≠ 0, 89 7.9 Correlação de Spearman: rs, 94 CAPÍTULO 8 Distribuição de Probabilidades . 95 8.1 Introdução, 95 8.9 Ponto de Corte, 105 8.2 Distribuição Binomial, 95 8.10 Regra de Bayes, 106 8.3 Distribuição Hipergeométrica, 96 8.11 Sensibilidade/Especificidade, 107 8.4 Distribuição de Poisson, 97 8.12 Distribuição F, 107 8.5 Distribuição Exponencial, 98 8.13 Distribuição do Qui-Quadrado, 108 8.6 Distribuição Normal, 99 8.14 Distribuição t de Student, 109 8.7 Crivo (Screening Test), 102 8.15 Distribuição Z, 110 8.8 Curva ROC, 103
  12. 12. - xiii - SUMÁRIO CAPÍTULO 9 Uma Amostra . 111 9.1 Introdução, 111 9.8 Teste G, 119 9.2 Teste t, dados amostrais, 111 9.9 Teste de Kolmogorov-Smirnov, 120 9.3 Teste t, resumo amostral, 113 9.10 Teste de Lilliefors, 121 9.4 Teste Z, dados amostrais, 114 9.11 Teste do Qui-Quadrado, iguais, 121 9.5 Teste Z, resumo amostral, 115 9.12 Teste do Qui-Quadrado, desiguais, 122 9.6 Teste Binomial, 116 9.13 Teste de Poisson, 123 9.7 Iterações (runs test), 117 CAPÍTULO 10 Duas Amostras Independentes . 125 10.1 Introdução, 125 10.10 Teste U, de Mann-Whitney, 135 10.2 Teste t, dados amostrais, 126 10.11 Teste da Mediana, 137 10.3 Teste t, resumo amostral, 128 10.12 Teste do Qui-Quadrado, 138 10.4 Teste Z, dados amostrais, 129 10.13 Odds Ratio (OR), 139 10.5 Teste Z, resumo amostral, 130 10.14 Risco Relativo (RR), 140 10.6 Teste Binomial, 131 10.15 Taxa de Incidência, 143 10.7 Teste Exato de Fisher, 132 10.16 Coeficiente de Variação, 144 10.8 Teste G, 133 10.17 Teste de Poisson, 145 10.9 Teste de Kolmogorov-Smirnov, 134 CAPÍTULO 11 Duas Amostras Relacionadas . 147 11.1 Introdução,147 11.6 Teste de McNemar, 152 11.2 Teste t, dados amostrais, 147 11.7 Teste dos Sinais 154 11.3 Teste t, resumo amostral, 149 11.8 Teste Kappa, 156 11.4 ANOVA, 150 11.9 Teste de Wilcoxon, 157 11.5 Correlação Intraclasse, 151 (dados contínuos)
  13. 13. - xiv - SUMÁRIO CAPÍTULO 12 Estatística Descritiva . 159 12.1 Introdução, 159 12.3.1 Índice de Shannon-Wiener, 162 12.2 Variáveis quantitativas, 160 12.3.2 Índice de Simpson: k amostras, 163 12.3 Variáveis qualitativas, 162 CAPÍTULO 13 Estimação de Parâmetros . 165 13.1 Introdução, 165 13.9 Fourier (densidade), 173 13.2 Da Média, 165 13.10 Impacto Populacional, PIN-ER-t, 174 13.3 Da Proporção, 167 13.11 Matriz de Crescimento Populacional, 13.4 Diferença entre Duas Médias, 167 Modelo de Leslie, 175 13.5 Diferença entre Duas Proporções, 169 13.12 Tamanho (simples, direto), 176 13.6 Densidade e Tamanho, 170 13.13 Tamanho (simples, inverso), 177 13.7 Equilíbrio de Hardy-Weinberg, 171 13.14 Tamanho (múltipla, fechada), 177 13.8 Fenótipos e Genótipos, 172 13.15 Tamanho (múltipla, aberta), 179 CAPÍTULO 14 Meta-Análise . 181 14.1 Introdução, 181 14.7 Qui-Quadrado (independência), 192 14.2 Teste de DerSimonian-Laird, 182 14.8 Regressão para k amostras, 194 14.3 Dados Contínuos, 185 14.9 Risco Relativo (k Tabelas), 195 14.4 Teste de Mantel-Haenszel, 187 14.10 Teste G (aderência), 197 14.5 P-Valor (pw combinado), 190 14.11 Várias Correlações, 198 14.6 Qui-Quadrado (aderência), 191 14.12 Várias Proporções, 199 CAPÍTULO 15 Normalidade. 203 15.1 Introdução, 203 15.5 Teste de Lilliefors, 205 15.2 Teste D’Agostino, 203 15.6 Teste de Shapiro-Wilk, 206 15.3 Teste D’Agostino-Pearson, 204 15.7 Valores Extremos (desvios), 207 15.4 Teste de Kolmogorov-Smirnov, 205 15.8 Valores Extremos (quartis), 209
  14. 14. - xv - SUMÁRIO CAPÍTULO 16 Qui-Quadrado 211 16.1 Introdução, 211 16.2 Partição, 211 16.1 Aderência (ver Capítulo 9) 16.3 Resíduos do Qui-Quadrado, 212 16.1 Independência (ver Capítulo 10) 16.4 Teste de Tendência, 213 CAPÍTULO 17 Análise de Regressão. 215 17.1 Introdução, 215 17.6 Logística Simples, 224 17.2 Linear Simples, 215 17.7 Logística Múltipla, 226 17.3 Linear Múltipla, 217 17.8 Polinomial, 228 17.4 Ajustamento de Curvas, 219 17.9 Seleção Regressores (stepwise), 230 17.5 Análise de Resíduos, 221 17.10 Comparação: duas Regressões, 233 CAPÍTULO 18 Estatística Circular 235 18.1 Introdução, 235 18.5 Duas Amostras Independentes, 240 18.2 Estatística Descritiva, 236 18.5 Três Amostras Independentes, 242 18.3 Uma Amostra: Teste de Rayleigh, 238 18.7 Duas Amostras Relacionadas, 243 18.4 Uma Amostra: Teste V, 239 18.9 Correlação Circular, 244 CAPÍTULO 19 Tamanho das Amostras . 245 19.1 Introdução, 245 19.7 Qui-Quadrado, 250 19.2 Análise de Variância, 246 19.8 Regressão Linear, 250 19.3 Correlação Linear, 246 19.9 Teste t: uma amostra, 251 19.4 Teste de McNemar, 247 19.10 Teste t: duas independentes, 252 19.5 Proporção: uma amostra, 248 19.11 Teste t: amostras pareadas, 253 19.6 Proporção: duas amostras, 249 CAPÍTULO 20 Transformação de Dados . 20.1 Introdução, 255
  15. 15. - xvi - SUMÁRIO CAPÍTULO 21 Gráficos e Tabela . 259 21.1 Introdução, 259 21.11 Gráfico de Linha, 275 21.2 Gráfico de Área, 260 21.12 Gráfico Máximo e Mínimo, 276 21.3 Box-Plot (Mediana e quartis), 261 21.13 Pirâmide populacional, 277 21.4 Box-Plot (Média e desvios), 262 21.14 Gráfico Polar, 281 21.5 Caule e Folha (Stem and Leaf), 263 21.15 Gráfico de setor, 282 21.6 Gráfico de Colunas, 265 21.16 Manipulação de Gráficos, 283 21.7 Diagrama de Dispersão, 267 21.17 Tabelas de Freqüências, 285 21.8 Diagrama IC (95% e 99%), 268 21.18 Gráficos de Resultados, 287 21.9 Diagrama Pontual (Dot plot), 271 21.19 Configurações Avançadas, 287 21.10 Histograma, 272 CAPÍTULO 22 Fórmulas Estatísticas . 289 22.1 Introdução, 289 22.10 Estatística Descritiva, 307 22.2 Análise Multivariada, 289 22.11 Estimação de Parâmetros, 309 22.3 Análise de Sobrevivência, 292 22.12 Meta-Análise, 315 22.4 Análise de Variância, 294 22.13 Normalidade, 318 22.5 Correlação, 296 22.14 Qui-Quadrado, 319 22.6 Distribuição de Probabilidades, 297 22.15 Regressão, 321 22.7 Uma Amostra, 300 22.16 Tamanho das Amostras, 325 22.8 Duas Amostras Independentes, 301 22.17 Transformação de dados, 327 22.9 Duas Amostras Relacionadas, 305 22.18 Distribuição circular, 327 CAPÍTULO 23 Escolha do Teste Estatístico – Sugestões . 331 23.1 Introdução, 331 23.5 Duas Amostras Relacionadas, 335 23.2 Número de Amostras, 332 23.6 k Amostras Independentes, 336 23.3 Uma Amostra, 332 23.7 k Amostras relacionadas, 337 23.4 Duas Amostras Independentes, 334
  16. 16. - xvii - SUMÁRIO Glossário . 339 Referências Bibliográficas . 351 Índice . 359
  17. 17. - 1 - CAPÍTULO 1 USANDO O BIOESTAT 1.1 – REQUERIMENTOS DE SISTEMA O BioEstat 5.0 requer o sistema operacional Microsoft Windows XP ou posterior e um processador compatível com o padrão Intel Pentium com no mínimo 128MB de memória RAM. 1.2 – INSTALANDO O BIOESTAT a) Coloque o CD-ROM do BioEstat no drive apropriado; b) O programa de instalação deve inicializar após alguns instantes. Caso isso não ocorra, clique no botão Iniciar, em seguida escolha Executar e digite: D:SETUP.EXE, onde “D” é a letra do drive apropriado; c) Após o programa de instalação inicializar, siga as instruções contidas na tela; d) Quando a instalação estiver terminada, você pode rodar o BioEstat clicando em Iniciar, Programas, BioEstat 5.0 e, por fim, ao lado, em BioEstat 5.0. 1.3 – EXPRESSÃO DE CASAS DECIMAIS No BioEstat, para que seja mantida a compatibilidade com outros softwares e acompanhando a norma aceita internacionalmente nas calculadoras eletrônicas, todos os valores que possuam casas decimais devem ser grafados usando o ponto decimal. A vírgula, portanto, não é usada no BioEstat como indicador da separação entre a parte inteira e a decimal, conforme os exemplos abaixo: VALOR DESEJADO GRAFIA CORRETA GRAFIA INCORRETA Um e meio. 1.5 1,5 Dois inteiros e 75 centésimos. 2.75 2,75 Cinco mil e um centésimo. 5000.01 5000,01
  18. 18. - 2 - CAPÍTULO 1 – USANDO O BIOESTAT 1.4 – OUTRAS INFORMAÇÕES Para usar o BioEstat é preciso entender alguns termos básicos do programa e do padrão Microsoft Windows XP ® : Menu superior Barra de ferramentas Grid geral de entrada de dados Barra de status Tela de resultados Figura 1.1 Janela do BioEstat. Figura 1.2 Barra de ferramentas Novo grid Abrir Salvar Imprimir Recortar Copiar Colar Aumentar casas decimais Diminuir casas decimais Aumentar largura da coluna Diminuir largura da coluna Limpar tudo Localizar Lista dos testes estatísticos mais comuns Ajuda
  19. 19. - 3 - CAPÍTULO 1 – USANDO O BIOESTAT 1.5 – ENTRANDO COM OS DADOS Para entrar com os dados no grid geral (planilha), clique com o mouse na célula desejada e entre com o valor ou texto, se for o caso, passando para outra célula com as setas direcionais do teclado e inserindo o próximo dado, e assim por diante. A denominação de uma coluna pode ser efetuada de uma das seguintes maneiras: a) Pressione a tecla F2, preencha o nome desejado na caixa de texto e pressione a tecla Enter; b) Clique em Configurar no menu superior e, a seguir, na opção Nome da coluna, preencha a caixa de texto com o nome desejado e pressione a tecla Enter. Se há interesse em copiar os dados do grid, adote as seguintes condutas: a) Clique em uma das células já preenchidas e, com o botão pressionado, arraste o mouse sobre os dados que deseje copiar; b) Clique no botão Copiar da barra de ferramentas ou pressione Editar do menu superior, clicando em Copiar ou utilizando as teclas Ctrl + C. Para recortar os dados do grid adote os seguintes procedimentos: a) Clique em uma das células já preenchidas e, com o botão pressionado, arraste o mouse sobre os dados que deseje recortar; b) Clique no botão Recortar da barra de ferramentas ou pressione Editar do menu superior, clicando em Recortar ou pressione as teclas Ctrl + X. Quando for necessário colar os dados, adote as seguintes condutas: a) Copie ou recorte os dados que deseje colar; b) Clique na célula desejada e pressione o botão Colar na barra de ferramentas, ou em Colar do menu Editar ou, ainda, apertar Ctrl + V. Para localizar um valor ou um texto do grid geral, adote os seguintes procedimentos: a) Clique no botão Localizar na barra de ferramentas ou na opção Localizar no menu Editar ou, ainda, pressione as teclas Ctrl + L, quando surgirá a seguinte tela: b) Preencha a caixa de texto com a palavra ou o valor a ser localizado, pressione em Localizar próxima; c) Após fechar-se a janela Localizar, pode-se repetir a última busca utilizando a tecla F3 ou a opção Localizar próxima do menu Editar. Caso queira, pode-se apagar todos os dados presentes no grid clicando no botão Limpar tudo da barra de ferramentas ou na opção Limpar tudo do menu Editar. Figura 1.3 Localizar
  20. 20. - 4 - CAPÍTULO 1 – USANDO O BIOESTAT 1.6 – SALVANDO OS DADOS O arquivamento para posterior recuperação dos dados contidos no BioEstat pode ser efetuado no grid geral – a maioria – e, em alguns casos, em grids específicos. 1.6.1 – DO GRID GERAL (Matriz de entrada de dados) Quando for necessário salvar os dados, siga as seguintes instruções: a) Clique na opção Salvar (tecla Ctrl + B) no menu Arquivo ou pressione o botão Salvar na barra de ferramentas; b) Caso seja a primeira vez que esteja salvando os dados, entre com o nome do arquivo desejado na caixa de texto e, em seguida, pressione o botão Salvar. Caso deseje salvar um arquivo com outro nome, siga o seguinte procedimento: a) Clique na opção Salvar Como no menu Arquivo; b) Preencha a caixa de texto com o nome do arquivo desejado e, em seguida, pressione o botão Salvar. É possível também exportar os dados para o formato CSV (delimitado por vírgula), que pode ser lido por diversos outros aplicativos, tal como o Microsoft Excel. Para exportar, siga as seguintes condutas: a) Clique na opção Exportar do menu Arquivo; b) Preencha a caixa de texto com o nome do arquivo desejado e, em seguida, pressione o botão Salvar. 1.6.2 – DE GRIDS ESPECÍFICOS Em alguns testes o BioEstat apresenta grids próprios, a saber: a) Teste de Cox-Mantel; b) Teste de Gehan (Wilcoxon generalizado); c) ANOVA Fatorial: a x b; d) ANOVA Fatorial: a x b x c; e) Correlação: Teste de homogeneidade para vários valores de r; f) Qui-Quadrado: Homogeneidade (aderência); g) Teste G de Homogeneidade (aderência). Clique no menu Estatística e escolha, conforme o caso, um dos testes acima indicados. Após introduzir os escores nas caixas de texto, como especificado na Figura 1.4, digite em Nome do arquivo a designação que servirá para identificar seus dados. Depois desses procedimentos, o nome do arquivo aparecerá na lista dos itens salvos na parte superior esquerda do respectivo grid com a denominação do teste em questão. A Figura 1.4 mostra um exemplo do salvamento de um teste de Análise de Sobrevivência – teste de Gehan. Na lista daqueles que foram salvos aparecem dois exemplos: Exemplo_5_6_1.Gehan e Exemplo_5_6_2.Gehan.
  21. 21. - 5 - CAPÍTULO 1 – USANDO O BIOESTAT Para recuperar os dados, basta clicar no nome do item contido na lista, pressionando o mouse, a seguir, em Executar para obter os resultados. Na parte superior do grid consta o seguinte: Novo, Deletar, Salvar e Imprimir, que podem ser utilizados pelo usuário, conforme o caso. 1.7 – ABRINDO ARQUIVOS Quando for necessário abrir um arquivo, siga as seguintes instruções: a) Clique na opção Abrir (tecla Ctrl + A) no menu Arquivo ou pressione o botão Abrir na barra de ferramentas; b) Selecione o arquivo desejado e pressione o botão Abrir. Para abrir um arquivo que foi recentemente utilizado, clique no menu Arquivo e selecione aquele desejado na parte inferior do menu. O BioEstat contém os dados dos vários exemplos encontrados neste manual; para acessá-los, siga os seguintes passos: a) Clique na opção Abrir (tecla Ctrl + A) no menu Arquivo ou pressione o botão Abrir na barra de ferramentas; b) Dê um duplo clique na pasta Exemplos, que se encontra na lista de arquivos; c) Selecione um dos vários exemplos disponíveis e pressione o botão Abrir. O programa também permite importar dados do formato CSV (delimitado por vírgula) e, para isso, siga as seguintes condutas: a) Clique na opção Importar do menu Arquivo; b) Selecione o arquivo desejado e pressione o botão Abrir. Figura 1.4 Salvando os dados de um grid especí- fico.
  22. 22. - 6 - CAPÍTULO 1 – USANDO O BIOESTAT 1.8 – IMPRIMINDO Para imprimir dados, siga os seguintes passos: a) Clique na opção Imprimir (Ctrl + P) do menu Arquivo ou no botão Imprimir da barra de ferramentas; b) Escolha se deseja imprimir o título ou não, o número de cópias e a orientação da página, sendo que a opção Automática utiliza a orientação mais adequada; c) Caso seja necessário, configure a impressão apertando no botão Configurações ou através da opção Configurar impressão do menu Arquivo. d) Quando esses procedimentos estiverem definidos, pressione o botão Imprimir. 1.9 – ESCOLHENDO O TESTE Quando o usuário desejar escolher um teste estatístico que seja adequado para os seus dados, siga, a título de sugestão, os seguintes procedimentos: a) Pressione Sugestões no menu superior; b) Clique na célula correspondente ao número de amostras do seu trabalho: uma amostra, duas amostras independentes, duas amostras pareadas, k amostras independentes ou k amostras relacionadas; c) Clique na célula relacionada com o número de variáveis da(s) amostra(s): uma, duas ou k variáveis; d) Clique na célula relativa ao tipo de dados amostrais: categóricos, ordenativos ou numéricos, surgindo, nesse momento, na parte inferior da tela, exemplos desses modelos de dados e, na coluna seguinte, os testes sugeridos pelo programa; e) Ao passar o cursor sobre as sugestões do BioEstat, surgirão, na parte inferior da tela, um resumo e a fórmula estatística do teste correspondente. Se julgar adequado, pressione o teste desejado. A qualquer momento é possível retornar à coluna anterior pressionando o botão correspondente: Dados, Variáveis ou Amostras, conforme o caso ou, ainda, em Sair para retornar ao grid geral. 1.10 – EXECUTANDO O TESTE O BioEstat 5.0 dispõe de 210 métodos estatísticos, entre procedimentos de amostragem, descritivos e inferenciais; para executá-los, adote as seguintes condutas: a) Abra um dos arquivos de Exemplos do BioEstat ou digite seus próprios dados no grid principal; b) Clique no menu Estatísticas e escolha um teste dentre as diversas opções; c) Na janela Seleção de Amostras: i - Selecione as colunas a serem utilizadas no teste, clicando-as. Para selecionar todas as colunas disponíveis para o teste, aperte o botão “>>”; ii - Caso queira remover alguma coluna que havia sido selecionada, dê um duplo clique nela mesma e, para remover todas as colunas selecionadas, pressione o botão “<<”; d) Quando as colunas desejadas estiverem selecionadas, clique no botão Executar Estatística.
  23. 23. - 7 - CAPÍTULO 1 – USANDO O BIOESTAT Para tornar a executar o último teste, clique na primeira opção do menu Estatísticas ou pressione as teclas Ctrl + U. Você também pode acessar mais facilmente os testes estatísticos mais comuns utilizando a lista dos mesmos na barra de ferramentas. 1.11 – CONFIGURANDO O BIOESTAT O menu Configurar apresenta uma série de opções de configuração: a) Aumentar Casas Decimais: aumenta o número de casas decimais visíveis da coluna atual, podendo também ser acessada através de seu botão na barra de ferramentas; b) Diminuir Casas Decimais: diminui o número de casas decimais visíveis da coluna atual. Esta opção pode também ser acessada através de seu botão na barra de ferramentas; c) Aumentar Largura: aumenta a largura da coluna atual. Também pode ser acessada através do botão do mesmo nome na barra de ferramentas; d) Diminuir Largura: diminui a largura da coluna atual. Ainda pode ser acessada através do botão similar da barra de ferramentas; e) Nome da coluna (F2): denomina uma coluna; f) Barra de Ferramentas: habilita ou desabilita a barra de ferramentas; g) Barra de Status: esconde ou torna visível a barra de status; h) Aumentar o número de colunas: basta caminhar com o cursor para à direita, utilizando a seta direcional do teclado. 1.12 – OBTENDO AJUDA Para obter ajuda enquanto estiver no BioEstat, aperte o botão Ajuda na barra de ferramentas ou clique na opção Ajuda do BioEstat (tecla F1) no menu Ajuda. 1.13 – CAPACIDADE GERAL DO SITEMA A Capacidade de armazenamento e processamento de dados do BioEstat é definida de acordo com os aspectos referidos em seguimento. 1.13.1 – TAMANHO MÁXIMO DA MATRIZ DE DADOS O BioEstat suporta, no máximo, 35 mil células distribuídas entre linhas e colunas. 1.13.2 – ANÁLISE DE CONGLOMERADOS Capacidade máxima de 50 variáveis, com até 500 observações cada. 1.13.3 – TESTE EXATO DE FISHER A soma de todas as células pode atingir 600 escores.
  24. 24. - 8 - CAPÍTULO 1 – USANDO O BIOESTAT
  25. 25. - 9 - Figura 2.1 Menu de Amostragem. CAPÍTULO 2 AMOSTRAGEM 2.1 – INTRODUÇÃO Amostragens ou sondagens são procedimentos de seleção de subconjuntos de populações – as amostras –, destinados ao conhecimento de uma ou várias características dos universos investigados. Quando se estuda uma população por sondagens, é necessário selecionar suas amostras representativas, a fim de que os resultados obtidos possam ser inferidos para o conjunto objeto da investigação. As amostragens dividem-se em dois grupos: a) Amostragens probabilísticas: i – amostras aleatórias simples; ii – amostras sistemáticas; iii – amostras estratificadas; iv – amostras por conglomerados; v – amostras aleatórias: dados do grid; vi – aumento do tamanho da amostra; vii – reamostragem “Bootstrap”. b) Amostras não-probabilísticas: i – intencional; ii – por conveniência; iii – por cotas. No BioEstat serão abordadas as amostragens probabilísticas, nas quais cada indivíduo tem uma chance conhecida, diferente de zero, de ser incluído na amostra e o método de seleção deve ser compatível com a probabilidade de cada unidade. Algumas etapas devem ser observadas na seleção amostral: a) Definição da população-alvo; b) Alistamento de todos os indivíduos desse universo: 1, 2, 3, …, n; c) Determinação do tamanho da amostra; d) Escolha do modelo de amostragem; e) Seleção das unidades da população. 2.1.1 – INSTRUÇÕES a) Dirigir o mouse para o menu superior e clicar em Estatística; b) Apontar o mouse em Amostragem, quando surgirá a figura abaixo, comum para todos os modelos de seleção amostral do BioEstat:
  26. 26. - 10 - CAPÍTULO 2 – AMOSTRAGEM 2.2 – AMOSTRAS ALEATÓRIAS SIMPLES São aquelas cujos indivíduos foram obtidos ao acaso da população, tendo cada amostra a mesma chance de ser escolhida dentre todas aquelas possíveis do mesmo tamanho. Os termos aleatório, randômico, casual e ao acaso são sinônimos. As amostras aleatórias simples podem ser obtidas por sorteio, em tabelas de números aleatórios e por computação. 2.2.1 – EXEMPLO Para determinar a estatura média de uma população de 350 alunos da segunda série do Ensino Fundamental, tomou-se amostra aleatória de 40 estudantes, precedida da listagem numérica de todos os discentes desse universo. 2.2.2 – INSTRUÇÕES a) Apontar o mouse em Aleatória, para escolha de um dos modelos: Com ou Sem reposição. b) Clicar o mouse em Sem reposição, modelo escolhido neste exemplo; preencher as caixas de texto com os tamanhos da população e da respectiva amostra, pressionando, a seguir, o botão Executar. 2.3 – AMOSTRAS SISTEMÁTICAS Nestas amostras o primeiro elemento é escolhido ao acaso e os demais, a partir dessa unidade, são selecionados a intervalos sistemáticos (k) previamente definidos até ser atingido o número total de indivíduos. Os intervalos são calculados pela razão: k = tamanho da população (N) / tamanho da amostra (n). A primeira unidade amostral pode variar de um (1) até o limite máximo do intervalo sistemático (k). 2.3.1 – EXEMPLO Do mesmo alunado do exemplo anterior, retirar amostra sistemática de tamanho 50. 2.3.2 – INSTRUÇÕES a) Clicar o mouse em Sistemática; b) Preencher as caixas de texto com os tamanhos da população e da respectiva amostra, pressionando, a seguir, o botão Executar. Figura 2.2 Amostragem Aleatória (Sem Reposição).
  27. 27. - 11 - CAPÍTULO 2 – AMOSTRAGEM 2.4 – AMOSTRAS ESTRATIFICADAS Trata-se de amostras obtidas de subconjuntos de uma população designados por estratos ou grupos, sem superposição de unidades entre eles, retirando-se amostra randômica de cada um. Há maior homogeneidade dos elementos dentro de cada grupo e maior diversidade entre os estratos, possibilitando maximizar as informações sobre todo o universo investigado. Deve-se definir cuidadosamente a quantidade de estratos, os limites de cada um e o número de variáveis a investigar. 2.4.1 – EXEMPLO A população de uma cidade de 600 habitantes foi dividida em dois estratos: urbano e rural, com a finalidade de se estudar a incidência de malária em cada grupo de seus residentes. O estrato urbano possui 400 habitantes e o rural, 200. O tamanho total da amostra deve compreender 60 pessoas. Deve-se notar que o tamanho da amostra retirada de cada subconjunto é proporcional ao tamanho de cada estrato em relação ao tamanho da população (ver Figura 2.4). 2.4.2 – INSTRUÇÕES a) Clicar o mouse em Estratificada; b) Preencher as caixas de texto com o número de estratos, o tamanho total da amostra e o tamanho da população em cada estrato, pressionando, a seguir, o botão Executar. 2.5 – AMOSTRAS POR CONGLOMERADOS Caracterizam-se pelo fato de que os elementos simples destas amostras são obtidos de unidades coletivas denominadas conglomerados ou clusters. Os conglomerados apresentam acentuada similitude no que diz respeito à variação de seus indivíduos, como são exemplos as colméias, os blocos residenciais, as aldeias de um mesmo grupo indígena, etc. Por esse procedimento é possível a listagem de todos os clusters, a escolha randômica de alguns, a relação completa das unidades simples daqueles já sorteados e, finalmente, a obtenção casual dos indivíduos dos conglomerados Figura 2.3 Amostragem sistemática.
  28. 28. - 12 - CAPÍTULO 2 – AMOSTRAGEM selecionados. A retirada da amostra pode ser efetuada em dois ou mais estágios: duplo, triplo, múltiplo, conforme o caso. 2.5.1 – EXEMPLO Calcular o peso médio de estudantes da quinta série do ensino fundamental das escolas públicas de um município. O total de estabelecimentos de ensino é de 52 escolas (conglomerados do 1o estágio), cada uma com 10 turmas da quinta série (conglomerados do 2o estágio), e cada turma apresentando 40 alunos matriculados (unidades simples, 3o estágio). Foram selecionadas 5, 4 e 8 unidades dos estágios 1o , 2o e 3o , respectivamente, constituindo, ao final, amostra de 160 discentes (5 x 4 x 8). 2.5.2 – INSTRUÇÕES a) Clicar o mouse em Conglomerados; b) Preencher a caixa de texto com o número de estágios (3), com a denominação de cada um, o número de unidades contidas nos respectivos clusters e, por fim, a quantidade de unidades determinadas para sorteio em cada conglomerado. Pressionar, em seguida, o botão Executar. Figura 2.4 Amostragem Estratificada. Figura 2.5 Amostragem por Conglo- merados. (parte dos re- sultados)
  29. 29. - 13 - CAPÍTULO 2 – AMOSTRAGEM 2.6 – AMOSTRA ALEATÓRIA DOS ESCORES DO GRID – SEM REPOSIÇÃO Pode-se retirar amostras aleatórias de escores inseridos no grid geral do BioEstat. 2.6.1 – EXEMPLO Estão inseridos no grid 140 escores (Figura 2.6), referentes à estatura de estudantes do sexo masculino de idades compreendidas entre 16 e 18 anos, de uma escola de ensino fundamental. Tendo em vista que os dados compreendem todos os alunos matriculados nessa instituição, com as características referidas, esses escores constituem, portanto, uma população, com estatura média igual a 169.45 cm. Retirou-se amostra aleatória desse conjunto para calcular a média amostral da variável estatura no sentido de verificar se ela é representativa do universo em questão. 2.6.2 – INSTRUÇÕES a) Introduzir os dados no grid padrão do BioEstat, conforme a Figura 2.6; b) Pressionar o mouse em Aleatória dos escores do grid; c) Selecionar a coluna, neste exemplo é a de número 1; d) Pressionar em Executar; Informar na caixa de texto o tamanho da amostra desejada (10, neste caso) e Pressionar em OK, para resultados (Figuras 2.7 e 2.8). Figura 2.7 Tamanho da Amostra. Figura 2.6 Dados parciais do Exemplo 2.6.1. Figura 2.8 A Coluna “Amostra” indica os escores selecionados de maneira aleatória.
  30. 30. - 14 - CAPÍTULO 2 – AMOSTRAGEM Efetuando-se a estatística descritiva dos escores amostrais, com o cálculo da média e do erro padrão, e comparando-os com a média paramétrica, obtêm-se: Dados da amostra: X = 176.4; xs = 3.4; Dado da população: µ = 178.5; Viés = (µ - X ) = 178.5 – 176.4 = 2.1 Pode-se concluir que a média amostral ( X = 176.4) é um estimador não enviesado do parâmetro (µ =178.5), eis que o viés (2.1) é inferior a um erro padrão, representado por xs = 3.4. A média amostral é, assim, representativa do universo em questão. 2.7 – AUMENTO DO TAMANHO DA AMOSTRA É um método computacional de geração de dados a partir de valores observados, com o objetivo de gerar novas e maiores amostras, cujo tamanho será decidido pelo pesquisador. É possível, assim, aumentar o poder do teste, sobretudo quando as amostras iniciais são pequenas por indisponibilidade de indivíduos. 2.7.1 – EXEMPLO A partir de dados hipotéticos foram obtidas duas amostras independentes de tamanho n = 4, cujos escores medidos em escala ordinal expressam resultados de análise histológica, sendo identificados conforme o grau da lesão: - Escore 1: leve; - Escore 2: moderada; - Escore 3: alta. A figura abaixo contém os escores observados no experimento. Quando o teste de Mann-Whitney foi aplicado o p-valor não foi significativo (p = 0.1266). 2.7.2 – INSTRUÇÕES a) Inserir no grid os dados obtidos; b) Selecionar no menu Amostragem: Escores do Grid e Aumento da Amostra; c) Na janela Seleção de Amostras, escolha apenas uma coluna de cada vez; d) Clique em Executar Estatística; e) Informe o tamanho da amostra a ser gerada. Neste exemplo adotamos 40 como o tamanho da nova amostra; f) O BioEstat 5.0 informará em qual coluna será inserida a reamostragem; g) Repita o procedimento para a segunda amostra; h) Execute o teste em questão com as novas amostras obtidas. Figura 2.9 Dados do Exemplo 2.7.1
  31. 31. - 15 - CAPÍTULO 2 – AMOSTRAGEM Neste exemplo, com amostras geradas de tamanho = 40, foi aplicado o teste de Mann- Whitney o qual mostrou diferença muito significativa, com p-valor <0.0001. Este procedimento poderá ser aplicado para k amostras, como na Análise de Variância. Figura 2.10 Exemplo 2.7.1, já com a reamostragem (visão parcial). Figura 2.11 Resultado do teste de Mann-Whitney para a reamostragem
  32. 32. - 16 - CAPÍTULO 2 – AMOSTRAGEM
  33. 33. - 17 - CAPÍTULO 3 ANÁLISE MULTIVARIADA 3.1 – INTRODUÇÃO A maioria dos testes estatísticos é concernente ao exame de uma única variável, a qual é considerada importante na descrição ou no estudo analítico dos dados amostrais. Em algumas situações, porém, torna-se importante considerar a análise de diversas variáveis aleatórias de modo simultâneo, para atingir outros aspectos não abrangidos por um exame mais simplificado. Embora se deva a Francis Galton (1886) as primeiras análises multivariadas, somente com o desenvolvimento dos computadores foi possível construir pacotes estatísticos com diferentes modelos de análises multivariadas, possibilitando seu uso em escala muito mais ampla. Do ponto de vista matemático, além dos conhecimentos básicos de álgebra, há necessidade de alguma noção sobre matrizes algébricas, para a efetivação da análise multivariada. A atual versão do BioEstat (5.0) dispõe dos seguintes testes: a) Análise de Conglomerados; b) Análise Discriminante; c) Componentes Principais; d) Correlação Canônica; e) Distância Multivariada (Euclidiana); f) Distância Multivariada (Penrose e Mahalanobis); g) Teste de Bartlett (duas amostras); h) Teste de Hotelling (uma amostra); i) Teste de Mantel. 3.1.1 – INSTRUÇÕES a) Introduzir os dados no grid padrão ou específico, conforme o teste; b) Dirigir o mouse para o menu superior e clicar em Estatística; c) Apontar o mouse em Análise Multivariada, conforme demonstra a Figura 3.1: 3.2 – ANÁLISE DE CONGLOMERADOS O objetivo desta análise é agrupar os indivíduos em conglomerados ou clusters. Os conglomerados são identificados como grupos que compõem a população ou a amostra que está sendo analisada. As unidades de um grupo apresentam muitas Figura 3.1 Menu de análise multivariada.
  34. 34. - 18 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA semelhanças entre si e muitas diferenças em relação às unidades dos demais grupos. É, pois, uma verdadeira classificação ou taxonomia, muito usada por biólogos. Dessa forma é um método exploratório, não um teste estatístico, contendo uma série de algoritmos para classificação dos objetos segundo o grau de similaridade, na tentativa de estabelecer uma estrutura, mesmo sendo inexistente. A análise pode ser realizada segundo alguns critérios de procedimentos, os quais são selecionados conforme as características das variáveis a serem analisadas, sendo apresentados a seguir: Método de Agregação A medida da distância é a base da análise de conglomerados. Originalmente, cada objeto é único e, portanto, as distâncias entre os objetos são óbvias. Entretanto, à medida que os objetos são agrupados, deve-se decidir qual a forma de medir a distância entre um grupo (cluster) e um objeto, ou entre dois grupos. Cada método de agregação fornece um critério diferente para definir, no espaço multidimensional, o ponto dentro do grupo que servirá de referência para calcular as distâncias entre esse grupo e outros objetos ou grupos. Tipo de Distância A distância na análise de conglomerados é um parâmetro para medir o grau de similaridade entre dois objetos. Cada variável corresponde a uma dimensão, e cada objeto é representado por um ponto no espaço multidimensional resultante. Quanto menor a distância mais similar serão os objetos e, portanto, aumenta a probabilidade de pertencerem ao mesmo grupo. As fórmulas que caracterizam os tipos de distâncias que podem ser aplicadas à análise de conglomerados podem ser obtidas no Capítulo 22 e podem ser escolhidas durante o procedimento deste aplicativo. Estandardização das variáveis Os resultados da análise de conglomerados poderão ter algum viés, se os dados são medidos em escalas diferentes. Dessa forma, por exemplo, se uma das variáveis for a altura do indivíduo medida em metros e a outra for a massa corporal medida em quilograma, aqueles terão um peso menor quando se compara a mesma informação medida em centímetros. A maneira de tornar as variáveis “comparáveis” será realizar a transformação z, em outras palavras, estandardizar todas essas variáveis. 3.2.1 – EXEMPLO Procurou-se verificar similitudes entre a forma escrita de diversos idiomas. As comparações têm como base as duas primeiras letras da grafia dos números de 1 a 10 em cada idioma. Para cada letra do alfabeto foi atribuído um valor numérico. Para a letra A (primeira letra do alfabeto) foi atribuído o valor 1, para a letra B (segunda letra do alfabeto) foi atribuído 2 e assim sucessivamente até a letra Z que corresponde ao número 26 por ser a vigésima sexta letra (foi incluída a letra w). Observe a Figura 3.2, na primeira linha da primeira coluna está localizado o grupo que representa o idioma Português. Na Figura 3.3, somente as duas primeiras letras de
  35. 35. - 19 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA cada número e de cada idioma foram substituídas pelos respectivos valores numéricos das letras. Em Português o número um recebeu o escore 2113, pois a letra inicial da palavra um (u) é a vigésima primeira (21a ) letra do alfabeto e a segunda letra (m) é a décima terceira (13 a ), e assim por diante. Deseja-se efetuar a Análise de Conglomerados para que sejam identificados e agrupados os idiomas conforme as similitudes e as diferenças existentes entre eles. 3.2.2 – INSTRUÇÕES a) Clicar no menu Análise Multivariada e na opção Análise de Conglomerados; b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste, para obter a Figura 3.4: Figura 3.3 Valores que representam as duas primeiras letras de cada idioma. Exemplo 3.2.1B. Figura 3.4 Critérios usados na análise. Figura 3.2 Números escritos por extenso. Exemplo 3.2.1A.
  36. 36. - 20 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA d) Selecione as opções: - Ligação Completa, como Método de Agregação; - Euclidiana, como Tipo de Distância; - Com Estandardização das Variáveis; e) Clicar em Executar, para obter o Dendograma da Figura 3.5. O dendograma (Figura 3.5) demonstra: a) Similitude entre o idioma Português e o Espanhol e proximidade com o Francês; b) Similitude entre o Holandês e o Alemão e proximidade com o Inglês; c) Similitude entre o Norueguês e o Dinamarquês; d) O idioma Húngaro está separado dos demais. 3.3 – ANÁLISE DISCRIMINANTE É uma técnica de Análise Multivariada que determina a separação de grupos de indivíduos de acordo com os valores de suas variáveis. Na Análise Discriminante pode-se obter: a) A determinação das funções discriminantes de Fisher (Y1 e Y2) capazes de separar ou discriminar os grupos de indivíduos. Y1 e Y2 são duas variáveis adimensionais, criadas de modo a permitir melhor separação entre os grupos que estão sendo analisados. b) O diagrama que identifica os grupos e permite a visualização das separações e aproximações grupais. c) Através das funções discriminantes de Fisher, torna-se possível a classificação de novos indivíduos, em um dos grupos determinados, sendo o cálculo semelhante ao utilizado na Regressão Linear Múltipla. Figura 3.5 Resultado do Exemplo 3.2.1. Nota: no BioEstat as distâncias são normalizadas em termos relativos à maior distância calculada.
  37. 37. - 21 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA Destaque-se, por exemplo, que na área médica é comum em psiquiatria a classificação de pacientes dentre categorias grupais, tais como: psicose afetiva, depressão, esquizofrenia, bipolar e outras, com apoio no exame clínico e nos sintomas observados durante o exame inicial de rotina. Dados laboratoriais posteriores, o seguimento dos enfermos (follow-up) e novas informações familiares podem resultar na alocação em uma nova categoria ou grupo, diminuindo, tanto quanto possível, o número de classificações equivocadas. A Análise Discriminante constitui um instrumento importante nesse modelo de abordagem. 3.3.1 – EXEMPLO (dados hipotéticos) Foram coletadas amostras de três espécies de Iris, medindo-se o comprimento e a largura das sépalas e respectivas pétalas. Os Grupos e as respectivas Variáveis foram introduzidas no grid do BioEstat na seguinte ordem: a) Grupo 1: Variáveis da Iris sp.1, contém 20 unidades; b) Grupo 2: Variáveis da Iris sp.2, contém 20 unidades; c) Grupo 3: Variáveis da Iris sp.3, contém 20 unidades. Cada unidade de cada grupo está representada com as seguintes variáveis: X1 = comprimento das sépalas; X2 = largura das sépalas; X3 = comprimento das pétalas; X4 = largura das pétalas. 3.3.2 – INSTRUÇÕES a) Clicar no menu Análise Multivariada e selecionar em Análise Discriminante; b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste, para obter a Figura 3.7; d) Pressionar em OK, nessa Figura, surgindo as funções discriminantes de Fisher (Y1 e Y2), com os respectivos estimadores das variáveis X1, X2, X3 e X4. Figura 3.6 Visão parcial dos dados do Exemplo 3.3.1 Figura 3.7 As funções discriminante de Fisher. Exemplo 3.3.1.
  38. 38. - 22 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA e) Pressionar o botão Gráfico, na parte superior à esquerda da Figura 3.7, para obter o diagrama representado pela Figura 3.8. Observe os agrupamentos: o Grupo 2 está ao centro, entre os Grupos 1 e 3. Quando desejamos classificar uma nova unidade, devemos preencher o valor de cada uma de suas variáveis e pressionar em Classificar. Por exemplo, foram introduzidos os valores X1 = 4.7, X2 = 3.5, X3 = 1.3 e X4 = 0.22, (Figura 3.9), pressionando-se o botão Classificar, resulta em uma unidade do Grupo 3 (Íris sp.3). Figura 3.8 Diagrama da função discriminante. Exemplo 3.3.1. Figura 3.9 Entrada de dados das variáveis para obter a classificação de um novo indivíduo. Exemplo 3.3.1.
  39. 39. - 23 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA Para obter um novo diagrama, pressione o botão Gráfico (Figura 3.9), sendo gerado novo diagrama com destaque para a nova unidade (Figura 3.10). Percebe-se que a nova unidade (Objeto Classificado) está localizada entre as unidades do Grupo 3, Iris sp.3, conforme resultados n Figura 3.9. 3.4 – COMPONENTES PRINCIPAIS O principal objetivo deste teste é indicar a significância relativa de variáveis preditivas, eis que, quando o número delas em um conjunto de dados é muito grande, podem surgir, pela análise de regressão múltipla, coeficientes irracionais, dificultando uma acurada identificação da importância daquelas variáveis. Trata-se, portanto, de um teste interpretativo, o qual consiste em examinar um grupo de k variáveis correlacionadas, transformando-as em outro conjunto de variáveis não correlacionadas e independentes, dispostas em combinações lineares e em ordem decrescente de importância através de índices designados de Zp, de tal maneira que a variância var(Z1) ≥ variância var(Z2) ≥ variância var(Z3) ≥., …,≥ variância var(Zp). Os primeiros índices são chamados de Componentes Principais, devendo-se dar maior ênfase àqueles que descrevem cerca de 80% ou mais da variação, os quais, em alguns casos, estão representados pelo primeiro e segundo componentes. Os tamanhos das amostras podem ser iguais ou desiguais. 3.4.1 – EXEMPLO Foram examinadas 40 andorinhas, mensurando-se cinco (5) variáveis: X1, X2, X3, X4 e X5, representando o comprimento total, comprimento das asas, comprimento do bico, perímetro cefálico e comprimento do esterno, respectivamente. Determinar os componentes principais dentre essas variáveis, cujos valores foram inseridos no grid geral como demonstrado a seguir: Figura 3.9 A classificação de um novo indivíduo. Exemplo 3.3.1.
  40. 40. - 24 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.4.2 – INSTRUÇÕES f) Pressionar o mouse em Componente Principal; g) Selecionar as colunas referentes às variáveis do grid geral; h) Clicar em Executar o Teste, para obter os resultados (ver Figura 3.12). d) Pressionar em Gráfico, na barra da Figura 3.12, para visualizar a seguinte imagem: Figura 3.12 Resultados do Exemplo 3.4.1 Os resultados demonstram que os índi- ces 1 e 2 representam 84% da variação total (73% + 11%) dos indivíduos testados, constituindo os Compo- nentes Princi- pais nesse Exemplo. Figura 3.11 Dados parciais do Exemplo 3.4.1.
  41. 41. - 25 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.5 – CORRELAÇÃO CANÔNICA Trata-se de um modelo de Análise Multivariada que permite investigar o relacionamento entre duas séries de variáveis: um grupo de variáveis X e outro de variáveis Y. A associação entre os grupos de variáveis tem como resultante a correlação (Rc) – denominada Canônica. Assim, na área médica, um pesquisador poderá relacionar um grupo de sintomas com um conjunto de fatores de risco em relação a determinada doença. OBJETIVOS a) Determinar a magnitude da relação entre dois conjuntos de variáveis; b) Deduzir os pesos de cada grupo de variáveis de forma que a correlação de cada composição linear seja maximizada; c) Avaliar a contribuição relativa de cada variável na correlação canônica, no sentido de explicar a natureza do relacionamento; d) Para propósitos descritivos e inferenciais, devendo, neste caso, as variáveis apresentar distribuição normal. LIMITAÇÕES a) A Correlação Canônica reflete a variação explicada pela composição linear das variáveis; b) Os valores canônicos derivados constituem amostra-dependente; c) As variáveis canônicas derivadas maximizam a Correlação e não a variância extraída; d) As interpretações estatísticas ainda não estão bem desenvolvidas. Figura 3.13 Gráfico do Exemplo 3.4.1.
  42. 42. - 26 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.5.1 – EXEMPLO 1 Suponha que em um estudo epidemiológico envolvendo enfermeiros que atuam em unidades de saúde de urgência e emergência, tem como objetivo determinar o nível de correspondência entre um conjunto de características das atividades desenvolvidas e a satisfação do profissional de saúde pública. As respostas a um questionário foram interpretadas e os dados introduzidos no grid geral conforme a Figura 3.14. Há três variáveis relacionadas com as características da atividade: a) Variação: Nível de variação envolvida nas tarefas, medida em percentual; b) Feedback: É a resposta, em percentual, da satisfação das pessoas usuárias do serviço de saúde onde foi efetuada a pesquisa; c) Autonomia: Percentual de liberdade admitido na realização das tarefas. As variáveis associadas à satisfação do profissional também são três: a) Satisfação: Nesta variável cada funcionário aponta o seu percentual de satisfação com as perspectivas que a carreira lhe oferece; b) Supervisão: Satisfação do empregado com a chefia imediata, o estilo gerencial do supervisor e o padrão de comunicação praticado no ambiente de trabalho, medida em percentual; c) Salário: Nível de satisfação do funcionário com o salário e outros benefícios, usando uma escala ordinal que varia de 1 a 10, sendo 1 = insatisfeito e valor 10 = excelente. 3.5.1.1 – INSTRUÇÕES a) Clicar no menu Análise Multivariada e na opção Correlação Canônica; b) Selecionar todas as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste, para obter o diálogo mostrado na Figura 3.15; d) Indique a quantidade de variáveis do Grupo Xi; e) Indique a quantidade de variáveis do Grupo Yi; f) Pressionar em Executar, para obter os resultados. Figura 3.14 Dados do Exemplo 3.5.1.
  43. 43. - 27 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA A figura acima define que as variáveis serão analisadas em dois grupos, onde o primeiro grupo é formado por três colunas, o segundo grupo de variáveis também é formado por três colunas. Esta especificação obedece a ordem na qual as colunas foram selecionadas na interface “Seleção de Amostras para Correlação Canônica”. A Figura 3.16 mostra as correlações canônicas, os autovalores e as probabilidades. A primeira correlação canônica (a correlação entre o primeiro par de variáveis canônicas) é 0.9352. Este valor, também denominado R Canônico, representa a melhor correlação possível entre qualquer combinação linear das variáveis de satisfação do profissional (Grupo Y) com as variáveis da característica da atividade desenvolvida (Grupo X). Figura 3.15 Definição dos grupos de variáveis do Exemplo 3.5.1. Figura 3.16 Resultados da correlação canônica. Exemplo 3.5.1.
  44. 44. - 28 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA A estatística R Canônica expressa a magnitude do relacionamento entre os dois conjuntos de variáveis. Neste exemplo é confirmada a associação entre os conjuntos de variáveis Xi e Yi pelo Qui-Quadrado (χ2 ) igual a 26.7996, com gl = 9, e o correspondente p-valor igual a 0.0015, que é muito significativo. Pode-se, ainda, determinar a correlação entre as variáveis do Grupo Xi e as variáveis do Grupo Yi, bastando clicar na parte superior da Figura 3.16 (Matriz das Correlações), cujos resultados estão dispostos na Figura seguinte (Figura 3.17), onde se constata que há quatro correlações Xi vs. Yj que são significativas. 3.5.2 – EXEMPLO 2 Estrutura populacional dos camarões Penaeidae no estuário do rio Caeté, litoral norte do Brasil. Sendo seis variáveis do grupo X. a) CPUA: índice de captura por área (B/A), sendo B a biomassa em gramas e A corresponde a abertura efetiva da rede embaixo d’água. b) Densidade: medida em indivíduos/m2 . c) Temperatura. d) Salinidade. e) Oxigênio dissolvido. f) pH. Variáveis do grupo Y. a) Dimensão 1. b) Dimensão 2. Obs: As Dimensões representam o escalonamento multidimensional da matriz gerada pelo agrupamento dos dados com a distância. Os dados estão exibidos parcialmente na Figura 3.18. Figura 3.17 Correlações do Exemplo 3.5.1. Figura 3.18 Visão parcial dos dados do Exemplo 3.5.2.
  45. 45. - 29 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.5.2.1 – INSTRUÇÕES a) Clicar no menu Análise Multivariada e na opção Correlação Canônica; b) No diálogo Seleção de Amostras para Correlação Canônica, selecionar todas as colunas referentes às variáveis do grid geral; c) Clicar em Executar a Estatística; d) Indique a quantidade de variáveis dos Grupos X e Y, observe a Figura 3.19. e) Pressionar em Executar, para obter os resultados. A correlação foi altamente significativa (p-valor < 0.0001) verificando-se na Figura 3.21 pela matriz de correlação as principais associações lineares entre as variáveis que compõem os dois grupos X e Y. Figura 3.19 Definição dos grupos de variáveis do Exemplo 3.5.2. Figura 3.20 Resultados do Exemplo 3.5.2.
  46. 46. - 30 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.6 – DISTÂNCIA MULTIVARIADA (Euclidiana) A distância Euclidiana abrange amostra com n indivíduos de espécies ou sub- espécies diferentes, cada uma apresentando p variáveis – X1, X2, … , Xp – mensuradas a nível intervalar ou de razões, procurando-se determinar a distância, sob o aspecto evolutivo, entre os indivíduos estudados. Os tamanhos das amostras podem ser iguais ou desiguais. 3.6.1 – EXEMPLO (hipotético) Procurou-se verificar a distância Euclidiana de cinco (5) espécies de felinos, medindo-se: X1 = distância entre o primeiro molar e o último molar; X2 = comprimento do canino; X3 = extensão da mandíbula; X4 = distância entre o primeiro pré-molar e o último molar; X5 = altura mandibular. Os dados foram inseridos no grid geral, de tal modo que as variáveis mensuradas correspondem às colunas X1, X2, X3, X4 e X5 , e as espécies de felinos são correlativas às linhas: 1 = espécie A; 2 = espécie B; 3 = espécie C; 4 = espécie D; e 5 = espécie E. 3.6.2 – INSTRUÇÕES a) Pressionar o mouse em Distância Multivariada (Euclidiana); b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste para obter os resultados (ver Figura 3.23). Figura 3.22 Dados do Exemplo 3.6.1. Figura 3.23 Resultados do Exemplo 3.6.1. A distância observada entre as espécies. Figura 3.21 Matriz de correlação do Exemplo 3.5.2.
  47. 47. - 31 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA d) Pressionar em Gráfico – barra de ferramentas, Fig. 3.23 – para visualizar a seguinte imagem: 3.7 – DISTÂNCIA MULTIVARIADA (Penrose e Mahalanobis) O método de Penrose testa as distâncias multivariadas de duas ou mais populações, levando em consideração, para o cálculo, os dados sobre médias, variâncias e covariâncias. O teste de Mahalanobis considera ainda as correlações entre as variáveis, além dos valores numéricos utilizados no procedimento de Penrose. Os tamanhos das amostras podem ser iguais ou desiguais. 3.7.1 – EXEMPLO O exemplo diz respeito a um trabalho (hipotético) realizado por um antropólogo sobre as medidas de quatro (4) variáveis cranianas do homem em cinco diferentes grupos indígenas: Grupo A = variáveis A1, A2, A3, A4; Grupo B = variáveis B1, B2, B3, B4; Grupo C = variáveis C1, C2, C3, C4; Grupo D = variáveis D1, D2, D3, D4; Grupo E = variáveis E1, E2, E3, E4. Os dados são introduzidos no grid geral abrangendo 20 colunas e 30 linhas, estas representando o número de indivíduos mensurados, conforme demonstrado na Figura 3.25. Figura 3.24 Gráfico do Exemplo 3.6.1. Figura 3.25 Dados parciais do Exemplo 3.7.1.
  48. 48. - 32 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.7.2 – INSTRUÇÕES a) Pressionar o mouse em Distância Multivariada (Penrose/Mahalanobis); b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste; d) Informar o número de amostras introduzidas. Neste exemplo são cinco (5) amostras; e) Clicar em OK, para os resultados. f) Pressionar em Gráfico – barra de ferramentas da Fig. 3.26 – para visualizar a seguinte imagem: Figura 3.26 Dados parciais do Exemplo 3.7.1. Figura 3.27 Gráfico do Exemplo 3.7.1.
  49. 49. - 33 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.8 – TESTE DE BARTLETT O teste de Bartlett compara três ou mais amostras – m – multivariadas, obtendo-se um “coeficiente de máxima-verossimilhança” simbolizado por φ (phi), cuja significância estatística é calculada pelo Qui-Quadrado com p (m – 1) graus de liberdade. O tamanho das amostras pode ser igual ou desigual. 3.8.1 – EXEMPLO Os mesmos dados de exemplo da Distância Multivariada (Penrose e Mahalanobis) constituem o exemplo para este teste, compreendendo, pois, cinco (5) amostras, cada uma com quatro (4) variáveis (ver Figura 3.25). 3.8.2 – INSTRUÇÕES a) Pressionar o mouse em Teste de Bartlett; b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste; d) Informar o número de amostras introduzidas. Neste exemplo são cinco (5) amostras, e clicar em OK, para resultados: 3.9 – TESTE DE HOTELLING Destina-se a comparar duas amostras multivariadas, cada uma com o mesmo número de variáveis − duas ou mais −, baseando-se na generalização do Teste t de Student, mais precisamente no quadrado dessa estatística, sendo representado simbolicamente por T2 . A probabilidade do teste – p-valor − é calculada pela estatística F resultante da transformação de T2 , conforme demonstrado no capítulo sobre Fórmulas Estatísticas. Os dados devem ser mensurados a nível intervalar ou de razões. 3.9.1 – EXEMPLO Duas amostras foram selecionadas, estudando-se cinco (5) variáveis de cada uma, cujos dados foram introduzidos no grid geral, correspondendo às variáveis Xi à Figura 3.28 Resultados do Exemplo 3.8.1. Os resultados apresentam um valor de Phi elevado (61.3095), sendo estatistica- mente muito significativo, eis que o p- valor é menor que 0.0001.
  50. 50. - 34 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA primeira, enquanto as variáveis Yi representam a segunda, num total de dez (10) colunas (variáveis) e 28 linhas, estas representando o número de indivíduos sorteados para o teste. 3.9.2 – INSTRUÇÕES a) Pressionar o mouse em Teste de Hotelling; b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste, para resultados: 3.10 – TESTE DE MANTEL Comparação entre duas matrizes de distâncias, como, por exemplo, da composição genética entre várias populações e respectivos intervalos geográficos ou temporais, obtendo-se valores do Coeficiente de Correlação (r), o qual pode variar de –1 a +1, denotando ou não associação matricial. Há dois procedimentos que podem ser utilizados na entrada de dados para este teste: 1) Procedimento A: dispomos das informações para a construção das matrizes; 2) Procedimento B: dispomos das matrizes M e E. Figura 3.30 Resultados do Exemplo 3.9.1. Não há diferença estatistica- mente signifi- cante entre as duas amostras, p = 0.5210. Figura 3.29 Visão parcial dos dados do Exemplo 3.9.1.
  51. 51. - 35 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.10.1 – EXEMPLO: PROCEDIMENTO A MATRIZ GENÉTICA x MATRIZ DE DISTÂNCIA GEOGRÁFICA Um estudo epidemiológico cujo objetivo era verificar se fatores climáticos estariam associados a variações genéticas dos portadores de anemia de células falciformes. A amostra era composta por 20 indivíduos moradores de cinco (5) cidades, com características climáticas diversificadas. As cidades foram identificadas pelas letras: A, B, C, D e E. Para isso seria necessário comparar as características genéticas e geográficas presentes nos cinco (5) grupos de indivíduos. No primeiro momento determinou-se a freqüência de um grupo de quatro (4) genes (Fator Alfa, Fator B, Fator V e IL 10). No segundo momento, obteve-se a distância linear (km) entre as cidades. A Figura 3.31 representa os dados genéticos da amostra, que estão armazenados no arquivo “Ex 03.10.01A – Dados Genéticos”. A Figura 3.32 representa as distâncias geográficas entre as cidades, estando armazenada no arquivo “Ex 03.10.01B – Distâncias geográficas”. Os arquivos estão disponíveis na pasta de Exemplos do Capítulo 3 do BioEstat. H0: r = 0 H1: r ≠ 0; Nível alfa = 0.05. 3.10.1.1 – OBTENÇÃO DAS MATRIZES a) Com os dados do “Ex 03.10.1A – Dados Genéticos” efetuar o procedimento de Penrose–Mahalanobis, para cinco (5) amostras, conforme descrito no item 3.7.1, para obter as distâncias entre as cinco (5) amostras. A matriz das distâncias de Penrose é mostrada no Figura 3.33. Figura 3.32 Distâncias geográficas em 5 pontos de coleta em cada município. Ex 3.10.1B. Figura 3.31 Visão parcial da coleta de dados de características genéticas nas 5 cidades Ex 3.10.1A.
  52. 52. - 36 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA b) Clicar em Teste de Mantel (segmento superior da Figura 3.33), para obter a imagem como na Figura 3.34. Este procedimento insere instantaneamente as Distâncias de Penrose (matriz) na entrada de dados do Teste de Mantel. c) Para fechar as janelas do Teste de Mantel e da Distância Multivariada de Penrose- Mahalanobis, clicar na seta (parte inferior direita da Figura 3.34), e fechar a janela das Figuras 3.34 e 3.33; d) Repetir este procedimento para os dados das Distâncias Geográficas (Figura 3.32), mas utilizando a Distância Euclidiana, como se observa na Figura 3.34; Figura 3.33 Dados da matriz Penrose. Figura 3.35 Dados da Matriz Euclidiana. Figura 3.34 Entrada de dados da primeira matriz (dados genéticos) para o teste de Mantel.
  53. 53. - 37 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA e) Repetir os procedimentos do item b), ou seja, clicar em Teste de Mantel, na parte superior da Figura 3.33, no sentido de obter a seguinte imagem: f) Clicar em Teste de Mantel (parte inferior da figura 3.34), para obter os seguintes resultados (Fig. 3.37): Os resultados mostram associação entre dados genéticos e distâncias geográficas, com o Coeficiente de Correlação igual a 0.6830 e p-valor significativo (0.0294). O valor Z representa o somatório do produto das variáveis das matrizes Mi e Ei. Assim temos: Z = (0.0897 x 2.4360 + 0.4093 x 4.9666 + ... + 0.2448 x 2.4073) = 7.3819. É possível, entretanto, obter outros valores de Z permutando-se os valores das matrizes, procedimento conhecido como bootstrap. Assim, basta clicar em Bootstrap, na parte inferior da Figura 3.34, e preencher as caixas de texto, conforme o desejado, como se depreende da Figura 3.38. Os resultados são semelhantes aos obtidos diretamente no Teste de Mantel, sem a reamostragem, com Coeficiente de Correlação r = 05484 e p-valor = 0.0170. É possível, na reamostragem, a ocorrência de valores positivos ou negativos, mas o p-valor terá a significação aproximada do obtido diretamente das matrizes sem bootstrap, e que correspondeu a 0.0294 (Figura 3.37). Figura 3.36 As duas matrizes estão prontas para o teste de Mantel. Figura 3.37 Resultado do Teste de Mantel Figura 3.38 Resultados da reamostragem das matrizes.
  54. 54. - 38 - CAPÍTULO 3 – ANÁLISE MULTIVARIADA 3.10.2 – EXEMPLO: PROCEDIMENTO B AS MATRIZES GENÉTICA E GEOGRÁFICA JÁ ESTÃO DISPONÍVEIS Os dados são semelhantes ao exemplo anterior, isto é, dizem respeito às Distâncias Genéticas e Espaciais, entretanto são preenchidas com outros escores. H0: r = 0 H1: r ≠ 0; Nível alfa = 0.05. 3.10.2.1 – INTRUÇÕES a) Introduzir as Matrizes M e E no grid geral do BioEstat, conforme se verifica na Figura 3.39. É importante destacar que as matrizes devem ter sempre o mesmo tamanho: neste exemplo elas são 5x5. b) Pressionar o mouse em Análise Multivariada e, a seguir, em Teste de Mantel, selecionar as colunas do grid, clicando, em seguida em Executar, para resultados (Figura 3.40). A correlação obtida, com r = 0.6548, é significativa, eis que o p-valor é igual a 0.0398, rejeitando-se a hipótese de nulidade. Há, portanto, associação entre as freqüências gênicas e as distâncias geográficas. Se houver interesse na reamostragem, pressionar em Bootstrap, na parte superior da Figura 3.40, efetuando o mesmo procedimento já referido. Figura 3.39 Matrizes Mi e Ei obtidas das Distâncias Penrose e Euclidiana. Figura 3.40 Resultados do Teste de Mantel. Exemplo 3.10.2.
  55. 55. - 39 - CAPÍTULO 4 ANÁLISE DE SOBREVIVÊNCIA 4.1 – INTRODUÇÃO A análise de sobrevivência vem sendo enfatizada nos estudos biométricos e destina-se a calcular a probabilidade de ocorrência de eventos ao longo de certo período, o qual é dividido em vários intervalos de tempo. Os eventos podem ser de diversas naturezas, tais como: períodos de remissão de uma doença, tempo de sobrevivência de indivíduos acometidos por neoplasia, estudos epidemiológicos, duração de matrimônios, efeitos de drogas e outros. Um fato a destacar nas análises de sobrevivência é o de que nem todos os elementos selecionados para o estudo atendem ao seguimento ao longo do período previamente estabelecido, podendo, a qualquer momento, abandoná-lo por motivos diversos. Esses indivíduos recebem a designação geral de censurados, os quais, de acordo com o teste escolhido, devem ou não ser registrados em cada tempo t no qual o período total foi dividido. O BioEstat oferece os seguintes modelos de Análise de Sobrevivência: a) Atuarial; b) Cox-Mantel; c) Cox: Modelo de Risco Proporcional; d) Kaplan-Meier; e) Log-Rank Test; f) Gehan (Wilcoxon generalizado); g) Mantel-Haenszel; h) Pirâmide Populacional. 4.1.1– INSTRUÇÕES a) Introduzir os dados no grid padrão do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatística; c) Apontar o mouse em Análise de Sobrevivência, conforme demonstra a Figura 4.1 Figura 4.1 Menu Análise de Sobrevivência.
  56. 56. - 40 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.2 – ATUARIAL Este procedimento consiste na observação de um grupo de indivíduos em períodos relativamente longos e divididos em vários intervalos constantes − t − de semanas, meses ou anos, registrando-se na 1 a coluna o número de indivíduos vivos, na 2 a , o de ocorrências − remissões, recidivas, mortes, etc. – e na 3 a , o de censurados – 0, 1, 2, …, n. Este modelo é de largo uso em instituições securitárias. 4.2.1 – EXEMPLO Um estudo foi efetuado em 87 pessoas operadas de neoplasia do estômago, as quais foram observadas ao longo de cinco anos, com intervalos – t – anuais. Os dados foram introduzidos no grid geral, registrando-se nas colunas 1, 2 e 3 os vivos, as ocorrências e os censurados, respectivamente. As linhas correspondem aos intervalos anuais: 1, 2, 3, 4 e 5 anos. 4.2.2 – INSTRUÇÕES a) Pressionar o mouse em Atuarial; b) Selecionar as colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste, informando – caixa de texto ao lado da Fig. 4.2 – a unidade de tempo representada pelos números 1 a 5 (ano, neste exemplo); d) Pressionar OK, para resultados. Ao final de cinco (50 anos, a chance de sobrevivência é bem exígua (0.0174), aumentando a proporção de risco a cada intervalo t. A expectativa de vida anual é de 2.82. Figura 4.2 Dados do Exemplo 4.2.1. Figura 4.3 Resultados do Exemplo 4.2.1.
  57. 57. - 41 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA Pressionando-se em Gráfico, na barra superior desta figura, escolhe-se uma das opções: Freqüência, Proporção ou Chance acumulada de sobrevivência com IC (95%). Neste exemplo escolheu-se a terceira opção, surgindo o gráfico da Figura 4.4. 4.3 – COX-MANTEL Teste estatístico não-paramétrico para duas amostras independentes com observações censuradas. 4.3.1 – EXEMPLO (hipotético) Dois grupos de seis (6) mulheres com câncer mamário foram tratados do seguinte modo: o primeiro grupo recebeu quimioterapia e radioterapia, enquanto o outro nada recebeu após mastectomia total. Ao final de três (3) anos, o tempo de remissão foi assinalado em meses. As observações censuradas estão assinaladas no grid específico com o sinal +. H0: S1(t) = S2(t); H1: S1(t) > S2(t); Nível de decisão: alfa = 0.05 (unilateral) 4.3.2 – INSTRUÇÕES a) Pressionar o mouse em Cox-Mantel; b) Inserir os valores de cada grupo (A e B) no grid específico, assinalando com o caractere “+” sucedendo os escores censurados; c) Clicar em OK para obter os resultados, conforme disposto na Figura 4.5. Figura 4.4 Gráfico do Exemplo 4.2.1.
  58. 58. - 42 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA A diferença entre os tratamentos é muito significativa (p = 0.0079), rejeitando-se a hipótese de nulidade, constatando-se que o tempo de sobrevivência foi maior no grupo tratado com quimioterapia e radioterapia. 4.4 – COX: MODELO DE RISCO PROPORCIONAL É uma técnica de análise estatística que busca explicar o efeito que um grupo de variáveis exerce na sobrevivência do paciente. Permite a análise, além do efeito da droga, de vários outros fatores de risco simultaneamente. As variáveis denominadas preditoras (explanatórias) podem ser fatores de risco tais como: idade, sexo, peso, glicemia, duração da doença ou variáveis de controle que indicam o tipo de tratamento administrado ao paciente. O modelo de risco proporcional introduzido por Cox é conhecido na literatura como “Proporcional Hazard Regression Analysis”. INTERPRETAÇÃO DO COEFICIENTE b Quando o Coeficiente de Regressão (b) de uma das variáveis preditoras é um número positivo (b>0), então entendemos que o risco (hazard) para os pacientes é crescente com a grandeza da variável e, por via de conseqüência, o prognóstico é que a variável em questão diminui o tempo de sobrevivência do paciente. Por outro lado, quando uma especificada variável é caracterizada por um Coeficiente de Regressão Negativo (b<0) devemos deduzir que a tal variável melhora o prognóstico de sobrevivência do paciente. Figura 4.5 Resultados do Exemplo 4.3.1.
  59. 59. - 43 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA Num exemplo hipotético, o risco estimado com determinada dose de uma droga terapêutica é de b = −0.41, a respectiva Taxa de Risco é calculada por exp(−0.41) é igual a 0.66 (66%), ou seja, a droga decresce em 34% o risco de rejeição, óbito, etc. Em outro exemplo, uma variável preditora, como a idade do paciente, o Coeficiente de Regressão (b), é positivo, igual a 0.70. A Taxa de Risco dessa variável é de exp(0.70) = 2.01, isto é, pessoas idosas têm o risco aumentado em duas vezes (2.01). TAXA DE RISCO (HAZARD RATE) É definida como a probabilidade, por unidade de tempo, que um paciente tenha sobrevivido ao início do respectivo intervalo e que falhará nesse intervalo. Especificamente é computado como o número de falhas por unidade de tempo no respectivo intervalo, dividido pelo número médio de casos de sobrevivência no ponto médio do intervalo. 4.4.1 – EXEMPLO (dados hipotéticos) Em um grupo de 48 pacientes portadores de mieloma múltiplo, por randomização, 24 indivíduos receberam tratamento com 75mg de riluzole (Droga), e os demais receberam placebo. Ao mesmo tempo, foram registrados, para cada paciente, os valores referentes às seguintes variáveis: Idade, Sexo, Uréia sanguínea, Cálcio sérico, Hemoglobina e Proteína de Bence-Jones. A Duração do tratamento (Tempo) e a ocorrência de remissão foram registradas como nas análises de sobrevivência. O objetivo deste experimento é, além de testar o efeito da droga, verificar a influência dos demais fatores (variáveis preditoras) na remissão da doença. 4.4.2 – INSTRUÇÕES a) No menu Estatísticas clique em Análise de Sobrevivência; b) Selecione a opção Cox: Modelo de Risco Proporcional; c) Na janela Seleção de Amostras, escolha inicialmente as variáveis: Droga, Idade, Sexo, Uréia, Cálcio sérico, Hemoglobina, Proteína de Bence-Jones. d) Ainda na mesma janela selecione as colunas: Tempo e Remissão, as quais devem, obrigatoriamente, ser as duas últimas colunas selecionadas, nessa ordem. e) A janela Seleção de Amostras será configurada conforme a visualização a seguir. Figura 4.6 Visão parcial do Exemplo 4.4.1.
  60. 60. - 44 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA f) Finalmente, clique em Executar Estatística para obter os resultados abaixo, que para fins didáticos foram divididos em duas partes (Figuras 4.8 e 4.9). A parte superior da tela de resultados da análise de Cox apresenta: - O Qui-Quadrado igual a 32.5782 e o correspondente p < 0.0001, o qual indica uma forte evidência do efeito da droga (p = 0.0002) e de variáveis preditoras sobre a variável Remissão, destacando-se também os níveis de Cálcio sérico (p = 0.0046) e o de Hemoglobina (p = 0.0025). - A droga (riluzole) obteve o coeficiente b = −1.8432 (p = 0.0002), cuja Taxa de Risco correspondente é igual a 0.1583 (15.83%), dando uma proteção de 84.17%. Na parte superior da Figura 4.8 está localizada a opção que permite visualizar as Curvas de Sobrevivência. Figura 4.7 Seleção de variáveis do Exemplo 4.4.1 Figura 4.8 Parte superior do grid de resultados do Exemplo 4.4.1. Figura 4.9 Visão parcial da parte Inferior dos resultados do Exemplo 4.4.1.
  61. 61. - 45 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA O diagrama abaixo representa a Curva Geral de sobrevivência. Outras curvas podem ser obtidas para ilustrar a influência de cada variável preditora na sobrevivência dos indivíduos que compõem a amostra: a) Droga; b) Idade; c) Sexo; d) Uréia; e) Cálcio; f) Hemoglobina; g) Proteina de Bence-Jones. Figura 4.10 Gráfico do Exemplo 4.4.1. Gráfico da variável Droga. A curva superior corresponde aos pacientes que receberam o tratamento (p = 0.002). Gráfico da variável Sexo. As curvas se sobrepõem indicando que o sexo não influenciou o tempo de sobrevivência (p = 0.7858). Figura 4.11 Gráfico do Exemplo 4.4.1.
  62. 62. - 46 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.5 – KAPLAN-MEIER Este procedimento é semelhante ao atuarial, porém o tempo aprazado é menor, de dias ou meses, e os intervalos não são, de modo obrigatório, igualmente espaçados, obtendo-se, ainda, em cada tempo t, o intervalo de confiança (IC 95%) respectivo. 4.5.1 – EXEMPLO 180 indivíduos com patologia de alto risco de mortalidade foram submetidos a tratamento com a droga A em altas doses. O período de observação foi de 6 meses, com intervalos mensais de registro das observações. Os dados foram introduzidos no grid geral: a Coluna 1 corresponde ao tempo t; a Coluna 2, aos indivíduos vivos; e a coluna 3, às ocorrências (óbitos). Observa-se que os intervalos mensais não são constantes como ocorre na Análise Atuarial (ver Figura 4.12). 4.5.2 – INSTRUÇÕES a) Pressionar o mouse em Kaplan-Meier; b) Selecionar as duas colunas referentes às variáveis do grid geral; c) Clicar em Executar o Teste para obter os resultados. Probabilidade de sobrevivência em cada período e a chance acumulada até o referido tempo, com IC 95%. Pressionando-se em Gráfico, na barra superior da Figura 4.13, escolhe-se uma das opções: Freqüência, Proporção ou Chance acumulada de sobrevivência com IC (95%). Neste exemplo escolheu-se a primeira opção, surgindo o diagrama da Figura 4.14. Figura 4.13 Resultados do Exemplo 4.5.1. Figura 4.12 Dados do Exemplo 4.5.1.
  63. 63. - 47 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.6 – LOG-RANK TEST Este teste de análise de sobrevivência permite comparar duas amostras, cujas observações foram efetuadas em períodos e intervalos idênticos. 4.6.1 – EXEMPLO 1 (sem censurados, método 1) O tempo de recidiva ao alcoolismo foi observado em dois grupos: a) Grupo A, indivíduos com até 45 anos (n = 376); b) Grupo B, com idade superior a 45 anos (n = 450). O objetivo era verificar se a variável idade influenciava a ocorrência objeto da investigação. O tempo de observação foi de 365 dias, dividido em intervalos trimestrais, e contadas as ocorrências. Os dados foram introduzidos no grid geral. H0: o tempo de recidiva ao alcoolismo é o mesmo nos dois grupos de pessoas: p1 = p2; H1: o tempo de recidiva ao alcoolismo é dependente do grupo etário dos indivíduos: p1 ≠ p2; Nível de decisão: alfa = 0.05. Figura 4.15 Dados do Exemplo 4.6.1 (sem censurados). Figura 4.14 Gráfico do Exemplo 4.5.1.
  64. 64. - 48 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.6.2 – EXEMPLO 2 (sem censurados, método 2) Dados hipotéticos foram coletados relativos aos tratamentos A e B. No grupo A foram acompanhados quatorze (14) indivíduos enquanto no grupo B, 35. Os dados estão dispostos na Figura 4.16. H0: não há diferença no tempo de sobrevivência dos indivíduos submetidos aos tratamentos A e B: p1 = p2; H1: há diferença no tempo de sobrevivência dos indivíduos submetidos aos tratamentos A e B: p1 ≠ p2; Nível de decisão: alfa = 0.05. 4.6.3 – EXEMPLO 3 (com censurados) Dados hipotéticos de duas amostras sobre tempo de sobrevivência de dois conjuntos de indivíduos submetidos a tratamentos diferentes: A, para um grupo e B, para o outro, com seguimento ao longo de seis anos, correspondendo cada valor do grid ao respectivo número de indivíduos. Os indivíduos dos Eventos A e B totalizaram 99 e 77, respectivamente. H0: não há diferença no tempo de sobrevivência dos indivíduos submetidos aos tratamentos A e B: p1 = p2; H1: há diferença no tempo de sobrevivência dos indivíduos submetidos aos tratamentos A e B: p1 ≠ p2; Nível de decisão: alfa = 0.05. 4.6.4 – INSTRUÇÕES a) Pressionar o mouse em Log-Rank test, e escolha uma das duas opções: Sem Censurados (Figuras 4.15 e 4.16) ou Com Censurados (Figura 4.17); Figura 4.17 Dados do Exemplo 4.6.3 (com censurados). Figura 4.16 Visão parcial dos dados do Exemplo 4.6.2.
  65. 65. - 49 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA b) Selecionar, no grid geral, as colunas referentes às variáveis conforme o caso; c) Clicar em Executar o Teste, para obter os resultados. A diferença no tempo de recidiva ao alcoolismo não foi significativa (p = 0.1564). A diferença foi significativa (p = 0.0102). A diferença não foi significativa. (p = 0.1845). Figura 4.20 Resultados do Exemplo 4.6.3. Figura 4.18 Resultados do Exemplo 4.6.1. Figura 4.19 Resultados do Exemplo 4.6.2.
  66. 66. - 50 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.6.5 – GRÁFICO DO EXEMPLO 4.6.1 Pressionar em Gráfico (Figura 4.18) para visualizar a seguinte imagem: O gráfico desta análise de sobrevivência é compatível com o resultado do teste, o qual não mostrou diferença significativa entre os dois tratamentos. As curvas são muito semelhantes. 4.6.6 – GRÁFICO DO EXEMPLO 4.6.2 Pressionar em Gráfico na barra da Fig. 4.19, para visualizar a seguinte imagem: Figura 4.21 Gráfico do Exemplo 4.6.1. Figura 4.22 Gráfico do Exemplo 4.6.2.
  67. 67. - 51 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.6.7 – GRÁFICO DO EXEMPLO 4.6.3 Pressionar em Gráfico (Figura 4.20) para visualizar a seguinte imagem: 4.7 – GEHAN (WILCOXON GENERALIZADO) Teste estatístico semelhante ao anterior para duas amostras independentes com observações censuradas. 4.7.1 – EXEMPLO (hipotético) Dois grupos de seis (6) mulheres com câncer mamário foram tratados do seguinte modo: o primeiro grupo recebeu quimioterapia e radioterapia, o outro nada recebeu após mastectomia total. Ao final de três (3) anos, o tempo de remissão foi assinalado em meses. As observações censuradas estão assinaladas no grid específico com o sinal +. H0: S1(t) = S2(t); H1: S1(t) > S2(t); Nível de decisão: alfa = 0.05 (unilateral) 4.7.2 – INSTRUÇÕES a) Pressionar o mouse em Gehan (Wilcoxon generalizado); b) Inserir os valores de cada grupo, assinalando com + os escores censurados; c) Clicar em OK para obter os resultados, conforme disposto na Figura 4.24. Figura 4.23 Gráfico do Exemplo 4.6.3.
  68. 68. - 52 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA A diferença entre os tratamentos é muito significativa (p = 0.0085), rejeitando-se a hipótese de nulidade, constatando-se que o tempo de sobrevivência foi maior no grupo tratado com quimioterapia e radioterapia. 4.8 – MANTEL-HAENSZEL O teste de Mantel-Haenszel se aplica para duas ou mais amostras cujos dados são dispostos em n tabelas de contingência 2 x 2. 4.8.1 – EXEMPLO Efetuou-se levantamento de duas investigações (Amostras A e B) em 865 mulheres com idades compreendidas entre 40 e 50 anos, relativo à associação entre neoplasia cervical e positividade para HPV. Amostra A: 490 mulheres Neoplasia cervical Sem neoplasia HPV+ 152 120 HPV - 108 110 Amostra B: 375 mulheres Neoplasia cervical Sem neoplasia HPV+ 143 111 HPV - 45 76 Essas tabelas foram introduzidas nas caixas de texto do teste de Mantel-Haenszel, como serão vistas a seguir. H0: não há associação entre neoplasia cervical e HPV positivo: p0 = p1; H1: há associação entre neoplasia cervical e HPV positivo: p0 ≠ p1; Nível de decisão: alfa = 0.01. Figura 4.24 Resultados do Exemplo 4.7.1.
  69. 69. - 53 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.8.2 – INSTRUÇÕES a) Pressionar o mouse em Mantel-Haenszel; b) Preencher as caixas de texto com os dados da Amostra A; c) Clicar em Nova Tabela e introduzir os dados da Amostra B; d) Clicar em Executar, para obter os resultados. O teste foi muito significativo (p = 0.0013) rejeitando-se a hipó- tese de nulidade, demonstrando que a neoplasia cervical está associada à presença de HPV. O Odds Ratio é calculado conjun- tamente com o teste de Mantel- Haenszel, concluindo-se que as mulheres com teste positivo para HPV têm mais de uma vez e meia a probabilidade de ter câncer do colo uterino do que aquelas com teste negativo. 4.9 – PIRÂMIDE POPULACIONAL A maioria dos gráficos estatísticos refere-se às amostras. Pode-se, contudo, representar Populações através de Pirâmides, constituídas por grupos etários, proporções sexuais, locais de residências, estados civis e outras variáveis. 4.9.1 – EXEMPLO 1 A população do Estado do Pará (IBGE) no ano 2000 foi tabulada em relação aos grupos etários e respectivos sexos. Figura 4.25 Resultados do Exemplo 4.8.1. Figura 4.26 Visão parcial dos dados do Exemplo 4.9.1.
  70. 70. - 54 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.9.2 – INSTRUÇÕES a) Inserir no grid as informações obtidas do IBGE; b) Pressionar em Gráficos e, a seguir, em Pirâmide Populacional; c) Clicar em Executar para Resultados. Há ligeiro predomínio de indivíduos do sexo masculino nos primeiros anos de vida e do sexo feminino após os 80 anos de vida. 4.9.3 – EXEMPLO 2 A população do Estado do Pará (IBGE) no ano 1970 foi tabulada em relação aos grupos etários e locais de residência, urbana e rural. Figura 4.27 Pirâmide populacional do Exemplo 4.9.1. Figura 4.28 Visão parcial dos dados do Exemplo 4.9.3.
  71. 71. - 55 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.9.4 – INSTRUÇÕES a) Inserir no grid as informações obtidas do IBGE; b) Pressionar em Gráficos e, a seguir, em Pirâmide Populacional; c) Clicar em Executar para Resultados. Há ligeira predominância na proporção de residentes na área rural (52.56%) em relação aos da área urbana (47.44%), no ano de 1970. 4.9.5 – EXEMPLO 3 A população do Estado do Pará (IBGE) no ano 2000 foi tabulada em relação aos grupos etários e locais de residência, urbana e rural. Figura 4.29 Pirâmide populacional do Exemplo 4.9.3. Figura 4.30 Visão parcial dos dados do Exemplo 4.9.5.
  72. 72. - 56 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA 4.9.6 – INSTRUÇÕES a) Inserir no grid as informações obtidas do IBGE; b) Pressionar em Gráficos e, a seguir, em Pirâmide Populacional; c) Clicar em Executar para obter os resultados. Há predominância de moradores na área urbana (66.55%) quando comparados com os da área rural, denotando uma migração para as cidades em todo o Estado do Pará. 4.9.7 – EXEMPLO 4 A população do Estado do Pará foi tabulada em relação aos grupos etários, sexos e estado civil (solteiros e outros). Os dados são hipotéticos, apenas para demonstrar a possibilidade da introdução de três (3) variáveis. 4.9.8 – INSTRUÇÕES a) Inserir no grid os dados hipotéticos; b) Pressionar em Gráficos e, a seguir, em Pirâmide Populacional; Figura 4.32 Visão parcial dos dados do Exemplo 4.9.7. Figura 4.31 Pirâmide populacional do Exemplo 4.9.5.
  73. 73. - 57 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA c) Clicar em Executar para Resultados. Esta pirâmide representa três variáveis: faixa etária, sexo e estado civil (solteiros e não solteiros). Figura 4.33 Pirâmide populacional do Exemplo 4.9.7.
  74. 74. - 58 - CAPÍTULO 4 – ANÁLISE DE SOBREVIVÊNCIA