quarta-feira, 4 de dezembro de 2019

02/03/2017 1 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto (p.sa.couto@ua.pt) Departamento de Matemática Universidade de Aveiro #1Tópicos da formação: • Conceitos básicos: • Porquê Bioestatística? • Tipo de dados • População e amostra • Estatística descritiva • Distribuições teóricas: Normal e as outras • Inferência estatística • Potência de um teste e dimensão da amostra • Escolha do teste estatístico. 2 02/03/2017 2 #1 Aula 1 Estatística descritiva • Why to study Biostatistics?  A utilidade da Bioestatística pode ser sumariada no seguinte: • Permite descrever e compreender relações entre variáveis, • Permite a tomada de melhores e mais rápidas decisões num curto espaço de tempo, • Facilita a tomada de decisões para fazer face a uma mudança, ou seja, é fundamentada em critérios objectivos  As etapas que definem o método estatístico de resolução de problemas são: 4 Identificação do problema Recolha dos dados Apresentação dos dados Análise e interpretação Basic Concepts 02/03/2017 3 • Why to study Biostatistics?  Na análise estatística, o investigador necessita sempre de “algo” que possa medir, controlar ou manipular durante o processo de investigação.  Este “algo” designa-se por variável aleatória e a informação que elas contém dependem de como foram medidas e da qualidade dessa medição.  As variáveis estatísticas podem ser classificadas como: • Variáveis qualitativas - variáveis cuja a escala de medida apenas indica a sua presença em categorias de classificação discreta, sendo exaustivas e mutuamente exclusivas. • Variáveis quantitativas – variáveis cuja a escala de medida permite a ordenação e quantificação de diferenças entre elas. Podem ser #1 discretas ou contínuas. 5 Basic Concepts • Measurements and data 6 Níveis de medida Exemplos Procedimento de medida Operações matemáticas permitidas Nominal (qualitativa) Sexo, raça, religião, estado civil Classificação por categorias Contagens Ordinal (qualitativa) Escalas de opinião, atitude, classes social Classificação por ranking de categorias Maior que, igual, menor que Intervalorácio (quantitativa) Idade, nº de filhos, rendimento Distância entre scores ou medidas em termos de unidades iguais Todas as operações matemáticas #1 Basic Concepts 02/03/2017 4 • Population and samples  Chama-se população ao conjunto de todos os valores que descrevem o fenómeno que interessa ao investigador  Uma amostra estatística consiste de um conjunto de indivíduos retirados de uma população a fim de que o estudo estatístico dessa amostra possa fornecer informações cruciais sobre a população #1 7 Basic Concepts • Population and samples  As técnicas (ou métodos) de amostragem dividem-se em 2 grupos: • Aleatórias ou probabilísticas • Não aleatórias  Uma amostra diz-se aleatória ou probabilística se for recolhida por um processo que assegura que todo e qualquer elemento (ou grupo de elementos) da população tem probabilidade, calculável e diferente de zero, de ser escolhido para integrar a amostra. Caso contrario diz-se não aleatória.  Exemplo: Há estudos em que se selecionam aleatoriamente escolas e depois dentro de cada escola selecionam-se aleatoriamente um membro (ou vários) para participar no estudo. #1 8 Basic Concepts 02/03/2017 5 • Population and samples  Vantagens de uma amostragem ser aleatória: • Não há subjetividade ou o livre arbítrio do julgamento humano (tendência para escolher os mais disponíveis, os mais bem parecidos ou os mais simpáticos. • Possibilidade de calcular a dimensão da amostra bem como a estimação da potência dos testes utilizados.  Dificuldades de uma amostragem ser aleatória: • Obter listagens ou registos completos de população em estudo, • Estabelecer contacto com os potenciais elementos do estudo, • Problema das não respostas (questionários) e a taxa de participação #1 9 Basic Concepts • Population and samples  Vantagens de uma amostragem ser não aleatória: • Fator subjetivo pode ser vantajoso na identificação de estratos ou clusters ou na definição de sub-grupos. • Os custos associados são mais reduzidos, • Permitem obter informação mais rapidamente e com menores necessidades de pessoal  Desvantagens de uma amostragem ser não aleatória: • Para além das razões do slide anterior, as conclusões não podem ser generalizadas para a população em estudo como acontece com as amostras aleatórias. #1 10 Basic Concepts 02/03/2017 6 • Population and samples: Descriptive vs inferential  Estatística descritiva consiste na recolha, apresentação, análise e interpretação de dados através da criação de instrumentos adequados: quadros, gráficos e medidas de estatística descritiva (ex: médias, medianas, desvio-padrões…)  A estatística descritiva procura descrever ou sumariar a distribuição de uma variável ou descrever a relação entre 2 ou mais variáveis. • Exemplo: como descrever o rendimento familiar de 10000 famílias? E o rendimento familiar pelo nº de filhos por casal?  Estatística inferencial é quando pretende-se generalizar os resultados encontrados a partir de uma amostra aleatória para uma população (ex: através da realização de testes de hipóteses, intervalos de confiança…) • Exemplo: a altura média de uma população masculina é 1.75m. #1 11 Basic Concepts • Population and samples: Descriptive Statistics  Representação analítica • Medidas de localização (uma indicação sobre a tendência central dos dados) • Medidas de dispersão (uma indicação sobre a variabilidade dos dados) • Medidas de assimetria e achatamento (indicação sobre onde as frequências mais altas estão localizadas) • Proporções, percentagens, rácios e taxas  Representação tabelar/gráfica • Tabelas de frequência (variáveis nominais, ordinais e quantitativas) • Gráficos de barras e circulares (variáveis nominais e ordinais) • Gráficos de dispersão, gráficos de médias e desvio-padrões, histograma (variáveis quantitativas) • Caixa de bigodes (variáveis ordinais e quantitativas) #1 12 Basic Concepts 02/03/2017 7 • Descriptive statistics: Exploring data  Introduction  Describing data: measure of location  Describing data: measures of variability  Describing data: measures of shape  Displaying data graphically  Missing data  Data transformation PhD Ciências e Tecnologias da Saúde #2 13 Basic Concepts • Introduction  Os dados podem estar em diferentes formatos  Planear a introdução dos dados é fundamental  Dados qualitativos (nominais e ordinais)  Codificação das variáveis (uma possibilidade de resposta):  Exemplo: Género (1-Masc;2-Fem)  Exemplo: Satisfação (1-Mau;2-Aceitável; 3-Bom)  Codificação das variáveis (multiplas respostas de resposta):  Exemplo: Indique quantos sintomas sofre: Asma (1-Sim; 2- Não) Hypertensão (1-Sim; 2- Não) … 14 raw data data file #2 Basic Concepts 02/03/2017 8 • Introduction  Dados quantitativos:  Não há necessidade de codificação  Devem ser introduzidos com a mesma precisão que foram medidos e com a mesma unidade física associada (por ex: Kgs)  Identificação do paciente ou do nº do formulário ou do registo clinico  As datas devem ser introduzidas sempre da mesma forma na base de dados (por ex: dia/mês/ano)  Codificar os valores em falta  Exemplo para variáveis qualitiativas: 99-Não disponivel; 98- Não respondeu  Exemplo para variáveis quantitativas: Escolher um valor que não seja possivel ser obtido através da experiência #2 15 Basic Concepts • Describing data: measures of location • Fornecem uma indicação sobre a tendência central dos dados • Média aritmétrica amostral: • Mediana é definida como o valor que têm 50% da amostra à sua esquerda, após uma ordenação crescente dos dados: • Moda é defina como o valor mais frequente dessa amostra. #2 16       k i i i n i i n x n x n x 1 * 1 1 1            se n par 2 se n impar ( ) 1: 2 : 2 : 2 1 n n n n n n x x x Med x Basic Concepts 02/03/2017 9 • Describing data: measures of location • Quantis ou percentis é definido como quantil ou percentil de ordem p (p є [0;1]). O valor Qp detém a sua esquerda p.100% das observações que compõem a amostra: • Quartis são os quantis de ordem p=1/4 (ou FL ), p=1/2 e p=3/4 (ou FU ). • Média geométrica deve-se utilizar quando os dados não são simétricos • Média pesada deve-se utilizar quando algumas observações são mais importantes que outras #2 17          se n *p for inteiro 2 se n *p não for inteiro * : * 1: [ * ] 1: n p n n p n n p n p x x x Q Basic Concepts • Describing data: measures of variability • Fornecem uma indicação sobre a dispersão (variabilidade) dos dados • Variância corrigida quantifica a variabilidade dos dados em torno da média: • Desvio-padrão corrigido (standard deviation) é dado por: • Estimativa do erro padrão da média (standard error of mean) é dado por: #2 18           k i i i n i c i n x x n x x n s 1 * 2 1 2 2 ( ) 1 1 ( ) 1 1      n i c c i x x n s SD s 1 2 2 ( ) 1 1 ( ) n s SE c  Basic Concepts 02/03/2017 10 • Describing data: measures of variability • Distância inter-quartil é dada pela diferença entre o quartil 75% menos o quartil 25%: IQR= Q0.75-Q0.25 • Amplitude da amostra consiste na diferença entre o seu máximo e o seu mínimo: Amp=Max-Min • O coeficiente de dispersão (CV) é uma medida de dispersão relativa e é dado por: • O coeficiente de dispersão é classificada como: • Dispersão fraca ≤ 15% • Dispersão média entre ]15%;30%] • Dispersão elevada ≥30% #2 19 x s CV c  Basic Concepts • Describing data: measures of shape • Coeficiente de assimetria (Skewness) e o seu desvio padrão (Skewness std error) são dados por: • Se o rácio Skewness/Skewness std error for: • Entre [-1.96; +1.96], não se rejeita simetria. • Superior a +1.96, há evidências de assimetria positiva, ou seja as frequências mais altas tem tendência a estar no lado esquerdo do gráfico. • Inferior a -1.96, há evidências de assimetria negativa, ou seja as frequências mais altas tem tendência a estar no lado direito do gráfico. #2 20 Basic Concepts 02/03/2017 11 • Describing data: • Dizem-se medidas robustas aquelas que não são afetadas por valores outliers e extremos Distância inter-quartil é dada pela diferença entre o quartil 75% menos o quartil 25%: dF= Q0.75-Q0.25 • Amplitude da amostra consiste na diferença entre o seu máximo e o seu mínimo: Amp=Max-Min • O coeficiente de dispersão (CV) é uma medida de dispersão relativa e é dado por: • O coeficiente de dispersão é classificada como: • Dispersão fraca ≤ 15% • Dispersão média entre ]15%;30%] #2 • Dispersão elevada ≥30% 21 x s CV c  Basic Concepts • Describing data: Proportions and ratios • Uma proporção (p) é definida como o nº de casos favoráveis (f) a dividir pelo nº de casos totais (N): • Uma percentagem (%) é uma proporção multiplicado por 100: • Um rácio é uma divisão entre os nºs de casos favoráveis de 2 categorias e são especialmente úteis para comparar categorias em termos de frequência relativa: • Uma taxa é definida como o nº actual de ocorrências de um fenómeno a dividir pelo o nº total de ocorrências por unidade de tempo. #2 22 N f p  % *100 p *100 N f   2 1 f f Ratio  Basic Concepts 02/03/2017 12 • Describing data: Outliers and extreme values • Valores outliers são observações que são distintas da maioria dos restantes dados. • Este valores poderão ser genuínos, mas poderão também ser resultados devido a erros de equipamento ou inserção de dados. • Outliers são classificados como moderados ou severos (alguns autores definem como valores extremos) e são facilmente identificados através da caixa de bigodes. • Quando existem, deve-se fazer uma análise com e sem outliers: • Se os resultados forem semelhantes então os outliers tem pouca influência e devem ficar. Nesta situação os valores devem ser reportados em termos de Média ± Desvio-Padrão (estatísticas não robustas) • Se os resultados forem diferentes, então os outliers devem ser removidos. • Existem testes estatísticos que não são influenciáveis por outliers. Neste caso os valores devem ser reportados em termos de Medianas e amplitude interquartis (estatísticas robustas) #2 23 Basic Concepts 24 • Describing data: Resume • Variável nominal: • Moda, proporções • Variável ordinal: • Moda, proporções • Estatísticas de ordem: Mediana , quartis, quantis,… • Amplitude inter-quartil • Variável quantitativa: • Moda • Estatísticas de ordem: Mediana , quartis, quantis,… • Amplitude inter-quartil • Amplitude total • Média • Desvio padrão e variância • Coeficiente de variação • Coeficiente de assimetria • … Basic Concepts 02/03/2017 13 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto Departamento de Matemática Universidade de Aveiro #1 #1 Aula 2 Estatística descritiva 02/03/2017 14 • Displaying data graphically • Gráfico de barras e gráficos circulares (variáveis nominais ou ordinais) #2 27 Basic Concepts • Displaying data graphically • Histograma (variáveis quantitativas) #2 28 Basic Concepts 02/03/2017 15 • Displaying data graphically • Caixa de bigodes (variáveis ordinais e quantitativas) #2 29 Basic Concepts • Displaying data graphically • Caixa de bigodes (variáveis ordinais e quantitativas) #2 30 Basic Concepts 02/03/2017 16 • Displaying data graphically • Médias e desvios-padrão (variáveis quantitativas) #2 31 Basic Concepts • Displaying data graphically • Médias e desvios-padrão (variáveis quantitativas) #2 32 Basic Concepts 02/03/2017 17 • Displaying data graphically • Gráficos de dispersão (2 ou + variáveis quantitativas) #2 33 Basic Concepts 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto Departamento de Matemática Universidade de Aveiro #1 02/03/2017 18 #1 Aula 3 Estatística Inferêncial • Theoretical distributions: Normal distribution and others  Parâmetros de uma distribuição: • Valor esperado (E[X]) é um parâmetro de localização que nos dá uma ideia da tendência central da distribuição de uma variável aleatória X • Variância (Var[X]) é um parâmetro de dispersão que nos dá uma ideia sobre a variabilidade/dispersão da distribuição de uma variável aleatória X.  Propriedades: • E[a]=a • E[aX+b] = a.E[X]+b • E[X+Y] = E[X]+E[Y]; Se X e Y forem independentes: E[X.Y] = E[X].E[Y] • Var[b] = 0, • Var[aX+b] = a2 Var[X] • Var[X]=E[X2 ]-(E[X])2 #1 36 Basic Concepts 02/03/2017 19 • Theoretical distributions: Normal distribution and others  Distribuição Normal ou Gaussiana: X~N(μ, σ2 )  Propriedades: • E[X]=μ; V[X]=σ2 #1 37 Basic Concepts • Theoretical distributions: Normal distribution and others  Distribuição Qui-quadrado com n graus de liberdade: X~χ 2 (n)  Propriedades: • E[X]=n • V[X]=2*n • Quanto maior for os graus de liberdade, mais a distribuição do quiquadrado se aproxima da distribuição Normal #1 38 Basic Concepts 02/03/2017 20 • Theoretical distributions: Normal distribution and others  Distribuição t-Student com n-1 graus de liberdade: X~t(n-1)  Propriedades: • E[X]=0 • V[X]=n/(n-2) para n>2 • Quanto maior for os graus de liberdade, mais a distribuição do t-Student se aproxima da distribuição Normal #1 39 Basic Concepts • Theoretical distributions: Normal distribution and others  Distribuição F-Snedecor: X~F(n1 ,n2 )  Propriedades: • E[X]=n2 /(n2 -2) para n2 >2 • V[X]=(2n2 2 (n1 +n2 -2))/(n1 (n2 -2)2 (n2 -4)) • Quanto maior for os graus de liberdade, mais a distribuição do FSnedecor se aproxima da distribuição Normal #1 40 Basic Concepts 02/03/2017 21 • Theoretical distributions: Normal distribution and others  Distribuição Binomial: X~Bi(n,p), onde n é o nº total de experiência e p é a probabilidade de se obter um sucesso  Propriedades: • E[X]=n*p • V[X]=n*p*(1-p) • Se n>20 e n*p>7 a distribuição do Binomial pode ser aproximada por uma distribuição Normal #1 41 Basic Concepts • Statistical inference: Point estimation  Como encontrar estimadores para os parâmetros da população?  Um das formas é o método dos momentos: • Quando há só um parâmetro da população desconhecido fica-se com uma só uma equação: • Quando há só dois parâmetros desconhecidos é usual utilizar o sistema equivalente: • Exemplo: Se tivermos amostras aleatórias em que sabemos que E[X]=μ e a Var[X]=σ2, encontre os estimadores para μ e σ2: PhD Ciências e Tecnologias da Saúde 42 E[X ]  X       2 [ ] [ ] Var X S E X X              2 2 2 ˆ ˆ [ ] [ ] S X Var X S E X X   Basic Concepts 02/03/2017 22 • Statistical inference: Intervalar estimation  Um intervalo de confiança (IC) para um parâmetro , a um nível de confiança 1 -  é um intervalo aleatório (θ1, θ2) tal que: P(θ1< θ <θ2)= 1-,  é um valor reduzido para termos confiança elevada e designa-se por nível de significância.  Os ICs mais utilizados são de 90%, 95% e 99%, que correspondem a um  de 10% (ou 0.1), 5% (ou 0.05) e 1% (ou 0.01), respetivamente. 43  Exemplo: Um intervalo de confiança a 95% para μ significa que em cada 100 intervalos obtidos de 100 amostras aleatórias, 95 destes intervalos possuirão o verdadeiro valor de μ. No entanto, o seu verdadeiro valor nunca será conhecido. A interpretação gráfica deste exemplo: #1 Basic Concepts • Statistical inference: Statistical hypothesis  Os testes de hipóteses (TH) contribuem para a tomada de decisões.  Num TH há sempre um par de hipóteses: • Hipótese nula (H0) vs Hipótese alternativa (H1)  A tomada de decisão (rejeição ou não rejeição da hipótese nula) será então baseada na análise de uma amostra aleatória dessa população. Os testes estatísticos são sempre realizados sobre H0  Exemplos de THs: 1. H0:  = 0 vs H1:  ≠ 0 2. H0:  ≤ 3 vs H1:  > 3 3. H0:  2 ≥ 1 vs H1:  2 < 1 4. H0:  2 = 1 vs H1:  2 ≠ 1  Tipos de testes: Os testes podem ser bilaterais (1 e 4) ou unilaterais (2 e 3) #1 44 Basic Concepts 02/03/2017 23 • Statistical hypothesis: Critical region  TH bilaterais:  TH unilaterais á esquerda e á direita: 45 Basic Concepts • Statistical hypothesis: P-value  Definição de p-value (ou abreviado p) do teste: Ao menor valor de  a partir do qual se rejeita H0 chama-se probabilidade de significância (p-value).  Este valor representa uma medida complementar do grau de certeza a partir do qual assumimos como real (representativo da população) o resultado (ou estatística) obtido no estudo.  Outra def. usual para p-values é a probabilidade dos resultados serem atribuídos por sorte ou por erro aleatório:  Qualquer que seja a definição as seguintes regras são válidas: • Se o valor do p-value for muito pequeno, concluímos que os resultado são significativos, ou seja, rejeitamos H0 (p-value < ). • Caso contrário, os resultados não serão significativos o que leva a não rejeição de H0 (p-value > ). #1 46 Basic Concepts 02/03/2017 24 • Statistical hypothesis: Errors in hypothesis testing  Num TH, as hipóteses são geralmente colocadas da seguinte forma: • H0: não tem doença/diferenças,… vs H1: têm doença, diferenças,… • ou seja, o que se pretende provar coloca-se em H1, sendo o H0 sempre o seu complementar. Para provar o que pretende, o investigador tem de ter provas/evidências (estatísticas) para rejeitar H0.  Exemplo: Nos tribunais, usa-se o mesmo principio que o individuo não é culpado (não se rejeita H0) até prova em contrário (rejeita-se H0).  Nos testes de hipóteses baseados neste principio, existem dois tipos de erros: • Erro de tipo I, rejeitar H0 (decisão do teste) sendo H0 verdadeira (situação real), está associado aos falsos positivos • Erro de tipo II, não rejeitar H0 (decisão do teste) sendo H0 falso (situação real), está associado aos falsos negativos; #1 47 Basic Concepts • Statistical hypothesis: Errors in hypothesis testing  Tabularmente:  Os níveis de significância (α) definem-se á partida e os mais usuais são 0.1, 0.05 e 0.01, desta forma minimizando a probabilidade do erro tipo I  Exemplo: Um teste de HIV acusa positivo (rejeitou H0), mas na realidade o sujeito não tem HIV (mas não devia ter rejeitado H0), ou seja, um falso positivo.  Exemplo: Um teste de HIV acusa negativo (não rejeitou H0), mas na realidade o sujeito tem HIV (mas devia ter rejeitado H0), ou seja, um falso negativo. 48 Perro tipo I  PRejeitar H0 | H0 verdadeiro  Perro tipo II  PNão Rejeitar H0 | H 0 falso   Basic Concepts 02/03/2017 25 • Statistical hypothesis: Errors in hypothesis testing  Qual dos dois erros é mais perigoso? • Um erro tipo I muito pequeno é necessário quando o tratamento ou diagnóstico é potencialmente perigoso para o paciente (mentalmente ou fisicamente). • Um erro tipo II muito baixo é necessário quando o tratamento e o diagnóstico precoce são benéficos e quando a doença é contagiosa. 49  Seria desejável que α e β fossem o mais pequenos possível. Os valores de α e β variam em relação inversa, ou seja, se diminuir o valor de α então o valor de β irá ser maior e vice-versa. A única forma de diminuir α e β simultaneamente é aumentar o tamanho da amostra. #1 Basic Concepts 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto Departamento de Matemática Universidade de Aveiro #1 02/03/2017 26 #1 Aula 4 Estatística Inferêncial • Statistical power and sample size  A potência do teste (π(θ)) é dada por:  O objectivo de um estudo é a obtenção de uma curva da função potência que seja um vale estreito e abrupto. Assim, para pequenos desvios de H0, o valor da potência será muito elevado e por conseguinte representará um erro tipo II bastante reduzido PhD Ciências e Tecnologias da Saúde 52  ( ) 1  1 PNão Rejeitar H0 / H0 falso #1 Basic Concepts 02/03/2017 27 • Statistical power and sample size  Fatores que condicionam a potência de um teste:  A escolha do valor do erro tipo I. Se diminuir o valor de α então o valor de β irá ser maior (e a potência do teste menor) e vice-versa.  A distância entre os valores definidos para H0 e H1. Quanto maior for a diferença entre os valores do parâmetro considerados nas hipóteses H0 e H1, mais fácil é detetar qual das hipóteses é verdadeira e portanto menor será a probabilidade de errar e maior será a potência do teste.  O valor da variabilidade do estudo. Uma variabilidade elevada resulta sempre numa potência reduzida, dado o grau de incerteza que daí resulta.  Dimensão da amostra. Quando a dimensão da amostra aumenta, a variabilidade diminui e as curvas da função potência tornam-se cada vez mais próximas do ideal, ou seja, um vale estreito e abrupto. #1 53 Basic Concepts • Statistical power and sample size  Uma parte essencial do planeamento de qualquer investigação é a decisão de quantas amostras o vosso estudo necessita.  Muitas vezes os estudos têm uma dimensão demasiado pequena ou demasiado grande porque a dimensão da amostra foi escolhida por motivos de logística ou por comparação de outros trabalhos.  As vantagens deste procedimento: • Menor perda de tempo, • Risco potencial para os participantes do estudo é menor, • Erro tipo I e tipo II estão controlados • Pouca recursos. 54 Basic Concepts 02/03/2017 28 • Statistical power and sample size  Para o cálculo da dimensão da amostra é necessário:  Especificar o valor do erro tipo I (α). Quanto menor for o valor de α (menor será o erro cometido), maior será o valor da dimensão da amostra.  Especificar a potência que pretende-se atingir para se observar um “verdadeiro efeito”. Quanto maior for o valor da potência (e por conseguinte, menor será o erro tipo II), maior será a dimensão da amostra.  Especificar o valor da variabilidade que se irá observar. Quanto maior for a variabilidade, maior terá de ser a dimensão da amostra. Esta variável é a mais difícil de estabelecer. Geralmente recorre-se a estudos semelhantes ou a estudos pilotos para ter uma noção do seu valor.  Especificar a diferença que se pretende observar entre os valores escolhidos para H0 e H1. Quanto menor for esta diferença, maior terá de ser a dimensão da amostra. 55 Basic Concepts • Statistical power and sample size  A estimação dos dois últimos pontos pode ser muito problemática. Alternativamente, pode-se utilizar o conceito designando por tamanho do efeito (d - effect size). Este conceito relaciona os dois últimos itens num único cálculo:  Exemplo: Para os testes baseados na distribuição t-Student existem 3 categorias para o tamanho do efeito: • Pequeno (0.2≤d<0.5) • Médio (0.5≤d<0.8) • Grande (d≥0.8)  Quanto menor for o tamanho do efeito pretendido ou especificado, maior será o tamanho da amostra. 56  0  1 d  #1 Basic Concepts 02/03/2017 29 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto Departamento de Matemática Universidade de Aveiro #1 #1 Aula 5 Escolha do teste estatístico 02/03/2017 30 • Choosing a statistical test  A escolha de um teste estatístico depende de várias considerações: A questão de investigação, o plano ou do desenho da experiência e a natureza dos dados (nível de medida) que se pretende analisar  Graficamente, as questões de investigação podem ser divididas nas seguintes categorias: #1 59 Basic Concepts • Choosing a statistical test  Em relação ás questões de investigação, geralmente podemos agrupar em 5 grandes níveis:  A diferença entre médias/proporções/medianas é significativa?  Exemplo: Será que o batimento cardíaco é o mesmo antes ou depois de um curso de relaxamento?  Como as variáveis X e Y estão associadas?  Exemplo: será que batimento cardíaco está relacionado com a temperatura?  Será que é possível realizar previsões sobre uma determinada variável a partir de outras variáveis?  Exemplo: será que a performance universitária pode ser predita através das pontuações obtidas em testes de aptidão? 60 Basic Concepts 02/03/2017 31 • Choosing a statistical test  Em relação ás questões de investigação, geralmente podemos agrupar em 5 grandes níveis:  Será possível observar variáveis ou fatores latentes que estão por detrás dos resultados obtidos?  Exemplo: Utilizou-se um conjunto de itens para medir a depressão. Será que podemos reduzir este conjunto de itens em poucas dimensões ou fatores latentes?  Técnicas como análise fatorial exploratória ou análise fatorial confirmatória não irão ser lecionadas neste curso  Os parâmetros da população são refletidos nos dados recolhidos da amostra?  Exemplo: Obteve-se a pontuação do coeficiente de inteligência de 100 crianças com uma determinada idade. Será que os valores medidos estão de acordo com a literatura para esta faixa etária? 61 Basic Concepts • Choosing a statistical test  A diferença entre médias/medianas/proporções de duas condições é estatisticamente significativa? #1 62 Basic Concepts 02/03/2017 32 • Choosing a statistical test  Nas amostras independentes, os elementos que pertencem a cada condição/grupo são diferentes. Exemplo: Será que o peso dos homens é diferente das mulheres?  Nas amostras emparelhadas os mesmos indivíduos podem ser medidos em várias situações experimentais, e neste caso, as amostras dizem-se de medições repetidas ou emparelhadas. Exemplo: Será que o peso antes e depois da dieta é diferente?  A principal vantagem das amostras emparelhadas consiste no controlo que asseguram sobre as diferenças individuais existente entre sujeitos, levando a uma redução da variabilidade associada ás diferenças individuais.  As desvantagens das amostras emparelhadas são associadas ao problema da ordem na qual se apresentam os tratamentos (as repercussões de A sobre B não podem ser as mesmas que na sequência inversa), mesmo com periodos de wash-out entre A e B. #1 63 Basic Concepts • Choosing a statistical test  Os testes paramétricos exigem que a forma da distribuição amostral seja conhecida (a distribuição Normal é a mais conhecida).  Os testes não paramétricos não exigem o conhecimento da distribuição amostral e são uma alternativa aos testes paramétricos.  Mostra-se que de uma forma geral a potência de um teste paramétrico é superior a um teste não paramétrico.  Deve-se usar um teste não paramétrico sempre que: • Não é possível demonstrar que os dados quantitativos têm uma distribuição amostral conhecida • A dimensão da amostra é reduzida • A escala de medida é uma variável qualitativa (nominal ou ordinal) #1 64 Basic Concepts 02/03/2017 33 • Choosing a statistical test  A diferença entre médias/medianas/proporções com mais do que duas condições é estatisticamente significativa (ANOVAS de um factor)? 65 Basic Concepts • Choosing a statistical test  As ANOVAS podem ter mais do que um fator. Chama-se um fator á generalização das condições existentes numa ANOVA.  Exemplo: Fator idade: jovem, adulto, sénior; Fator género: Masculino/feminino  Exemplo: Anova de um fator de amostras independentes: “Um estudo dividiu 150 sujeitos em 3 grupos mediante o seu peso (reduzido, normal, elevado) e mediu-se a frequência cardíaca”.  O fator é o peso categorizado (reduzido, normal, elevado) enquanto a frequência cardíaca é a variável dependente ou medida.  Exemplo: Anova de dois fatores de amostras independentes: “Um estudo dividiu 150 sujeitos em 3 grupos mediante o seu peso (normal, excesso, mórbido) e género (Masculino/Feminino). De seguida mediu-se a frequência cardíaca”.  O fatores são o peso (3 níveis) e o género (2 níveis) enquanto a frequência cardíaca é a variável dependente ou medida. #1 66 Basic Concepts 02/03/2017 34 • Choosing a statistical test  Exemplo: Anova de dois fatores de amostras mistas: “Um estudo com 30 sujeitos controlou o peso em 3 diferentes ocasiões (Inicio, Fim, Follow up) e o género (Masculino/Feminino). De seguida mediu-se a frequência cardíaca”.  Os fatores são o género (2 níveis, amostras independentes) e o peso (3 níveis, amostras repetidas ou emparelhadas) enquanto a frequência cardíaca é a variável dependente ou medida.  Exemplo: Anova de um fator de medidas repetidas: “Um estudo com 30 sujeitos controlou o peso em 3 diferentes ocasiões (Inicio, Fim, Follow up).  O fator é ocasião (3 níveis) e a frequência cardíaca é a variável dependente.  Exemplo: Anova de dois fatores de amostras repetidas: “Um estudo com dividiu 30 sujeitos em 3 regimes alimentares (A, B, C) e 2 tipos de exercícios (calmo, intenso) diferentes. Todos os sujeitos passaram por todos os regimes alimentares e tipos de exercício. Em todos os momentos mediu-se a frequência cardíaca”.  O fatores são o regime alimentar (3 níveis) e o tipo de exercício (2 níveis) enquanto a frequência cardíaca é a variável dependente ou medida. 67 Basic Concepts • Choosing a statistical test  Será que as variáveis estão associadas/correlacionadas? 68  Para aplicar a correlação de Pearson ambas as variáveis devem ter: • Distribuição Normal • Linearidade entre si  As estatísticas de Kendall’s tau estão mais relacionadas com questões de concordância/fiabilidade do que com correlação #1 Basic Concepts 02/03/2017 35 • Choosing a statistical test  Exemplo: Correlação (Pearson/Spearman): “Um estudo procurou uma relação de associação entre o peso e álcool consumido diariamente (medido em litros). Existirá uma relação entre estas duas variáveis?  Exemplo: Concordância (Kendall tau): Pediu-se a dois juízes para classificarem 20 trabalhos realizados por alunos. Será que os juízes pontuam da mesma maneira?  Exemplo: Associação de variáveis nominais (chi-quadrado): Um anticorpo parece estar associado a um determinado tipo de tecido muscular X. O investigador recolheu amostras de vários tipos de tecido (A, B, C, X) e testou se o anticorpo estava presente ou ausente. Será que existe uma relação entre o tipo de tecido (A, B, C e D) e o anticorpo (presente/ausente) #1 69 Basic Concepts • Choosing a statistical test  Será que é possível construir um modelo de previsão? #1 70 Basic Concepts 02/03/2017 36 • Choosing a statistical test  Será que é possível construir um modelo de previsão?  Variáveis independentes vs variáveis dependentes • Uma variável dependente é definida como aquela que resulta ou poderá resultar de uma combinação de variáveis independentes. • Um conjunto de variáveis independentes não têm qualquer associação estatística entre si.  Se a variável dependente for quantitativa, utiliza-se uma regressão linear simples (se houver uma variável dependente e uma independente) ou múltipla (se houver uma variável dependente e várias independentes)  Se a variável dependente for qualitativa binária (2 níveis), utiliza-se uma regressão logística ou regressão de análise de sobrevivência.  As variáveis independentes podem ser quantitativas e qualitativas (através da utilização de dummy variables) #1 71 Basic Concepts • Choosing a statistical test  Exemplo: Regressão múltipla: “Um estudo procura um modelo de previsão entre um determinado end-point (ex: frequência cardíaca) e um conjunto de biomarcadores fisiológicos”. Será possível estabelecer uma modelo de previsão?  Exemplo: Regressão logística binária: Um estudo tenta prever se admissão de um licenciado (sim/não) numa determinada instituição depende de um conjunto de fatores como a sua média final de curso, o seu QI, atividades curriculares, atividades extra-curriculares. Quais serão as variáveis mais relevantes para a previsão?  Exemplo: Análise de sobrevivência: Num estudo mediu-se o tempo de sobrevivência de pacientes que estavam num programa experimental em dois grupos: controle e experimental. A variável dependente é se sobreviveu ao fim de um ano de seguimento (Sim/Não). Que fatores mais influenciaram nos resultados? #1 72 Basic Concepts 02/03/2017 37 Choosing a statistical test • Procurando variáveis latentes ou fatores  Análise factorial é uma técnica baseada na matriz de correlações, que tenta agrupar ou classificar um conjunto grande de itens num conjunto relativamente pequeno de dimensões latentes ou fatores: • Na análise exploratória fatorial, o objectivo é encontrar um número mínimo de fatores que contabilizem o máximo de correlação existente entre os itens. • Na análise confirmatória fatorial, modelos específicos são testados entre si, de forma a encontrar o melhor modelo para aquele conjunto de dados.  Estatística multivariada são um conjunto de métodos desenhados para a análise de dados multivariados onde existem duas ou mais variáveis dependentes: • Em investigação experimental, os testes t-student e as ANOVAS são generalizadas em análise de variância multivariada (MANOVAS) ou análise de co-variância multivariadas (MANCOVAS) no caso de existirem covariantes. 73 • Choosing a statistical test  Testes sobre uma amostra. #1 74 Basic Concepts 02/03/2017 38 • Choosing a statistical test  Testes sobre uma amostra.  Testes de ajustamento (goodness of fit) permitem averiguar se uma distribuição amostral é próxima de uma distribuição teórica conhecida.  Para demonstrar a normalidade de um conjunto de dados utiliza-se o teste Kolmogorov-Smirnov ou o teste Shapiro-Wilks (usado preferencialmente para amostras reduzidas, n<30) 75  Para dimensões muito elevadas (n>100), estes testes de ajustamentos devem ser substituídos por QQ plots, onde visualmente se avalia se a distribuição amostral se ajusta á distribuição teórica.  Inferência sobre uma população é útil quando se pretende saber se um valor obtido pela estimação pontual ou pela estimação intervalar tem significado estatístico ou não. #1 Basic Concepts • Choosing a statistical test  Exemplo: Normalidade (teste K-S; S-W): “Será que o conjunto de amostras obtidas poderão ser ajustada a uma população que tem distribuição Normal?”  Exemplo: Binomial (teste chi-quadrado): “Será que o conjunto de amostras obtidas poderão ser ajustada a uma população que tem distribuição Binomial?”  Exemplo: Parâmetros populacionais: Obteve-se a pontuação do coeficiente de inteligência de 100 crianças com uma determinada idade. Será que os valores medidos estão de acordo com os valores populacionais referidos na literatura para esta faixa etária? Qual o seu intervalo de confiança? #1 76 Basic Concepts 02/03/2017 39 1.0 Introdução à análise estatística com SPSS Conceitos básicos Pedro Sá Couto Departamento de Matemática Universidade de Aveiro #1

Sem comentários:

Enviar um comentário