Friday 11 August 2017

Exemplo De Regressão No Stata Forex


Análise de Regressão Múltipla usando Stata Introdução A regressão múltipla (uma extensão da regressão linear simples) é usada para prever o valor de uma variável dependente (também conhecida como variável de resultado) com base no valor de duas ou mais variáveis ​​independentes (também conhecidas como variáveis ​​preditoras ). Por exemplo, você pode usar uma regressão múltipla para determinar se a ansiedade do exame pode ser prevista com base na marca do curso, tempo de revisão, atendimento de conferência e pontuação de QI (ou seja, a variável dependente seria a ansiedade do exame e as quatro variáveis ​​independentes seriam a nota do curso, a revisão Tempo, atendimento de conferência e pontuação de QI). Alternativamente, você poderia usar uma regressão múltipla para determinar se a renda pode ser prevista com base na idade, gênero e nível educacional (ou seja, a variável dependente seria renda e as três variáveis ​​independentes seriam idade, gênero e nível educacional). Se você tem uma variável dependente dicotômica, você pode usar uma regressão logística binomial. A regressão múltipla também permite que você determine o ajuste geral (variação explicada) do modelo e a contribuição relativa de cada uma das variáveis ​​independentes para a variância total explicada. Por exemplo, você pode querer saber o quanto da variação na ansiedade do exame pode ser explicada pela nota do curso, tempo de revisão, atendimento de conferência e pontuação de QI como um todo, mas também a contribuição relativa de cada variável independente na explicação da variância. Este guia de início rápido mostra como realizar uma regressão múltipla usando o Stata, bem como como interpretar e relatar os resultados desse teste. No entanto, antes de apresentarmos este procedimento, você precisa entender os diferentes pressupostos que seus dados devem atender para que a regressão múltipla lhe dê um resultado válido. Nós discutimos estes pressupostos a seguir. Suposições Existem oito pressupostos que sustentam a regressão múltipla. Se qualquer um desses oito pressupostos não for cumprido, você não pode analisar seus dados usando uma regressão múltipla porque você não obterá um resultado válido. Como as suposições 1 e 2 referem-se à sua escolha de variáveis, elas não podem ser testadas para usar o Stata. No entanto, você deve decidir se seu estudo atende a essas premissas antes de seguir em frente. Assunção 1: sua variável dependente deve ser medida no nível contínuo. Exemplos de tais variáveis ​​contínuas incluem altura (medida em pés e polegadas), temperatura (medida em 176C), salário (medido em dólares norte-americanos), tempo de revisão (medido em horas), inteligência (medida com o escore de QI), tempo de reação Em milissegundos), o desempenho do teste (medido de 0 a 100), as vendas (medidas em número de transações por mês), e assim por diante. Se você não tem certeza se sua variável dependente é contínua (ou seja, medido no intervalo ou nível de relação), consulte o nosso Guia de Tipos de Variáveis. Assunção 2: você possui duas ou mais variáveis ​​independentes. Que deve ser medido no nível contínuo ou categórico. Para exemplos de variáveis ​​contínuas. Veja a bala acima. Exemplos de variáveis ​​categóricas incluem gênero (por exemplo, 2 grupos: masculino e feminino), etnia (por exemplo, 3 grupos: caucasiano, afro-americano e hispânico), nível de atividade física (por exemplo, 4 grupos: sedentário, baixo, moderado e alto), profissão (eg 5 grupos: cirurgião, médico, enfermeiro, dentista, terapeuta) e assim por diante. Neste guia, mostramos o procedimento de regressão múltipla porque temos uma mistura de variáveis ​​independentes contínuas e categóricas. Nota: Se você tem apenas variáveis ​​independentes categóricas (ou seja, não há variáveis ​​independentes contínuas), é mais comum abordar a análise a partir da perspectiva de uma ANOVA bidirecional (para duas variáveis ​​independentes categóricas) ou ANOVA fatorial (para três ou mais categórico Variáveis ​​independentes) em vez de regressão múltipla. Felizmente, você pode verificar os pressupostos 3, 4, 5, 6, 7 e 8 usando o Stata. Ao passar às premissas 3, 4, 5, 6, 7 e 8, sugerimos testá-las nesta ordem porque representa uma ordem em que, se uma violação ao pressuposto não for corrigível, você não poderá mais usar múltiplas regressão. Na verdade, não se surpreenda se seus dados falharem em uma ou mais dessas premissas, pois isso é bastante típico quando se trabalha com dados do mundo real, em vez de exemplos de livros didáticos, que geralmente mostram apenas como realizar uma regressão linear quando tudo corre bem. No entanto, não se preocupe, porque mesmo quando seus dados falham em certos pressupostos, muitas vezes há uma solução para superar isso (por exemplo, transformar seus dados ou usar outro teste estatístico em vez disso). Basta lembrar que, se você não verificar se seus dados atendem a essas premissas ou você as testou corretamente, os resultados obtidos ao executar a regressão múltipla podem não ser válidos. Assunção 3: Você deve ter independência de observações (isto é, independência de resíduos), que você pode verificar em Stata usando a estatística de Durbin-Watson. Assunção 4: Deve haver uma relação linear entre (a) a variável dependente e cada uma de suas variáveis ​​independentes, e (b) a variável dependente e as variáveis ​​independentes coletivamente. Você pode verificar a linearidade em Stata usando diagramas de dispersão e gráficos de regressão parcial. Assunção 5: seus dados precisam mostrar homoscedasticidade. Que é onde as variações ao longo da linha de melhor ajuste permanecem similares à medida que você se move ao longo da linha. Você pode verificar a homoscedasticidade em Stata, traçando os resíduos estudados contra os valores preditos não padronizados. Assunção 6: seus dados não devem mostrar multicolinearidade. Que ocorre quando você tem duas ou mais variáveis ​​independentes que estão altamente correlacionadas entre si. Você pode verificar esta suposição em Stata através de uma inspeção de coeficientes de correlação e valores ToleranceVIF. Assunção 7: Não deve haver valores atípicos significativos. Pontos altos de alavancagem ou pontos altamente influentes. Que representam observações em seu conjunto de dados que são de alguma forma incomuns. Estes podem ter um efeito muito negativo na equação de regressão que é usada para prever o valor da variável dependente com base nas variáveis ​​independentes. Você pode verificar por outliers, pontos de alavanca e pontos influentes usando o Stata. Assunção 8: Os resíduos (erros) devem ser aproximadamente normalmente distribuídos. Que você pode verificar em Stata usando um histograma (com uma curva normal sobreposta) e Plot P-P Normal, ou um Lote Q-Q Normal dos resíduos estudados. Na prática, verificar as hipóteses 3, 4, 5, 6, 7 e 8 provavelmente ocuparão a maior parte do tempo ao realizar uma regressão múltipla. No entanto, não é uma tarefa difícil, e a Stata fornece todas as ferramentas que você precisa para fazer isso. Na seção, Procedimento de teste em Stata. Ilustramos o procedimento Stata necessário para executar uma regressão múltipla assumindo que nenhum pressuposto foi violado. Primeiro, apresentamos o exemplo que usamos para explicar o procedimento de regressão múltipla na Stata. Um pesquisador de saúde quer ser capaz de prever VO 2 max, um indicador de aptidão física e saúde. Normalmente, para executar este procedimento requer equipamento de laboratório caro, além de exigir que os indivíduos exercem seu máximo (isto é, até que eles não possam continuar exercendo devido ao esgotamento físico). Isso pode afastar indivíduos que não são muito ativos e aqueles que podem estar em maior risco de saúde (por exemplo, assuntos mais antigos inaptos). Por estas razões, foi desejável encontrar uma maneira de prever um indivíduo VO 2 max com base em atributos que podem ser medidos de forma mais fácil e econômica. Para este fim, um pesquisador recrutou 100 participantes para realizar um teste máximo VO 2 max, mas também registrou sua idade, peso, freqüência cardíaca e gênero. A freqüência cardíaca é a média dos últimos 5 minutos de 20 minutos, muito mais fácil, menor teste de ciclagem de carga de trabalho. O objetivo dos pesquisadores é poder prever o VO 2 max com base nesses quatro atributos: idade, peso, freqüência cardíaca e gênero. Nota: O exemplo e os dados utilizados para este guia são fictícios. Acabamos de criá-los para os propósitos deste guia. Configuração em Stata In Stata, criamos cinco variáveis: (1) VO 2 max. Qual é a capacidade aeróbica máxima (isto é, a variável dependente) e (2) idade. Qual é o peso dos participantes (3). Qual é o peso dos participantes (tecnicamente, é a massa deles) (4) heartrate. Qual é a freqüência cardíaca dos participantes e (5) gênero. Qual é o gênero dos participantes (ou seja, as variáveis ​​independentes). Depois de criar essas cinco variáveis, inserimos as pontuações para cada uma nas cinco colunas da planilha do Editor de Dados (Editar), conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Procedimento de teste no Stata Nesta seção, mostramos como analisar seus dados usando regressão múltipla no Stata quando os oito pressupostos na seção anterior, Suposições. Não foram violados. Você pode realizar uma regressão múltipla usando código ou interface gráfica do usuário do Statas (GUI). Depois de ter realizado sua análise, mostramos como interpretar seus resultados. Primeiro, escolha se deseja usar o código ou a interface gráfica do usuário Statas (GUI). O código para realizar uma regressão múltipla em seus dados assume a forma: regressar DependenteVariável IndependenteVariable1 IndependenteVariable2 IndependenteVariable3 IndependenteVariable4 Usando nosso exemplo onde a variável dependente é VO2max e as quatro variáveis ​​independentes são idade. peso. Heartrate e gênero. O código necessário seria: regress VO2max idade peso musculação i. gender Nota: Você verá a partir do código acima que as variáveis ​​independentes contínuas são simplesmente inseridas como está, enquanto as variáveis ​​independentes categóricas têm o prefixo i (por exemplo, idade para idade, uma vez que é um Variável independente contínua, mas i. gender para gênero, uma vez que esta é uma variável independente categórica). Portanto, digite o código, regresse VO2max age weight heartrate i. gender. E pressione o botão ReturnEnter no seu teclado. Você pode ver a saída da Stata que será produzida aqui. Interface Gráfica do Usuário (GUI) Os sete passos necessários para realizar a regressão múltipla no Stata são mostrados abaixo: Clique em Estatísticas gt Modelos lineares e gt relacionados Regressão linear no menu principal, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Nota: Não se preocupe com a seleção de estatísticas gt Modelos lineares e gt relacionados Regressão linear no menu principal, ou que as caixas de diálogo nas etapas a seguir tenham o título, Regressão linear. Você não cometeu um erro. Você está no lugar correto para realizar o procedimento de regressão múltipla. Este é apenas o título que a Stata oferece, mesmo quando executa um procedimento de regressão múltipla. Você será apresentado com a regressão - caixa de diálogo de regressão linear, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Selecione a variável dependente, VO2max. Da variável Dependente: caixa e selecione as variáveis ​​independentes contínuas, idade. Peso e musculação das variáveis ​​independentes: caixa, usando o botão suspenso, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Selecione a variável independente categórica, gênero. Das variáveis ​​independentes: caixa, primeiro clicando no botão. Isto irá apresentá-lo com a seguinte caixa de diálogo onde suas variáveis ​​independentes contínuas (idade e peso) serão já inseridas na caixa Varlist: Publicado com permissão por escrito da StataCorp LP. Deixe a variável Fator selecionada no ndashType da área variablendash. Em seguida, na área ndashAdd factor variablendash, deixe selecionado na caixa Especificação :. Agora, selecione gênero na caixa Variáveis ​​usando o botão suspenso e selecione Padrão na caixa Base. Finalmente, clique no botão. Você receberá a seguinte caixa de diálogo onde a variável categórica independente, i. gender. Foi inserido na caixa Varlist: Publicado com permissão por escrito da StataCorp LP. Clique no botão. Você será retornado à regressão - caixa de diálogo de regressão linear, mas com a variável independente categórica, i. gender. Agora entrou na variável independente: caixa, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Clique no botão. Isso gerará a saída. Interpretando e Reportando a Saída Stata da Análise de Regressão Múltipla A Stata gerará uma única peça de saída para uma análise de regressão múltipla com base nas seleções feitas acima, assumindo que as oito premissas necessárias para a regressão múltipla foram atendidas. Determinando o quão bem o modelo se encaixa O R 2 e o R 2 ajustado podem ser usados ​​para determinar o quão bem um modelo de regressão se ajusta aos dados: A linha R-quadrado representa o valor R 2 (também chamado de coeficiente de determinação), que é a proporção De variância na variável dependente que pode ser explicada pelas variáveis ​​independentes (tecnicamente, é a proporção de variação explicada pelo modelo de regressão acima e além do modelo médio). Você pode ver do nosso valor de 0.577 que nossas variáveis ​​independentes explicam 57.7 da variabilidade de nossa variável dependente, VO 2 max. No entanto, você também precisa ser capaz de interpretar o Adj R-squared (adj. R 2) para informar com precisão seus dados. Significado estatístico O F - ratio comprova se o modelo de regressão geral é adequado para os dados. A saída mostra que as variáveis ​​independentes predizem estatisticamente significativamente a variável dependente, F (4, 95) 32,39, p lt .0005 (ou seja, o modelo de regressão é um bom ajuste dos dados). Coeficientes de modelo estimados A forma geral da equação para prever VO 2 max de idade. peso. O sexo e o gênero são: Núcleo predicado VO 2 max 87,83 ndash (0,165 x idade) ndash (0,385 x peso) ndash (0.118 x heartrate) (13.208 x gênero) Isto é obtido no Coef. Coluna, como mostrado abaixo: Os coeficientes não padronizados indicam o quanto a variável dependente varia com uma variável independente, quando todas as demais variáveis ​​independentes são mantidas constantes. Considere o efeito da idade neste exemplo. O coeficiente não padronizado, B 1. Para a idade é igual a -0.165 (veja a primeira linha da coluna Coef.). Isto significa que, para cada aumento de 1 ano de idade, há uma diminuição no VO 2 max de 0,165 mlminkg. Significado estatístico das variáveis ​​independentes Você pode testar a significância estatística de cada uma das variáveis ​​independentes. Isso testa se os coeficientes não padronizados (ou padronizados) são iguais a 0 (zero) na população. Se p lt .05, você pode concluir que os coeficientes são estatisticamente significativamente diferentes de 0 (zero). O valor t e o valor p correspondente estão localizados nas colunas t e Pgtt, respectivamente, como destacado abaixo: você pode ver na coluna Pgtt que todos os coeficientes de variáveis ​​independentes são estatisticamente significativamente diferentes de 0 (zero). Embora a intercepção, B 0. É testado quanto à significância estatística, isso raramente é uma descoberta importante ou interessante. Relatando o resultado da análise de regressão múltipla Você poderia escrever os resultados da seguinte maneira: uma regressão múltipla foi executada para prever o VO 2 max do gênero, idade, peso e freqüência cardíaca. Essas variáveis ​​previam estatisticamente significativamente VO 2 max, F (4, 95) 32,39, p lt. 0005, R 2, 577. Todas as quatro variáveis ​​adicionadas estatisticamente significativamente à predição, p lt .05.Inserção de regressão linear com Stata Introdução A regressão linear, também conhecida como regressão linear simples ou regressão linear bivariada, é usada quando queremos prever o valor de uma variável dependente com base em O valor de uma variável independente. Por exemplo, você pode usar regressão linear para entender se o desempenho do exame pode ser previsto com base no tempo de revisão (ou seja, sua variável dependente seria o desempenho do exame, medido de 0-100 marcas e sua variável independente seria o tempo de revisão, medido em horas) . Alternativamente, você pode usar regressão linear para entender se o consumo de cigarro pode ser previsto com base na duração do tabagismo (ou seja, sua variável dependente seria o consumo de cigarro, medida em termos de número de cigarros consumidos diariamente e sua variável independente seria a duração do tabagismo, medida Em dias). Se você tem duas ou mais variáveis ​​independentes, em vez de apenas uma, você precisa usar uma regressão múltipla. Alternativamente, se você deseja estabelecer se existe uma relação linear, você pode usar a correlação Pearsons. Nota: A variável dependente também é referida como a variável resultado, alvo ou critério, enquanto a variável independente também é referida como a variável preditor, explicativa ou regressora. Em última análise, qualquer termo que você use, é melhor ser consistente. Nos referiremos a essas variáveis ​​dependentes e independentes ao longo deste guia. Neste guia, mostramos como realizar uma regressão linear usando o Stata, bem como interpretar e denunciar os resultados desse teste. No entanto, antes de apresentarmos este procedimento, você precisa entender os diferentes pressupostos que seus dados devem atender para que a regressão linear lhe dê um resultado válido. Nós discutimos estes pressupostos a seguir. Pressupostos Existem sete pressupostos que sustentam a regressão linear. Se qualquer um desses sete pressupostos não for cumprido, você não pode analisar seus dados usando linear porque você não obterá um resultado válido. Como as suposições 1 e 2 referem-se à sua escolha de variáveis, elas não podem ser testadas para usar o Stata. No entanto, você deve decidir se seu estudo atende a essas premissas antes de seguir em frente. Assunção 1: sua variável dependente deve ser medida no nível contínuo. Exemplos de tais variáveis ​​contínuas incluem altura (medida em pés e polegadas), temperatura (medida em o C), salário (medido em dólares norte-americanos), tempo de revisão (medido em horas), inteligência (medida usando o QI), tempo de reação ( Medido em milissegundos), desempenho do teste (medido de 0 a 100), vendas (medida em número de transações por mês), e assim por diante. Se você não tem certeza se sua variável dependente é contínua (ou seja, medido no intervalo ou nível de relação), consulte o nosso Guia de Tipos de Variáveis. Assunção 2: sua variável independente deve ser medida no nível contínuo ou categórico. No entanto, se você tem uma variável independente categórica, é mais comum usar uma prova t independente (para 2 grupos) ou ANOVA unidirecional (para 3 grupos ou mais). No caso de você não tiver certeza, exemplos de variáveis ​​categóricas incluem gênero (por exemplo, 2 grupos: masculino e feminino), etnia (por exemplo, 3 grupos: caucasiano, afro-americano e hispânico), nível de atividade física (por exemplo, 4 grupos: sedentário, baixo, moderado e Alto) e profissão (por exemplo, 5 grupos: cirurgião, médico, enfermeiro, dentista, terapeuta). Neste guia, mostramos o procedimento de regressão linear e a saída do Stata quando suas variáveis ​​dependentes e independentes foram medidas em um nível contínuo. Felizmente, você pode verificar os pressupostos 3, 4, 5, 6 e 7 usando o Stata. Ao passar às premissas 3, 4, 5, 6 e 7, sugerimos testá-las nesta ordem porque representa uma ordem em que, se uma violação ao pressuposto não for corrigível, você não poderá mais usar a regressão linear. Na verdade, não se surpreenda se seus dados falharem em uma ou mais dessas premissas, pois isso é bastante típico quando se trabalha com dados do mundo real, em vez de exemplos de livros didáticos, que geralmente mostram apenas como realizar uma regressão linear quando tudo corre bem. No entanto, não se preocupe, porque mesmo quando seus dados falham em certos pressupostos, muitas vezes há uma solução para superar isso (por exemplo, transformar seus dados ou usar outro teste estatístico em vez disso). Basta lembrar que, se você não verificar se seus dados atendem a esses pressupostos ou você os testou incorretamente, os resultados obtidos ao executar a regressão linear podem não ser válidos. Assunção 3: Deve haver uma relação linear entre as variáveis ​​dependente e independente. Embora existam várias maneiras de verificar se existe uma relação linear entre suas duas variáveis, sugerimos criar um diagrama de dispersão usando Stata, onde você pode traçar a variável dependente em relação à sua variável independente. Você pode então inspecionar visualmente o diagrama de dispersão para verificar a linearidade. Seu diagrama de dispersão pode parecer algo como um dos seguintes: Se o relacionamento exibido em seu diagrama de dispersão não for linear, você terá que executar uma análise de regressão não-linear ou transformar seus dados, o que você pode fazer usando o Stata. Assunção 4: Não deve haver valores atípicos significativos. Os outliers são simplesmente pontos de dados únicos dentro de seus dados que não seguem o padrão usual (por exemplo, em um estudo de 100 alunos de pontuação de QI, onde o escore médio foi de 108 com apenas uma pequena variação entre os alunos, um aluno teve uma pontuação de 156, o que É muito incomum, e pode até colocá-la no topo 1 dos escores de QI globalmente). Os seguintes pontos de dispersão destacam o impacto potencial de outliers: o problema com outliers é que eles podem ter um efeito negativo na equação de regressão que é usada para prever o valor da variável dependente com base na variável independente. Isso irá alterar o resultado que a Stata produz e reduzir a precisão preditiva de seus resultados. Felizmente, você pode usar o Stata para realizar diagnósticos casewise para ajudá-lo a detectar possíveis valores atípicos. Assunção 5: você deve ter independência de observações. Que você pode verificar facilmente usando a estatística Durbin-Watson. Que é um teste simples para executar usando o Stata. Assunção 6: seus dados precisam mostrar homoscedasticidade. Que é onde as variações ao longo da linha de melhor ajuste permanecem similares à medida que você se move ao longo da linha. Os dois pontos de dispersão abaixo fornecem exemplos simples de dados que atendem a essa suposição e que falham na suposição: quando você analisa seus próprios dados, você terá sorte se o seu diagrama de dispersão se parecer com um dos dois acima. Embora estes ajudem a ilustrar as diferenças nos dados que atende ou viole a assunção da homoscedasticidade, os dados do mundo real são muitas vezes muito mais confusos. Você pode verificar se seus dados mostraram homoscedasticidade ao traçar os resíduos padronizados padronizados contra o valor predito padronizado de regressão. Assunção 7: Finalmente, você precisa verificar se os resíduos (erros) da linha de regressão são aproximadamente normalmente distribuídos. Dois métodos comuns para verificar esta suposição incluem o uso de um histograma (com uma curva normal sobreposta) ou um traçado P-P normal. Na prática, a verificação de hipóteses 3, 4, 5, 6 e 7 provavelmente ocupará a maior parte do tempo ao realizar a regressão linear. No entanto, não é uma tarefa difícil, e a Stata fornece todas as ferramentas que você precisa para fazer isso. Na seção, Procedimento. Ilustramos o procedimento Stata necessário para executar regressão linear assumindo que nenhum pressuposto foi violado. Primeiro, apresentamos o exemplo que usamos para explicar o procedimento de regressão linear em Stata. Estudos mostram que o exercício pode ajudar a prevenir doenças cardíacas. Dentro de limites razoáveis, quanto mais você se exercita, menos risco você tem de sofrer de doença cardíaca. Uma maneira pela qual o exercício reduz seu risco de sofrer de doenças cardíacas é reduzindo a gordura no sangue, chamado colesterol. Quanto mais você se exercita, menor sua concentração de colesterol. Além disso, recentemente foi demonstrado que a quantidade de tempo que você gasta assistindo TV ndash um indicador de um estilo de vida sedentário pode ser um bom preditor de doenças cardíacas (isto é, quanto mais TV você assiste, maior o risco de doença cardíaca ). Portanto, um pesquisador decidiu determinar se a concentração de colesterol estava relacionada com o tempo gasto assistindo TV em homens saudáveis ​​de 45 a 65 anos de idade (uma categoria de pessoas em risco). Por exemplo, à medida que as pessoas passaram mais tempo assistindo TV, a concentração de colesterol também aumentou (uma relação positiva) ou ocorreu o contrário. O pesquisador também queria saber a proporção de concentração de colesterol que o tempo gasto assistindo a TV poderia explicar, além de ser Capaz de prever a concentração de colesterol. O pesquisador poderia, então, determinar se, por exemplo, as pessoas que passavam oito horas passadas a assistir TV por dia tinham níveis perigosamente elevados de concentração de colesterol em comparação com pessoas que veiam apenas duas horas de TV. Para realizar a análise, o pesquisador recrutou 100 participantes masculinos saudáveis ​​entre as idades de 45 e 65 anos. A quantidade de tempo gasto assistindo TV (ou seja, a variável independente, timetv) e a concentração de colesterol (isto é, a variável dependente, colesterol) foram registradas para todos os 100 participantes. Expresso em termos variáveis, o pesquisador queria regredir o colesterol no timetv. Nota: O exemplo e os dados utilizados para este guia são fictícios. Acabamos de criá-los para os propósitos deste guia. Configuração em Stata In Stata, criamos duas variáveis: (1) timetv. Qual é o tempo médio diário passado assistindo televisão em minutos (ou seja, a variável independente) e (2) colesterol. Que é a concentração de colesterol em mmolL (isto é, a variável dependente). Nota: Não importa se você cria a variável dependente ou independente primeiro. Depois de criar essas duas variáveis, ndash timetv e colesterol ndash, inserimos as pontuações para cada uma nas duas colunas da planilha do Editor de Dados (Editar) (ou seja, o horário em horas que os participantes assistiram TV na coluna da esquerda (ou seja, timetv. Variável independente) e participantes da concentração de colesterol em mmolL na coluna da direita (ou seja, o colesterol, a variável dependente), conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Procedimento de teste em Stata Nesta seção, mostramos como Analise seus dados usando regressão linear em Stata quando as seis premissas na seção anterior, Suposições. Não foram violadas. Você pode realizar regressão linear usando código ou interface gráfica do usuário do Statas (GUI). Depois de ter realizado sua análise, nós Mostre como interpretar seus resultados. Primeiro, escolha se deseja usar o código ou a interface gráfica do usuário do Statas (GUI). O código para realizar a regressão linear em seus dados assume a forma: Regredir DependentVariable IndependentVariable Publicado com permissão por escrito da StataCorp LP. Usando o exemplo em que a variável dependente é colesterol e a variável independente é timetv. O código necessário seria: regressar colesterol timetv Nota 1: Você precisa ser preciso ao inserir o código na caixa. O código diferencia maiúsculas de minúsculas. Por exemplo, se você inseriu Colesterol onde o C é maiúscula em vez de minúsculas (ou seja, um pequeno c), o que deveria ser, você receberá uma mensagem de erro como a seguinte: Nota 2: Se você ainda receber a mensagem de erro na Nota 2 : Acima, vale a pena verificar o nome que você deu suas duas variáveis ​​no Editor de Dados quando você configura seu arquivo (ou seja, veja a tela do Editor de Dados acima). Na caixa do lado direito da tela do Editor de Dados, é a forma como você escreveu suas variáveis ​​na seção, e não a seção que você precisa para entrar no código (veja abaixo nossa variável dependente). Isso pode parecer óbvio, mas é um erro que às vezes é feito, resultando no erro na Nota 2 acima. Portanto, digite o código, regresse o tempo de colesterol. E pressione o botão ReturnEnter no seu teclado. Publicado com permissão por escrito da StataCorp LP. Você pode ver a saída da Stata que será produzida aqui. Interface de usuário gráfica (GUI) As três etapas necessárias para realizar regressão linear em Stata 12 e 13 são mostradas abaixo: Clique em S tatistics gt Modelos lineares e gt relacionados Regressão linear no menu principal, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Você receberá a caixa de diálogo Regress ndash Regressão linear: Publicado com permissão por escrito da StataCorp LP. Selecione o colesterol dentro da variável Dependente: caixa suspensa e timetv dentro das variáveis ​​independentes: caixa suspensa. Você terminará com a seguinte tela: Publicado com permissão por escrito da StataCorp LP. Saída da análise de regressão linear em Stata Se seus dados passaram a suposição 3 (ou seja, houve uma relação linear entre suas duas variáveis), 4 (ou seja, não houve outliers significativos), a suposição 5 (ou seja, você teve independência de observações), suposição 6 ( Ou seja, seus dados mostraram homoscedasticidade) e a suposição 7 (ou seja, os resíduos (erros) foram aproximadamente normalmente distribuídos), o que explicamos anteriormente na seção de Suposições, você só precisará interpretar o seguinte resultado de regressão linear em Stata: Publicado com permissão por escrito de StataCorp LP. A saída consiste em quatro importantes informações: (a) o valor R 2 (linha R quadrada) representa a proporção de variância na variável dependente que pode ser explicada por nossa variável independente (tecnicamente é a proporção de variação representada por Pelo modelo de regressão acima e além do modelo médio). No entanto, R 2 baseia-se na amostra e é uma estimativa positivamente tendenciosa da proporção da variância da variável dependente representada pelo modelo de regressão (ou seja, é muito grande) (b) um valor R 2 ajustado (Adj R - Linha quadrada), que corrige o viés positivo para fornecer um valor que seria esperado na população (c) o valor F, os graus de liberdade (F (1, 98)) e a significância estatística do modelo de regressão (linha G do teste G) E (d) os coeficientes para a variável constante e independente (coluna Coef.), Que é a informação que você precisa para prever a variável dependente, o colesterol. Usando a variável independente, timetv. Neste exemplo, R 2 0,151. R 2 ajustado 0.143 (para 3 d. p.), o que significa que a variável independente, timetv. Explica 14.3 da variabilidade da variável dependente, o colesterol. Na população. R 2 ajustado também é uma estimativa do tamanho do efeito, que em 0.143 (14.3), é indicativo de um tamanho de efeito médio, de acordo com a classificação de Cohens (1988). No entanto, normalmente é R 2 não o R 2 ajustado que é relatado em resultados. Neste exemplo, o modelo de regressão é estatisticamente significativo, F (1, 98) 17,47, p .0001. Isso indica que, em geral, o modelo aplicado pode prever de forma estatística significativamente a variável dependente, o colesterol. Nota: Apresentamos a saída da análise de regressão linear acima. No entanto, como você deve ter testado seus dados para os pressupostos que explicamos anteriormente na seção Suposições, você também precisará interpretar a saída do Stata que foi produzida quando você testou esses pressupostos. Isso inclui: (a) os diagramas de dispersão que você usou para verificar se houve uma relação linear entre suas duas variáveis ​​(ou seja, Assunção 3) (b) diagnósticos casewise para verificar que não existiam valores aberrantes significativos (ou seja, Assunção 4) (c) a saída de the Durbin-Watson statistic to check for independence of observations (ie Assumption 5) (d) a scatterplot of the regression standardized residuals against the regression standardized predicted value to determine whether your data showed homoscedasticity (ie Assumption 6) and a histogram (with superimposed normal curve) and Normal PP Plot to check whether the residuals (errors) were approximately normally distributed (ie Assumption 7). Also, remember that if your data failed any of these assumptions, the output that you get from the linear regression procedure (i. e. the output we discuss above) will no longer be relevant, and you may have to carry out an different statistical test to analyse your data. Reporting the output of linear regression analysis When you report the output of your linear regression, it is good practice to include: (a) an introduction to the analysis you carried out (b) information about your sample, including any missing values (c) the observed F - value, degrees of freedom and significance level (i. e. the p - value) (d) the percentage of the variability in the dependent variable explained by the independent variable (i. e. your Adjusted R 2 ) and (e) the regression equation for your model. Based on the results above, we could report the results of this study as follows: A linear regression established that daily time spent watching TV could statistically significantly predict cholesterol concentration, F (1, 98) 17.47, p .0001 and time spent watching TV accounted for 14.3 of the explained variability in cholesterol concentration. The regression equation was: predicted cholesterol concentration -2.135 0.044 x (time spent watching tv). In addition to the reporting the results as above, a diagram can be used to visually present your results. For example, you could do this using a scatterplot with confidence and prediction intervals (although it is not very common to add the last). This can make it easier for others to understand your results. Furthermore, you can use your linear regression equation to make predictions about the value of the dependent variable based on different values of the independent variable. Whilst Stata does not produce these values as part of the linear regression procedure above, there is a procedure in Stata that you can use to do so.

No comments:

Post a Comment