Monday 3 July 2017

Bootstrapping Erros Padrão No Stata Forex


O Método Bootstrap para Erros Padrão e Intervalos de Confiança Biostatistics For Dummies Você pode calcular o erro padrão (SE) eo intervalo de confiança (IC) das estatísticas de amostra mais comuns (médias, proporções, contagens e taxas de eventos e coeficientes de regressão). Mas um SE e CI existem (teoricamente, pelo menos) para qualquer número que você possivelmente possa experimentar de seus dados 8212 medianas, centiles, coeficientes de correlação e outras quantidades que podem envolver cálculos complicados, como a área sob uma curva de concentração versus tempo (AUC) ou a probabilidade estimada de sobrevivência de cinco anos derivada de uma análise de sobrevivência. Fórmulas para SE e CI em torno desses números podem não estar disponíveis ou podem ser impossivelmente difíceis de avaliar. Além disso, as fórmulas que existem podem aplicar-se apenas a números normalmente distribuídos, e você pode não ter certeza do tipo de distribuição que seus dados seguem. Considere um problema muito simples. Suponha que você tenha medido o QI de 20 indivíduos e obtiveram os seguintes resultados: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114, 115 , 120 e 138. Estes números têm uma média de 100,85 e uma mediana de 99,5. Porque você é um bom cientista, você sabe que sempre que você denuncia algum número que você calculou a partir de seus dados (como uma média ou mediana), you8217ll também deseja indicar a precisão desse valor sob a forma de SE e IC. Para a média, e se você pode assumir que os valores do QI são aproximadamente normalmente distribuídos, as coisas são bastante simples. Você pode calcular o SE da média como 3,54 e 95 IC em torno da média como 93,4 a 108,3. Mas e quanto ao SE e CI para a mediana, para o qual não há fórmulas simples E, se você não puder se certificar de que esses valores de QI vêm de uma distribuição normal, então as fórmulas simples podem não ser confiáveis. Felizmente, existe um método muito geral para estimar SEs e ICs para qualquer coisa que você possa calcular a partir de seus dados, e não exige quaisquer suposições sobre como seus números são distribuídos. O SE de qualquer estatística de amostra é o desvio padrão (SD) da distribuição de amostragem para essa estatística. E os 95 limites de confiança de uma estatística de amostra são bem aproximados pelos cenários 2.5 e 97.5 da distribuição de amostragem dessa estatística. Então, se você pudesse replicar todo o seu experimento milhares de vezes (usando uma amostra diferente de assuntos a cada vez), e cada vez que calcula e economize o valor da coisa que você está interessado (mediana, AUC ou qualquer outra coisa), essa coleção de milhares de Os valores seriam uma boa aproximação à distribuição de amostragem da quantidade de interesse. Então você poderia estimar o SE simplesmente como o SD da distribuição de amostragem e os limites de confiança dos centiles da distribuição. Mas, na verdade, realizar esse cenário não é possível, você provavelmente não tem tempo, paciência ou dinheiro para realizar todo o seu estudo milhares de vezes. Felizmente, você não precisa repetir o estudo milhares de vezes para obter uma estimativa da distribuição de amostragem. Você pode fazê-lo reutilizando os dados de seu estudo atual, uma e outra vez. Isso pode parecer muito bom para ser verdade, e os estatísticos foram muito céticos sobre esse método quando foi proposto pela primeira vez. Eles o chamaram de bootstrapping, comparando-o com a tarefa impossível de se separar pelo seu bootstraps.8221 Mas resulta que, se você continuar reutilizando os mesmos dados de uma certa maneira, esse método realmente funciona. Ao longo dos anos, o procedimento de bootstrap tornou-se uma maneira aceita de obter estimativas confiáveis ​​de SEs e CIs para quase tudo o que você pode calcular a partir de seus dados de fato, it8217s frequentemente considerado o padrão 8220gold8221 contra o qual várias fórmulas de aproximação para SEs e CIs são Julgado. Para ver como funciona o método bootstrap, acesse a forma como você o usaria para estimar SE e 95 IC da média e a mediana dos valores de 20 IQ mostrados anteriormente. Você deve fazer uma nova amostra de seus 20 números, uma e outra vez, da seguinte maneira: Escreva cada uma das suas medidas em um pedaço de papel separado e coloque tudo em uma bolsa. Neste exemplo, você escreve os 20 QI medidos em folhas separadas. Alcance e tire um deslizamento, escreva esse número e coloque o deslizamento no saco. (A última parte é muito importante) Repita a Etapa 2 quantas vezes for necessário para combinar o número de medidas que você possui, retornando o deslizamento para o saco cada vez. Isso é chamado de reescrever com replaceeme nt, e ele produz um conjunto de dados remontado. Neste exemplo, você repete a Etapa 2 19 mais vezes, para um total de 20 vezes (qual é o número de medidas de QI que você possui). Calcule a estatística de amostra desejada dos números remontados das Etapas 2 e 3 e registre esse número. Neste exemplo, você encontra a média e a mediana dos 20 números reamontados. Repita os passos 2 a 4 várias milhares de vezes. Cada vez, você gera um novo conjunto de dados remodelado a partir do qual você calcula e grava as estatísticas da amostra desejada (neste caso, a média e a mediana do conjunto de dados remodelados). Você encerra milhares de valores para a média e milhares de valores para a mediana. Em cada conjunto de dados remodelado, alguns dos valores originais podem ocorrer mais de uma vez, e alguns podem não estar presentes. Quase todos os conjuntos de dados remodelados serão diferentes de todos os demais. O método bootstrap baseia-se no fato de que esses valores médios e médios dos milhares de conjuntos de dados remontados compreendem uma boa estimativa da distribuição de amostragem para a média e a mediana. Coletivamente, eles se assemelham ao tipo de resultados que você conseguiu se você tivesse repetido seu estudo atual uma e outra vez. Calcule o desvio padrão de seus milhares de valores da estatística da amostra. Este processo fornece uma estimativa 8220bootstrapped8221 do SE da estatística da amostra. Neste exemplo, você calcula o SD dos milhares de meios para obter o SE da média e você calcula o SD das milhares de medianas para obter o SE da mediana. Obtenha os cenários 2.5 e 97.5 dos milhares de valores da estatística da amostra. Você faz isso, classificando seus milhares de valores da estatística da amostra em ordem numérica, e depois cortando os 2,5 por cento mais baixos e os 2,5 por cento mais altos do conjunto de números ordenados. Os valores mais pequenos e maiores que permanecem são a estimativa inicializada de limites de confiança mínimos e altos para a estatística da amostra. Neste exemplo, os cenários 2.5 e 97.5 dos meios e medianas dos milhares de conjuntos de dados remodelados são os 95 limites de confiança para a média e a mediana, respectivamente. Obviamente, you8217d nunca tenta fazer este processo de inicialização à mão, mas it8217s é bastante fácil de fazer com o software, como o programa Statistical1 gratuito. Você pode inserir seus resultados observados e dizer-lhe para gerar, digamos, 100.000 conjuntos de dados remodelados, calcular e salvar a média e a mediana de cada um, e então calcular o SD e os cenários 2.5 e 97.5 daqueles 100.000 e 100.000 Medianas. Aqui estão alguns resultados de uma análise de bootstrap realizada nestes dados: Dados reais: 61, 88, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114 , 115, 120 e 138. Média 100.85 Mediana 99.5 Conjunto de dados remodelado 1: 61, 88, 88, 89, 89, 90, 92, 93, 98, 102, 105, 105, 105, 109, 109, 109, 109 , 114, 114 e 120. Média 1 99,45, Mediana 1 103,50 Conjunto de dados amostrados 2: 61, 88, 89, 89, 90, 92, 92, 98, 98, 98, 102, 105, 105, 108, 108, 113, 113, 113, 114 e 138. Média 2 100,7, Mediana 2 100,0 (Entre Set 2 e o seguinte conjunto, foram gerados 99,996 conjuntos de dados bootstrapped). Resampled Data Set 99, 999: 61, 61, 88, 89 92, 93, 93, 94, 98, 98, 98, 101, 102, 105, 109, 114, 115, 120, 120 e 138. Média 99,999 99,45, Mediana 99,999 98,00 Conjunto de dados remamado 100 000: 61, 61, 61, 88, 89, 89, 90, 93, 93, 94, 102, 105, 108, 109, 109, 114, 115, 115, 120 e 138. Média 100,000 97,7, Mediana 100,000 98,0 Here8217s um resumo de As 100.000 resamples: o SD das 100.000 mea N s 3.46 este é o SE bootstrapped da média (SEM). O SD das 100.000 medianas 4.24 este é o SE bootstrapped da mediana. Os centésimos 2.5 e 97.5 dos 100.000 significam 94.0 e 107.6 estes são os limites de confiança 95 inicializados para a média. Os cenários 2.5 e 97.5º das 100.000 medianas 92.5 e 108.5 são os limites de confiança 95 inicializados para a mediana. Então, você relataria sua média e mediana, juntamente com seus erros padrão de bootstrapped e intervalo de confiança 95 desta maneira: média 100.85 177 3.46 (94.08211107.6) Mediana 99.5 177 4.24 (92.58211108.5). Você notará que o SE é maior (e o CI é mais largo) para a mediana do que para a média. Isso geralmente é verdadeiro para dados normalmente distribuídos 8212, a mediana possui cerca de 25 variações do que a média. Mas, para dados não normalmente distribuídos, a mediana é muitas vezes mais precisa do que a média. Você não precisa usar bootstrapping para algo tão simples quanto o SE ou CI de um meio, porque existem fórmulas simples para isso. Mas o método bootstrap pode calcular com facilidade o SE ou CI para uma mediana, um coeficiente de correlação ou um parâmetro farmacocinético como a AUC ou semi-vida de eliminação de um medicamento, para o qual não existem fórmulas SE ou CI simples e para as quais Os pressupostos de normalidade podem não ser aplicáveis. Bootstrapping é conceitualmente simples, mas it8217s não é infalível. O método envolve certos pressupostos e tem certas limitações. Por exemplo, it8217s provavelmente não serão muito úteis se você tiver apenas alguns valores observados. Verifique as estatísticas 101 para obter mais informações sobre o uso do método bootstrap (e para o software Statistical101 gratuito para fazer os cálculos bootstrap com muita facilidade).Stata: Análise de Dados e Software Estatístico Gustavo Sanchez, StataCorp Em geral, o bootstrap é usado em estatísticas como um Método de reescalonamento para aproximar erros padrão, intervalos de confiança e valores-p para estatísticas de teste, com base nos dados da amostra. Este método é significativamente útil quando a distribuição teórica da estatística do teste é desconhecida. No Stata, você pode usar o comando bootstrap ou a opção vce (bootstrap) (disponível para muitos comandos de estimativa) para inicializar os erros padrão das estimativas dos parâmetros. Recomendamos usar a opção vce () sempre que possível porque já contabiliza as características específicas dos dados. Este ajuste é particularmente relevante para os dados do painel em que as observações aleatoriamente selecionadas para o bootstrap não podem ser escolhidas por registro individual, mas por painel. Na opção vce (), podemos incluir todas as especificações que incluiríamos regularmente no comando bootstrap. Por exemplo, se precisarmos realizar um teste em uma combinação linear de alguns dos coeficientes do modelo de regressão, podemos incorporar diretamente a expressão de combinação linear em vce (). O exemplo abaixo mostra o bootstrap para os erros padrão da diferença entre os coeficientes de idade e trabalho em uma regressão de efeitos fixos para lnwage. . Use stata-pressdatar14nlswork (National Longitudinal Survey, Young Women 14-26 anos de idade em 1968). Código de xtset. Xtreg lnwage wkswork idade tenure ttlexp, fe gt vce (bootstrap (bage - bwkswork), representante (10) semente (123)) (executando xtreg na amostra de estimação) Replicações Bootstrap (10) Como mencionamos acima, podemos obter os mesmos resultados Com o comando bootstrap. No entanto, usando a opção vce (), não precisamos especificar explicitamente as características do painel de dados do nosso conjunto de dados. Com comandos escritos pelo usuário ou com comandos não estimados, precisamos usar o bootstrap porque não há equivalente à opção vce (). O exemplo abaixo mostra os resultados do bootstrap para a proporção dos meios da primeira diferença de duas variáveis ​​variáveis ​​(ttlexp e horas). Precisamos deixar o comando saber que estamos lidando com dados do painel e, portanto, cada seleção aleatória deve corresponder a um painel. Além disso, as seleções repetidas do mesmo painel dentro de uma amostra inicializada devem ser internamente tratadas como painéis diferentes. Letrsquos primeiro escreve um programa que calcula a proporção dos meios de duas variáveis:. Programa myxtboot, rclass 1. resumir d.1, meanonly 2. escalar mean1r (mean) 3. resumir d.2, meanonly 4. scalar mean2r (mean) 5. return scalar ratioscalar (mean1) scalar (mean2) 6. fin Next Letrsquos crie e defina a variável de identificador de cluster para os painéis de bootstrapped, e depois marque a amostra para manter apenas as observações que não contêm valores faltantes para as variáveis ​​de interesse. . Gere newid idcode. Variável do painel do ano novo do tsset: variável de tempo newid (desequilibrada): ano, 68 a 88, mas com lacunas delta: 1 unidade. Gerar sample1-missing (ttlexp, hours). Manter se a amostra (67 observações apagadas) Finalmente, realizamos a simulação, especificando as características do painel do conjunto de dados:. Bootstrap ratior (ratio), rep (10) seed (123) gt cluster (idcode) idcluster (newid) nowarn: myxtboot ttlexp horas (executando myxtboot na amostra de estimação) Replicações Bootstrap (10)

No comments:

Post a Comment