Tamanho da amostra: problema e matemática

Depois de ler este artigo, você aprenderá sobre o problema e a matemática do tamanho da amostra.

O problema do tamanho da amostra:

Vamos agora considerar um dos problemas mais complicados relacionados à amostragem, a saber, o problema do tamanho da amostra. “Qual deve ser o tamanho adequado da amostra em relação ao tamanho da população?” “Quão grande deve ser uma amostra?” São perguntas frequentemente feitas por estudantes de pesquisa. Xo resposta decisiva a esta pergunta pode ser dada.

Isso porque a questão do tamanho só pode ser respondida quando estamos amostrando elementos para a população de tal forma que cada elemento tenha a mesma chance de ser incluído na amostra, ou seja, quando estamos adotando o desenho de probabilidade da amostragem.

Apenas o desenho de probabilidade torna possível a formulação de planos de amostragem representativos. Assim, possibilita a formulação de planos de amostragem representativos.

Portanto, a pergunta “qual deveria ser a amostra para representar a população de um tamanho designado?” Pressupõe o procedimento de amostragem probabilística. Na falta desse procedimento, a representatividade da amostra, por maior que seja, só pode ser uma questão de esperança e conjectura.

Os equívocos gerais em relação ao tamanho da amostra é que o tamanho do universo a partir do qual a amostra é retirada determina o número de casos necessários para produzir uma amostra adequada ou representativa desse universo.

Faremos bem em notar imediatamente que a ênfase deve ser colocada não no número de casos no universo, mas em seu número na amostra.

A matemática do tamanho da amostra:

A questão prática básica “Como determinar o tamanho da amostra que produzirá o grau de precisão desejado, conforme estipulado pelo pesquisador para um determinado estudo?” O problema de amostragem é, naturalmente, o mesmo em todos os estudos, ou seja, estimar ou prever algo sobre a população com base no conhecimento de algo sobre a amostra.

O pesquisador deve saber que tipo de estatística da amostra servirá para o propósito, por exemplo, porcentagens, médias, desvio padrão, etc., para tal estimativa. Isso é importante porque diferentes tipos de estatísticas são úteis, dependendo dos graus desejados de precisão nos retornos das amostras, que, por sua vez, são fornecidos por diferentes tamanhos de amostra.

Médias e porcentagens são as estatísticas mais comumente desejadas, portanto trataremos especificamente da questão dos tamanhos amostrais correspondentes aos graus de precisão desejados em relação a médias e porcentagens.

Como a amostra desenhada pelo pesquisador é apenas uma das muitas amostras possíveis do universo que ele poderia ter escolhido, ele precisa saber quanta confiança ele pode colocar na amostra como representante do "universo" sobre o qual ele quer saber alguma coisa ou com referência a qual ele deseja generalizar.

Ele precisa saber quão grande a amostra deve ser para dar a ele um nível satisfatório de precisão. Este cálculo é possível através do recurso à matemática, pois na amostragem aleatória (amostragem probabilística), onde cada item no universo tem uma probabilidade especificável de inclusão na amostra, a precisão da previsão ou estimativa é relacionada à raiz quadrada do número de itens. na amostra.

Antes de prosseguir com o cálculo do tamanho necessário da amostra para um dado estudo, é necessário, na prática, assegurar alguma informação preliminar sobre a população ou universo.

Se o pesquisador pretende usar a amostra para fazer uma estimativa da medida média de uma característica particular no universo, ele precisa ter alguma estimativa preliminar para o desvio padrão (dispersão) na distribuição dos valores dos itens no universo com respeito. para a característica dada.

O pesquisador que vem a conhecer o intervalo de valores (a propagação) em relação a uma característica particular no universo pode obter uma estimativa preliminar do desvio padrão dividindo este intervalo por 6, uma vez que o desvio padrão do universo (finito) pode para todos os efeitos práticos, deve ser considerado em torno de 1/6 da variação total da variação.

Por outras palavras, o intervalo de dispersão de uma distribuição pode ser considerado como compreendendo 6 unidades de desvio padrão. As informações preliminares sobre o universo podem ser obtidas por meio de um estudo piloto, resultados de pesquisas anteriores, de relatórios publicados por agências estatísticas, avaliação de especialistas no campo, etc.

O pesquisador, antes de proceder ao cálculo do tamanho da amostra, deve decidir o nível esperado de precisão das estimativas. Essa expectativa baseia-se, em grande parte, no propósito do estudo.

Em outras palavras, o pesquisador deve decidir:

(a) Quanto erro na estimativa a ser derivada da amostra (em comparação com o valor real, isto é, o valor do 'universo') pode ser tolerado (chamado margem de erro ou limite de precisão) e

(b) Com quanta garantia pode ser dito que a estimativa cairá dentro desta margem de erro (chamada, nível de confiança ou probabilidade).

Será correto, no entanto, considerar isso em maior detalhe, atualmente:

(a) Margem de erro ou limite de precisão:

A questão básica aqui é: 'Quanto a porcentagem ou a média a ser assegurada do estudo da amostra pode variar da média real (da população) e ainda pode ser tolerada?' O pesquisador pode tolerar um erro de 5% ou pode exigir precisão dentro de um limite de 2%.

Tudo depende de quão precisamente ou exatamente ele quer saber certos fatos. Vamos supor que o pesquisador deseje saber de antemão qual dos dois candidatos que contestam a eleição vai ganhar o assento. Se a votação for próxima, o pesquisador pode tolerar apenas um erro menor se estiver praticamente certo.

Ele pode, por exemplo, definir o erro permissível em menos de 2%. Por outro lado, se a eleição parece ser unilateral e bastante tendenciosa em favor de um determinado candidato, o pesquisador pode ser capaz de prever os resultados, mesmo com um erro muito maior na estimativa.

Se a pesquisa por amostragem revelou que 60% dos votos seriam a favor de um candidato, um erro tão alto quanto 9% poderia ser tolerado. Neste caso, mesmo que a amostra tenha atraído a amostra mais infeliz a desviar 9% do valor real, o valor real ainda seria 51%, ou seja, 1% acima dos 50%, que é o ponto crítico.

Assim, tanto o valor estimado de 60% quanto o valor real de 51% estariam acima do ponto crítico (isto é, 50%) e a previsão seria confiável.

(b) Probabilidade ou Nível de Confiança:

Além do limite de precisão, o pesquisador também deve decidir, com referência a seu estudo, quanta confiança ele gostaria de colocar nas estimativas da amostra sendo tão próximo da estimativa real quanto estar dentro dos limites de tolerância ou precisão ele para o estudo.

Em certas situações, ele pode querer estar extremamente seguro de que suas estimativas (com base na amostra) estarão dentro de 51% do valor real, enquanto que em outras situações, ele pode estar satisfeito com um pouco menos de garantia.

Na pesquisa em ciências sociais, dois graus de probabilidade ou confiança são muito conhecidos e freqüentemente usados.

Um deles é 0, 95 de probabilidade, ou seja, haverá 95 chances de 100 de que a estimativa da amostra não exceda os limites de tolerância ou margem de erro, e o segundo nível é o nível 0, 99, de probabilidade, ou seja, É provável que em 99 chances de 100 a estimativa da amostra não exceda a margem de erro pretendida.

O nível de confiança pode até ser definido em 0, 999, ou seja, a estimativa da amostra não se desviará do valor verdadeiro (do universo) além dos limites de tolerância em 999 chances de 1000. Para determinados objetivos, o pesquisador pode apontar para baixo e defina o nível de probabilidade em 0, 67 (ou seja, 2 de 3).

As chances de uma amostra particular desenhada para um estudo produzir uma estimativa do universo que esteja dentro da margem de erro dependem da variação entre as amostras que podem ser extraídas do universo. Se os valores assegurados das amostras tendem a desviar-se consideravelmente do valor verdadeiro, então as chances de qualquer valor de amostra ficar dentro dos limites de erro permitidos são pobres.

O erro padrão é a medida que nos diz quais são as chances de uma amostra ficar dentro dos limites permitidos. É uma medida da variação na estimativa da amostragem que poderia ser esperada na amostragem aleatória. Amostras aleatórias tendem a seguir as leis da probabilidade e as estimativas da amostra tendem a se agrupar em torno do verdadeiro valor do universo.

Essas estimativas podem ser representadas por uma curva em forma de sino ou normal. O ponto médio dessa curva representa o valor verdadeiro (do universo) e a variação máxima ou desvio de uma estimativa aleatória da amostra a partir desse valor verdadeiro é cerca de três vezes o erro padrão.

O erro padrão é, portanto, cerca de 1/6 de toda a variação da variação amostral aleatória. Para todos os efeitos práticos, no entanto, o erro padrão é considerado como 1/4 do intervalo de variação, uma vez que as variações extremas ocorrem muito raramente.

As tabelas de probabilidades mostram que 95 das 100 estimativas de amostra podem estar dentro dos limites dos erros padrão +2 e -2. Isso significa que, se tivermos estabelecido nosso nível de confiança ou probabilidade em 0, 95, nosso problema será desenhar uma amostra aleatória com um erro padrão que é cerca de ½ (metade) de nossa margem de erro.

Para um nível mais alto de probabilidade, teríamos que desenhar uma amostra com um erro padrão, que é uma fração ainda menor da margem de erro.

Deve-se notar que o erro padrão fica menor (maior precisão) à medida que as amostras aumentam. Para duplicar a precisão, o tamanho da amostra deve ser multiplicado por 4, ou seja, aumentado quatro vezes; para triplicar, o tamanho da amostra deve ser multiplicado por 9; quadruplicá-lo, por 16 e assim por diante.

Isso significa apenas que precisão aumenta como raiz quadrada do número de casos na amostra. Os estatísticos prepararam tabelas que mostram a probabilidade de estimativas de amostra dentro dos vários limites de erro padrão.

Esses limites são geralmente declarados como + (mais) e - (menos). Tais tabelas mostram prontamente, por exemplo, que 95% das estimativas aleatórias da amostra caem dentro do limite de +1, 96 e -1, 96 erros padrão, cerca de 68% das estimativas caem dentro dos limites de + 1 e -1 erro padrão e 99% das as estimativas estão dentro do intervalo de +2, 57 e -2, 57 erros padrão, e assim por diante.

Em plena consideração de (1) a margem de erro e (2) a probabilidade ou nível de confiança, o pesquisador pode prosseguir com o cálculo de um tamanho de amostra desejado. Mildred Parten forneceu a seguinte fórmula para calcular o tamanho da amostra, quando a estatística a ser estimada é a porcentagem. Esta é obviamente uma variação transposta de uma fórmula de erro padrão.

Tamanho da amostra = PC (100-PC) Z 2 / T 2

Na fórmula acima, PC significa a estimativa preliminar da porcentagem (do universo).

Z significa o número de unidades de erro padrão que são encontradas (da tabela de probabilidade normal) para corresponder ao nível de probabilidade requerido.

T significa a margem de erro que pode ser tolerada (5% ou 2%).

Parten deu a seguinte fórmula para calcular o tamanho da amostra para prever ou estimar o valor médio do universo em relação a uma característica especificada em um certo nível de confiança e visando uma dada margem ou erro ou limite de tolerância.

Tamanho da amostra = (δ + Z / T) 2

Onde 8 representa a estimativa preliminar do desvio padrão do universo.

Z representa o número de unidades de erro padrão correspondentes à probabilidade ou ao nível de confiança requerido.

Vamos dar um exemplo concreto e calcular o tamanho da amostra. Suponha que desejamos estimar a renda média anual das famílias que habitam uma determinada localidade de “classe média” de uma cidade.

Digamos que definimos nossa margem de erro em Rs.100 / -, ou seja, toleraremos a estimativa da amostra em mais ou menos 100 da verdadeira média da população em relação à renda. Suponha que tenhamos definido o nível de probabilidade ou confiança em 0, 95.

Suponha também que, de uma pesquisa realizada há alguns anos, estimamos que o desvio padrão em relação à renda anual da população (localidade) seja de Rs.500 / -. O valor de Z, ou seja, as unidades de erro padrão correspondentes à probabilidade de 0, 95 é de 1, 96.

Substituindo esses valores na fórmula acima, temos

Tamanho de simples = (500 × 1, 96 / 100) 2

= (9, 8) 2

= 95

Isso significa que uma amostra aleatória de 95 casos (famílias, que são as unidades da amostra) deve nos fornecer uma estimativa da média do universo dado dentro da margem de erro definida e no nível desejado de confiança ou probabilidade, respectivamente. de Rs. 100 / - e 0, 95.

Se apertarmos a margem de erro e ajustá-la em Rs. 50 / -, o número de casos na amostra, isto é, o tamanho requerido da amostra será quatro vezes maior (isto é, 380) que o tamanho requerido para a margem de erro anterior (Rs. 100 / -).

Se outra localidade é caracterizada por maior homogeneidade em relação à renda e suponha, portanto, que o desvio padrão em termos de renda seja de apenas 100, o tamanho da amostra para a margem de erro acima será muito menor.

Em outras palavras, o uso da fórmula ilustra a lição, ou seja, quanto maior a homogeneidade menor a amostra necessária e maior a precisão aspirada, maior o tamanho da amostra necessária.

O uso repetido de termos como margem de erro e nível de confiança e outras expressões numéricas de probabilidades e tamanhos de amostra, pode tender a criar a impressão de que um tamanho de amostra calculado por uma fórmula garantirá a precisão desejada.

Deve-se lembrar, no entanto, que as relações mostradas nas tabelas estatísticas de probabilidade representam expectativas normais em uma amostragem aleatória ideal. Mas, na medida em que a amostragem real raramente é ideal, não se pode esperar que as relações expressas em tabelas se mantenham.

A dificuldade geral e a raridade da amostragem ideal devem, compreensivelmente, deixar a pessoa cética quanto aos resultados que estão exatamente de acordo com as expectativas.

Isso não significa, no entanto, que o pesquisador não deve usar ou preferir o tamanho exato da amostra calculado com base na fórmula da probabilidade. Na verdade, isso é precisamente o que ele deve fazer porque é sua melhor aposta. Ele não deve, no entanto, insistir neste tamanho exato se considerações práticas o tornarem inconveniente.

Uma abordagem substancialmente diferente para o problema de determinar o tamanho de amostra desejado é o "teste de estabilidade". Isso consiste em coletar dados para subamostras relativamente pequenas e manter um registro da distribuição dos retornos.

Quando, após um ponto, a adição de mais subamostra não altera significativamente os resultados, o pesquisador pode assumir que a amostra total retirada até agora se tornou adequada, em termos de tamanho. Mas este procedimento pode muito bem ser considerado um desperdício de tempo porque se aplica ao pesquisador que se envolve em uma série de pesquisas separadas espalhadas por um considerável período de tempo.

Argumentou-se que este procedimento é antieconômico na medida em que mais cronogramas são coletados do que são realmente necessários, desde que a redução gradual até o ponto de estabilidade aproximada não pode ser localizada com alguma certeza até que a curva tenha mantido seu nível por um tempo.

Mas isso não parece ser uma limitação séria quando comparado com a prática conservadora de muitos estudos respeitáveis ​​que coletam mais do que o número necessário / mínimo de itens como amostra.

A principal vantagem deste tipo de teste de estabilidade é que, em vez de depender de cálculos baseados em informações preliminares, simplesmente aumenta-se a unidade geral de tamanho de amostra que se observa que é suficiente. A verificação empírica de observar os retornos e parar quando se estabilizam parece direta e convincente.

O principal perigo desse procedimento reside no fato de que as sucessivas subamostras coletadas provavelmente não se espalharão pelo universo. Os resultados podem se estabilizar, embora não representem a população.

De fato, quanto menos representativa a subamostra, mais provável é a adição de mais casos para produzir o mesmo resultado e lançar a aparência de estabilização. A menos que a subamostra seja uma seção transversal do universo, não haverá uma amostra supersensível sobre a qual observar a estabilização que se aproxima.

O requisito básico deste procedimento é que uma amostra representativa crescente esteja disponível para observação. As despesas e a dificuldade de coletar sub-amostras sucessivas que estão espalhadas pelo universo são as principais razões pelas quais não é provável que isso seja representativo.

O teste de estabilidade empírica pode ser muito eficaz, no entanto, quando as sub-amostras são devidamente desenhadas e coletadas. O método é mais apropriado para pesquisas-entrevistas cobrindo áreas relativamente pequenas ou comunidades, como uma cidade ou uma cidade, porque, então, não é tão difícil ou dispendioso fazer de cada sub-amostra uma amostra aleatória da população.

Uma forma mais refinada de controle empírico, comparada ao teste de estabilidade, é um desenvolvimento relativamente recente chamado Análise Sequencial. O procedimento geral envolvido, aqui, é continuar adicionando à amostra e, ao mesmo tempo, continuar testando a amostra para significância até que a amostra mínima seja acumulada, o que fornecerá o nível necessário de significância.