¬ Lição matemática nº13: Como calcular o tamanho da amostra em uma pesquisa

Geralmente associamos um número muito grande de entrevistados (amostra) com uma maior precisão no que concluiremos sobre a população. Todavia, a estatística nos mostra que pequenas amostras nos dão resultados precisos. Até porque, mesmo pequena, quando planejada e coletada de forma científica, terá resultados mais precisos do que amostras muito grandes e sem critérios técnicos. A questão então não é o tamanho da amostra, mas a cientificidade, o tratamento estatístico que ela recebe. Ademais, grandes amostras geram um problema adicional, os erros não amostrais, causados por motivos como: o modo equivocado de coleta dos dados, influência dos pesquisadores, etc. Esses erros não amostrais ficam muito mais difíceis de serem controlados ou minimizados, tendendo a crescer, portanto, na medida em que o tamanho da amostra aumenta. Além disso, a partir de certo número de entrevistas, é necessário aumentar muito o tamanho da amostra para conseguir diminuir muito pouco a margem de erro da pesquisa, ou seja, seria necessário aumentar muito os custos para obter poucos benefícios. Portanto, ao contrário do senso comum, o tamanho da amostra depende parcialmente do tamanho da população, e mais do tratamento estatístico que recebe.

Mas, as inferências (conclusões) a partir da média de uma amostra de uma população são realmente confiáveis para retratar a média de toda a população? Vejamos o exemplo a seguir (adaptado de Fauze Mattar, em Pesquisa de Marketing). Imaginemos uma população de 10 indivíduos, cujos salários sejam os seguintes:


IndivíduosSalários
João$1.300
Maria$1.300
Pedro$1.400
Marcos$1.500
Mateus$1.600
Flávia$1.600
Lupicínio$1.700
Washington$1.800
Carina$1.900
Juliana$1.900
TOTAL$16.000
Renda média da população$1.600


Selecionando aleatoriamente uma amostra de 2 indivíduos teríamos as seguintes possibilidades, combinações, de amostras:

Nº da amostraAmostraRenda média da amostra de 2 indivíduos
1João e MariaR$ 1.300,00 = (1.300 +1.300)/2
2João e PedroR$ 1.350,00
3João e MarcosR$ 1.400,00
4João e MateusR$ 1.450,00
5João e FláviaR$ 1.450,00
........
40Lupicínio e WashingtonR$ 1.750,00
41Lupicínio e CarinaR$ 1.800,00
42Lupicínio e JulianaR$ 1.800,00
43Washington e CarinaR$ 1.850,00
44Washington e JulianaR$ 1.850,00
45Carina e JulianaR$ 1.900,00
Total das médias das amostrasR$ 72.000,00
Média da média das amostrasR$ 1.600 (72.000/45)


Concluímos, portanto, que se todas as amostras possíveis fossem selecionadas, 45 no total, e tirada a média de cada uma delas, a média geral de todas essas médias das amostras seria exatamente, e obrigatoriamente, igual à média da população. Uma tabela de freqüências dos salários médios das amostras de tamanho ficaria assim distribuída:


Média das amostrasFrequência
$1.3001
$1.3502
$1.4002
$1.4505
$1.5004
$1.5505
$1.6007
$1.6505
$1.7004
$1.7505
$1.8002
$1.8502
$1.9001
Total45


Notamos que, assim como a média, a mediana e a moda também foram de R$1.600. Conclusões que tiramos do exemplo anterior:
      
  • A média da população é efetivamente IGUAL à média da média das amostras individuais
  • As médias das amostras estão distribuídas em torno da média da população (R$1.600), sendo que 7 médias amostrais (a moda) são exatamente iguais a média da população;

  • As frequências dos valores mais próximos à media da população tendem a ser maiores do que os mais distantes. Os salários médios de $1.650 e $1.550, por exemplo, possuem 5 repetições (freqüências) cada. Já os salários médios de $1.300 e $1.900 acontecem apenas 1 vez cada.

  • A forma do gráfico dessa distribuição de freqüências das amostras assume o formato de uma curva na forma de sino em torno da média da população ($1.600), como vemos na figura abaixo. Essa curva é denominada CURVA NORMAL, como vimos na lição anterior.
  




Se no caso anterior, para uma população de 10 indivíduos, amostras de dois indivíduos resultaram em 45 possibilidades imaginem uma amostra com 600!? A estatística tenta resolver esse problema, ou seja, dar representatividade à população a partir da média de apenas uma amostra de 600 selecionada aleatoriamente, evitando o que seria impossível, tirar a média de todas as outras milhares de amostras com 600 indivíduos.

O que fazer então? Voltando ao nosso exemplo acima, trabalhando com apenas 1 amostra, dentre as 45 amostras possíveis de 2 indivíduos, temos que considerar que pequenos erros (desvios) são possíveis quando comparados com as outras 44 médias das amostras – esses erros são os erros amostrais. Isto porque essa única amostra pode resultar em quaisquer valores entre R$1.300 e R$1.900. Logo, ela não representará fielmente a média da população, pois só encontramos exatamente R$1.600, que é a verdadeira média da população, quanto utilizamos todas as 45 médias amostrais. Ou seja, os resultados obtidos numa pesquisa elaborada a partir de amostras não são rigorosamente exatos em relação ao universo. Esses resultados apresentam sempre um erro de medição. Detalhemos, então, o conceito de erro amostral e outros conceitos inerentes às pesquisas: intervalo de confiança e nível de confiança.

Como vimos, o erro amostral é a diferença entre o valor da amostra selecionada, dentre todas as amostras possíveis (45 no nosso exemplo), e o valor real da média de todas as amostras (R$1.600), que é a própria média da população.

A estimativa desse intervalo onde se encaixam os possíveis resultados das amostras é denominado de intervalo de confiança, que inclui a média da amostra mais o erro amostral tolerável para mais ou para menos, sendo esse erro medido em desvios padrão. Além de declarar o tamanho do intervalo, é costume declarar a probabilidade (certeza) que esse intervalo de confiança inclua o valor real, média real, da população. Essa probabilidade é conhecida como nível de confiança.

 Ou seja, 95,5% de nível de confiança significa 95,5% de ‘segurança’ (probabilidade) de que a média real da população recaia no intervalo (intervalo de confiança) que fica entre a média da amostra calculada mais (ou menos) o erro amostral aceito.

erro amostral aceito – (média da amostra) + erro amostral aceito
  (em desvios padrão)                                      (em desvios padrão)
confiança de 68,3%, 95,5% ou 99,7% de que  a média da população caia neste intervalo

Já vimos, quando tratamos do desvio padrão, que estudos estatísticos mostram que 68,3% dos indivíduos da amostra ficam entre a média da amostra mais 1 desvio padrão, para mais ou para menos. Ou seja, há uma probabilidade, nível de confiança, de 68,3% de que a média da amostra fique dentro de um erro-padrão (desvio-padrão), para mais ou para menos, da média real da população. Da mesma forma, há um nível de confiança de 95,5% de que o valor real da população é igual à estimativa da amostra mais ou menos dois erros-padrão, e 99,7% de confiança de que o valor real da população se enquadre dentro do intervalo definido pelo valor da amostra mais ou menos 3 erros-padrão (desvios-padrão).

 Logo, quanto maior o erro tolerável, em desvios padrão, maior será a confiança de que o valor da amostra represente o valor real da população, já que ao incluir uma margem de erro amostral muito grande acabamos englobando boa parte dos diversos valores que as várias amostragens sucessivas resultariam. Ou seja, para obtermos um nível de confiança de 99,7%, uma probabilidade de quase 100% de que a amostra represente o valor real da população, precisamos trabalhar com um intervalo maior (erro maior), o que encamparia boa parte das possíveis médias amostrais. Por isso os 3 desvios padrão.

Testando o raciocínio

Façamos uma demonstração a partir do nosso exemplo dos salários médios. Selecionemos apenas uma amostra de 2 indivíduos. A  média da amostra escolhida foi de R$1.600. Se calcularmos o desvio padrão dessa distribuição amostral encontramos R$143. Esse valor, como vimos no assunto desvio padrão, mostra o desvio de todos os salários (neste caso apenas 2 salários) com relação à média amostral. Para um nível de confiança de 95,5%, temos que trabalhar com um erro de 2 desvios padrão, para mais ou para menos. Considerando um salário médio de $1.600, isso resulta em um intervalo de confiança entre $1.316 a $1.886. Nesse sentido, temos uma confiança de 95,5%, de que a(s) média(s) da amostra, que será representativa da população, cairá nesse intervalo. Assim, das 45 possíveis combinações de amostragem 95,5% delas, 43 amostras, terão uma média que se encaixa dentro do intervalo de confiança e representarão o verdadeiro valor da população. Olhando para as 45 amostras percebemos que de fato apenas duas delas não caem dentro do intervalo de $1.316 a $1.886, a primeira ‘João e Maria’ ($1.300) e a última ‘Carina e Juliana’ ($1.900). Essas 43 amostras garantem, portanto, um nível de confiança de 95,5% (43/45 = 95,55%).


     $286        –             $1.600             +        $286   
(2 desvios)          (média da amostra)        (2 desvios)
Confiança de 95,5% de que a média da população  caia neste intervalo


 Fórmulas para o cálculo do tamanho da amostra
O nível de confiança e a quantidade de erro amostral (erro-padrão) devem ser estabelecidos pelo pesquisador para determinar o tamanho da amostra. Sabemos também que quanto maior a amostra menor é o erro. Assim, temos as seguintes fórmulas para o cálculo do tamanho da amostra:




Onde:

n = tamanho da amostra.

S = nível de confiança escolhido, expresso em número de desvios-padrão

p = percentagem com a qual o fenômeno se verifica - percentagem dos elementos da amostra favorável ao atributo pesquisado.

q = percentagem complementar, isto é, (100 - p) - percentagem dos elementos da amostra desfavorável

N = tamanho da população.

e = erro máximo permitido.


Exemplos:
1) Deseja-se fazer uma pesquisa para saber o consumo médio mensal, em reais, da população de determinada região. Qual é o número de pessoas que devem ser entrevistadas com 7% de erro. Considere 3 níveis de confiança: 95,5%; 68,26% e 99,7%.

Para 68,3% (1 desvio):

n = 12 x 50 x 50 / 72

n = 51


Para 95,5% (2 desvios):

n = 22 x 50 x 50 / 72

n = 204


Para 99,7% (3 desvios):

n = 32 x 50 x 50 / 72

n = 460


* o resultado, consumo médio, encontrado nessa amostra de 460 entrevistados, variando essa média 7% para mais ou para menos, representa o consumo médio da população de consumidores.


Observem que o pesquisador trabalha com o mesmo erro amostral, 7%. A cada nível de confiança escolhido a variável de ajuste é o número de entrevistados (amostra). Ao elevar o nível de confiança o que acontece é uma elevação no número de entrevistados, o que garante um resultado mais preciso do resultado da pesquisa. Assim, se escolhermos um  nível de confiança de 68,3% (entrevistando 51 pessoas)  e o resultado dessa entrevista acusasse que o gasto médio dos 51 foi de R$300 a leitura seria: "concluímos que a população da cidade tem um gasto médio entre R$279 e R$321, com uma confiança, certeza, de 68,3%". Isto é, se entrevistássemos todos os indivíduos da população 68,3% deles teriam um gasto entre R$279 e R$321. Ou, para ser mais preciso, O GASTO MÉDIO DA POPULAÇÃO, se todos fossem entrevistados, FICARIA ENTRE R$279 e R$321.

Para 99,7%, considerando os mesmos 7% de erro, imaginemos que o gasto médio calculado para os 460 entrevistados fosse de R$400 (notem que coloquei um gasto médio de $400 porque agora são 460 entrevistados, e não mais 51; ou seja, coloquei um valor qualquer para mostrar que o resultado da entrevista com 460 deve ser diferente daquele com 51 indivíduos). Neste caso, leríamos: "concluímos que o gasto médio da população se situa entre R$332 e R$428, com uma confiança de 99,7%".  Isto é, se entrevistássemos todos os indivíduos da população 99,7% deles teriam um gasto entre R$332 e R$428.

Portanto, observem que o aumento na confiança é representado pelo número maior da amostra. Assim, o valor de R$400, com seu respectivo intervalo de 7% para mais ou para menos, é mais confiável, preciso, que o de R$300; e isto se dá pelo fato de termos entrevistado mais pessoas.


2) Uma empresa quer identificar quantos dos seus 10.000 empregados são sindicalizados. Presume-se que esse número não seja superior a 30% do total, deseja-se um nível de confiança de 95,5% (dois desvios) e tolera-se um erro de até 3 p.p.

n =     22 x   30  x  70   x  10.000   =  854 funcionários
            32 x 9.999 + 22 x 30 x 70

* se dos 853 funcionários entrevistados 10% forem sindicalizados concluímos que dos 10.000 empregados o percentual de sindicalizados fica entre 7% e 13%.


3) As companhias de seguro estão ficando preocupadas com o fato de que o número crescente de telefones celulares resulte em maior número de colisões de carros. Estão, por isso, pensando em cobrar prêmios mais elevados para os motoristas. Deseja-se estimar, com uma margem de erro de 3 p.p, a percentagem de motoristas que falam ao celular enquanto dirigem. Para um nível de confiança de 95% nos resultados, quantos motoristas devem ser investigados?

Suponha que não tenhamos nenhuma informação sobre p.

n = 1,962 x 50 x 50 / 32  = 1.067 motoristas

.
* para 95,44% são 2 desvios, já para 95% (o único nível de confiança fora dos 3 citados) temos 1,96 desvios. 

.
4) O IBOPE está interessado em estimar a proporção de residências que assistem ao programa do Faustão. Qual o número mínimo de residências que se deve analisar para ter 95,5% de confiança e margem de erro máxima de 2pp para a estimativa? R: 2.500

5) Estamos interessados em determinar o tamanho da amostra necessária para estimar a proporção de eleitores que votam em certo candidato, com nível de confiança de 95% e uma margem de erro de 2pp. Quantos eleitores devem ser entrevistados? R: 2.401

6) Um colégio de Ensino médio tem 240 alunos entre as 3 séries. Os alunos devem escolher entre 2 candidatos quem será o presidente do grêmio estudantil. Qual o tamanho da amostra necessária para estimar as intenções de voto, com 95% de confiança e uma margem de erro máxima de 2p.p? Este é um problema proposto em um livro de segunda série do Ensino Médio. Lá, a resposta é 24. Qual a resposta correta? R: 218

7) Em 12/09/2008 o Instituto Futura divulgou a seguinte pesquisa de intenções de voto para a prefeitura da Serra. Qual foi o tamanho da amostra? R: 601

.
Vejam abaixo um exemplo da metodologia e o cálculo do tamanho da amostra de uma pesquisa eleitoral feita por um instituto de pesquisa em Vitória (ES).
.

METODOLOGIA (http://gazetaonline.globo.com/futuranet/)

Empresa responsável: Instituto de pesquisa Futura.

Contratante: Rede Gazeta.

Metodologia: pesquisa quantitativa.

Universo e unidade respondente: morador e eleitor do município da Serra.

Amostra: ???? entrevistas

Data de realização: 09 de setembro de 2008.

Margem de erro: 4,0 pontos percentuais para mais ou para menos.

Confiabilidade: 95,0% de confiabilidade.

Método amostragem: amostra não probabilística com determinações de cotas de sexo, idade e região de pesquisa.

Método de coleta das informações: abordagem sistemática da unidade respondente através do critério de sentido de fluxo X número aleatório X intervalo de coleta X enquadramento da cota, de modo a garantir o conceito de aleatoriedade.

Estatístico(a) Responsável: Fabíola Miranda von Rondow Inscrição N° 8140 - Série A

Diretores Responsáveis: José Luiz Soares Orrico / João Gualberto Moreira Vasconcellos

Registro: Cartório Eleitoral da 26a Zona do Município da Serra sob o nº 1.934/2008 , datado do dia 05 de setembro de 2008
.

ATENÇÃO: se uma pesquisa eleitoral divulgar uma previsão de intenção de votos, e no dia em que as urnas forem abertas o percentual ficar abaixo ou acima do intervalo de confiança estabelecido, isso não significa que a pesquisa tenha errado na previsão. Significa apenas que, caso trabalhe com um nível de confiança de 95%, o seu resultado, e isso é possível estatisticamente, tenha caído fora dos 95%. Ou seja, toda pesquisa tem uma chance de "errar", neste caso a chance foi de 5%. Repetindo, quando o cálculo dos votos de um candidato não bate com o de uma pesquisa de boca de urna não significa que ela tenha errado, ou melhor, que até tenha, mas que isto estava previsto estatisticamente.

.

Nenhum comentário:

Postar um comentário