¬ Lição matemática nº11: medidas estatísticas (média, mediana e moda)

A ideia de escrever um post sobre as medidas estatísticas veio de um discussão, entre jornalistas, que teve um relativo murmurinho na mídia impressa e online. Tratou-se de uma critica escrita, em set/2011, pelo jornalista econômico Luiz Nassif em seu blog, cujo título foi A mídia abaixo da média. O artigo disserta sobre a dificuldade de os jornalistas interpretarem variáveis ou dados econômicos. A briga, propriamente dita, surgiu quando do resultado do Enad. Ele mostrava uma melhora nas médias dos alunos, o que deveria ser o foco explorado pelos jornalistas em suas manchetes on line no dia seguinte. Porém, não foi isso que se viu, falava-se apenas que os alunos ficaram, em sua maioria, abaixo da média, o que deu um tom um pouco pejorativo ao resultado do Enad. Aí veio o questionamento do Nassif. Dizia, com razão que por mais médias que tiremos de dados quaisquer teremos, na maioria das vezes, a maior parte dos dados abaixo da média da série e que, portanto, os jornalistas estavam 'chovendo no molhado' e perdendo o foco de suas reportagens. A falta de conhecimento mínimo da matemática fez com que eles se perdessem e, efetivamente, falassem bobagem. Como o assunto rendeu, o amplio aqui e vou um pouco além dessa medida mais comum, a média. Trato da média, mediana, moda, e em outro post, do desvio padrão.

As medidas de tendência central visam localizar o centro de um conjunto de dados, isto é, identificar um valor em torno do qual os dados tendem a se agrupar, sendo as mais utilizadas: média aritmética, mediana e moda. Também utilizarei a média ponderada por ser bastante interessante. Além disso trabalharemos com uma medida de posição importante (ou separatriz), denominada quartil.

a) MÉDIA ARITMÉTICA: é a medida de tendência central mais simples e conhecida. Mostra a soma de todas as observações (dados) dividida pelo número de observações.

Por exemplo, se uma empresa vende por dia 10, 14, 13, 15, 16, 18 e 12 kg, qual a venda média média diária na semana:

X = (10+14+13+15+16+18+12) / 7 =14 kg
.

Se os dados estiverem agrupados em uma distribuição de frequência o cálculo é similar. Consideremos a distribuição relativa à quantidade de filhos por família (domicílio) de determinada região carente.

Nº de filhos por família: 0, 8, 3, 2, 4, 1, 1, 3, 6, 3, 4, 9, 3, 7, 5, 5, 1

.


Nº de filhosfrequência = fi
01
13
21
34
42
52
61
71
81
91
total17


A partir da tabela anterior temos:



XfX . f
010
133
212
3412
428
5210
616
717
818
919
total1775


onde 75 / 17 = 4,41 filhos por residência


Uma outra forma de agrupar dados facilitando sua visualização é ordená-los em intervalos de classe. Neste caso, teremos n elementos dentro de cada classe. E, se não dispusermos destes elementos individualmente, ainda assim, podemos achar a média a partir de um ponto médio da classe:



filhosfrequência  (f)ponto médioXX. f
0 -----| 2515
2 -----| 46318
4 -----| 63515
6 -----| 82714
8 -----| 10199
Total17-61


.
X = 61/17 = 3,58 filhos por residência
Notem que essa é uma média aproximada, já que consideramos pontos médios no cálculo, e não os valores originais. Assim, ganhamos em visualização, posto que a tabela fica menor, e perdemos um pouco em precisão.

b) MÉDIA PONDERADA: A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a mesma importância. Ou seja, se tiramos a média de 2 números cada um deles tem peso 50%; se são 4 números o peso de cada um será igual a 20%. Já a média ponderada considera que as informações não têm a mesma importância, ou seja, devem ser levados em conta seus respectivos pesos. Assim, cada valor será ponderado (multiplicado) pelo peso a ele atribuído, e depois somados aos outros valores e seus respectivos pesos.

Consideremos que um professor informe a classe de que haverá dois exames parciais, valendo cada um 30% da nota e um exame final valendo 40%, portanto, 3 notas. Um aluno obtém 7 na primeira avaliação, 6,5 na segunda e 8,0 no exame final. Qual a média final do aluno?


Média ponderada final = 7,0 x 0,30 + 6,5 x 0,30 + 8,0 x 0,40  = 7,25
                                           0,30 + 0,30 + 0,40 (=1)                    
ou

Média ponderada final = 7,0 x 3 + 6,5 x 3 + 8,0 x 4  = 72,5
                                              3 + 3 + 4 (=10)      
ou

Média ponderada final = 7,0 x 30 + 6,5 x 30 + 8,0 x 40  = 725,0
                                           30 + 30 + 40 (=100)                      


Observem que o denominador é igual a soma das ponderações, ou seja, 100%. Se trabalharmos, como acima, no numerador com a porcentagem já transformada nosso denominador será sempre 1, o que nos poupa de uma conta adicional.

c) MODA: é o valor que ocorre com maior frequência em uma série de dados, ou seja, é o número que mais se repete. Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa fábrica.

Ex: Na série (7 , 8 , 9 , 10 , 10 , 10 , 11 , 12) a moda é igual a 10.

.
Há séries nas quais não existe valor modal, isto é, nenhum valor aparece mais do que outros.

Ex: (3 , 5 , 8 , 10 , 12) não apresenta moda. A série é amodal.

 .

Em outros casos pode haver dois ou mais valores. Dizemos, então, que a série tem dois ou mais valores modais.

Ex: (2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9) apresenta duas modas: 4 e 7.  A série é bimodal.
.

Uma vez agrupados os dados, é possível determinar imediatamente a moda, que é o valor da variável de maior frequência. No exemplo anterior a moda seria 3 (filhos), pois 4 das 17 famílias possuem 3 filhos. Para essa mesma tabela distribuída em classes a classe modal seria 2 -----| 4. Notem que neste caso não temos um valor da moda por não termos os valores originais. São 6 números entre 2 e 4, mas não os temos, sabemos apenas que esta classe se repete 6 vezes. Podemos, neste caso, determinar uma moda estimada que é exatamente o ponto médio da classe, 3. É como se o número 3, que representa a classe, se repetisse 6 vezes.

.

filhosfrequência  (f)ponto médioXX. f
0 -----| 2515
2 -----| 46318
4 -----| 63515
6 -----| 82714
8 -----| 10199
Total17-61


.
d) MEDIANA: a mediana de um conjunto de valores, dispostos segundo uma ordem (crescente ou decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos., ou seja, 50% acima e 50% abaixo da mediana.

Dada uma série de dados não agrupado (5, 2, 6, 13, 9, 15, 10), de acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores (2, 5, 6, 9, 10, 13, 15). O valor que divide a série acima em duas partes iguais, mediana, é igual a 9.

Se a série dada tiver número ímpar de termos o valor mediano será o termo de ordem dado pela fórmula: (n + 1)/2

Ex: Calcule a mediana da série (10, 7, 6, 8, 5, 5, 3)

1º  ordenar a série (3, 5, 5, 6, 7, 8, 10)

n = 7 logo (n + 1)/2 é dado por (7+1)/2 = 4,

ou seja, o 4º elemento da série ordenada será a mediana, o número 6.

.
Se a série dada tiver número par de termos o valor mediano será o termo de ordem dado pela média dos dois valores centrais.

Ex: Calcule a mediana da série (3, 5, 5, 6, 7, 8, 9, 9)

A mediana no exemplo será a média aritmética do 4º e 5º termos da série, ou seja, (6+7)/2 = 6,5.
.

Para dados agrupados em distribuição de frequência basta identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada. Na nossa tabela inicial de nº de filhos a mediana seria o 9º elemento [(17+1)/2]. Basta contar na coluna da frequência que encontramos o 9º elemento, o número 3 (filhos).

Se a tabela estivesse na forma de intervalos de classe faríamos o mesmo procedimento acima, sendo que o valor da mediana agora estaria dentro da classe de preços. O 9º elemento estaria na classe de 2 a 4. Como vimos, já que não temos um valor podemos utilizar o valor médio como estimativa, ou seja, o 3. Neste caso de distribuição em classes, mediana e moda coincidiram.

filhosfrequência  (f)ponto médio XX. f
0 -----| 2515
2 -----| 46318
4 -----| 63515
6 -----| 82714
8 -----| 10199
Total17-61




Notas:

  • Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo valor.

  • A mediana, depende da posição e não dos valores dos elementos na série ordenada, ao contrário da média.

Em ( 2, 5, 5, 6, 7) a média = 5 e a mediana = 5

Em ( 2, 5, 5, 6, 22) a média = 8 e a mediana  = 5
isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma.


  • Utilizamos a mediana quando há valores extremos que afetam de maneira acentuada a média aritmética. Os relatórios do Banco Central, por exemplo, ao consultarem analistas sobre as suas perspectivas da inflação, juro, etc, buscam evitar valores extremos dados pelas entrevistas, pois podem puxar pra cima o centro da série e deixar o mercado nervoso com sua divulgação. Nesse sentido, para fugir dos valores extremos o Bacen costuma tratar da mediana, como vemos no trecho da reportagem do Estadão de 09/09/13: "Com a divulgação do Índice Nacional de Preços ao Consumidor Amplo (IPCA) de agosto dentro do esperado, o relatório de mercado Focus, divulgado neta segunda-feira, 9, pelo Banco Central, sofreu um leve ajuste para baixo nas estimativas para o índice oficial de inflação no País para este ano. A mediana para o índice de 2013, passou de 5,83% para 5,82% ...".

.
Além das medidas de posição que estudamos há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores. Essas medidas (os quartis e os decis) são conhecidas pelo nome genérico de separatrizes, ou medidas de posição. Vejamos a seguir 1 delas, os quartis.

e) QUARTIS (Q): denominamos quartis os valores de uma série que a dividem em quatro partes iguais.  Precisamos, portanto de 3 quartis (Q1 , Q2 e Q3) para dividir a série em quatro partes iguais. Logo, o quartil 2 ( Q2 ) sempre será igual a mediana da série.

Para dados não agrupados o método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas "3 medianas" em uma mesma série.

Ex1: Calcule os quartis da série: (5, 2, 6, 9, 10, 13, 15)

- O primeiro passo é a ordenação (crescente ou decrescente) dos valores: (2, 5, 6, 9, 10, 13, 15)

- O valor que divide a série acima em duas partes iguais é igual a 9, logo a Mediana = 9 = Q2 = 9
- Temos agora (2, 5, 6) e (10, 13, 15) como sendo os dois grupos de valores iguais proporcionados pela mediana (Q2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série (Q2).

Logo:

em (2, 5, 6) a mediana é = 5. Logo, será o quartil 1 (Q1 = 5)

em (10, 13, 15) a mediana é = 13. Logo, será o quartil (Q = 13)

Temos então: (2, 5, 6, 9, 10, 13, 15)

.
Ex2: uma pesquisa salarial mostra que o salário nominal de uma categoria está assim distribuído:
Q1 = R$ 2.057
Mediana (O2) = R$ 2.400
Q3 = R$ 3.500
Concluímos que 25% dos salários dessa categoria estão abaixo de R$2.057, 50% deles abaixo de R$2.400, e apenas 25% acima de R$3.500.

.

Nenhum comentário:

Postar um comentário