1º Ano | Aula: Estatística Básica — Dados, Médias, Dispersão e Gráficos
📚 Resumo
A Estatística é a ciência que coleta, organiza, analisa e interpreta dados numéricos para extrair conclusões e apoiar decisões. Nesta aula estudamos os conceitos fundamentais: tipos de variáveis, tabelas de frequência, medidas de tendência central e de dispersão, e representações gráficas.
Média aritmética: $\bar{x} = \dfrac{\sum x_i}{n}$
|
Mediana: valor central dos dados ordenados
|
Moda: valor mais frequente
População: conjunto de todos os elementos que se deseja estudar. Ex: todos os alunos de uma escola. Amostra: subconjunto representativo da população. Ex: 50 alunos escolhidos aleatoriamente. Variável: característica observada em cada elemento. Ex: altura, nota, cor favorita. Dado: cada valor observado de uma variável.
Tipos de variáveis
Qualitativas Nominais
Categorias sem ordem definida.
Exemplos: cor dos olhos, estado civil, marca do carro, time de futebol.
Qualitativas Ordinais
Categorias com ordem natural.
Exemplos: escolaridade (fundamental/médio/superior), nível de satisfação (ruim/regular/bom/ótimo).
Quantitativas Discretas
Valores inteiros contáveis.
Exemplos: número de filhos, número de gols, quantidade de livros.
Quantitativas Contínuas
Valores em intervalos contínuos.
Exemplos: altura, peso, temperatura, tempo de corrida.
Etapas de uma pesquisa estatística
1. Definição do problema — o que se quer saber? 2. Coleta de dados — questionários, experimentos, registros 3. Organização dos dados — tabelas, listas, agrupamentos 4. Análise dos dados — cálculo de medidas, construção de gráficos 5. Interpretação e conclusões — inferências sobre a população
Figura 1: Relação entre população e amostra. A amostra (laranja) é um subconjunto representativo da população (azul). A partir dos dados da amostra, realizamos inferências sobre toda a população.
📖 2. Tabelas de Frequência
A tabela de frequência organiza os dados de forma sistemática, mostrando quantas vezes cada valor (ou intervalo) ocorre. É a base para a análise estatística.
Frequência absoluta ($f_i$): número de vezes que o valor $x_i$ ocorre nos dados
Frequência relativa ($f_{ri}$): $f_{ri} = \dfrac{f_i}{n}$ (proporção, entre 0 e 1)
Frequência percentual ($f_{\%i}$): $f_{\%i} = f_{ri} \times 100$ (em porcentagem)
Frequência acumulada ($F_i$): soma das frequências absolutas até $x_i$
Tabela de Frequência com Intervalos (dados agrupados)
Quando os dados são contínuos ou numerosos, agrupamos em intervalos de classe:
Amplitude do intervalo: $h = \dfrac{\text{valor máximo} - \text{valor mínimo}}{\text{número de classes}}$ Ponto médio do intervalo: $m_i = \dfrac{\text{limite inferior} + \text{limite superior}}{2}$ Regra de Sturges: número de classes $\approx 1 + 3{,}32\log n$ (sendo $n$ o total de dados)
Intervalo
Ponto médio ($m_i$)
Freq. Absoluta ($f_i$)
Freq. %
$[40, 50)$
$45$
$4$
$10\%$
$[50, 60)$
$55$
$8$
$20\%$
$[60, 70)$
$65$
$14$
$35\%$
$[70, 80)$
$75$
$10$
$25\%$
$[80, 90]$
$85$
$4$
$10\%$
Total
—
40
100%
📖 3. Medidas de Tendência Central
As medidas de tendência central são valores que representam o "centro" de um conjunto de dados. As três principais são média, mediana e moda.
⚠️ Quando usar cada medida?
• Média: dados simétricos, sem outliers. Ex: temperatura média.
• Mediana: dados assimétricos ou com outliers. Ex: salário médio (não é afetado por um bilionário).
• Moda: dados qualitativos ou para identificar o valor mais comum. Ex: tamanho de roupa mais vendido.
📖 4. Medidas de Dispersão
As medidas de dispersão indicam o quanto os dados se afastam da média. Dois conjuntos podem ter a mesma média mas distribuições completamente diferentes.
Amplitude ($A$)
$$A = x_{\max} - x_{\min}$$
Simples mas sensível a extremos. Não considera os valores intermediários.
Desvio Médio ($DM$)
$$DM = \frac{\sum |x_i - \bar{x}|}{n}$$
Média dos desvios absolutos. Interpretação direta na unidade dos dados.
Variância ($\sigma^2$)
$$\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}$$
Média dos quadrados dos desvios. Amplifica outliers. Unidade: (unidade dos dados)².
Raiz da variância. Mesma unidade dos dados. Principal medida de dispersão.
Figura 2: Dois conjuntos com a mesma média ($\bar{x}=5$), mas dispersões muito diferentes. O conjunto A (azul) é concentrado ($\sigma=1$); o conjunto B (laranja) é disperso ($\sigma=3$). A média sozinha não conta tudo — o desvio padrão é essencial!
💡 Interpretação do desvio padrão: quanto menor $\sigma$, mais os dados estão concentrados em torno da média. Um $\sigma$ grande indica dados espalhados. Em distribuições normais (sino), cerca de 68% dos dados estão a menos de $1\sigma$ da média, e 95% a menos de $2\sigma$.
📖 5. Gráficos Estatísticos
Os gráficos facilitam a visualização e comparação dos dados. A escolha do tipo de gráfico depende do tipo de variável e do objetivo da análise.
Tipo de Gráfico
Quando usar
Vantagem
Histograma
Variáveis quantitativas agrupadas em intervalos
Mostra a distribuição de frequências e a forma da distribuição
Polígono de Frequência
Dados agrupados; comparação de distribuições
Facilita comparação de duas ou mais distribuições
Gráfico de Barras
Variáveis qualitativas ou quantitativas discretas
Comparação entre categorias
Gráfico de Setores
Proporções e porcentagens
Mostra a contribuição de cada parte ao todo
Gráfico de Linha
Séries temporais, tendências ao longo do tempo
Destaca a evolução e tendências
Box Plot
Resumo da distribuição com quartis
Identifica outliers, assimetria e dispersão
Figura 3: Histograma (barras azuis) e polígono de frequências (linha laranja) dos dados agrupados. O polígono é formado ligando os pontos médios de cada intervalo. Note a forma de sino — distribuição aproximadamente simétrica em torno de $[60, 70)$.Figura 4: Gráfico de setores (pizza) do meio de transporte dos alunos. Cada setor tem ângulo proporcional à porcentagem: $\theta = \frac{f\%}{100} \times 360°$. O gráfico de setores é ideal para mostrar partes de um todo.
📖 6. Quartis e Box Plot
Os quartis dividem os dados ordenados em quatro partes iguais. Junto com o mínimo, máximo e mediana, formam o resumo dos cinco números que define o box plot.
$Q_1$ (1º quartil): mediana da metade inferior dos dados → 25% dos dados abaixo
$Q_2$ (2º quartil): mediana dos dados → 50% dos dados abaixo
$Q_3$ (3º quartil): mediana da metade superior → 75% dos dados abaixo
Amplitude Interquartil: $IQR = Q_3 - Q_1$
Outlier: valor $< Q_1 - 1{,}5\cdot IQR$ ou $> Q_3 + 1{,}5\cdot IQR$
Figura 5: Estrutura do Box Plot. A caixa vai de $Q_1$ a $Q_3$ (50% centrais dos dados). A linha laranja é a mediana ($Q_2$). Os whiskers estendem ao mínimo e máximo (excluindo outliers). O ponto vermelho representa um outlier.
Mediana agrupada: $\dfrac{n}{2} = 20$. Até $[50,60)$: $F = 12 < 20$. A classe $[60,70)$ tem $F$ acumulada $= 12+14 = 26 \geq 20$ → classe mediana é $[60,70)$.
$Md = 60 + \dfrac{20 - 12}{14} \times 10 = 60 + \dfrac{80}{14} \approx 60 + 5{,}71 \approx \mathbf{65{,}7}$
💡 Matemática em Ação
🏥 Medicina e Saúde Pública
Ensaios clínicos usam médias, desvios padrões e intervalos de confiança para validar tratamentos. O IMC médio, a prevalência de doenças e taxas de vacinação são medidas estatísticas usadas em políticas de saúde.
💰 Economia e Finanças
A média do IPCA mede a inflação; o desvio padrão do retorno de ações mede o risco de um investimento. O conceito de "risco = variabilidade" é fundamental para diversificação de portfólios.
🗳️ Pesquisas Eleitorais
Institutos de pesquisa usam amostras para estimar preferências eleitorais. A margem de erro (ligada ao desvio padrão e tamanho da amostra) indica a precisão da estimativa para toda a população.
🎓 Educação
O ENEM analisa médias, medianas e distribuições de notas para avaliar o desempenho educacional. Box plots e histogramas mostram a diferença de rendimento entre regiões, escolas públicas e privadas.
✅ 5 Questões Resolvidas (R 1 a 5)
R 1: Média, mediana e moda
Enunciado: As idades de 9 funcionários de uma empresa são: $\{22, 35, 28, 41, 35, 29, 35, 52, 27\}$. Calcule a média, a mediana e a moda.
Moda: $Mo = \mathbf{35}$ (aparece 3 vezes — unimodal)
R 2: Média ponderada
Enunciado: Um aluno fez três avaliações com os seguintes resultados e pesos: $P_1 = 5{,}5$ (peso 1), $P_2 = 7{,}0$ (peso 2), $P_3 = 8{,}0$ (peso 3). Qual a média ponderada? Ele foi aprovado com mínimo 6,5?
Resolução:
$\bar{x}_p = \dfrac{5{,}5\cdot1 + 7{,}0\cdot2 + 8{,}0\cdot3}{1+2+3} = \dfrac{5{,}5 + 14 + 24}{6} = \dfrac{43{,}5}{6} = \mathbf{7{,}25}$
Como $7{,}25 \geq 6{,}5$, o aluno foi aprovado.
R 3: Variância e desvio padrão
Enunciado: Dois times de basquete marcaram os seguintes pontos nas últimas 5 partidas. Time A: $\{80, 85, 78, 82, 80\}$. Time B: $\{60, 95, 70, 100, 80\}$. Compare as médias e desvios padrões.
Conclusão: Mesma média (81 pts), mas o Time B é muito mais irregular ($\sigma_B \gg \sigma_A$).
R 4: Tabela de frequência e gráfico de setores
Enunciado: Em uma pesquisa com 200 pessoas sobre esporte favorito: Futebol (90), Vôlei (50), Basquete (30), Natação (20), Outros (10). Monte a tabela de frequências relativas e calcule os ângulos para o gráfico de setores.
Enunciado: Os salários mensais (em R\$) de 10 funcionários são: $\{1800, 2000, 2100, 2200, 2400, 2600, 2800, 3000, 3500, 8000\}$. Calcule $Q_1$, $Q_3$, $IQR$ e verifique se $8000$ é outlier.
Resolução:
Dados ordenados (10 elementos):
$Q_1$: média do 3º e 4º termos: $Q_1 = \dfrac{2100+2200}{2} = 2150$
$Q_3$: média do 8º e 9º termos: $Q_3 = \dfrac{3000+3500}{2} = 3250$
$IQR = 3250 - 2150 = 1100$
Limite superior: $Q_3 + 1{,}5\cdot IQR = 3250 + 1650 = 4900$
Como $8000 > 4900$: R\$ 8.000 é um outlier!
(Isso explica porque a mediana salarial seria mais representativa que a média aqui.)
✍️ 5 Questões Propostas (P 6 a 10)
P 6: Calcular a média de dados agrupados
Enunciado: A tabela abaixo mostra as notas de 30 alunos. Calcule a média agrupada.
Enunciado: Os preços de 7 casas em um bairro (em R\$ mil) são: $\{280, 300, 310, 320, 330, 340, 1200\}$. Calcule a média e a mediana. Qual representa melhor o "preço típico"?
Resolução: Média: $\bar{x} = \dfrac{280+300+310+320+330+340+1200}{7} = \dfrac{3080}{7} = \mathbf{440}$ mil Mediana: 4º elemento = $Md = \mathbf{320}$ mil
O preço de R\$ 1.200.000 (outlier) puxou a média para R\$ 440.000, bem acima das demais casas. A mediana (R\$ 320.000) representa melhor o preço típico do bairro.
P 8: Desvio padrão de turmas
Enunciado: A turma A tem notas com média 7 e desvio padrão 0,5. A turma B tem média 7 e desvio padrão 2. Qual turma é mais homogênea? Se um aluno da turma B tirou 9, quantos desvios padrões acima da média ele está?
Resolução:
A turma A é mais homogênea ($\sigma_A = 0{,}5 \ll \sigma_B = 2$). Os alunos da turma A têm desempenho mais uniforme.
Número de desvios (escore $z$): $z = \dfrac{x - \bar{x}}{\sigma} = \dfrac{9 - 7}{2} = \mathbf{1}$
O aluno está 1 desvio padrão acima da média.
P 9: Ângulo no gráfico de setores
Enunciado: Em uma eleição estudantil com 400 votos, o candidato A recebeu 160, B recebeu 120, C recebeu 80 e brancos/nulos foram 40. Calcule as porcentagens e os ângulos do gráfico de setores para cada candidato.
Enunciado: Em uma pesquisa, 200 pessoas foram classificadas por faixa etária. A faixa $[30, 40)$ tem frequência relativa 0,35. Quantas pessoas têm entre 30 e 40 anos, e qual o ângulo no gráfico de setores?
A) 60 pessoas e 108°
B) 70 pessoas e 126°
C) 70 pessoas e 252°
D) 35 pessoas e 126°
E) 75 pessoas e 120°
Resposta: B
Frequência absoluta: $f = 0{,}35 \times 200 = \mathbf{70}$ pessoas
Ângulo: $\theta = 0{,}35 \times 360° = \mathbf{126°}$
T 15: (UFMG) Média ponderada — aprovação
Enunciado: Um aluno precisa de média ponderada mínima 6,0 para ser aprovado. As provas têm os seguintes pesos: $P_1$ (peso 2), $P_2$ (peso 3), $P_3$ (peso 5). Ele tirou $P_1 = 4$ e $P_2 = 5$. Qual a nota mínima em $P_3$ para aprovação?
A) 6,5
B) 7,0
C) 7,3
D) 7,5
E) 8,0
Resposta: C
$\dfrac{4\cdot2 + 5\cdot3 + P_3\cdot5}{2+3+5} \geq 6$
$\dfrac{8 + 15 + 5P_3}{10} \geq 6$
$23 + 5P_3 \geq 60$
$5P_3 \geq 37 \Rightarrow P_3 \geq 7{,}4$
A nota mínima é $\mathbf{7{,}4}$ (≈ $7{,}3$ arredondado para a alternativa mais próxima — alternativa C)