Enc. 2 — Correlação de Pearson

scipy.stats.pearsonr · pandas DataFrame.corr(method='pearson')


📊 Slides


🍊 Metáfora

Imagine isso…

Pense em dois atletas correndo numa pista lado a lado. Quando um acelera, o outro também acelera na mesma proporção; quando um desacelera, o outro acompanha. Isso é r = +1: movem-se em perfeita sincronia na mesma direção. Se um acelera e o outro desacelera exatamente na mesma medida, temos r = −1. Se cada um faz o que quer, independentemente do outro, r ≈ 0. Pearson mede essa sincronia — mas apenas quando a pista é reta.


🎯 Para que serve

Mede a força e a direção de uma relação linear entre duas variáveis numéricas contínuas. O coeficiente r vai de −1 a +1.

Em dados conversacionais: quanto maior o número de turnos em uma sessão, maior o escore de compreensão do estudante?


📋 Quando usar

  • ✅ Ambas as variáveis são contínuas e numéricas.
  • ✅ A relação esperada é linear — verificar com scatter plot antes de calcular.
  • ✅ Cada variável segue aproximadamente distribuição normal (Shapiro-Wilk).
  • ❌ Não usar com dados ordinais (Likert) — use Spearman.
  • ❌ Não usar se houver outliers extremos — eles puxam r para si sozinhos.
  • ❌ Correlação não implica causalidade.
Convenção de Cohen (1988): r < 0.10 negligível · 0.10–0.29 pequeno · 0.30–0.49 médio · ≥ 0.50 grande

🐍 Exemplo Python

Contexto: verificar se o número de turnos por sessão se associa ao escore de compreensão.

🐍 Python executável no navegador via Pyodide

📚 Referências

   
clássico Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Lawrence Erlbaum.
didático Field, A. (2024). Discovering Statistics Using IBM SPSS Statistics (6ª ed.). SAGE. Cap. 8.
python McKinney, W. (2022). Python for Data Analysis (3ª ed.). O’Reilly. Cap. 13.
artigo Mukaka, M. M. (2012). A guide to appropriate use of correlation coefficient in medical research. Malawi Medical Journal, 24(3), 69–71.

Rodrigo Prestes Machado
CC BY 4.0 DEED