Muito cedo no meu programa de doutorado, comecei a trabalhar com hipóteses e testá-las. Um dos primeiros desafios que tive que superar foi entender o p-valor. Os p-valores são uma daquelas medidas estatísticas complicadas que frequentemente geram mais mal-entendidos do que clareza entre os pesquisadores. Vários artigos discutiram esse problema; um em particular é de Lytsy et al. (2022). Eles descobriram que apenas 12% dos estatísticos e epidemiologistas profissionais interpretam corretamente um resultado estatisticamente significativo.

O que os p-valores Realmente Medem

Um dos grandes problemas é que muitos pesquisadores e estatísticos usam o p-valor para avaliar evidências a favor de um modelo ou hipótese. Em essência, os p-valores são usados para decidir se devemos aceitar ou rejeitar uma hipótese nula. Pense no lançamento de uma moeda. Temos o entendimento geral, ou é esperado, que ela tem 50% de chance de dar cara ou coroa. Mas se em 10 lançamentos a moeda der cara 9 vezes, você começa a se perguntar se ela é viciada.

A hipótese nula é sua suposição padrão: a moeda é justa. Usando o p-valor, podemos responder a esta pergunta: se a moeda fosse realmente justa, qual seria a probabilidade de eu ver 9 caras em 10 lançamentos apenas por acaso?

Os p-valores medem o quão surpreendentes são seus resultados quando nada incomum está acontecendo. Mas os pesquisadores precisam de um ponto de corte para determinar se algo é aleatório. O ponto de corte mais comum, chamado de alfa $a$, usado nas ciências, é 0,05.

O $p$ < 0,05 tem sido o padrão ouro. Muitas áreas da ciência e da estatística tratam esse número como a linha definitiva entre ruído e descoberta. Voltando ao exemplo da moeda, o $p$ ≥ 0,05 falharia em rejeitar a hipótese nula. Um destaque importante é que isso não prova que a moeda é justa. Significa apenas que não há evidências suficientes para dizer que não é.

Esse limiar de 0,05 foi sugerido por Ronald Fisher na década de 1920. No último século, estatísticos e cientistas têm argumentado que o número é arbitrário, e não um padrão ouro. Vidgen e Yasseri explicaram que 1 em cada 3 descobertas "estatisticamente significativas" são falsos positivos.

Se Não o p-valor, O Quê Então?

Na ciência de dados, raramente uma única métrica fornecerá uma resposta definitiva. É um equilíbrio e uma harmonia com outros elementos. Por exemplo, a acurácia não é o único número usado para determinar se o modelo está fornecendo as informações corretas. Você precisa verificar f1-scores, recall, ROC-AUC, etc.

O p-valor não é diferente. É um ponto de partida. Mas não deve ser a única métrica medida para validar uma hipótese.