5 conceptos erróneos sobre el valor p

Como vimos en nuestra última entrada sobre las 10 razones principales de rechazo de artículos científicos, los errores en el análisis estadístico son uno de los motivos de rechazo más comunes. Los errores en la interpretación del valor p, en particular, han sido reconocidos desde hace mucho tiempo y desafortunadamente persisten en la literatura científica. En este artículo, cubriremos 5 de los conceptos erróneos más comunes acerca de esta herramienta estadística.

 

El origen del valor p

El uso del valor p en la investigación científica fue popularizado en la década de 1920 por el estadístico británico Sir Ronald Fisher. Originalmente, el valor p se propuso como una herramienta numérica aproximada para ayudar a los científicos a decidir a qué resultados prestar mayor atención. Por la misma época, la teoría de la prueba de hipótesis fue desarrollada por Jerzy Neyman y Egon Pearson. En esta prueba, se comparan dos series de datos y se propone una hipótesis sobre la relación entre variables. Esta hipótesis se considera como alternativa a la hipótesis de ‘no relación,’ o hipótesis nula.

Pronto, los investigadores comenzaron a combinar el valor p con las pruebas de hipótesis. Hoy en día, este método es utilizado ampliamente para aceptar o rechazar hipótesis científicas. Por convención, un valor p de 0.05 se utiliza como el valor límite debajo del cual los resultados se consideran estadísticamente significativos.

Para Fisher el que un resultado fuera ‘significativo’ equivalía simplemente a decir que los datos eran interesantes y dignos de mayor experimentación. Poco podía imaginarse que el uso de este concepto se saldría tan fuera de control.

 

El problema con el valor p

Hoy en día, el valor 0.05 se ha convertido en una especie de ‘umbral mágico’ o ‘barra de limbo’ que otorga importancia a los resultados científicos si logran pasar debajo de él. Los resultados que no pasan este punto de corte fijado arbitrariamente se clasifican como ‘no significativos’ y son relegados a oscuros rincones para no ver nunca la luz de la publicación.

La necesidad de obtener valores p pequeños para validar la significancia de la investigación ha incluso llevado a algunos al ‘p-hacking’. Esta lamentable práctica, también conocida como pesca de datos (‘data fishing’), implica jugar con los resultados hasta lograr valores p bajos. Esto es, esencialmente, hacer trampa.

Algunas revistas científicas, buscando erradicar este tipo de abusos, han llegado a prohibir oficialmente el uso del valor p. Sin embargo, no todos están de acuerdo con tales medidas. Algunas personas argumentan que prohibir el valor p es tirar el grano con la paja, y que lo mejor sería proporcionar orientación sobre su uso y limitaciones.

A continuación presentamos cinco de los errores más comunes en el uso del valor p. Para comprenderlos mejor, será útil tomar en consideración la siguiente definición:

El valor p es la probabilidad de obtener un resultado tan extremo como el observado, o más extremo, si la hipótesis nula es verdadera.

 

Errores comunes en la interpretación del valor p

  1. El valor p es la probabilidad de que la hipótesis nula sea verdadera.

Falso. Como se puede observar en la definición anterior, el valor p ya asume que la hipótesis nula es verdadera. Por esta razón, el valor p tampoco es la probabilidad de que los resultados observados se deban al azar. Al asumir que la hipótesis nula es verdadera, el cálculo del valor p ya considera que las diferencias observadas en los datos se deben únicamente al azar.

  1. Un valor p pequeño quiere decir que la hipótesis alternativa es verdadera.

Un valor p menor a 0.05 no quiere decir automáticamente que la hipótesis alternativa es verdadera. Los valores p pequeños sugieren que los resultados observados no son consistentes con lo que se esperaría si la hipótesis nula fuera verdadera. Sin embargo, el valor p no puede por sí mismo distinguir si los resultados son inusuales o si se debe a que la hipótesis nula es realmente falsa.

  1. El valor p refleja la importancia clínica de un efecto o resultado.

El valor p no dice nada acerca de la magnitud de un efecto, o su importancia clínica. En estudios grandes, aún efectos pequeños pueden adquirir significancia estadística. Por ejemplo, en una prueba en la que se comparan dos medicamentos contra la hipertensión, el grupo de pacientes que recibe el medicamento A puede tener en promedio una presión arterial significativamente más baja que los pacientes que reciben el medicamento B. Sin embargo, esta diferencia puede ser tan pequeña que carezca de importancia clínica para los pacientes.

Por otra parte, en estudios pequeños, aún los efectos grandes pueden ahogarse en el ruido.

  1. Si la misma hipótesis se prueba en varios estudios y el valor p resultante es superior a 0.05 en todos o la mayoría de ellos, se puede concluir que no hay evidencia de un efecto.

Falso. La ausencia de evidencia no es evidencia de ausencia. Aún cuando varios estudios individuales resulten en valores p mayores a 0.05, no quiere decir que al considerarlos en conjunto, no puedan revelar una significancia estadística. Por esta razón, es importante llevar acabo un metaanálisis adecuado cuando se considera la evidencia presentada por varios estudios.

  1. Las conclusiones científicas deben basarse en la significancia del valor p.

Los valores p son esquivos y frecuentemente son difíciles de replicar. Por lo tanto, es importante no basar una conclusión científica solamente en la significancia del valor p. “El valor p nunca fue pensado como un sustituto del razonamiento científico,” advirtió Ron Wasserstein, director ejecutivo de la Asociación Americana de Estadística. La intención original era simplemente que sirviera de apoyo para formar una conclusión.

El valor p no es en sí mismo malo, pero depender demasiado en él puede proporcionar un falso sentido de certeza sobre la validez de los resultados. Para evitar el abuso de esta herramienta se recomienda ejercer un mayor discernimiento al usarla, así como considerar el uso de otras métricas estadísticas como los intervalos de confianza.

En palabras de Ron Wasserstein, “Los argumentos estadísticos bien razonados aportan mucho más que el valor de un solo número y si este excede o no un límite arbitrario.”

Estos son sólo algunos de los errores en el uso e interpretación del valor p. Si quieres aprender más, puedes revisar estos artículos de Greenland et al, Goodman S y Jennie Dusheck de Stanford Medicine

– Written by Marisa Granados, Research Medics Editorial Desk –

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *