Las pruebas también se equivocan

En la vida, nunca puedes estar seguro al 100% de nada, y en el laboratorio tampoco. Es necesario recurrir a la estadística, y de estadística y su aplicación a las pruebas de diagnóstico es de lo que vamos a hablar hoy.

Cuando diseñamos una nueva prueba diagnóstica, uno de los pasos que hay que hacer antes de que pueda aplicarse a la clínica es la validación. En este proceso, se analiza que la prueba sea reproducible, segura y válida. La reproducibilidad de una prueba es la capacidad de ofrecer los mismos resultados en condiciones similares. La seguridad de una prueba es la capacidad de la prueba de predecir si una persona está o no enferma y la validez es la capacidad de clasificar bien a los individuos como enfermos o como sanos.

La validez de una prueba está determinada por la sensibilidad y la especificidad. Estos dos conceptos reflejan la información que la prueba puede o no proporcionarnos, y debemos tener en cuenta ambos para poder comprender los puntos fuertes y débiles de una prueba.

La sensibilidad es la capacidad de una prueba de detectar la patología, mide el número de veces que la prueba genera un resultado positivo en individuos enfermos.

En cambio, la especificidad es la capacidad de la prueba de clasificar correctamente a los individuos no enfermos, mide el número de veces que la prueba genera un resultado negativo en individuos sanos.

La sensibilidad y la especificidad son como el yin y el yang de las pruebas diagnósticas, y como tal, tienen que mantenerse en equilibrio, ya que en muchos casos, intentar aumentar la sensibilidad de una prueba tiene como coste la reducción de su especificidad.

Como los humanos, las pruebas no son perfectas, y también pueden equivocarse, clasificando como positivos a individuos sanos y como negativos a individuos enfermos. Así, podemos obtener diferentes resultados: cuando la prueba nos da un resultado positivo, puede ser que la persona realmente esté enferma, con lo que estaríamos ante un verdadero positivo o que la prueba "se haya equivocado" y la persona sea sana, por lo que sería un falso positivo. En el caso de que la prueba nos ofrezca un resultado negativo, de nuevo puede ser que la prueba esté en lo correcto y la persona sea sana, de modo que estamos ante un verdadero negativo, o que la prueba "se haya equivocado" y nos haya dicho que una persona enferma estaba sana, siendo esto un falso negativo.

Tipos de resultados

En este proceso de validación, tenemos que calcular los valores de sensibilidad y especificidad de la prueba, y para ello lo que se hace es comparar esta prueba con la más válida que tengamos hasta la fecha, a la que se denomina patrón de referencia o estándar dorado (gold standard en inglés). 

Aunque la prueba que estemos diseñando sea menos válida que el gold standard, no quiere decir que no sea útil clínicamente, ya que puede suponer ventajas como ser más rápida, más barata o menos invasiva.

Para determinar la sensibilidad y la especificidad de la nueva prueba, aplicamos esta prueba y el gold standard a un grupo de pacientes y comparamos los resultados de ambas pruebas por medio de una tabla de contingencia, en la que clasificamos los individuos en función del resultado que han obtenido para cada prueba.

Tabla de contingencia


Los individuos para los que concuerda el resultado de la prueba y del gold standard serán los resultados "verdaderos": los verdaderos positivos (VP) cuando ambas pruebas dictaminan que esas personas son enfermas y los verdaderos negativos (VN) cuando ambas pruebas indican que esas personas están sanas.

Los individuos para los que el resultado de la prueba nueva y del gold standard no son iguales serán los resultados "falsos": los falsos positivos (FP) cuando la prueba nueva identifica como enfermo a una persona sana y los falsos negativos (FN) cuando la prueba nueva clasifica como sano a una persona a la que el estándar de oro identifica como enfermo.

Así, con estos datos, se calcula la sensibilidad como la proporción de enfermos que obtienen un resultado positivo en la prueba a validar: los verdaderos positivos entre el total de positivos. La especificidad se calcula como la proporción de individuos sanos que obtienen un resultado negativo: los verdaderos negativos entre el total de negativos, aunque normalmente se suelen expresar estos valores en forma de tanto por ciento.

Sin embargo, estos dos valores de especificidad y sensibilidad, que nos sirven para saber si la prueba es buena, no tienen ninguna utilidad en la práctica clínica, al médico no le sirven para nada. Cuando aplicamos una prueba diagnóstica, al médico le interesa saber la probabilidad que existe de que el paciente esté o no enfermo teniendo un determinado resultado para una prueba. Esto se mide por medio de los valores predictivos positivo y negativo, que dan idea de la seguridad de la prueba.

El valor predictivo positivo es la probabilidad de estar realmente enfermo habiendo obtenido un resultado positivo. Se calcula como la fracción de los verdaderos positivos entre todos los positivos. 

Por otro lado, el valor predictivo negativo es la probabilidad de estar realmente sano tras haber obtenido un resultado negativo en el test. Se calcula como el cociente entre los verdaderos negativos y todos los negativos. 

Otro parámetro que podemos emplear para ver si la prueba es buena o no es la razón de verosimilitud. Este parámetro, además de indicarnos si una prueba es válida clínicamente, si nos sirve para el diagnóstico, nos permite comparar diferentes pruebas entre sí para poder elegir la mejor de ellas.

La razón de verosimilitud positiva (RV+) nos indica cuántas veces es más probable tener un resultado positivo en un enfermo que en un sano, o, dicho de otra forma, la proporción de los positivos dentro del grupo de los sanos entre la proporción de positivos dentro del grupo de los enfermos. 

La razón de verosimilitud negativa, en cambio, nos indica el número de veces que es más probable obtener un resultado negativo en una persona enferma que en una persona sana, o sea, la proporción de los negativos dentro del grupo de los enfermos entre la proporción de negativos dentro del grupo de los sanos.

Cuanto mayor es la razón de verosimilitud positiva, mejor será la prueba para diagnosticar la enfermedad, mientras que cuanto menor sea la razón de verosimilitud negativa, mejor será la prueba para descartar la enfermedad. 

Si os interesa leer algo más al respecto, Ciencia sin seso explica esto y más y con más sentido del humor en El dilema del vigilante.


Bibliografía empleada:

  • Parikh R, Mathai A, Parikh S, Chandra Sekhar G, Thomas R.,  2008. Understanding and using sensitivity, specificity and predictive values. Indian J Ophthalmol, , 56:45-50. Disponible en: https://www.ijo.in/text.asp?2008/56/1/45/37595 

Comentarios