Recientemente he pasado algún tiempo analizando bases de datos para un par de proyectos. Durante el proceso, me acordé de errores que he cometido en el pasado y de las lecciones que he aprendido a lo largo de mi experiencia para hacer mi vida MUCHO más fácil. ¡Estas reflexiones me han llevado a pensar que debería compartir mis experiencias con vosotros!

Planear con tiempo y seguir algunas reglas sencillas antes de recoger e introducir los datos me han facilitado mucho el proceso de análisis en las siguientes fases. Cuando revisaba hojas de cálculo con datos limitados a 3 filas (por ejemplo, Hb, plaquetas, etc.), estaba prácticamente seguro de que encontraría algunos errores. Sin embargo, cuando me enfrentaba a bases de datos más extensas, sabía que, si no seguía una serie de reglas simples para hacer el análisis, la experiencia acabaría siendo una pesadilla.

En general, hay dos tipos de datos: datos numéricos y de texto. Los datos numéricos se introducen, a menudo, de forma manual en las bases de datos clínicas. Si este es el caso, existirán errores de manera inevitable. Es esencial encontrar estos errores antes de empezar con el análisis. Todo lo que se diga acerca de la importancia de este paso es escaso. He trabajado en múltiples proyectos en los que el resultado de la publicación describe una condición clínica. Estas publicaciones pueden convertirse en fuentes de referencia para médicos clínicos que se ocupan de estas condiciones clínicas y están, por tanto, encargados de diagnosticar la condición en cuestión. Si el cuadro clínico presentado en la publicación es erróneo, puede llevar a los médicos clínicos a realizar diagnósticos equivocados que resultará en consecuencias significativamente negativas para los pacientes.

Para poneros algunos ejemplos: hace poco trabajé en una base de datos donde se introdujo en número de plaquetas como 10.3. Como muchos de los pacientes eran trombocitopénicos, los datos no parecían estar en principio mal. Sin embargo, el laboratorio presentó la cantidad de plaquetas en números enteros. Por lo tanto, los datos estaban claramente mal. De hecho, podría haber sido 103 pero esto era imposible de confirmar. Entonces, ¿qué podía hacer? Lo primero, es importante reconocer que los datos introducidos podrían haber sido afectados significativamente por los valores presentados. En el caso de que sólo hubiera habido un dato, el error tal vez no habría sido tan importante, pero con múltiples errores evidentemente esto se volvía más preocupante porque el cuadro clínico presentado puede engañar. La respuesta es que dichos datos deben ser eliminados. En estos casos, es mejor eliminar datos que introducir datos erróneos. Pero, ¿cómo encontrar estos datos? Encontrarlos de manera manual es posible, pero el resultado tampoco es 100% fiable. El programa Excel se utiliza frecuentemente para estas bases de datos porque el programa tiene muchas funciones que son realmente útiles y pueden ayudar. La opción de MIN y MAX es realmente útil en estos casos porque te puede ayudar a identificar valores atípicos que deben ser eliminados. Como ejemplo, en un estudio de adultos que realicé, el peso de un paciente fue registrado como 20 kg. Este dato puede ser reconocido por la función MIN y el analista puede decidir si el dato es correcto o no; en este caso específico, probablemente no. Si el valor real no puede ser verificado, entonces, este dato debería ser eliminado.

Si es necesario que el análisis sea lo más preciso posible, se puede analizar los datos dos veces. Se harían dos columnas para cada dato, es decir, todos los datos se deberían introducir dos veces. Importante: ¡nada de copiar y pegar! En una tercera columna, Excel identificará con su opción “menos” si los datos introducidos en las dos columnas coinciden. Por lo tanto, el resultado presentado en la tercera columna debería ser 0. Cualquier valor que no sea 0 puede ser rápidamente identificado, permitiéndote corregir errores más fácilmente.

¡El análisis de datos de texto puede ser más difícil! Una de las funciones más comunes de Excel es la de “COUNTIF”. Esta opción contará el número de veces que un texto específico ha sido introducido en una columna o fila de la hoja de cálculos. El problema que puede surgir en este tipo de análisis es que si el texto es introducido de manera errónea, el dato no será contado. Personalmente, he pasado horas buscando datos faltantes que no habían sido contados en dichas hojas de cálculo. La opción “countif” no discierne entre mayúsculas y minúsculas, por lo que si la palabra inglés está escrita, por ejemplo, ‘Inglés’ o ‘inglés’, ambas serán contadas. Pero, por lo contrario, si existen errores de ortografía como, ‘ingels’ o ‘ingl-és’, la función no lo detectará y no saldrá en el recuento final. Aunque estos casos parezcan fáciles de identificar, si en la base de datos tienes a lo mejor más de 650 filas puedes encontrar muchas dificultades. Incluso puede pasar que si tienes espacios al principio o al final de la palabra la función tampoco sea capaz de identificarlo y estos datos puedan escaparse. Si en base de datos pequeñas la detección de errores ya puede ser una pesadilla, ¡imagínense en base de datos grandes!

Lo más importante es planear cómo introducir los datos. He trabajado con bases de datos con una entrada en una celda única como, por ejemplo, hemorragia-epistaxis, hemorragia-digestiva, hemorragia-digestiva alta y hemorragia-digestiva baja. En estos casos, si lo que quieres contar es ‘hemorragia’, esto no funcionará. Muchos datos no serán encontrados. Para evitar este tipo de errores es mejor tener dos columnas, escribiendo en la segunda columna la descripción de cada componente. De esta manera, se puede contar los datos de manera separada. Otra opción es crear un código numérico, el cual eliminaría los errores de ortografía, pero podría desembocar en una “traducción” incorrecta. Por estos motivos, crear un plan detenidamente antes de introducir los datos te podría ahorrar mucho tiempo en la fase de análisis de datos.

En general el mensaje que quiero transmitir es que es importante planear antes de empezar con la recolección de datos. Es esencial saber cómo se va a analizar los datos antes de empezar, entender cómo el programa de hojas de cálculo funciona e introducir los datos de tal forma que luego sea fácil analizarlos. ¡Planear y ser previsor es todo!

En lo descrito sólo me he limitado a arañar la superficie del asunto, pero mi objetivo es plantear la importancia que tiene introducir la información en las bases de datos de manera correcta para conseguir que el análisis posterior sea lo más fácil posible. Por último, me gustaría mencionar que existe un excelente artículo online sobre las opciones de Excel que podría ser de ayuda: «Las diez mejores maneras de clarificar tus datos”.

Artículo traducido por Paula Mercado Gómez

Dr. Richard M. Smith, FRCP, PhD

Dr. Richard M. Smith, FRCP, PhD

Guest Post Writer

Dr. Smith studied medicine at Cambridge and Oxford and completed his PhD at Cambridge University. He worked as a Consultant Senior Lecturer in Nephrology in Bristol, where he led a research group continuing his interest in the immunology of transplantation and factors determining pancreas transplant survival, and was actively involved in clinical trials. He continues to teach postgraduate students on the Cardiff University Masters course in Diabetes.

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *