MI ALGORITMO ES MEJOR QUE EL TUYO
REDACCIÓN NOTI-AMÉRICA (ECUADOR) Por Luis Tejerina
Ya no es una novedad que los algoritmos de aprendizaje automático están causando una revolución en el mundo, particularmente en el área de la salud. El incremento exponencial del interés en este tema es evidente y el desarrollo científico de aplicaciones de aprendizaje automático en la salud se acelera cada día.
La plataforma de artículos académicos en salud mantenida por el gobierno estadounidense (PubMed.gov) registra la publicación de 36 estudios sobre algoritmos de aprendizaje automático en salud en el año 2000, 583 estudios en el año 2010 y en lo que va de 2018 ya fueron publicados 4.726 estudios científicos. Alrededor de 106 compañías aplican algoritmos de aprendizaje automático en las áreas de salud mental, asistencia virtual, monitoreo de estilos de vida, manejo de hospitales y descubrimiento de nuevas medicinas.
Y es que el potencial de estos algoritmos para detectar diferentes tipos de enfermedades y condiciones médicas con igual o mayor precisión que algunos especialistas humanos tiene un impacto directo sobre la salud. A través de técnicas similares a las que se usan para reconocer nuestros rostros en fotografías, los algoritmos pueden reconocer en imágenes elementos tan sutiles como la presencia de células afectadas por el cáncer de piel, infectadas por la malaria, e inclusive estados de depresión en las personas. Con base en enormes cantidades de información de los pacientes, son capaces de interpretar patrones complejos y correlaciones entre los datos para predecir, y consecuentemente, prevenir, enfermedades como las del corazón.
Aprendiendo de Netflix
En 2006, Netflix ofreció un premio de un millón de dólares al equipo que generará el mejor algoritmo para mejorar las recomendaciones de películas. Más de 40 mil equipos participaron y el concurso duró tres años. El equipo ganador superó al segundo lugar por haber entregado sus resultados tan solo 20 minutos antes. Una forma de crear los mejores algoritmos y aprovechar el poder de la ludificación (gamification).
La fórmula del éxito, aunque matemáticamente sofisticada, se basaba en la intuición. Si a la mayoría de las personas a las que les gustaba la película A les gustaba la película B, se podía recomendar confiablemente la película B a una persona que le gustó la A pero no vio la B. ¿Se podrían aplicar estas mismas técnicas para resolver problemas de salud y protección social?
Concursando por la salud
Como parte de un ejercicio de colaboración con los países de la región para mejorar la calidad del gasto público, el Banco Interamericano de Desarrollo y Kaggle, una plataforma que se dedica a organizar concursos científicos similares al de Netflix, lanzaron un concurso para identificar el mejor algoritmo para clasificar los hogares en situación de pobreza en Costa Rica. Participaron 619 equipos motivados por resolver un problema de alta relevancia social, cuyo impacto podría ayudar a encontrar soluciones y mejorar políticas que beneficien a los más vulnerables. Este tipo de iniciativas son relevantes más allá de lo que podríamos imaginar, pues la pobreza es un importante determinante del estado de la salud de una persona.
En el campo de salud, hay muchas opciones a explorar en la búsqueda de soluciones a problemas más directamente relacionados con la atención médica. Hace poco culminó un concurso en la misma plataforma para identificar casos de neumonía mediante la clasificación de imágenes de rayos X, y anteriormente se implementó otro para predecir el número de días que una persona pasará en un hospital el próximo año. Un tercer ejemplo se basa simplemente en publicar bases de datos anonimizadas en las cuales los miembros de la comunidad pueden construir, por ejemplo, aplicaciones de diagnóstico de cáncer de piel.
Buscar soluciones así, desde donde estés
A pesar del potencial de este tipo de concursos, no cualquier problema puede ser resuelto así. Sin embargo, estos requerimientos pueden ayudar a que sean exitosos:
1. Tener muchos datos de calidad— mientras más, mejor.
2. Definir claramente la pregunta de clasificación que se quiere usar, así como datos ya clasificados para “entrenar” al algoritmo en su proceso de reconocimiento. Por ejemplo, en el caso de neumonía que mencioné, existían alrededor de 26 mil imágenes clasificadas como neumonía o no neumonía.
3. Finalmente, es necesario tener una métrica claramente establecida sobre quién será el ganador. Es importante definir estas preguntas: ¿Me interesa más un algoritmo que identifique todos los casos posibles sin importar los falsos positivos? ¿O me interesa minimizar falsos positivos a expensas de no detectar todos los casos que realmente tienen neumonía, por ejemplo?
Existe una potente comunidad de científicos de datos lista para colaborar con problemas de clasificación de información. ¿Podemos apalancar los datos existentes para crear algoritmos predictivos que mejoren nuestra capacidad de brindar servicios de salud? Es posible; basta con identificar un problema relevante y contar con datos suficientemente anonimizados para que sea posible compartirlos sin comprometer información confidencial de los pacientes. Con la ayuda de especialistas para clasificar debidamente cantidades masivas de información, ya se ha logrado crear importantes bases de datos para entrenar algoritmos relevantes, que puedan impactar nuestra vida diaria. ¿Podremos retar a nuestra comunidad, y a nosotros mismos, a explorar soluciones así?
Luis Tejerina es Especialista Líder de la División de Protección Social y Salud del Banco Interamericano de Desarrollo.