Las difusión interesada de predicciones falsas persigue un retorno en forma de dinero, de capacidad de influir, de fama, de notoriedad, o de una combinación de todos estos beneficios. La eficacia de la difusión se multiplica en la web, gracias a la inmediatez de la réplica. Muchas veces la predicción queda en el olvido y su incumplimiento no se le reprocha a la persona que la ha inducido, lo que representa un estímulo adicional para encender la mecha de la predicción falsa. Sin embargo, en ocasiones, la hemeroteca juega malas pasadas. En el número de noviembre de 2016 de la revista National Geographic, dedicado a la conquista de Marte, Elon Musk afirmaba que Space X, la compañía aeroespacial de su propiedad, enviaría una nave a Marte en 2018. Promesa incumplida. ¿Alguien piensa que se equivocó? Desde mi punto de vista es inverosímil atribuirlo a un error. Pienso que fue una promesa lanzada de forma intencionada, a pesar de que se sabía que su cumplimiento era improbable o imposible. Lo mismo sucede con muchas de las bondades del Big Data que, con respecto al tratamiento del cáncer, se difunden con una eficacia asombrosa por los medios de comunicación tradicionales y por Internet.
La aceptación acrítica de las bondades del Big Data es muy común entre los oncólogos. Por el contrario, en mi opinión, el Big Data es una vía muerta desde el punto de vista del progreso científico que, además, pone en riesgo los datos de nuestros pacientes.
Para el desarrollo de una nueva herramienta científica se requiere que muestre eficacia y seguridad. Por el lado de la eficacia, el Big Data ha prometido mucho y no ha demostrado nada, más allá de la distribución de los productos en las estanterías de los supermercados. Los problemas de la intencionalidad, la causalidad y las asociaciones falsas (ya sea por un tercer factor común o por pura casualidad), no están actualmente resueltos.
Desde el punto de vista terminológico debemos aclarar en este momento que hay tres líneas de evolución del conocimiento que, siendo diferentes, a veces se confunden. Me refiero a la inteligencia artificial (IA), a los resultados de los estudios basados en datos de la vida real (RWD) y al Big Data. Nada que decir al repecto de la primera: la IA es una fuente inagotable de progreso científico desde los tiempos de Alan Turing y lo va a seguir siendo en el futuro. Tampoco nada en contra de la segunda: el RWD es un tipo de estudio retrospectivo con evidencia superior al retrospectivo clásico, que se realiza cuando ya no es posible la randomización. Es un método del que soy firme defensor. Pero no tiene nada que ver con el análisis conjunto de ingentes cantidades de datos procedentes de los registros electrónicos de las historias clínicas de los pacientes. Eso es Big Data, y no hay que confundirlo con RWD, aunque los datos provengan del entorno clínico real o del “mundo real” del paciente.
Las asociaciones y correlaciones entre series de datos pueden tener una relación causal (la una es la causa de la otra) o no (las series están asociadas, bien por un tercer factor o bien por casualidad, pero una no es la causa de la otra). La cifra de colesterol y el riesgo cardiovascular son dos series de datos que están asociadas (si el colesterol sube, el riesgo sube) y tienen una relación causal (el colesterol elevado es la causa del incremento del riesgo cardiovascular). Pero hay otras asociaciones de series de datos en las que una no es la causa de la otra. Por ejemplo, la cifra de ventas de las compañías de helados a lo largo de los meses y el número de hectáreas de bosque quemado. Son dos series de datos asociadas porque cuando suben las ventas, aumenta la superficie quemada y cuando bajan las ventas disminuye la superficie quemada. ¿Quiere esto decir que un pirómano puede quemar bosque estando tranquilamente en su casa comiendo helados? Lógicamente, no. En este caso existe un tercer factor común, que es el calor que hace en los meses de verano, que provoca que aumenten las cifras de ambas series sin que una sea causa de la otra. La misma correlación, por el mismo motivo, sin que una sea causa de la otra, se aprecia entre la cifra de ventas de las compañías de helados y el número de ataques de tiburones en las playas. En ocasiones, no hay ni siquiera un tercer factor común, y es simple y pura casualidad, como es el caso de dos series de datos que presentan una perfecta asociación con un paralelismo impecable a la baja a lo largo de los años, como son el número anual de divorcios en el estado de Maine y el consumo “per cápita” anual de margarina en los Estados Unidos. Sucede lo mismo con la correlación inversa perfecta que se aprecia entre la temperatura en superficie del planeta tierra (al alza) y la cifra de piratas marinos (a la baja), desde 1800. No son causa la una de la otra ni hay un tercer factor causal que explique las dos tendencias. Es pura casualidad. La creación de un máster de piratas marinos no es una buena decisión en el ámbito de la lucha contra el cambio climático.
La detección, con técnicas de regresión, de asociaciones no causales y su interpretación sesgada es un grave riesgo asociado al Big Data. En muchas páginas de Internet se explica que el el Big Data ha demostrado ser una fuente inmensa de conocimiento y progreso en Oncología. Yo no conozco ni un solo ejemplo de progreso de conocimiento científico oncológico debido al análisis indiscriminado (no intencional) de Big Data (cogemos todos los datos, los mezclamos y a ver qué sale), a fecha agosto de 2019.
La estadística bayesiana se encuentra actualmente en la línea puntera de la investigación metodológica estadística; Bayes propugna métodos radicalmente opuestos a la estadística frecuentista de Fisher. El Big Data es frecuentismo llevado al extremo más radical, por lo que debe considerarse como una antigualla, desde el punto de vista de la investigación matemática. Una de las debilidades del Big Data se deriva, en mi opinión, del postulado del cisne negro elaborado por el sabio, experto en teoría de la probabilidad, Nassim Nicholas Taleb. En síntesis, esta reflexión hace notar que el hecho de observar miles de millones de cisnes blancos no demuestra que todos los cisnes sean blancos; pero, también, que la observación de un único cisne negro demuestra, sin lugar a dudas, que no todos los cisnes son blancos. Una única observación puede ser más potente que miles de millones de casos.
He escuchado, en diversas ocasiones en jornadas científicas o congresos, cómo oncólogos afirmaban que las leyes de protección de datos, especialmente las europeas, más restrictivas, suponen un grave problema, porque representan un freno para la investigación oncológica. Sugerían que habría que modificarlas para estimular el progreso científico. No puedo estar más en desacuerdo. La utilización indiscriminada de los registros clínicos de los pacientes sin su consentimiento informado individual por escrito, supone un elevado riesgo de exposición de los datos de miles de pacientes oncológicos (resultados genéticos incluidos), que estarían a disposición de todos los hackers que se lo propusieran, a punto para vendérselos a todas aquellas compañías de seguros que quisieran comprarlos. Da igual que estén codificados o anonimizados, eso es lo de menos para los hackers y, además, recientemente se ha mostrado la escasa utilidad de la anonimización de los datos en la web.
Defiendo una actitud progresista y disruptiva con un enfoque crítico con respecto a la línea de pensamiento dominante que sostiene que el Big Data va a encontrar el tratamiento curativo de todas las enfermedades y que la no cesión de los datos de los pacientes va en contra del progreso científico. A muchos les puede parecer evidente que la cesión de los datos de los paciente para aplicarlos a Big Data es bueno para los pacientes. Yo pienso que son los pacientes, propietarios de sus datos, los que deben decidir lo que más les conviene (si ceder sus datos o no). Lo contrario sería una actitud paternalista impropia de la oncología contemporánea. Por cierto, yo tengo claro que, si no cambian las circunstancias de eficacia y seguridad, no cederé jamás mis datos, especialmente los genéticos, para análisis con Big Data.
Este verano de 2019 se cumplen varios aniversarios redondos. Los 50 años de la misión del Apollo 11; éxito rotundo conseguido con el soporte de computadoras con capacidad de memoria limitada, muy alejada del Big Data, mas cercana a las calculadoras humanas de la NASA, aquellas admirables mujeres afroamericanas cuyos cálculos con lápiz y papel permitieron el desarrollo de las misiones Mercury y Gemini, precursoras de la misión Apollo. Prodigiosa potencia de cálculo en estado puro, derivada de las sinapsis del tejido cerebral humano. O los 200 años del nacimiento del novelista neoyorquino Herman Melville, autor de Moby Dick (la ballena blanca, cuya anomalía cromática ya nos cuadra bien, dado que la podríamos considerar análoga a la del cisne negro del que hemos hablado un poco más arriba).
La intencionalidad es importante. Hemos de declarar, antes de empezar, qué análisis vamos a hacer con los datos. La pesca indiscriminada a bordo del Pequod nos puede proporcionar como trofeo una ballena blanca, cuando la mayoría no lo son. Y, como ya hemos comentado, además de la causalidad, la casualidad se debe tener muy en cuenta. Porque, como se suele explicar en lecciones de teoría de la probabilidad, si ponemos infinitos monos aporreando infinitos teclados de ordenador, al menos uno de ellos escribirá las obras completas de William Shakespeare. Como este experimento utilizaría una infinita cantidad de datos, algún defensor de las bondades del Big Data deduciría, de ello, que algún mono puede aprender a escribir mejor que la mayoría de los seres humanos.
Seguramente no falta mucho tiempo para el día en que alguien me indique que debo poner los datos de mis pacientes a disposición de investigadores que, gracias a ello, mediante Big Data, van a descubrir el tratamiento curativo del cáncer. Como corolario de toda la exposición argumentativa desarrollada en este texto, puedo justificar que, en homenaje a Herman Melville y al protagonista de su novela “Bartleby, el escribiente”, ese día, sin inmutarme, yo respondería:
Preferiría no hacerlo.
La ballena blanca, el cisne negro y el Big Data
