banner

Blog

Jul 06, 2023

nnU de por vida

Scientific Reports volumen 13, Número de artículo: 9381 (2023) Citar este artículo

Detalles de métricas

A medida que crece el entusiasmo en torno al aprendizaje profundo, tanto los médicos como los organismos reguladores están explorando formas de introducir de manera segura la segmentación de imágenes en la práctica clínica. Una frontera que se debe superar al trasladar la investigación prometedora al mundo clínico abierto es el cambio del aprendizaje estático al continuo. El aprendizaje continuo, la práctica de entrenar modelos a lo largo de su ciclo de vida, está viendo un interés creciente, pero aún está en pañales en el cuidado de la salud. Presentamos Lifelong nnU-Net, un marco estandarizado que pone la segmentación continua en manos de investigadores y médicos. Construido sobre nnU-Net, ampliamente considerado como el segmentador de mejor rendimiento para múltiples aplicaciones médicas, y equipado con todos los módulos necesarios para entrenar y probar modelos secuencialmente, garantizamos una amplia aplicabilidad y reducimos la barrera para evaluar nuevos métodos de forma continua. moda. Nuestros resultados de referencia en tres casos de uso de segmentación médica y cinco métodos de aprendizaje continuo brindan una perspectiva integral sobre el estado actual del campo y significan una primera referencia reproducible.

Los métodos de aprendizaje profundo para casos de uso médico continúan evaluándose en un entorno estático, donde se mezclan todos los datos disponibles y el modelo se prueba en un subconjunto de muestras en distribución. Esto se basa en las suposiciones poco realistas de que (a) todos los datos de entrenamiento están disponibles en una ubicación central y (b) las condiciones de adquisición no cambian con el tiempo después del despliegue clínico1. Evaluar de esta manera crea una brecha considerable entre el desempeño informado de los nuevos métodos y su usabilidad en la práctica2,3,4, lo que dificulta el despliegue vital de agentes de aprendizaje permanente en entornos clínicos dinámicos5.

El aprendizaje continuo no descuida la dimensión temporal de los datos y entrena modelos de manera secuencial, como se ilustra en la Fig. 1. El objetivo aquí es adaptarse a nuevos entornos sin perder rendimiento en las condiciones de entrenamiento y grupos de sujetos observados anteriormente. Los métodos de aprendizaje federado distribuido se han explorado en entornos multiclínicos y tampoco requieren compartir datos entre instituciones6,7. Sin embargo, no abordan las restricciones temporales sobre la disponibilidad de datos ni proporcionan un marco para los agentes que se adaptan continuamente a las dinámicas de población cambiantes. El aprendizaje continuo en el cuidado de la salud, que aborda estas preocupaciones, está recibiendo un entusiasmo creciente8,9,10,11 y los procedimientos regulatorios se están debatiendo activamente5,12,13. Actualmente, se requiere una nueva aprobación cada vez que se adapta un modelo durante la implementación, pero existen iniciativas tanto de la FDA como de la Comisión Europea para un protocolo regulatorio del ciclo de vida que permite el uso de algoritmos de adaptación continua14. Estas búsquedas pueden llevarnos a la rara situación en la que las pautas regulatorias están vigentes mientras la tecnología aún está en pañales.

En una configuración estática (izquierda), se reúnen todos los datos de entrenamiento. Los ajustes continuos (derecha) consideran el tiempo de adquisición y entrenan el modelo secuencialmente.

La literatura técnica de aprendizaje continuo para tareas de visión por computadora más simples está plagada de controversias sobre la falta de una configuración de evaluación estandarizada15,16,17. Recientemente, el proyecto Avalanche18 surgió como una solución a este problema de clasificación continua al proporcionar una base de código unificado. El campo no está tan maduro para la segmentación continua, que asigna una etiqueta a cada píxel de la imagen y podría decirse que es la principal tarea de IA en el dominio clínico. Aunque se ha realizado más trabajo en los últimos años8,10,19,20,21,22,23, ni (1) se basa en canalizaciones de segmentación de alto rendimiento ni (2) examina cómo los métodos populares se transfieren a la segmentación de imágenes para múltiples puntos de referencia de código abierto.

En este trabajo, presentamos Lifelong nnU-Net, un marco estandarizado para entrenar y evaluar modelos de segmentación en entornos continuos. Desarrollamos nuestro código sobre la tubería nnU-Net, que es muy popular y de última generación para 33 tareas de segmentación médica, y competitiva para otras veinte, en 11 desafíos internacionales de segmentación biomédica24. Esto asegura la alta usabilidad y el rendimiento de nuestro marco extendido. Nuestras contribuciones son:

La introducción de un marco de aprendizaje continuo de código abierto construido sobre nnU-Net

Una comparación de rendimiento y tiempo de ejecución para el entrenamiento secuencial en diferentes entornos, y

Implementaciones de código abierto para cinco métodos de aprendizaje continuo, lo que permite la evaluación rápida del estado del arte y acelera el desarrollo de nuevos enfoques.

Nuestros experimentos sobre datos disponibles públicamente para tres problemas de segmentación diferentes muestran que:

Ninguno de los métodos de aprendizaje continuo explorados logra consistentemente una transferencia hacia atrás positiva para la segmentación, lo que demuestra la necesidad de nuevas soluciones.

De acuerdo con investigaciones previas, los métodos basados ​​en ensayos muestran la menor cantidad de olvido mientras mantienen la plasticidad del modelo, y

La práctica de mantener encabezados específicos de tareas, común en la literatura de aprendizaje continuo, es solo mínimamente relevante para la segmentación.

El objetivo de Lifelong nnU-Net es garantizar altos estándares técnicos y resultados reproducibles mientras la comunidad traduce el aprendizaje continuo a la segmentación de imágenes médicas. Al publicar nuestro código y modelos entrenados para conjuntos de datos de código abierto, establecemos un punto de referencia para evaluar futuros métodos de aprendizaje continuo en modelos de segmentación.

Comenzamos esta sección examinando los resultados del entrenamiento de modelos de forma estática con un conjunto de datos. Luego, exploramos el aprendizaje secuencial y cinco estrategias populares de aprendizaje continuo: ensayo, consolidación de peso elástico25 (EWC), aprendizaje sin olvidar26 (LwF), caminata riemanniana27 (RW) y modelado del fondo28 (MiB). Por la presente, consideramos los conjuntos de datos de cada anatomía (hipocampo, próstata o corazón) como n tareas \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\) y entrenamos el modelo de cada caso de uso secuencialmente con todas las tareas respectivas.

Cuantificamos el rendimiento de la segmentación con el coeficiente de Dice e informamos la transferencia hacia atrás (BWT), que mide el grado de olvido de tareas anteriores, y la transferencia hacia adelante (FWT), que evalúa la capacidad de aprender nuevos conocimientos.

Finalmente, analizamos la diferencia entre el uso de arquitecturas de un solo cabezal frente a múltiples, ilustramos brevemente la importancia de la ordenación de tareas y brindamos un resumen de nuestros tiempos de capacitación.

Para poner los resultados del aprendizaje continuo en contexto, primero observamos el rendimiento de modelos independientes entrenados únicamente en un conjunto de datos. Estos se ilustran en la Fig. 2. En la diagonal desde la esquina inferior izquierda hasta la esquina superior derecha, vemos evaluaciones estáticas de los datos en distribución. En esta configuración, todos los modelos alcanzan al menos un 86 % de dados.

Rendimiento de modelos entrenados de forma independiente únicamente en un conjunto de datos. En la diagonal (de abajo a la izquierda a arriba a la derecha) encontramos el coeficiente Dice de evaluar modelos en los casos de prueba del conjunto de datos utilizado para el entrenamiento. En las celdas restantes, vemos cómo estos modelos se transfieren a otros conjuntos de datos. Para los datos cardíacos, informamos el rendimiento de la segmentación del ventrículo derecho.

Las matrices entre tareas también nos permiten ver qué tan efectivamente se desempeña cada modelo en datos fuera de distribución. Estas diferencias en el rendimiento se deben tanto a la diferencia inherente entre conjuntos de datos en términos de adquisición y población de pacientes como a la solidez del modelo causada por datos de entrenamiento más grandes y diversos. La suposición es que si un modelo entrenado en \(\mathscr {T}_1\) luego se entrena en \(\mathscr {T}_2\), la cantidad de olvidos para \(\mathscr {T}_1\) será ser menor cuanto más similar sea la distribución de datos y mayor sea el rendimiento inicial del modelo en \(\mathscr {T}_2\).

Para la segmentación de próstata (primer mapa de calor), I2CVB es un claro valor atípico. En el caso del hipocampo, el modelo entrenado en HarP rinde peor en DecathHip y viceversa. Mientras que el modelo HarP logra un 86 % de dados en Dryad, el modelo Dryad solo alcanza el 50 % en HarP. Esto probablemente se deba al tamaño mucho mayor de HarP (consulte la Tabla 4). En el caso de la segmentación del ventrículo derecho, el modelo entrenado en Siemens funciona bien en Philips, pero el modelo de Philips solo alcanza un 50 % de dado en los datos de Siemens, lo que probablemente resulte en una menor variación entre los casos de entrenamiento.

A continuación, inspeccionamos el rendimiento cuando los modelos se entrenan de forma secuencial, resumidos en la Tabla 1 para las anatomías de la próstata y el hipocampo y en la Tabla 2 para las cardíacas. En la primera fila, informamos el límite superior de un modelo estático entrenado con todos los datos de entrenamiento mezclados de la anatomía respectiva. La siguiente fila muestra el resultado de entrenar un modelo secuencialmente de manera trivial, y las filas siguientes son para diferentes estrategias de aprendizaje continuo que intentan amortiguar la cantidad de olvido. Se informa el Dado del modelo final después del entrenamiento en los órdenes \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) (próstata), \(HarP \rightarrow Dryad \rightarrow DecathHip\) (hipocampo) y \(Siemens \ rightarrow Philips\) (cardíaco).

Sobre todas las anatomías, el método Rehearsal29 (Reh.) es efectivo para prevenir el olvido. Esto es consistente con investigaciones previas29. Sin embargo, esta estrategia no siempre se puede utilizar, ya que requiere que se almacenen muestras de tareas anteriores para intercalarlas en futuros entrenamientos. Esto no es posible en muchos escenarios, donde el ensayo sería un límite superior adicional. En estos casos, EWC y MiB reducen de forma fiable la cantidad de olvidos en las primeras tareas. Por el contrario, LwF y RW no parecen traducirse bien en la tarea de segmentación semántica. Ilustramos directamente el olvido como transferencia hacia atrás inversa en la Fig. 3 (eje y), donde vemos que EWC (▼), MiB () y Rehearsal (✖) mantienen puntuaciones altas de transferencia hacia atrás.

Transferencia relativa hacia atrás (eje y) y hacia adelante (eje x) para la segmentación continua de tres casos de uso, promediados sobre todos los datos respectivos. Cada marcador corresponde a una etapa de entrenamiento y estructura anatómica. La transferencia hacia atrás es el olvido inverso y la transferencia hacia adelante mide qué tan bien se adapta el modelo a tareas futuras. Para ambas métricas, más alto es mejor, y se pueden esperar resultados cercanos a cero de manera realista.

Tenga en cuenta, sin embargo, que esto a menudo tiene el costo de una pérdida de plasticidad del modelo, lo que reduce el rendimiento en tareas posteriores. Por ejemplo, mientras que el modelo secuencial muestra un Dado del 91,91 % en DecathProst (la última tarea), se reduce al 87,79 % para EWC. Para la segmentación del hipocampo, este comportamiento es mucho más pronunciado. El Dice en DecathHip cae del 90,92 % al 31,93 % para EWC y al 20,75 % para MiB. Para los datos cardíacos, el deterioro del rendimiento en la tarea inicial de Siemens para LwF y RW y la pérdida de plasticidad en los datos de Philips para EWC y MiB son particularmente notables para las clases más desafiantes de miocardio (MI) y ventrículo derecho (RV). La pérdida de plasticidad se ilustra como transferencia hacia adelante (eje x) en la Fig. 3, donde EWC muestra valores negativos mientras que Rehearsal permanece cerca de cero.

Analizamos más a fondo el comportamiento del entrenamiento secuencial trivial junto con el método de ensayo de mejor rendimiento y EWC al observar las trayectorias de entrenamiento en la Fig. 4.

Trayectorias de aprendizaje para la segmentación del hipocampo y la próstata, la última en dos órdenes diferentes, a saber, \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) y \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\). Las líneas verticales marcan los límites de las tareas. Cada tarea se muestra con un color diferente. Comparamos el entrenamiento secuencial trivial (líneas sólidas) con EWC (discontinuas) y Ensayo (discontinuas).

Las líneas sólidas para el entrenamiento secuencial representan principalmente una caída rápida después de los límites de la tarea. Tanto Rehearsal como EWC reducen considerablemente la cantidad de olvidos. Sin embargo, la plasticidad disminuida que se manifiesta como una transferencia hacia adelante negativa para EWC es evidente, con las líneas discontinuas de una nueva tarea que a menudo comienzan debajo de los equivalentes secuenciales, más notablemente en la Fig. 4 para DecathHip en la tercera etapa del hipocampo.

Para los experimentos de próstata en el orden \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\), notamos una recuperación inesperada para UCL (cian) después de concluir el entrenamiento con I2CVB (segunda etapa). Sin embargo, esto probablemente se deba al buen rendimiento inherente de los modelos entrenados con ISBI y DecathProst en UCL (ver Fig. 2).

repetimos el experimento en el oder \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\), vemos un comportamiento más similar al observado para el hipocampo, donde hay un deterioro continuo del rendimiento para tareas más antiguas y una pérdida de plasticidad del modelo para EWC manifestada en un bajo rendimiento inicial para la última tarea, I2CVB.

Esto muestra cuán importante es la ordenación de tareas cuando se comparan los métodos de aprendizaje continuo. Idealmente, se deben considerar todos los pedidos, pero esto puede prohibir computacionalmente cuando se entrenan arquitecturas de segmentación tridimensionales. Alternativamente, deben tenerse en cuenta los resultados de rendimiento estáticos en la distribución y entre tareas. Sin embargo, esto sólo puede hacerse para estudios retrospectivos. De manera prospectiva, se da el orden de las tareas, y el usuario debe entrenarse con las tareas a medida que estén disponibles, sin saber qué relación tienen con los datos que estarán disponibles más adelante.

La mayoría de los métodos de aprendizaje continuo permiten ajustar la rigidez del modelo a través de algunos hiperparámetros. Por ejemplo, el CEE \(\lambda\) decide cuánto debe penalizarse la divergencia con los estados del modelo anterior. Un \(\lambda\) más grande prioriza la preservación del conocimiento mientras que un \(\lambda\) más pequeño permite que el modelo se adapte más fácilmente a la nueva distribución.

Desafortunadamente, a diferencia de la configuración de entrenamiento estático donde los hiperparámetros se pueden ajustar con un conjunto de validación, en una configuración continua real no tenemos acceso a muestras de tareas anteriores ni información sobre qué datos recibirá el modelo más adelante. Por lo tanto, es extremadamente difícil decidir sobre buenos hiperparámetros, y debemos seguir las pautas de la literatura, observar preliminarmente las trayectorias de pérdida en la tarea actual o guiar nuestra configuración a través de los resultados de otros experimentos. Esa es la estrategia que seguimos en este trabajo.

En la Tabla 2, incluimos resultados retrospectivos en tres configuraciones de hiperparámetros para cada método de aprendizaje continuo. Estos incluyen la configuración predeterminada utilizada en la Tabla 1 (\(\lambda = 0.4\) para EWC, \(T = 2\) para LwF, \(\alpha =0.9\) para MiB y \(\lambda = 0.4\) para RW) y otras que consideramos razonables luego de analizar dichos resultados. En particular, notamos que un \(\lambda\) más bajo para EWC y un \(\alpha\) más bajo para MiB son beneficiosos, lo que permite una mayor plasticidad del modelo y al mismo tiempo preserva el conocimiento. Otras configuraciones no mejoraron los resultados para LwF o RW.

Destacamos que esto no se traduce en un mayor rendimiento en los casos de uso de próstata e hipocampo. De hecho, aunque EWC y MiB reducen la plasticidad de los modelos como se ve en la Tabla 1, no son demasiado rígidos, ya que también notamos algunos olvidos (por ejemplo, para ISBI, HarP y Dryad). Establecer hiperparámetros para una implementación real o estudios prospectivos es extremadamente desafiante y un problema cuando se aplican metodologías de aprendizaje continuo en entornos dinámicos reales, ya que no se puede seleccionar de manera confiable una compensación entre rigidez y plasticidad al observar los resultados en otros casos de uso.

En experimentos anteriores, asumimos que todo el modelo fue entrenado secuencialmente. El aprendizaje continuo a veces se evalúa en un entorno de varios cabezales donde la última capa de red se mantiene dependiente de la tarea y no se actualiza después del entrenamiento con su tarea respectiva15. Durante la inferencia, la cabeza correspondiente se usa junto con el cuerpo compartido. Además, existen dos alternativas en cuanto a la actualización del cuerpo: el cuerpo puede permanecer plástico y así actualizarse con el paso del tiempo o congelarse después de la primera etapa de entrenamiento.

Si no se conoce la precedencia de la tarea para una muestra durante la inferencia, se puede inferir de las características de la imagen, como la distribución de los valores de intensidad o la capacidad de un codificador automático para reconstruirla19,30. En este trabajo, asumimos que esta información está disponible.

En la Fig. 5, exploramos las cuatro posibilidades de entrenar versus congelar el cuerpo compartido y mantener uno versus cabezas independientes de la tarea. Observamos que la diferencia entre mantener una frente a cabezas separadas (y seleccionar la adecuada durante la inferencia) es mínima. Por el contrario, la práctica de congelar el cuerpo evita olvidarse de la primera tarea de Siemens, aunque a costa de un rendimiento ligeramente inferior en la segunda tarea de Philips (como era de esperar debido a la pérdida de plasticidad). Mirando la Fig. 2, el modelo entrenado solo en datos de Siemens funciona bastante bien en Philips. Esto indica que la pérdida de plasticidad podría tener un efecto mayor en el rendimiento para un corpus de datos diferente.

Cuatro configuraciones para entrenar y construir un modelo: permitir que el modelo se adapte y mantener las cabezas dependientes de la tarea (Plastic MH, rosa) o compartir una cabeza (Plastic LH, naranja), congelar el cuerpo después de la primera tarea y mantener las cabezas dependientes de la tarea (Frozen MH, azul claro) o compartiendo una cabeza (Frozen LH, verde). El Dice se informa para tres estructuras cardíacas.

A continuación, ilustramos visualmente cómo el aprendizaje continuo afecta la integridad de las máscaras de segmentación. A diferencia de la clasificación de imágenes, las segmentaciones pueden dar una indicación directa de cuándo y cómo falla un modelo. La Figura 6 muestra ejemplos de los conjuntos de datos UCL y HarP, que son las primeras tareas para los casos de uso de próstata e hipocampo, respectivamente.

La primera y segunda columna muestran la realidad del terreno y la segmentación que produce el modelo justo después de terminar el entrenamiento con la tarea correspondiente. Otras columnas muestran la predicción del modelo final con diferentes estrategias de aprendizaje continuo. Como cuando se entrena trivialmente el modelo de forma secuencial (Sec. en \(\mathscr {T}_n\)), los métodos LwF y RW producen máscaras de segmentación dispersas con componentes conectados adicionales. EWC mantiene la integridad de la segmentación del hipocampo, pero no la de la próstata. Es probable que esto se deba a la mayor rigidez del modelo del hipocampo, que a su vez da como resultado una transferencia hacia adelante negativa (ver Fig. 3). El ensayo generalmente mantiene las formas correctas, aunque la máscara de próstata es más grande de lo que debería ser e incluye un componente conectado adicional. Finalmente, MiB produce con éxito máscaras razonables en ambos casos, aunque segmenta ligeramente la próstata.

Deterioro cualitativo del rendimiento de la segmentación al entrenar modelos secuencialmente para UCL y HarP, para lo cual mostramos cultivos de regiones de interés de vistas axiales y representaciones 3D producidas con ITK-SNAP31.

Nuestros experimentos se llevaron a cabo en un sistema con 8 GPU NVIDIA Tesla T4 (16 GB), 2 CPU Intel Xeon Silver 4210 y 256 GB de RAM DDR4. Los experimentos se ejecutaron en paralelo, cada uno con una GPU, con la excepción de los experimentos LwF para el caso de uso de la próstata, donde se usaron 2 GPU en tándem.

La Tabla 3 proporciona una descripción general de los tiempos de entrenamiento necesarios para una época para cada método y anatomía. Los experimentos con hipocampo fueron los más rápidos debido a la menor resolución. MiB requiere significativamente más tiempo que el entrenamiento secuencial, y la duración de una época LwF aumenta considerablemente a medida que crece la secuencia de tareas (perceptible para los experimentos de próstata de cuatro tareas), incluso cuando parte de la red está congelada.

Particularmente para la segmentación de imágenes médicas, donde los requisitos de hardware son significativos y potencialmente prohibitivos, se debe considerar la sobrecarga computacional al seleccionar una estrategia de aprendizaje continuo. En particular, puede ser conveniente evitar métodos que aumenten la duración de cada época linealmente con la duración de la secuencia de tareas.

En entornos clínicos dinámicos, se necesitan modelos que puedan adaptarse a protocolos de imágenes y patrones de enfermedad cambiantes. Si bien se reconoce la importancia del aprendizaje continuo para la segmentación de imágenes médicas, nuestra comunidad carece de los estándares de informes y los conjuntos de datos de referencia que emplean los investigadores para la clasificación natural de imágenes.

Con Lifelong nnU-Net, establecemos un marco para la evaluación estandarizada de la segmentación continua. Ampliamos la popular tubería nnU-Net con todos los componentes necesarios para entrenar y evaluar arquitecturas de segmentación de forma secuencial, incluidas cinco estrategias populares de aprendizaje continuo y métricas específicas para paradigmas continuos.

Nuestra evaluación en tres casos de uso de segmentación diferentes nos permite obtener información valiosa. De acuerdo con investigaciones previas29, Rehearsal conduce a los mejores resultados, disminuyendo considerablemente el olvido al intercalar un subconjunto de casos de tareas anteriores en los datos de entrenamiento. En nuestros experimentos, intercalamos un porcentaje fijo de los datos de entrenamiento anteriores, pero existen muchas estrategias para optimizar el búfer de memoria o replicar casos cuando algunas tareas están subrepresentadas. Por supuesto, una estrategia basada en ensayos solo es factible si estos datos se pueden almacenar. Para escenarios en los que este no es el caso debido a consideraciones de privacidad del paciente, los métodos EWC y MiB demuestran ser alternativas adecuadas, reduciendo efectivamente el olvido, aunque a costa de reducir la capacidad del modelo para adaptarse a nuevas tareas. Finalmente, los métodos LwF y RW no parecen ser adecuados para nuestra configuración. Aunque podrían ajustarse aún más para permitir una mayor conservación del conocimiento en experimentos retrospectivos, esto no es factible durante la implementación real, ya que no se puede medir el deterioro del modelo en tareas anteriores.

Una conclusión decepcionante de nuestro estudio es que ningún método dio como resultado una transferencia hacia atrás positiva (BWT). Esto se ilustra claramente en la Fig. 3, donde vemos que incluso los mejores métodos solo logran evitar el olvido, alcanzando un BWT de cero. Esto significa que ningún conocimiento adquirido de tareas posteriores mejora el desempeño en tareas anteriores. Por lo tanto, mantener modelos totalmente independientes y usar el modelo correspondiente durante la inferencia superaría todos los métodos de aprendizaje continuo explorados. También solo vimos transferencia directa positiva en los experimentos de próstata. Esto significa que el entrenamiento previo con tareas anteriores y luego el ajuste fino solo mejora mínimamente el rendimiento en comparación con el entrenamiento de un modelo con la tarea correspondiente desde cero.

Además, encontramos que la práctica de mantener cabezas específicas de tareas, común en la literatura de aprendizaje continuo, no afecta significativamente el rendimiento de la segmentación continua en imágenes médicas. Este es el caso tanto cuando el cuerpo se congela después de la primera etapa como cuando permanece plástico. Otros estudios deberían considerar dejar una mayor parte de la tarea específica de la red.

Hemos identificado varias limitaciones en nuestro estudio. En primer lugar, limitamos nuestro estudio a la variante nnU-Net 3D basada en parches de resolución completa, que se sugiere para la mayoría de las aplicaciones. No repetimos nuestros experimentos en las redes de muestreo descendente 3D o segmento por segmento. Nuestra evaluación también se enfoca en el escenario de aprendizaje de dominio incremental que es más relevante en el contexto de imágenes médicas8.

En segundo lugar, a partir de ahora, existe un catálogo limitado de métodos de aprendizaje continuo en el marco de Lifelong nnU-Net. Buscamos tener suficiente representación de enfoques individuales a través de diferentes estrategias, e implementamos una combinación de métodos muy populares pero más antiguos (ensayo simple, EWC y LwF) y enfoques más nuevos (MiB y RW). En el futuro, esperamos que este catálogo crezca tanto a partir de nuestros esfuerzos como de las contribuciones de otros miembros de la comunidad.

Un marco efectivo para la segmentación continua de imágenes tiene los siguientes requisitos:

Tiene todos los componentes para lograr resultados de segmentación estática de alta calidad y es compatible con arquitecturas bidimensionales y tridimensionales (como nnU-Net),

Simplifica la evaluación de escenarios de dominio incremental al basarse en formatos de conjuntos de datos ampliamente aceptados y la alineación de las características de las etiquetas en todos los conjuntos de datos.

Incluye lógica de evaluación integrada que rastrea el rendimiento del modelo para diferentes tareas durante el entrenamiento con métricas apropiadas, y

Admite las soluciones de aprendizaje continuo de vanguardia existentes, incluido el entrenamiento de modelos de múltiples cabezales que mantienen parámetros compartidos e independientes de la tarea.

Comenzamos esta sección presentando los tres casos de uso de segmentación que exploramos, así como nuestra notación. Luego describimos cómo abordamos cada uno de los requisitos mencionados anteriormente para garantizar que el marco Lifelong nnU-Net proporcione una base sólida para la investigación médica de aprendizaje continuo. Finalmente, describimos los métodos de aprendizaje continuo utilizados y exponemos brevemente los detalles de nuestra configuración experimental.

Exploramos el problema de la segmentación continua de imágenes para tres casos de uso muy diferentes. Para garantizar la reproducibilidad, utilizamos solo conjuntos de datos disponibles abiertamente y alineamos las características de la etiqueta de acuerdo con el proceso que se describe a continuación. Para cada anatomía, seleccionamos una matriz de conjuntos de datos que actúan como nuestras tareas \(\mathscr {T}_1 ... \mathscr {T}_n\). La Tabla 4 proporciona una descripción general de las características de los datos y las etiquetas para todos los conjuntos de datos.

El primer caso de uso que abordamos es la segmentación de la próstata en resonancias magnéticas potenciadas en T2, para lo cual utilizamos un corpus de cuatro fuentes de datos. Utilizamos los datos proporcionados en el conjunto de datos multisitio para el desafío de segmentación de resonancia magnética de próstata32,33 para los sitios A (ISBI34), C (I2CVB35) y D (UCL36). Por último, utilizamos los datos proporcionados como parte de la Segmentación Médica Decathlon37 (DecathProst). Algunas máscaras de segmentación contienen dos etiquetas que representan la zona periférica y la glándula central, que unimos en una etiqueta de próstata para garantizar la coherencia en todo el cuerpo. La segmentación de la próstata es un problema bastante fácil, aunque crucial para determinar la posible ubicación del tejido tumoral que precede a una biopsia, y la forma de la próstata varía muy poco entre diferentes pacientes. La Figura 7 muestra ejemplos de los cuatro conjuntos de datos.

Cortes ejemplares para cuatro sujetos de los conjuntos de datos de segmentación de la próstata.

El segundo es la segmentación del hipocampo en resonancias magnéticas ponderadas en T1, para lo cual incluimos tres fuentes de datos. Los datos del Protocolo Armonizado del Hipocampo38, en lo sucesivo denominado HarP, contienen sujetos sanos mayores y pacientes con la enfermedad de Alzheimer. El conjunto de datos Dryad39 tiene cincuenta pacientes sanos adicionales. Como tercera fuente de datos, utilizamos las imágenes proporcionadas como parte de la segmentación médica Decathlon37 (DecathHip), tanto de adultos sanos como de pacientes con esquizofrenia. Para la segmentación del hipocampo se pueden esperar Dados superiores al 90%24. En la Fig. 8 se pueden encontrar cortes de imágenes ejemplares de los tres conjuntos de datos.

Cortes ejemplares para tres sujetos de los conjuntos de datos de segmentación del hipocampo.

Finalmente, exploramos la segmentación de los ventrículos izquierdo y derecho (LV y RV) y el miocardio (MI) en resonancias magnéticas cardíacas. Utilizamos los datos publicados para el Desafío de segmentación de imágenes cardíacas (M & Ms) de múltiples centros, múltiples proveedores y múltiples enfermedades40, que incluye 75 casos etiquetados adquiridos con Siemens y 75 casos adquiridos con escáneres Philips. Esto conlleva la dificultad adicional de ser un problema multiclase, lo que nos permite observar cómo varía el desempeño de diferentes estructuras anatómicas dependiendo de la forma y tamaño de la región de interés. Se pueden observar cortes ejemplares en la Fig. 9.

Cortes ejemplares para sujetos de los dos conjuntos de datos cardíacos. Están segmentados el ventrículo izquierdo (rojo), el miocardio (verde) y el ventrículo derecho (azul).

Seleccionamos estas tres configuraciones de problemas para garantizar la variabilidad entre la modalidad, la forma y el tamaño de las máscaras de segmentación y la dificultad de la tarea en cuestión. Por supuesto, nuestro marco permite la evaluación rápida de otros casos de uso. Para todos los conjuntos de datos, dividimos el 20 % de los datos con fines de prueba y mantenemos esta división en todos los experimentos. Hacemos que las divisiones estén disponibles públicamente junto con nuestro código.

Considere n tareas \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\). El modelo \(\mathscr {F}_2\) se entrena solo con los datos de entrenamiento de la tarea \(\mathscr {T}_2\). El modelo \(\mathscr {F}_{[1, 2, 3]}\) se entrenó secuencialmente en las tareas \(\mathscr {T}_1\), \(\mathscr {T}_2\) y \(\ mathscr {T}_3\), en ese orden. \(\mathscr {F}_{\left\{ 1, 2, 3 \right\} }\) es, en cambio, un modelo estático, entrenado con datos de entrenamiento mezclados de las tres tareas. Finalmente, usamos \(\mathscr {F}_i(\mathscr {T}_j)\) para referirnos al rendimiento del modelo \(\mathscr {F}_i\) aplicado a los datos de prueba de la tarea \(\mathscr {T}_j\).

Muy a menudo, los conjuntos de datos de segmentación que exploran problemas similares no son uniformes en términos de estructura de etiquetas. El aprendizaje continuo solo es factible si las anotaciones son consistentes en todos los conjuntos de datos. Por lo tanto, antes de que un modelo pueda entrenarse de manera continua, un paso de preprocesamiento crucial implica alinear las características de la etiqueta.

Consideremos, por ejemplo, el problema de la segmentación de la próstata. El conjunto de datos \(\mathscr {T}_1\) puede incluir anotaciones para la clase de próstata, distinguiendo los vóxeles de próstata (que toman el valor 1 en la máscara de segmentación) del fondo marcado con ceros. En cambio, el conjunto de datos \(\mathscr {T}_2\) puede incluir anotaciones para la glándula central (etiqueta 1) y la zona periférica (etiqueta 2), dos regiones que juntas forman la próstata. Otro conjunto de datos, \(\mathscr {T}_3\), puede incluir anotaciones tanto para la próstata (etiqueta 1) como para la vejiga (etiqueta 2). Podemos alinear estas etiquetas para adoptar la estructura del conjunto de datos A convirtiendo las anotaciones para las etiquetas 1 y 2 en clase 1 (próstata) en el conjunto de datos B y convirtiendo la etiqueta 2 (vejiga) en clase 0 (fondo) para el conjunto de datos C. Este proceso es visualizado en la Fig. 10. Por supuesto, un escenario alternativo sería el aprendizaje incremental de etiquetas, donde el número de etiquetas crece con el tiempo. En este caso, se mantendría la etiqueta de vejiga separada en \(\mathscr {T}_3\).

Alineación de las características de la etiqueta para la próstata (fusión de la glándula central y la zona periférica) y el hipocampo (fusión de la cabeza y el cuerpo).

La alineación de estas características es crucial para obtener suficientes datos de código abierto para una evaluación significativa de diferentes casos de uso. En Lifelong nnU-Net, hemos incluido un script de preprocesamiento que realiza fácilmente estos pasos.

La alternativa natural a entrenar un modelo secuencialmente, bajo nuestras restricciones de disponibilidad de datos, es mantener un modelo por tarea y seleccionar qué modelo usar para cada sujeto durante la inferencia. Esta opción garantiza que no se produzcan olvidos, aunque deja fuera cualquier posibilidad de transferencia hacia adelante y hacia atrás y aumenta los requisitos de memoria linealmente con el número de tareas. Varios métodos de aprendizaje continuo adoptan un enfoque intermedio: las capas anteriores se comparten, pero las últimas capas se mantienen específicas de la tarea25,26. La intuición es que los modelos de cabezales múltiples permiten que los parámetros anteriores aprendan de los nuevos datos, mientras que las últimas capas de la red conservan la información específica de la tarea.

Implementamos este comportamiento en el marco Lifelong nnU-Net como se visualiza en la Fig. 11. Para la primera tarea, el entrenamiento continúa como de costumbre. Antes de que se lleve a cabo el entrenamiento con la segunda tarea, se replica la cabeza del modelo. Luego continúa el entrenamiento con el cuerpo compartido y la nueva cabeza. Este proceso se repite para todas las tareas. Durante la inferencia, se selecciona una cabeza para cada imagen y se combina con el cuerpo compartido. Adicionalmente, incluimos la opción de congelar el cuerpo compartido después de la primera etapa de entrenamiento, y solo actualizar la(s) cabeza(s). Los parámetros que componen la cabeza están determinados por el usuario. Para los experimentos en arquitecturas de cabezales múltiples, usamos seg_outputs como punto de división.

Durante el entrenamiento, el cuerpo compartido se modifica secuencialmente, mientras que la cabeza del modelo sigue siendo específica para la tarea. Durante la inferencia, la cabeza correspondiente se fusiona con el estado final del cuerpo compartido para extraer una predicción.

La nnU-Net incluye métodos para la preparación, el entrenamiento y la realización de inferencias de conjuntos de datos. El rendimiento en un conjunto de validación se monitorea con el coeficiente Dice, que mide la intersección de los vóxeles segmentados para una clase en la predicción A y la delineación de verdad básica B, normalizada por el número total de vóxeles en esa clase.

Teniendo en cuenta los requisitos del aprendizaje continuo, ampliamos esta lógica con:

Un módulo de evaluación para probar en todos los conjuntos de datos de interés, que se ejecutará después de que haya concluido el entrenamiento, y

El comportamiento extendido de seguimiento del rendimiento durante el entrenamiento en varios conjuntos de validación diferentes. Esto le da al usuario una idea de cómo el entrenamiento con cualquier tarea \(\mathscr {T}_i\) afecta gradualmente al entrenamiento con la tarea \(\mathscr {T}_j\), y les permite exportar trayectorias de entrenamiento expresivas como las visualizadas. en la figura 4.

Estas modificaciones permiten una validación rápida de la configuración de aprendizaje continuo y simplifican la validación de datos fuera de distribución sin necesidad de almacenar todos los estados del modelo.

Además de observar el rendimiento de la segmentación en forma de coeficiente Dice, exploramos métricas de la investigación de aprendizaje continuo que brindan una forma más intuitiva de comprender los resultados.

El objetivo principal del aprendizaje continuo en el mundo abierto, donde los cambios de distribución son comunes, es evitar el ajuste excesivo de las características de la imagen en los últimos lotes para que el modelo final pueda hacer frente a muestras de todas las fuentes vistas. Además de evitar el temido olvido catastrófico, el modelo idealmente debería lograr la transferencia hacia atrás y hacia adelante41 y garantizar un rendimiento confiable en todos los grupos de sujetos.

medimos la diferencia entre el rendimiento de un modelo en la tarea \(\mathscr {T}_i\) justo después de entrenar con esa tarea y después de entrenar con más tareas. Si el resultado es negativo, implica que se ha producido un olvido. Si, en cambio, el resultado es positivo, entonces se logró la propiedad deseable de la transferencia hacia atrás, por ejemplo, el entrenamiento con tareas \(\mathscr {T}_{i+1}\) mejora el rendimiento en la tarea \(\mathscr {T} _{i}\).

calculamos qué tan ventajoso es el proceso de ajuste fino para una determinada tarea, es decir, la diferencia entre el estado continuo del modelo justo después del entrenamiento con la tarea \(\mathscr {T}_i\) y el modelo \(\mathscr {F}_i\) entrenado únicamente en la tarea \(\mathscr {T}_i\). Un resultado positivo implica que el entrenamiento anterior con datos de otras tareas mejora el rendimiento del modelo después del ajuste fino, y un resultado negativo significa que el modelo no puede adaptarse a \(\mathscr {T}_i\). Este segundo caso puede ocurrir cuando se utilizan ciertos métodos de aprendizaje continuo que reducen la plasticidad del modelo. Aunque otras definiciones consideran esta métrica para todas las tareas futuras, nos enfocamos en la tarea correspondiente y definimos:

Para ambas métricas, informamos el cambio de rendimiento relativo con respecto al lado derecho de la resta. Esto nos permite comparar el rendimiento entre anatomías con diferentes dificultades de segmentación.

Entrenamos un modelo separado para cada tarea y visualizamos cómo se desempeña cada modelo en las otras tareas (ver Fig. 2). Esto nos ayuda a estimar la compatibilidad entre tareas, lo que debería facilitar el aprendizaje continuo.

A continuación describimos brevemente los métodos que comparamos en este trabajo. Remitimos al lector a nuestra base de código y documentación para obtener más detalles sobre la implementación.

La forma más simple de aprendizaje permanente implica intercalar muestras de tareas anteriores en los datos de entrenamiento. El tamaño del búfer de memoria determina cuántas de esas muestras se almacenan. El marco Lifelong nnU-Net permite al usuario realizar este tipo de entrenamiento con solo una línea de código, especificando las tareas y el tamaño del búfer de memoria. El comando necesario se ejemplifica en la Fig. 12. El ensayo es una estrategia muy efectiva que asegura consistentemente un buen desempeño, aunque no es admisible en entornos que no permiten el almacenamiento de muestras de entrenamiento.

Directiva de línea de comandos para realizar entrenamiento con ensayo. También se puede usar un argumento semilla opcional para seleccionar muestras de tareas anteriores de manera determinista.

La ejecución de otros métodos se realiza de manera similar, aunque con diferentes hiperparámetros.

Los enfoques basados ​​en la regularización evalúan la importancia de cada parámetro de entrenamiento y penalizan la divergencia del estado anterior ponderado por la importancia. El parámetro \(\lambda\) pondera la magnitud de esta pérdida de regularización y la pérdida objetivo (en nuestro caso para la segmentación de imágenes). La principal diferencia entre los métodos basados ​​en la regularización consiste en cómo se calcula la importancia. El popular método EWC25 utiliza la matriz de información de Fisher, que mide qué tan lejos están los resultados del modelo de las predicciones codificadas one-hot.

El método LwF26 consta de tres etapas de entrenamiento. (1) Después de la fase de entrenamiento para la tarea \(\mathscr {T}_{i}\), y antes de iniciar la tarea \(\mathscr {T}_{i+1}\), los resultados del modelo \(\mathscr { F}_{[i]}^i(\mathscr {T}_{i+1})\) y se crea un nuevo encabezado para \(\mathscr {T}_{i+1}\). (2) Luego, los parámetros compartidos se congelan y solo se entrena el nuevo jefe. (3) Finalmente, se afina el cuerpo compartido junto con todas las cabezas. Los resultados registrados en el primer paso se utilizan para entrenar a los jefes anteriores.

Una combinación del EWC introducido anteriormente con Path Integral forma RW27. La principal diferencia con EWC es el cálculo en línea de la matriz de información de Fisher para evaluar la importancia de cada parámetro. Con esta modificación, se puede omitir el pase adicional hacia adelante al final del entrenamiento para obtener los valores de Fisher.

El método MiB28, específicamente desarrollado para la segmentación semántica, utiliza una pérdida de entropía cruzada modificada en combinación con un término de destilación de conocimiento. La destilación de conocimiento se usa para forzar la activación de la red actual \(\mathscr {F}_{\theta }\) para que sea similar a la red anterior \(\mathscr {F}_{\theta _{i-1 }}\).

Entrenamos la versión de resolución completa de nnU-Net, que se recomienda para la mayoría de las aplicaciones24. Esta es una red tridimensional basada en parches. Para cada uno de nuestros tres casos de uso, los modelos se entrenan con cada conjunto de datos durante 250 épocas.

nnU-Net configura automáticamente los hiperparámetros para la arquitectura de la red y el proceso de capacitación, como la cantidad de bloques de codificación, la tasa de aprendizaje y el tamaño del parche, a partir de los datos de capacitación. Es posible que estos parámetros difieran entre conjuntos de datos del mismo caso de uso. En nuestro marco, siempre usamos la configuración elegida para el primer conjunto de datos, que es la opción más realista, ya que en una configuración continua real, solo estos datos están disponibles al construir la arquitectura.

A menos que se indique lo contrario, seleccionamos hiperparámetros utilizados en trabajos anteriores o que mostraron trayectorias de pérdida razonables en experimentos preliminares con una fracción de las épocas. Para el experimento cardíaco, probamos varias configuraciones en la Tabla 2. Para el Ensayo, establecemos el número de casos de tareas vistas anteriormente que se incluirán en la tarea actual al 25%. Para EWC, usamos el valor predeterminado de \(\lambda =0.4\) para sopesar el término de regularización. En el caso de LwF, fijamos la temperatura de destilación del conocimiento en 8 para el hipocampo y 64 para la próstata. Para RW, se utilizan \(\lambda =0.4\) para regularización y \(\alpha =0.9\) para calcular los valores de Fisher. MiB endurece las etiquetas blandas con \(\alpha =0.9\) para el hipocampo y \(\alpha =0.75\) para la próstata.

Remitimos al lector a nuestra base de código y documentación para obtener más detalles.

Todos los conjuntos de datos utilizados en este trabajo están disponibles abiertamente y las instrucciones de descarga se pueden encontrar en las referencias respectivas.

Nuestro código está disponible en https://github.com/MECLabTUDA/Lifelong-nnUNet. Previa solicitud, podemos facilitar el acceso a los modelos entrenados.

Johnson, C. Identificación de problemas comunes en la adquisición e implementación de proyectos de software críticos para la seguridad a gran escala en los sistemas de salud de los Estados Unidos y el Reino Unido. seguro ciencia 49, 735–745 (2011).

Artículo Google Académico

Yan, W. et al. El problema del cambio de dominio de la segmentación de imágenes médicas y la adaptación de proveedores por unet-gan. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 623–631 (Springer, 2019).

González, C. et al. Detectar cuando los modelos nnu-net pre-entrenados fallan silenciosamente para la segmentación de lesiones pulmonares covid-19. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, 304–314 (Springer, 2021).

Liu, X. et al. La auditoría algorítmica médica. Salud de los dígitos de Lancet (2022).

Alimentos, U., Administración, D. et al. Plan de acción de software basado en inteligencia artificial/aprendizaje automático (ai/ml) como dispositivo médico (samd). Administración de Drogas y Alimentos de EE. UU., White Oak, MD, EE. UU., Tech. Rep. 145022 (2021).

Rieke, N. et al. El futuro de la salud digital con el aprendizaje federado. Dígito NPJ. Medicina. 3, 1–7 (2020).

Artículo Google Académico

Sheller, MJ et al. Aprendizaje federado en medicina: facilitar colaboraciones multiinstitucionales sin compartir datos de pacientes. ciencia Rep. 10, 1–12 (2020).

Artículo Google Académico

Memmel, M., Gonzalez, C. & Mukhopadhyay, A. Aprendizaje continuo adversario para la segmentación del hipocampo multidominio. En Adaptación de dominio y transferencia de representación, y Atención médica asequible e IA para la salud global diversa en recursos, 35–45 (Springer, 2021).

Baweja, C., Glocker, B. & Kamnitsas, K. Hacia el aprendizaje continuo en imágenes médicas. preimpresión de arXiv arXiv:1811.02496 (2018).

Perkonigg, M. et al. Memoria dinámica para aliviar el olvido catastrófico en el aprendizaje continuo con imágenes médicas. Nat. común 12, 1–12 (2021).

Artículo Google Académico

Srivastava, S., Yaqub, M., Nandakumar, K., Ge, Z. y Mahapatra, D. Aprendizaje incremental de dominio continuo para la clasificación de radiografías de tórax en entornos clínicos de bajos recursos. En Adaptación de dominio y transferencia de representación, y Atención médica asequible e IA para la salud global diversa en recursos, 226–238 (Springer, 2021).

Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Aprendizaje continuo en dispositivos médicos: el plan de acción de la FDA y más allá. Lancet Digit Health 3, e337–e338 (2021).

Artículo CAS PubMed Google Académico

Lee, CS & Lee, AY Aplicaciones clínicas del aprendizaje automático de aprendizaje continuo. Lancet Digit Health 2, e279–e281 (2020).

Artículo PubMed PubMed Central Google Académico

Vokinger, KN & Gasser, U. Regulación de la IA en medicina en Estados Unidos y Europa. Nat. Mach. Intel. 3, 738–739 (2021).

Artículo PubMed PubMed Central Google Académico

Prabhu, A., Torr, PH & Dokania, PK Gdumb: Un enfoque simple que cuestiona nuestro progreso en el aprendizaje continuo. En Conferencia europea sobre visión artificial, 524–540 (Springer, 2020).

Mundt, M., Hong, YW, Pliushch, I. y Ramesh, V. Una visión holística del aprendizaje continuo con redes neuronales profundas: lecciones olvidadas y el puente hacia el aprendizaje activo y de mundo abierto. preimpresión de arXiv arXiv:2009.01797 (2020).

Hsu, Y.-C., Liu, Y.-C., Ramasamy, A. & Kira, Z. Reevaluación de escenarios de aprendizaje continuo: una categorización y un caso para líneas de base sólidas. preimpresión de arXiv arXiv:1810.12488 (2018).

Lomonaco, V. et al. Avalanche: una biblioteca integral para el aprendizaje continuo. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 3600–3610 (2021).

Gonzalez, C., Sakas, G. & Mukhopadhyay, A. ¿Qué tiene de malo el aprendizaje continuo en la segmentación de imágenes médicas? preimpresión de arXiv arXiv:2010.11008 (2020).

Michieli, U. & Zanuttigh, P. Técnicas de aprendizaje incremental para la segmentación semántica. En Actas de la Conferencia internacional IEEE sobre talleres de visión por computadora (2019).

Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modelando el trasfondo para el aprendizaje incremental en la segmentación semántica. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 9233–9242 (2020).

Nguyen, G. et al. Diseccionando el olvido catastrófico en el aprendizaje continuo mediante una visualización profunda. preimpresión de arXiv arXiv:2001.01578 (2020).

Matsumoto, A. & Yanai, K. Aprendizaje continuo de redes de traducción de imágenes utilizando máscaras de selección de peso dependientes de la tarea. ACPR 2, 129–142 (2019).

Google Académico

Isensee, F., Jaeger, PF, Kohl, SA, Petersen, J. y Maier-Hein, KH nnu-net: un método de autoconfiguración para la segmentación de imágenes biomédicas basada en el aprendizaje profundo. Nat. Métodos 18, 203–211 (2021).

Artículo CAS PubMed Google Académico

Kirkpatrick, J. et al. Superando el olvido catastrófico en redes neuronales. proc. nacional Academia ciencia 114, 3521–3526 (2017).

Artículo ADS MathSciNet CAS PubMed PubMed Central MATH Google Scholar

Li, Z. & Hoiem, D. Aprender sin olvidar. Trans. IEEE. Patrón Anal. Mach. Intel. 40, 2935–2947 (2017).

Artículo PubMed Google Académico

Chaudhry, A., Dokania, PK, Ajanthan, T. & Torr, PH Riemannian walk for incremental learning: Comprender el olvido y la intransigencia. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 532–547 (2018).

Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modelando el trasfondo para el aprendizaje incremental en la segmentación semántica. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 9233–9242 (2020).

Verwimp, E., De Lange, M. & Tuytelaars, T. El ensayo reveló: Los límites y méritos de revisar muestras en el aprendizaje continuo. preimpresión de arXiv arXiv:2104.07446 (2021).

Aljundi, R., Chakravarty, P. & Tuytelaars, T. Expert gate: Aprendizaje permanente con una red de expertos. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 3366–3375 (2017).

Yushkevich, PA, Gao, Y. & Gerig, G. Itk-snap: una herramienta interactiva para la segmentación semiautomática de imágenes biomédicas multimodales. En 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 3342–3345 (IEEE, 2016).

Liu, Q., Dou, Q., Yu, L. y Heng, PA Ms-net: red multisitio para mejorar la segmentación de la próstata con datos heterogéneos de resonancia magnética. Trans. IEEE. Medicina. Imágenes 39, 2713–2724 (2020).

Artículo PubMed Google Académico

Liu, Q. Un conjunto de datos multisitio para la segmentación de resonancia magnética de próstata. https://liuquande.github.io/SAML/.

Bloch, NNCI-ISBI et al. Desafío: Segmentación automatizada de estructuras prostáticas. Cancer Imaging Arch. https://doi.org/10.7937/K9/TCIA.2015.zF0vlOPv (2013).

Artículo Google Académico

Lemaître, G. et al. Detección y diagnóstico asistidos por computadora para el cáncer de próstata basado en resonancia magnética mono y multiparamétrica: una revisión. computar Biol. Medicina. 60, 8–31 (2015).

Artículo PubMed Google Académico

Litjens, G. et al. Evaluación de algoritmos de segmentación de próstata para resonancia magnética: el desafío PROMISE12. Medicina. Anal de imagen. 18, 359–373 (2014).

Artículo PubMed Google Académico

Simpson, AL et al. Un gran conjunto de datos de imágenes médicas anotadas para el desarrollo y evaluación de algoritmos de segmentación. CoRRarXiv:abs/1902.09063 (2019).

Boccardi, M. et al. Etiquetas de entrenamiento para la segmentación del hipocampo basadas en el protocolo de hipocampo armonizado eadc-adni. Demencia de Alzheimer. 11, 175–183 (2015).

Artículo Google Académico

Kulaga-Yoskovitz, J. et al. Conjunto de datos y protocolo de segmentación de subcampo hipocampal submilimétrico de 3 teslas de contraste múltiple. ciencia Datos 2, 1–9 (2015).

Artículo Google Académico

Campello, VM et al. Segmentación cardíaca multicéntrica, multiproveedor y multienfermedad: el desafío m&ms. Trans. IEEE. Medicina. Imágenes 40, 3543–3554 (2021).

Artículo PubMed Google Académico

Díaz-Rodríguez, N., Lomonaco, V., Filliat, D. & Maltoni, D. No olvides, hay más que olvidar: Nuevas métricas para el aprendizaje continuo. En Taller de Aprendizaje Continuo, NeurIPS 2018 (Neural Information Processing Systems (2018).

Descargar referencias

Este trabajo fue apoyado por el Bundesministerium für Gesundheit (BMG) alemán con la subvención EVA-KI [ZMVI1-2520DAT03A].

Financiamiento de acceso abierto habilitado y organizado por Projekt DEAL.

Universidad Técnica de Darmstadt, Karolinenpl. 5, 64289, Darmstadt, Alemania

Camila González, Amin Ranem y Anirban Mukhopadhyay

Hospital Universitario de Colonia, Kerpener Str. 62, 50937, Colonia, Alemania

Daniel Pinto dos Santos

Hospital Universitario de Fráncfort, Theodor-Stern-Kai 7, 60590, Fráncfort, Alemania

Daniel Pinto dos Santos

Centro Médico Universitario de Mainz, Langenbeckstrasse 1, 55131, Mainz, Alemania

Ahmed Othman

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

CG concibió los experimentos, comenzó el desarrollo del marco y analizó los resultados. AR implementó todos los métodos y realizó los experimentos. DS y AO motivado y revisado el establecimiento de problemas y experimentos desde una perspectiva clínica. AM dirigió el desarrollo del estudio. Todos los autores revisaron el manuscrito.

Correspondence to Camila González.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

González, C., Ranem, A., Pinto dos Santos, D. et al. Lifelong nnU-Net: un marco para el aprendizaje continuo médico estandarizado. Informe científico 13, 9381 (2023). https://doi.org/10.1038/s41598-023-34484-2

Descargar cita

Recibido: 25 de octubre de 2022

Aceptado: 02 mayo 2023

Publicado: 09 junio 2023

DOI: https://doi.org/10.1038/s41598-023-34484-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR