Aspetto imprescindibile dello sviluppo di strumenti di AI è la possibilità di accedere a un elevato numero di esempi, e quindi di dati, con i quali addestrare gli algoritmi che sottostanno alle Intelligenze Artificiali. Dati la cui disponibilità non risulta tuttavia sempre garantita a causa dei vincoli imposti dalla tutela della privacy o da politiche di non diffusione. Un recente studio condotto da un team di ricercatrici e ricercatori di ICSC – Centro Nazionale di Ricerca in High Performance Computing, Big Data e Quantum Computing dell’Università di Torino e Catania nell’ambito delle attività dello Spoke 1 di ICSC (Future HPC and Big Data) mostra come una simile mancanza di data set adeguati possa essere superata dall’adozione di un innovativo approccio di tipo federato e decentralizzato al processo di apprendimento, in grado di assicurare anche la protezione delle informazioni personali contenute nei dati utilizzati. Lo studio, descritto all’interno di un articolo apparso sulla rivista ‘Computer Vision e Visual Understanding’, ha riguardato la messa a punto di due diversi algoritmi per la diagnostica medica per mezzo di raccolte di dati sanitari sia pubbliche che appartenenti agli ospedali coinvolti nell’addestramento, evidenziando la capacità della tecnica proposta, denominata Continual Learning, di garantire prestazioni simili a quelle ottenibili mediante l’approccio basato sul ricorso a un unico insieme di dati (Data Lake). Risultato che dimostra inoltre come l’impiego del Continual Learning possa trovare un importante spazio in tutti quegli ambiti applicativi che condividano l’esigenza di mantenere riservati i loro dati.
Caratterizzato dalla suddivisione del processo di allenamento dell’AI in più fasi, ognuna delle quali coinvolge un solo nodo della rete dedicata all’addestramento e i soli dati disponibili localmente, l’apprendimento federato è stato fino a oggi sviluppato, studiato e implementato in modo centralizzato. Una strategia che prevede la distribuzione dello stesso algoritmo a tutti i nodi della rete e l’aggregazione da parte di un server centrale dei risultati dell’addestramento in un modello globale.
“Proposta per la prima volta in un lavoro pubblicato da Google nel 2016”, spiega Marco Aldinucci, Co-leader dello Spoke 1 di ICSC e Professore dell’Università di Torino, la tecnica del Federated Learning nasce dall’idea di avere a disposizione la grande mole di dati che contraddistingue i Data Lake indispensabili per l’addestramento dei modelli generativi, anche in assenza di un effettivo Data Lake. In questo modo risulta quindi possibile allenare molti modelli separati di AI e poi rimetterli insieme, senza avere la necessità di spostare i dati, che rimangono in possesso dei proprietari, i quali possono trovare complicato renderli pubblici per motivi di privacy, come nel caso degli ospedali, o che semplicemente non sono intenzionati a condividerli in virtù del loro valore.”
Pur dimostrandosi efficace nell’allenare le AI, l’apprendimento federato centralizzato presenta limiti legati alla difficile scalabilità delle reti responsabili dell’addestramento e alla propagazione di eventuali errori. Difficoltà che, rimanendo in ambito federato, possono essere risolte dall’innovativo approccio sviluppato dai ricercatori del Centro Nazionale ICSC, costituito da un processo continuativo e incrementale, in cui l’algoritmo, una volta effettuato un round di allenamento da parte di un nodo, viene trasmesso al nodo successivo, che contribuirà a migliorarne l’accuratezza grazie a una ulteriore fase di addestramento svolta su un nuovo campione di dati. Elemento centrale del Continual Learning è inoltre rappresentato dal trasferimento tra i nodi della rete di dati sintetici generati per riprodurre i campioni di esempi per i quali l’IA ha fornito output corretti, al fine di rinforzare l’apprendimento ed evitare la condivisione di dati reali sensibili.
“Il Continual Learning”, illustra Marco Aldiducci, “consente di fare un importante passo avanti rispetto all’apprendimento federato di tipo classico, in quanto gli algoritmi non sono più visti come oggetti statici, ma ricevono sempre nuovi dati, con la conseguente evoluzione dei modelli. Quindi, il processo di riferimento non è più cristallizzato in un singolo scambio, ma continua a imparare, riducendo la possibilità di propagazione di errori attraverso la condivisione di dati deep fake. Questi dati sono a loro volta prodotti da Intelligenze Artificiali allenate con dati presenti localmente, i quali informano ogni nodo sugli esempi su cui l’algoritmo ha dimostrato di funzionare correttamente. Un vantaggio importante di questa innovativa tecnica è inoltre costituito dalla modularità dell’infrastruttura che è necessario realizzare per garantire gli scambi, poiché, a differenza dell’apprendimento federato classico, essa può contare sulle sole risorse già presenti a livello locale e non pone vincoli sul tipo di connessioni che devono essere implementate tra i nodi, che nel caso specifico di questo studio sono identificabili con gli ospedali coinvolti.”
Per mettere alla prova la sua validità, il Continual Learning è stato testato allenando due diversi algoritmi di Intelligenza Artificiale sviluppati rispettivamente per classificare le forme di tubercolosi associate ai Raggi X del torace di pazienti e la diagnosi associata a immagini di lesioni cutanee. Cinque gli ospedali coinvolti nell’addestramento – due nel primo e tre nel secondo caso – e proprietari dei dati. Oltre a verificare la capacità della tecnica di preservare la privacy dei dati utilizzati dagli ospedali nei vari round di addestramento, l’esperimento ha dimostrato come il Continual Learning sia in grado di fornire performance superiori rispetto all’approccio federato basato su un server centrale. Un risultato che apre la strada all’applicazione della tecnica a casi d’uso più ampi e diversificati, nonché a un suo impiego nel settore industriale, così come previsto dagli obiettivi del Centro Nazionale ICSC.
“Lo studio si inserisce nelle attività della flagship 4 dello Spoke 1 del Centro Nazionale ICSC e prosegue su una linea di ricerca già avviata grazie al lavoro svolto negli ultimi anni dal gruppo dell’Università di Torino, fornendo una ulteriore prova dell’efficacia del Continual Learning. Per questo motivo, lo Spoke 1 di ICSC sta attualmente lavorando, in collaborazione con vari ospedali e con i propri partner, su un futuro follow up industriale e sulla validazione della tecnica su una scala più ampia nell’ambito di patologie come il tumore al polmone, Parkinson e Alzheimer. Inoltre, la tecnica, che può essere integrata con dati di formato diverso, risulta particolarmente adatta per essere sfruttata in altri settori, come quello bancario, anch’esso contraddistinto da una importante richiesta di tutela della privacy dei dati, in cui il Continual Learning potrebbe giocare un ruolo decisivo nell’addestramento di algoritmi di strumenti di Intelligenza Artificiale volti, per esempio, al riconoscimento delle frodi”, conclude Aldinucci.