Analisi e Sviluppo di un Protocollo Standard ad alto livello per il Federated Computing all’interno dell’European Health Data Space (EHDS)

The increasing availability of health data poses new challenges, not only in their collection but also in the ability to interpret and value them, in a context increasingly oriented towards personalized medicine and advanced clinical research. However, the fragmentation of information sources and the highly sensitive nature of this data, combined with the entry into force of the General Data Protection Regulation, make sharing between healthcare institutions complex. These factors, taken together, are slowing scientific progress and limiting opportunities for international cooperation. In this scenario, Federated Computing is proposed as a promising technology to overcome these barriers, allowing distributed analysis of data without the need to physically transfer it. Despite its potential, large-scale adoption is still hampered by the lack of shared and standardized protocols that can ensure security, interoperability and regulatory compliance, especially in regulated sectors such as healthcare. The present thesis, developed in collaboration with the Universidad Politécnica de Madrid within the European PROTECT-CHILD project, has as main objective the development of a high-level standard protocol for Federated Computing. The protocol is designed to be applicable within the European Health Data Space and in contexts governed by European data protection legislation. The work aims to provide operational guidelines and a reference model that integrates techniques of Federated Learning and Federated Analytics, respecting the principles of security, privacy and sustainability. To achieve this, a multidisciplinary and iterative methodological approach has been adopted, divided into four main phases. Initially, a Systematic Literature Review was conducted with the objective of critically analyzing the state of the art of Federated Computing, including the main architectures, technologies and frameworks, as well as Federated Learning methods, Federated Analytics and Privacy-Preserving Artificial Intelligence solutions. Following this, empirical data was collected through a survey addressed to three key professional profiles - technical, clinical and legal experts - to analyse emerging criticalities and application priorities. The information gathered has guided the design and refinement of the Federated Computing Protocol, addressing common limitations found in existing frameworks. The integration of theoretical and empirical results led to the definition of a protocol structured in 13 steps, organized into five macro phases: Infrastructure Setup, Planning and Preparation, Network and Task Configuration, Execution and Computation, Aggregation and Validation. The protocol is subsequently implemented and validated within the Vantage6 framework, allowing to verify its applicability and to compare it with the solution already adopted in the PROTECT-CHILD project. The analysis reveals important considerations for the effective adoption of Federated Computing in healthcare. In addition to the need to standardise federated processes to ensure their scalability, interoperability and regulatory compliance, structural constraints have been identified which slow down the adoption of such approaches, including weaknesses in authentication systems, the absence of shared validation and control models, and the fragmentation of Federated Analytics algorithms. The results of the research have been shared with project stakeholders and the European Community, actively contributing to the ongoing debate on the regulation of the sector.

La crescente disponibilità di dati sanitari pone nuove sfide, non solo nella loro raccolta ma anche nella capacità di interpretarli e valorizzarli, in un contesto sempre più orientato alla medicina personalizzata e alla ricerca clinica avanzata. Tuttavia, la frammentazione delle fonti di informazione e il carattere altamente sensibile di tali dati, unitamente all'entrata in vigore del General Data Protection Regulation (GDPR), rendono complessa la condivisione tra le istituzioni sanitarie. Questi fattori, considerati nel loro insieme, rallentano il progresso scientifico e limitano le opportunità di cooperazione internazionale. In questo scenario, il Federated Computing è proposto come una tecnologia promettente per superare queste barriere, consentendo l'analisi distribuita dei dati senza la necessità di trasferirli fisicamente. Nonostante il suo potenziale, l'adozione su larga scala è ancora ostacolata dalla mancanza di protocolli condivisi e standardizzati in grado di garantire la sicurezza, l'interoperabilità e la conformità normativa, soprattutto nei settori regolamentati come quello sanitario. La presente tesi, sviluppata in collaborazione con l'Universidad Politécnica de Madrid nell'ambito del progetto europeo PROTECT-CHILD, ha come obiettivo principale lo sviluppo di un protocollo standard ad alto livello per il Federated Computing. Il protocollo è concepito per essere applicabile all'interno European Health Data Space (EHDS) e in contesti disciplinati dalla legislazione europea sulla protezione dei dati. Il lavoro si propone di fornire linee guida operative e un modello di riferimento che integri le tecniche di Federated Learning e Federated Analytics, rispettando i principi di sicurezza, privacy e sostenibilità. Per raggiungere questo obiettivo è stato adottato un approccio metodologico multidisciplinare e iterativo, suddiviso in quattro fasi principali. Inizialmente, è stata condotta una revisione sistematica della letteratura con l'obiettivo di analizzare criticamente lo stato dell'arte del Federated Computing, comprese le principali architetture, tecnologie e framework, nonché i metodi di Federated Learning, Federated Analytics e le soluzioni Privacy-Preserving Artificial Intelligence. In seguito, i dati empirici sono stati raccolti attraverso un'indagine rivolta a tre profili professionali chiave - tecnici, clinici e legali - per analizzare le criticità emergenti e le priorità applicative. Le informazioni raccolte hanno guidato la progettazione e il perfezionamento del Federated Computing Protocol, affrontando i limiti comuni riscontrati nei framework esistenti. L'integrazione dei risultati teorici ed empirici ha portato alla definizione di un protocollo strutturato in 13 fasi, organizzate in cinque macro-fasi: Infrastructure Setup, Planning and Preparation, Network and Task Configuration, Execution and Computation, Aggregation and Validation. Il protocollo viene successivamente attuato e convalidato nel framework Vantage6, consentendo di verificarne l'applicabilità e di confrontarlo con la soluzione già adottate nel progetto PROTECT-CHILD. L'analisi rivela importanti considerazioni per l'effettiva adozione del Federated Computing nel settore sanitario. Oltre alla necessità di standardizzare i processi federati per garantirne la scalabilità, l'interoperabilità e la conformità normativa, sono stati individuati vincoli strutturali che rallentano l'adozione di tali approcci, tra cui debolezze nei sistemi di autenticazione, l'assenza di modelli condivisi di convalida e controllo e la frammentazione degli algoritmi Federated Analytics. I risultati della ricerca sono stati condivisi con le parti interessate del progetto e la Comunità Europea, contribuendo attivamente al dibattito in corso sulla regolamentazione del settore.