Lizenz: Creative Commons Namensnennung 4.0 International PDF - Angenommene Version (31MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-epub-581944
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.58194
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) |
---|---|
Open Access Art: | Primärpublikation |
Datum: | 6 Mai 2024 |
Begutachter (Erstgutachter): | Prof. Dr. Rainer Spang |
Tag der Prüfung: | 22 April 2024 |
Institutionen: | Medizin > Institut für Funktionelle Genomik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) Informatik und Data Science > Fachbereich Bioinformatik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) |
Stichwörter / Keywords: | Digitale Infrastruktur, Web Applikation, Neuronale Netze, Pathologie, Lymphome |
Dewey-Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik 600 Technik, Medizin, angewandte Wissenschaften > 610 Medizin |
Status: | Veröffentlicht |
Begutachtet: | Ja, diese Version wurde begutachtet |
An der Universität Regensburg entstanden: | Ja |
Dokumenten-ID: | 58194 |
Zusammenfassung (Englisch)
Modern cancer research relies on a vast array of different technologies and data sources. Many of them use next-generation sequencing (NGS) techniques, with diverse application domains such as genomics, transcriptomics, epigenomics and metagenomics. These processes create data on the molecular level, and enables researchers to analyze genetic mutations, gene expression patterns, genome ...
Zusammenfassung (Englisch)
Modern cancer research relies on a vast array of different technologies and data sources. Many of them use next-generation sequencing (NGS) techniques, with diverse application domains such as genomics, transcriptomics, epigenomics and metagenomics. These processes create data on the molecular level, and enables researchers to analyze genetic mutations, gene expression patterns, genome methylation, protein-DNA interactions and much more. With falling costs, research projects are including more and more NGS experiments, creating massive amounts of data that requires secure storage, processing and analysis.
The advent and impressive progress of powerful AI models in recent years has created another important source of data from imaging. Pathologists analyze histopathological images to identify cellular abnormalities, tissue structures and patterns indicative of certain cancer subtypes. The pathologist’s diagnosis will often decide the cancer therapy used, and getting it correct is a matter of life and death. The amount of data, the complexity of it and the regulatory requirements render data-management a central task of utmost importance for the success of research projects.
This thesis focuses on two main loosely connected fields of interest, NGS sequencing and AI pathology. We first describe the infrastructure that was created to support work in both those fields, with the main result being a high- availability kubernetes cluster. It gives us a common platform for containerized services and pipelines.
For NGS sequencing, we created software that applies strong cryptography to all the sequencing data we receive. This is required for human genetic data, but we apply encryption to all sequencing data by default. Data is only stored encrypted by a symmetric key algorithm, and the symmetric keys are then secured using public-key cryptography. This hybrid cryptosystem has very strong security benefits, data access requires both access to the data and holding the proper keys. Even if the servers were to be compromised the data would stay secure. Multiple potential risks were considered and mitigated. We have documented and implemented various recovery options, e.g. in case of key-loss by users. Key innovation for this software is the use of the Web Crypto API in the user’s browser for all the cryptography. Users do not need to install software, and the cryptographic algorithms are built into the browser, where they are continuously audited, and browser vendors ensure their security. While our design does not require users to actively deal with the cryptography, they must also handle the data properly and secure their keys. We implement local crypto key generation, and we can save them to printed QR Codes where they closely map to the mental model for physical keys.
Connected to the NGS data, we centrally collect the relevant metadata in
a web-tool. The interface for users is similar to a simple spreadsheet, familiar to most users. But compared to simple Excel spreadsheet, through the central infrastructure, metadata is kept in sync for the whole data life-cycle. We designed metadata templates based on existing metadata standard, e.g. from the European Genome-Phenome Archive (EGA). Metadata standards are enforced in a user-friendly way by providing drop-downs and immediate user feedback on data validation. Data is stored as a full timeline of events, so even if data is accidentally overwritten it can be recovered. By having both the metadata and the sequencing data accessible through an API, pipelines can read and write the data automatically.
For AI pathology we first describe the shared infrastructure we created for our AI projects. This includes data ingestion, converting pathology slides to a common format, viewing the slides, and enabling fast random access for deep learning. We then present our work on the AI diagnosis of lymphoma on a dataset of 628 whole slides images from 157 patients. We use transfer learning to train deep neural networks on a large amount of patches, small pieces of the slide. These trained networks are then used on test data to generate diagnosis maps, locally annotated slide images that show the AI diagnosis for different regions of the slides. These maps can be evaluated by pathologists, and we can combine all the local diagnoses into a patient diagnosis. For the initial dataset of 157 patients we achieved great performance with 60% of patches classified correctly, and were able to correctly diagnose all patients. Unfortunately this performance did not transfer to an independent dataset, and more work is required to create a model that generalizes well.
Übersetzung der Zusammenfassung (Deutsch)
Die moderne Krebsforschung stützt sich auf ein breites Spektrum von unter- schiedlichen Technologien und Datenquellen. Viele von ihnen nutzen Sequen- zierungstechniken der nächsten Generation (NGS) mit verschiedenen Anwen- dungsbereichen wie Genomik, Transkriptomik, Epigenomik und Metagenomik. Diese Verfahren erzeugen Daten auf der molekularen Ebene, und ermöglichen den Forscher*innen die Analyse ...
Übersetzung der Zusammenfassung (Deutsch)
Die moderne Krebsforschung stützt sich auf ein breites Spektrum von unter- schiedlichen Technologien und Datenquellen. Viele von ihnen nutzen Sequen- zierungstechniken der nächsten Generation (NGS) mit verschiedenen Anwen- dungsbereichen wie Genomik, Transkriptomik, Epigenomik und Metagenomik. Diese Verfahren erzeugen Daten auf der molekularen Ebene, und ermöglichen den Forscher*innen die Analyse von Genexpression, Gen Mutationen, Protein- DNA-Interaktionen, DNA Methylierung und vieles mehr. Mit kontinuierlich sinkenden Kosten, werden in Forschungsprojekten immer mehr NGS-Experimente durchgeführt, die große Datenmengen erzeugen. Daten, die eine sichere Speicherung, Verarbeitung und Analyse erfordern.
Das Aufleben und die enormen Fortschritte leistungsstarker KI-Modelle in den letzten Jahren haben eine weitere wichtige Datenquelle geschaffen: die Bildanalyse. Patholog*innen analysieren histopathologische Bilder zur Iden- tifizierung von zellulären Anomalien, Gewebestrukturen, und um Muster zu erkennen, die auf bestimmte Krebs Subtypen hinweisen. Die Diagnose der Pathologin oder des Pathologen entscheidet oft über die angewandte Krebs- therapie, und die richtige Diagnose ist lebenswichtig für Patient*innen. Die Menge der Daten, ihre Komplexität und die strengen gesetzlichen Anforderun- gen machen das Datenmanagement zu einer Aufgabe von großer und zentraler Bedeutung für den Erfolg von Forschungsprojekten.
Diese Arbeit konzentriert sich auf zwei miteinander verbundene Interessens- gebiete: NGS-Sequenzierung und KI-Histopathologie. Zunächst wird die Infrastruktur beschrieben, die zur Unterstützung der Arbeit in diesen beiden Bereichen geschaffen wurde. Das wichtigste Ergebnis daraus ist ein hochverfügbarer Kubernetes-Cluster. Er bietet uns eine verteilte Plattform für containerisierte Dienste und Pipelines.
Für die NGS-Sequenzierung haben wir Software entwickelt die alle Sequen- zierungsdaten, die wir erhalten, mit starker Kryptografie verschlüsselt. Dies ist für genetische Daten von Menschen erforderlich, aber wir wenden Verschlüsselung standardmäßig auf alle Sequenzierungsdaten an. Die Daten werden nur symmetrisch verschlüsselt gespeichert, und die symmetrischen Schlüssel wer- den dann mit Public-Key-Kryptographie gesichert. Dieses hybride Kryptosystem hat große Sicherheitsvorteile, denn der Datenzugriff erfordert sowohl den Zugriff auf die Daten als auch den Besitz der richtigen Schlüssel. Selbst wenn die Server kompromittiert werden sollten, bleiben die Daten sicher. Mehrere potenzielle Risiken wurden berücksichtigt. Wir haben verschiedene Wiederherstellungsoptionen dokumentiert und implementiert, z. B. für den Fall eines Schlüsselverlusts durch die Benutzer*innen. Die wichtigste Innovation dieser Software ist die Verwendung der Web Crypto API im Webbrowser des Benutzers für die gesamte Kryptografie. Die Nutzer*innen müssen keine Software installieren, und die kryptografischen Algorithmen sind in den Browser integriert, wo sie ständig überprüft werden und die Hersteller der Browser ihre Sicherheit gewährleisten. Bei unserem Entwurf müssen sich die Nutzer*innen zwar nicht aktiv mit der Kryptografie befassen, aber sie müssen trotzdem mit den Daten richtig umgehen und ihre Schlüssel sichern. Wir haben die lokale Erzeugung von Kryptoschlüsseln implementiert und können sie auf gedruckten QR-Codes speichern, die dem mentalen Modell für physische Schlüssel sehr ähnlich sind.
In Verbindung mit den NGS-Daten sammeln wir die relevanten Metadaten zentral in einem Webtool. Die Benutzeroberfläche ähnelt einem einfachen Spreadsheet, das den meisten Nutzer*innen vertraut ist. Doch im Vergleich zu einer einfachen Excel-Tabelle werden die Metadaten durch die zentrale Infrastruktur über den gesamten Lebenszyklus der Daten hinweg synchron gehalten. Wir haben Metadatenvorlagen auf der Grundlage bestehender Metadatenstandards, z. B. denen des European Genome-Phenom Archive (EGA), entwickelt. Die Metadatenstandards werden auf benutzerfreundliche Weise, durch Dropdowns und sofortige, visuelle Datenvalidierung durchgesetzt. Die Daten werden als vollständige Zeitleiste der Ereignisse gespeichert, so dass sie selbst bei versehentlichem Überschreiben wiederhergestellt werden können. Da sowohl die Metadaten als auch die Sequenzierungsdaten über eine API zugänglich sind, können Pipelines die Daten automatisch lesen und schreiben.
Für die KI-Pathologie beschreiben wir zunächst die gemeinsame Infrastruktur, die wir für unsere KI-Projekte geschaffen haben. Dazu gehören die Datenaufnahme, die Konvertierung von Pathologie Objektträger Scans in ein offenes Format, die Visualisierung der digitalen Bilder und der schnelle Lesezugriff für Deep Learning. Anschließend stellen wir unsere Arbeit an der KI- Diagnose von Lymphomen anhand eines Datensatzes von 628 digitalisierten Objektträgern von 157 Patient*innen. Wir verwenden Transfer Learning, um tiefe neuronale Netze auf einer großen Menge von Patches, Bilder von kleinen Teilen des Objektträgers, zu trainieren. Diese trainierten Netze werden dann auf Testdaten angewendet, um Diagnosekarten zu erzeugen. Das sind lokal annotierte Objektträgerbilder, die die KI-Diagnose für verschiedene Regionen der Objektträger anzeigen. Diese Karten können von Patholog*innen ausgewertet werden, und wir können alle lokalen Diagnosen zu einer Patient*innen Diagnose zusammenfassen. Für den Datensatz von 157 Patient*innen erzielen wir eine gute Quote von 60% richtig klassifizierter Patches und waren in der Lage, alle Patienten korrekt zu diagnostizieren. Leider ließ sich diese Leistung nicht auf einen unabhängigen Datensatz übertragen, und es ist weitere Arbeit erforderlich, um ein Modell zu erstellen, das auf verschiedenen Datensätzen gut performt.
Metadaten zuletzt geändert: 06 Mai 2024 08:31