| License: Publishing license for publications excluding print on demand (4MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-434285
- DOI to cite this document:
- 10.5283/epub.43428
Item type: | Thesis of the University of Regensburg (PhD) |
---|---|
Open Access Type: | Primary Publication |
Date: | 6 July 2020 |
Referee: | Prof. Dr. Rainer Spang |
Date of exam: | 19 December 2019 |
Institutions: | Medicine > Institut für Funktionelle Genomik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) Informatics and Data Science > Department Computational Life Science > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) |
Keywords: | loss-function learning, tissue deconvolution, digital, cancer, immune cells |
Dewey Decimal Classification: | 500 Science > 500 Natural sciences & mathematics |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Yes |
Item ID: | 43428 |
Abstract (English)
The gene expression profile of a tissue averages the expression profiles of all cells in this tissue. Digital tissue deconvolution (DTD) addresses the following inverse problem: Given the expression profile y of a tissue, what is the cellular composition c of that tissue? If X is a matrix whose columns are reference profiles of individual cell types, the composition c can be computed by ...

Abstract (English)
The gene expression profile of a tissue averages the expression profiles of all cells in this tissue.
Digital tissue deconvolution (DTD) addresses the following inverse problem: Given the expression
profile y of a tissue, what is the cellular composition c of that tissue? If X is a matrix whose columns
are reference profiles of individual cell types, the composition c can be computed by minimizing
L(y − Xc) for a given loss function L. Current methods use predefined all-purpose loss functions.
They successfully quantify the dominating cells of a tissue, while often falling short in detecting
small cell populations.
In this here presented, newly developed approach training data are employed in order to learn
the loss function L along with the composition c. This allows for adaption of the loss function
to application-specific requirements, such as focusing on small cell populations or distinguishing
phenotypically similar cell populations.
Loss-function learning is tested on two different single-cell RNA sequencing data sets. The first
is generated from melanoma specimens and the second from peripheral blood samples of patients
with Chronic Lymphocytic Leukemia (CLL). The CLL data were augmented by bulk sequencing
data. It could be demonstrated that the here introduced method quantifies large cell fractions as
accurately as existing methods and significantly improves the detection of small cell populations
and the distinction of similar cell types. Furthermore, it is shown that the developed DTD models
may be applied mutually to both sets of data. As a result the model on the melanoma data is also
relevant for the CLL data set and vice versa.
Translation of the abstract (German)
In der Medizin wird das bösartige unkrontrollierte Vermehren und Wuchern von Zellen als Krebs bezeichnet. Bösartig heißt, dass es neben der Ausbildung des Primärtumors zur Streuung und somit Bildung von Metastasen kommt. Die Häufigkeit des Befalls der einzelnen Organe ist abhängig von Faktoren wie Alter, Geschlecht, Region und Lebenswandel. In Deutschland ist Krebs die zweithäufigste ...

Translation of the abstract (German)
In der Medizin wird das bösartige unkrontrollierte Vermehren und Wuchern von Zellen als Krebs
bezeichnet. Bösartig heißt, dass es neben der Ausbildung des Primärtumors zur Streuung und somit
Bildung von Metastasen kommt. Die Häufigkeit des Befalls der einzelnen Organe ist abhängig
von Faktoren wie Alter, Geschlecht, Region und Lebenswandel. In Deutschland ist Krebs die
zweithäufigste Todesursache nach Herz-Kreislauf-Erkrankungen. Wird rechtzeitig eine Therapie
begonnen, oder tritt ein langsam verlaufender Krebs erst in hohem Lebensalter auf, so muss der
Verlauf nicht tödlich sein. Die relativen 5-Jahres-Überlebensraten über alle Krebsarten in Deutsch-
land betrugen 2017 65% bei Frauen und 59% bei Männern.
Besonders erbgutbeeinflussende Faktoren sind krebsserregend, da hier die Mutationen in alle
nachfolgenden Tochterzellen weitergetragen werden. Während der Zellteilung ist die Zelle beson-
ders anfällig für Mutationen, deshalb sind sich schnell teilende Zellen häufiger von Kreps betroffen.
Die meisten Krebsarten (90-95% der Fälle) werden durch Umweltfaktoren ausgelöst. Diese
sind Umweltgifte und radioaktive, Röntgen- oder UV-Strahlung, die auch bei Untersuchungsme-
thoden wie CT-Scans auftritt. Daneben gibt es biologische und therapeutische Einflüsse wie
Onkoviren, Stammzelltherapie sowie immunsuppressive Therapien nach Organtransplantation. Ebenso haben die Lebensumstände und der Lebensstil einen großen Einfluss auf die Entste-
hung von Tumoren. Dabei handelt es sich beispielsweise um Übergewicht, Tabak- sowie
Alkoholkonsum.
Tumore bestehen nicht nur aus den entarteten Krebszellen sondern enthalten Blutgefäße zur
Versorgung sowie Immunzellen. Die Zusammensetzung dieser Immunzellen ist abhänig von der Art
des Tumors sowie dem Patienten. Zwischen Immun- und Tumorzellen gibt es komplexe Wechsel-
wirkungen, diese haben Einfluss auf den Verlauf der Erkrankung sowie die Heilungschancen. Ebenso können die vorkommenden Immunzellen zur Immuntherapie der Tumore verwendet
werden. Krebszellen tarnen sich gegenüber den Immunzellen und werden von diesen somit
nicht mehr erkannt. Schafft man es, diese Blockade zu lösen und das Immunsystem zu stimulieren,
so ist es diesem wieder möglich, die Tumorzellen zu erkennen und zu vernichten.
Es spielt eine Rolle, welche Immunzellen sich im und um den Tumor aufhalten, und in welcher
Menge sie vorkommen. Übliche Methoden um diese Frage zu beantworten sind beispielsweise Im-
munhistochemie oder fluoreszensz aktivierte Zellsortierung (fluorescence-activated cell sorting =
FACS). Bei der Immunhistochemie werden Proteine oder andere Strukturen in Gewebe mit Hilfe
von Antikörpern sichtbar gemacht. Tumorzellen können so identifiziert und klassifiziert werden, da
13in diesen bestimmte, nachweisbare Antigene exprimiert sind. So können Therapien bei morpholo-
gisch gleich erscheinenden Tumoren auf deren tatsächliche Tumoreigenschaften angepasst werden.
Bei FACS werden die Zellen einer Probe analysiert, indem sie einzeln mit hoher Geschwindigkeit
an einem Lichtstrahl oder einer elektrischen Spannung vorbeigeleitet werden. Dabei werden unter-
schiedliche Effekte erzeugt, abhängig von Form, Struktur und Zellfärbung, aus welchen die Zelleigen-
schaften abgeleitet werden.
Weitere Verfahren sind Einzelzell-RNA-Sequenzierung, Massenspektrometrie und PT-
PCR.
Neuere Methoden wie gene set enrichment analysis (GSEA) oder digital tissue deconvolution
(DTD) sind computergestützt. GSEA ist eine Methode um Gen- oder Proteinklassen zu
identifizieren, welche in einer großen Anzahl von Genen oder Proteinen über- oder unterrepräsentiert
sind.
In dieser Arbeit stellen wir eine Methode zur DTD vor. Dabei werden anhand von Einzelzellmes-
sungen diejenigen Gene bestimmt, welche bei der Dekonvolution des untersuchten Gewebes die op-
timalen Ergebnisse erzielen. Der große Vorteil ist, dass, so diese Gene einmal bestimmt sind, sie zur
Dekonvolution von Bulk-Messungen verwendet werden können. Hierzu existieren viele verschiedene
Algorithmen, einige davon werden in den Kapiteln 1.2.2 und 1.2.3 beschrieben. Die Verwendung
von aus Einzelzellmessungen definierten Gensets zur Dekonvolution ist ein großer Vorteil, da Bulk-
Messungen im Vergleich zu Einzelzellmessungen deutlich kostengünstiger sind. Bei einigen DTD
Methoden werden Referenzprofile der zu untersuchenden Zelltypen verwendet, bei anderen nicht.
Diese können ebenso aus den Einzelzellmessungen gewonnen werden. Die hier vorgestellte Methode zur Digital Tissue Deconvolution gehört zu den ersteren Verfahren. Sie verwendet jedoch
im Unterschied zu anderen Methoden zusätzlich zu Referenzprofilen und Einzelzellmessungen noch
die Zellzusammensetzung bekannter Mischungen um die für die Dekonvolution aussagekräftigsten
Biomarker zu bestimmen. Im Gegensatz zu anderen Methoden werden diese Gene je nach betrach-
teten Immunzelltypen algorithmisch bestimmt und nicht aufgrund von biologischem oder medi-
zinischem Vorwissen. Damit ist diese Methode zur Bestimmung des Immunzellgehaltes von Proben
einerseits sehr variabel andererseits sehr und anpassungsfähig, z.B. an die jeweiligen Zelltypen von
Interesse. Der Nachteil dieser Methode ist, dass hierfür immer Daten zum Lernen notwendig sind,
so z.B. von single-cell Sequenzierungen.
In der vorliegenden Arbeit werden im ersten Teil die biologischen Grundlagen erklärt
sowie etablierte und neue Methoden zur Bestimmung von zellulären Zusammensetzungen vorgestellt.
Anschließend wird die Methode der Digital Tissue Deconvolution mathematisch beschrieben und
numerische Simulationen dazu durchgeführt. Anhand zweier Datensets wird gezeigt,
dass das beschriebene Verfahren zur Detektion der Immunzelltypen geeignet ist. Es wird zuerst
ein Datenset aus Einzelzellmessungen von 19 Melanomen betrachtet. Beim zweiten
Datenset handelt es sich um Einzelzellmessungen zu verschiedenen Zeitpunkten der Therapie bei
vier Patienten mit chronischer lymphatischer Leukämie. Zudem wird für beide Datensets
die vorgestellte Methode mit der aktuell führenden Methode in diesem Bereich, CIBERSORT,
verglichen. In allen Vergleichen wurden bessere Resultate erzielt.
Metadata last modified: 25 Nov 2020 16:23