License: Creative Commons Attribution 4.0 (9MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-586801
- DOI to cite this document:
- 10.5283/epub.58680
Item type: | Thesis of the University of Regensburg (PhD) |
---|---|
Open Access Type: | Primary Publication |
Date: | 22 July 2024 |
Referee: | Prof. Dr. Florian Hartig |
Date of exam: | 18 July 2024 |
Institutions: | Biology, Preclinical Medicine > Institut für Pflanzenwissenschaften > Group Theoretical Ecology (Prof. Dr. Florian Hartig) |
Keywords: | Machine Learning, Deep Learning, Data Science, Theoretical Ecology |
Dewey Decimal Classification: | 500 Science > 500 Natural sciences & mathematics |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Yes |
Item ID: | 58680 |
Abstract (English)
Data analysis is a central component of modern ecology to advance our knowledge of nature. For many decades statistical models have been the backbone of data analysis in ecology and evolution (E&E). However, traditional statistical models are unable to cope with the complexity of ecological patterns and the increasing dimensionality of ecological data. Promising solutions to these challenges are ...
Abstract (English)
Data analysis is a central component of modern ecology to advance our knowledge of nature. For many decades statistical models have been the backbone of data analysis in ecology and evolution (E&E). However, traditional statistical models are unable to cope with the complexity of ecological patterns and the increasing dimensionality of ecological data. Promising solutions to these challenges are offered by machine learning (ML), and deep learning (DL) algorithms. Unlike statistical models, ML and DL algorithms adjust their complexity data-dependent and provide highly optimized frameworks. But while DL algorithms have already achieved remarkable success in data annotation, the practical value of ML and DL algorithms for data analysis in E&E is still unclear. Their opaque algorithmic nature, limited interpretability, and their purpose for predictive modeling raise doubts about their suitability for inference which is crucial for E&E. To address these challenges, we ask the following questions: What are the underlying concepts of ML and DL algorithms? Can we use ML and DL algorithms to infer ecological effects? How reliable would be this inference? Can ML and DL algorithms be used for statistical computing?
The first chapter introduces the challenges of ecological data with statistical models and how ML and DL algorithms can provide solutions. In the second chapter we explain the principles of ML and DL algorithms such as their ability to automatically adjust their complexity and review their current role in E&E. We found that ML and DL algorithms are mostly used for data annotation and predictions, but they could also be used for inference. In the third chapter we investigate whether ML and DL algorithms can be used to infer complex ecological pattern. We found that ML and DL algorithms can successfully infer trait-matching plant-pollinator networks, better than statistical models. In the fourth chapter we study how computational statistics can benefit from DL frameworks. We found that the DL framework PyTorch allows joint species distribution models (JSDMs) to scale exceptionally well with the number of species. In addition, we found that this approach improves the accuracy of the estimates compared to other approaches. We conclude that DL frameworks can overcome computational bottlenecks in statistical models. In the fifth chapter we investigate the reliability of inference with ML and DL algorithms, in particular whether they can distinguish causal from correlative patterns. We found that most ML and DL algorithms are subject to the bias-variance tradeoff, but some algorithms (e.g., neural networks) have lower biases than others. We conclude that reliable inference with ML and DL algorithms depends on the algorithm, the hyperparameters, and the data. In the sixth chapter we present a new R package, ‘cito’ with a user-friendly interface for fitting deep neural networks based on torch, including uncertainty intervals for all outputs (e.g., predictions, xAI metrics). In the seventh chapter we found that ML algorithms can improve seed bank persistence predictions over statistical models. In the eighth chapter, we investigate how many levels are needed to reliably estimate random effects in mixed effects models. We found that five levels can be sufficient but in the case of a singular fit, switching to a fixed effects model can prevent an increase in the false positive rate. The final ninth chapter discusses the relevance of our studies to the question of whether and how ML and DL algorithms can support data analysis in E&E.
Translation of the abstract (German)
Die Datenanalyse ist ein zentraler Bestandteil der modernen Ökologie, um unser Wissen über die Natur zu erweitern. Seit vielen Jahrzehnten bilden statistische Modelle das Rückgrat der Datenanalyse in der Ökologie und Evolution (Ecology and Evolution, E&E). Traditionelle statistische Modelle sind jedoch nicht in der Lage, mit der Komplexität ökologischer Muster und der zunehmenden Dimensionalität ...
Translation of the abstract (German)
Die Datenanalyse ist ein zentraler Bestandteil der modernen Ökologie, um unser Wissen über die Natur zu erweitern. Seit vielen Jahrzehnten bilden statistische Modelle das Rückgrat der Datenanalyse in der Ökologie und Evolution (Ecology and Evolution, E&E). Traditionelle statistische Modelle sind jedoch nicht in der Lage, mit der Komplexität ökologischer Muster und der zunehmenden Dimensionalität ökologischer Daten umzugehen. Algorithmen des maschinellen Lernens (ML) und des Deep Learning (DL) bieten vielversprechende Lösungen für diese Herausforderungen. Im Gegensatz zu statistischen Modellen adaptieren ML- und DL-Algorithmen ihre Komplexität datenabhängig und stellen optimierte Softwarelösungen bereit. Während DL-Algorithmen bereits bemerkenswerte Erfolge in der Datenannotation erzielt haben, ist der praktische Wert von ML- und DL-Algorithmen für die Datenanalyse in E&E noch unklar. Ihre intransparente algorithmische Natur, ihre begrenzte Interpretierbarkeit und ihr Schwerpunkt auf prädiktiver Modellierung lassen Zweifel an ihrer Eignung für die Inferenz aufkommen, die für E&E von entscheidender Bedeutung ist. Zur Bewältigung dieser Herausforderungen stellen wir folgende Fragen: Was sind die zugrundeliegenden Konzepte von ML- und DL-Algorithmen? Können wir ML- und DL-Algorithmen verwenden, um komplexe Umwelteffekte zu verstehen? Wie zuverlässig wäre eine solche Inferenz? Können ML- und DL-Algorithmen für statistische Berechnungen verwendet werden?
Das erste Kapitel ist eine Einführung in die Herausforderungen von Umweltdaten mit statistischen Modellen und wie ML und DL Algorithmen Lösungen bieten können. Im zweiten Kapitel erläutere ich die Prinzipien von ML- und DL-Algorithmen, wie z.B. ihre Fähigkeit zur automatischen Komplexitätsanpassung, und untersuchen ihre derzeitige Rolle in E&E. Ich habe festgestellt, dass ML- und DL-Algorithmen hauptsächlich für die Annotation und Vorhersage von Daten verwendet werden, aber auch für die Inferenz eingesetzt werden können. Im dritten Kapitel untersuche ich, ob ML- und DL-Algorithmen zur Inferenz komplexer ökologischer Muster verwendet werden können. Ich habe herausgefunden, dass ML- und DL-Algorithmen besser als statistische Modelle in der Lage sind, trait-matching in Pflanzen-Bestäuber-Netzwerke zu inferieren. Im vierten Kapitel untersuche ich, wie die computergestützte Statistik von DL-Frameworks profitieren kann. Ich fand heraus, dass das DL-Framework PyTorch die Erstellung von joint species distribution models (JSDMs) ermöglicht, die außergewöhnlich gut mit der Anzahl der Arten bezüglich der Laufzeit skalieren. Darüber hinaus habe ich festgestellt, dass dieser Ansatz die Genauigkeit der Schätzer im Vergleich zu anderen Modellen verbessert. Ich komme zu dem Schluss, dass DL-Frameworks rechnerische Engpässe in statistischen Modellen überwinden können. Im fünften Kapitel untersuche ich die Zuverlässigkeit der ML- und DL-Algorithmen basierten Inferenz, insbesondere ihre Fähigkeit, zwischen kausalen und korrelativen Mustern zu unterscheiden. Ich habe festgestellt, dass die meisten ML- und DL-Algorithmen einem Kompromiss zwischen Verzerrung und Varianz unterliegen, dass aber einige Algorithmen (z.B. neuronale Netze) eine geringere Verzerrung aufweisen als andere. Ich komme zu dem Schluss, dass eine zuverlässige Inferenz mit ML- und DL-Algorithmen vom Algorithmus, den Hyperparametern und den Daten abhängt. Im sechsten Kapitel stelle ich ein neues R-Paket, 'cito', vor, dass eine benutzerfreundliche Schnittstelle für das Trainieren von tiefen neuronalen Netzen basierend auf Torch bietet, einschließlich Unsicherheitsintervalle für alle Ausgaben (z.B. Vorhersagen, xAI-Metriken). Im siebten Kapitel habe ich festgestellt, dass ML-Algorithmen die Vorhersage der Persistenz von Samenbanken im Vergleich zu statistischen Modellen verbessern können. Im achten Kapitel habe ich untersucht, wie viele Gruppen notwendig sind, um zufällige Effekte in gemischten Modellen zu schätzen. Ich fand heraus, dass fünf Gruppen ausreichend sein können, wenn die gemischten Modelle jedoch nicht konvergieren, ein Wechsel zu einem Modell mit festen Effekten einen Anstieg der Falsch-Positiv-Rate verhindern kann. Das abschließende neunte Kapitel diskutiert die Relevanz meiner Studien für die Frage, ob und wie ML- und DL-Algorithmen die Datenanalyse in E&E unterstützen können.
Metadata last modified: 22 Jul 2024 09:11