License: Publishing license for publications excluding print on demand (6MB) |
- URN to cite this document:
- urn:nbn:de:bvb:355-epub-583269
- DOI to cite this document:
- 10.5283/epub.58326
Item type: | Thesis of the University of Regensburg (PhD) |
---|---|
Open Access Type: | Primary Publication |
Date: | 6 August 2024 |
Referee: | Prof. Dr. Christian Wolff and Prof. Dr. Martin G. Weiß |
Date of exam: | 22 May 2024 |
Institutions: | Languages and Literatures > Institut für Information und Medien, Sprache und Kultur (I:IMSK) > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) Informatics and Data Science > Department Human-Centered Computing > Lehrstuhl für Medieninformatik (Prof. Dr. Christian Wolff) |
Keywords: | Artificial Intelligence, Machine Learning, Optimization, Software Engineering, Statistics, ADAM Optimizer |
Dewey Decimal Classification: | 000 Computer science, information & general works > 004 Computer science 500 Science > 510 Mathematics 600 Technology > 670 Manufacturing |
Status: | Published |
Refereed: | Yes, this version has been refereed |
Created at the University of Regensburg: | Partially |
Item ID: | 58326 |
Abstract (English)
Nowadays it is quite easy to train neural networks. With frameworks like Tensorflow or PyTorch, even beginners can train networks in just a few lines of code. Other methods of artificial intelligence (AI) can also be easily integrated, and that is a good thing, in order to bring these promising technologies into many areas of everyday life. Many people already use AI, for example in image ...
Abstract (English)
Nowadays it is quite easy to train neural networks. With frameworks like Tensorflow or PyTorch, even beginners can train networks in just a few lines of code. Other methods of artificial intelligence (AI) can also be easily integrated, and that is a good thing, in order to bring these promising technologies into many areas of everyday life. Many people already use AI, for example in image processing or speech recognition, without necessarily even knowing the meaning of AI. And as AI is expected to help solve many of the main problems of our time (i.e. climate change or demographic change), such intersections will become more common. In principle, it is not a problem if the user is not an AI expert. After all, not every car driver knows the functional principle of an engine. However, programmers should have enough knowledge about AI to be able to assess the consequences and dangers for users, and this is where a problem arises. Many applications that already work in practice have hardly been researched mathematically. One example is the ADAM optimizer from Kingma and Ba, which is often used to train neural networks but has no proof of convergence and even has a counterexample several years after its publication.
Such differences between application and research should not be underestimated in such a fast growing field as neural networks. It is primarily the rapidly growing computing power that has made more and more applications possible in recent years. Nevertheless, the theory behind it should not be neglected, since, for example, security-relevant tasks (i.e. autonomous driving) are also processed with it.
Therefore, in this work we will first start with a topic born from practice, 3D pose estimation using neural networks. In the course of the work, more and more mathematical gaps in the theory have become apparent, so that in the second part of the thesis we will mainly consider the convergence behavior of individual gradient descent algorithms.
Since this work contains many different topics, we would like to formulate various research questions and briefly discuss the contribution made.
Research question 1: Are neural networks suitable for determining rotations or poses of objects in industrial environments?
In Chapter 2 we observe pose estimations of objects in automated production conditions. Here we focus first on the rotation in the two-dimensional case and then on the three-dimensional case with three degrees of freedom. We create an overview of suitable architectures and present noticeable tricks. The expectation of this research question is to obtain a more cost effective tool for pose estimation. Furthermore, a better generalization is expected, which is helpful in case of disturbances in the images.
Research question 2: How can we explain the U-shapes that appear in tests of neural networks with different noise?
In Chapter 2, we discovered parabolic curves when testing networks with different perturbations. In Chapter 3, we trained neural networks with a fixed noise rate. The expectation when testing with different values for the noise would be to get the smallest test error with the smallest disturbance or with the trained disturbance. However, this was not the case in the experiments shown. We then developed theories and experiments to describe this behavior.
Research question 3: How can we describe the convergence behavior of the ADAM optimizer?
While trying to better understand the training behavior of neural networks in Chapters 2 and 3, the weaknesses of the convergence proof of one of the most important optimizer in the field of neural networks were again noticed. We address this issue in Chapter 4, where we prove local convergence and global non convergence in batch mode. At the end of Chapter 4 we also give a convergence proof for the ADAM in incremental mode.
Research question 4: Can the previously developed methods be applied to other adaptive gradient descent methods?
In Chapter 5, we address the question of how we can apply the insights gained in Chapter 4 to other adaptive gradient descent methods. In doing so, we can achieve similar results for SGD, RMSProp, AdaGrad, AdaDelta and AMSGrad.
Translation of the abstract (German)
Heutzutage ist es recht einfach, neuronale Netze zu trainieren. Mit Frameworks wie Tensorflow oder PyTorch können selbst Anfänger in wenigen Zeilen Code Netze trainieren. Auch andere Methoden der künstlichen Intelligenz (KI) lassen sich leicht integrieren, und das ist auch gut so, um diese vielversprechenden Technologien in viele Bereiche des täglichen Lebens zu bringen. Viele Menschen nutzen KI ...
Translation of the abstract (German)
Heutzutage ist es recht einfach, neuronale Netze zu trainieren. Mit Frameworks wie Tensorflow oder PyTorch können selbst Anfänger in wenigen Zeilen Code Netze trainieren. Auch andere Methoden der künstlichen Intelligenz (KI) lassen sich leicht integrieren, und das ist auch gut so, um diese vielversprechenden Technologien in viele Bereiche des täglichen Lebens zu bringen. Viele Menschen nutzen KI bereits, zum Beispiel in der Bildverarbeitung oder der Spracherkennung, ohne unbedingt zu wissen, was KI bedeutet. Und da man davon ausgeht, dass KI zur Lösung vieler der wichtigsten Probleme unserer Zeit (z. B. Klimawandel oder demografischer Wandel) beitragen wird, werden solche Überschneidungen immer häufiger vorkommen. Im Prinzip ist es kein Problem, wenn der Nutzer kein KI-Experte ist. Schließlich kennt auch nicht jeder Autofahrer das Funktionsprinzip eines Motors. Programmierer sollten jedoch über genügend Wissen im Thema KI verfügen, um die Folgen und Gefahren für die Nutzer abschätzen zu können, und hier entsteht ein Problem. Viele Anwendungen, die bereits in der Praxis funktionieren, sind mathematisch kaum erforscht. Ein Beispiel ist der ADAM-Optimierer von Kingma und Ba, der häufig zum Training neuronaler Netze verwendet wird, aber keinen Konvergenzbeweis hat und sogar mehrere Jahre nach seiner Veröffentlichung ein Gegenbeispiel aufweist.
Solche Unterschiede zwischen Anwendung und Forschung sollten in einem so schnell wachsenden Bereich wie den neuronalen Netzen nicht unterschätzt werden. Es ist vor allem die rasant wachsende Rechenleistung, die in den letzten Jahren immer mehr Anwendungen ermöglicht hat. Dennoch sollte die Theorie dahinter nicht vernachlässigt werden, da z.B. auch sicherheitsrelevante Aufgaben (z.B. autonomes Fahren) damit bearbeitet werden.
Daher wird in dieser Arbeit zunächst mit einem aus der Praxis geborenen Thema, der 3D-Positionsschätzung mittels neuronaler Netze, begonnen. Im Laufe der Arbeit haben sich aber immer mehr mathematische Lücken in der Theorie herauskristallisiert, so dass wir im zweiten Teil der Arbeit hauptsächlich das Konvergenzverhalten einzelner Gradientenabstiegsverfahren betrachten werden.
Da diese Arbeit viele verschiedene Themen beinhaltet, möchten wir verschiedene Forschungsfragen formulieren und den geleisteten Beitrag kurz diskutieren.
Forschungsfrage 1: Sind neuronale Netze geeignet, um Rotationen oder Posen von Objekten in industriellen Umgebungen zu bestimmen?
In Kapitel 2 betrachten wir die Posenschätzung von Objekten unter automatisierten Produktionsbedingungen. Dabei konzentrieren wir uns zunächst auf die Rotation im zweidimensionalen Fall und anschließend auf den dreidimensionalen Fall mit drei Freiheitsgraden. Wir erstellen einen Überblick über geeignete Architekturen und stellen bemerkenswerte Tricks vor. Die Erwartung an diese Forschungsfrage ist, ein kostengünstigeres Werkzeug zur Posenschätzung zu erhalten. Außerdem wird eine bessere Generalisierung erwartet, die im Falle von Störungen in den Bildern hilfreich ist.
Forschungsfrage 2: Wie lassen sich die U-Shapes erklären, die bei Tests von neuronalen Netzen mit unterschiedlichem Rauschen auftreten?
In Kapitel 2 entdeckten wir parabolische Kurven beim Testen von Netzen mit verschiedenen Störungen. In Kapitel 3 haben wir neuronale Netze mit einer festen Störung trainiert. Die Erwartung beim Testen mit verschiedenen Störungswerten wäre, den kleinsten Testfehler mit der kleinsten Störung oder mit der trainierten Störung zu erhalten. In den gezeigten Experimenten war dies jedoch nicht der Fall. Wir haben dann Theorien und Experimente entwickelt, um dieses Verhalten zu beschreiben.
Forschungsfrage 3: Wie können wir das Konvergenzverhalten des ADAM-Optimierers beschreiben?
Bei dem Versuch, das Trainingsverhalten neuronaler Netze in den Kapiteln 2 und 3 besser zu verstehen, wurden die Schwächen des Konvergenzbeweises eines der wichtigsten Optimierer auf dem Gebiet der neuronalen Netze erneut festgestellt. Diesem Problem widmen wir uns in Kapitel 4, wo wir lokale Konvergenz und globale Nicht-Konvergenz im Batch-Modus beweisen. Am Ende von Kapitel 4 führen wir auch einen Konvergenzbeweis für den ADAM im inkrementellen Modus an.
Forschungsfrage 4: Können die bisher entwickelten Methoden auf andere adaptive Gradientenabstiegsverfahren angewendet werden?
In Kapitel 5 gehen wir der Frage nach, wie wir die in Kapitel 4 gewonnenen Erkenntnisse auf andere adaptive Gradientenabstiegsverfahren anwenden können. Dabei können wir ähnliche Ergebnisse für SGD, RMSProp, AdaGrad, AdaDelta und AMSGrad erzielen.
Metadata last modified: 06 Aug 2024 08:56