- Ein Buch für Einsteiger und Fortgeschrittene, das die Grundlagen der Computer Vision aus der Perspektive von Bildverarbeitung und Machine Learning behandelt
- Jedes Kapitel ist kurz und klar aufgebaut, um sich auf die zentralen Konzepte zu konzentrieren
- Erklärt die Veränderungen seit der Deep-Learning-Revolution und den Prozess der Neuinterpretation klassischer Ideen anhand der Erfahrungen beim Schreiben des Buches
- Behandelt in 15 Teilen Themen aus dem gesamten Bereich der Computer Vision, darunter Bildverarbeitung, neuronale Netze, generative Modelle, Sequenzverarbeitung und Szenenverständnis
- Der Aufbau fokussiert sich eher auf wesentliche Theorie und den Aufbau von Intuition als auf aktuelle Forschungstrends oder bestimmte Anwendungen
Vorwort
Über dieses Buch
- Dieses Buch behandelt die Kernthemen der Computer Vision aus der Sicht von Bildverarbeitung und Machine Learning
- Es enthält vielfältige Visualisierungen, um die Intuition der Leserinnen und Leser zu fördern
- Die Hauptzielgruppe sind Bachelor- und Masterstudierende, die in die Computer Vision einsteigen, aber es ist auch für erfahrene Praktiker nützlich
- Ursprünglich war ein sehr umfassendes Werk geplant, doch wegen der Größe des Fachgebiets Computer Vision wurden die einzelnen Kapitel auf höchstens fünf Seiten begrenzt, um sich auf die zentralen Konzepte zu konzentrieren
- Es wird offen geschildert, dass das Ziel zwar ein kurzes Buch war, der Umfang am Ende aber dennoch groß wurde
Der Entstehungsprozess des Buches
- Die ursprüngliche Absicht zu Beginn und die tatsächliche Nichtlinearität des Prozesses werden mit Daten veranschaulicht; bis zur Fertigstellung vergingen mehr als zehn Jahre
- Während des Schreibprozesses fand die Deep-Learning-Revolution (2012) statt, wodurch ein Zusammenwachsen traditioneller Methoden und moderner Ansätze einsetzte
- Durch die frühe Popularität des Deep Learning gerieten frühere Ideen zeitweise in Vergessenheit, wurden später aber in ihren wesentlichen Konzepten wiederentdeckt
- Es wird erwähnt, dass die lange Schreibreise anstrengend war, aber durch eigene Beispiele und Experimente viel gelernt wurde
- Zentrale Ereignisse in Computer Vision und KI sowie ihr Wandel werden zusammen mit dem Zeitraum der Buchentstehung visuell dargestellt
Aufbau des Buches
- Das Feld der Computer Vision hat in den vergangenen gut zehn Jahren eine rasante Entwicklung erlebt; auch wenn die heutigen Methoden völlig anders wirken als früher, wird die historische Kontinuität betont
- Im gesamten Buch werden immer wieder die Bedeutung eines einheitlichen Themas und Blickwinkels sowie verschiedener Perspektiven aufgegriffen
- Das Buch besteht aus 15 Teilen, von denen jeder auf ein konsistentes Thema der Computer Vision fokussiert ist
Einführung in die einzelnen Teile
- Part I: Motivation für Probleme der Computer Vision, gesellschaftlicher Kontext und mathematische Grundlagen
- Part II: Der Prozess der Bilderzeugung
- Part III: Grundkonzepte des Machine Learning anhand von Bildbeispielen
- Part IV: Einführung in Signal- und Bildverarbeitung
- Part V: Nützliche lineare Filter (Gaussian Kernel, binäre Filter, Bildableitungen, Laplace-Operator, Zeitfilter) und Anwendungen
- Part VI: Multiskalen-Bildrepräsentationen
- Part VII: Neuronale Netze für Computer Vision (Convolutional Neural Networks, Recurrent Neural Networks, Transformer)
- Part VIII: Statistische Modelle von Bildern und Graphenmodelle
- Part IX: Moderne Ansätze mit Fokus auf generative Modelle und Representation Learning (z. B. Vektor-Embeddings)
- Part X: Herausforderungen beim Aufbau lernbasierter Vision-Systeme
- Part XI: Geometrische Werkzeuge zur Rekonstruktion von 3D-Strukturen
- Part XII: Sequenzverarbeitung und Bewegungsmessung
- Part XIII: Szenenverständnis und Objekterkennung
- Part XIV: Ratschläge für Junior-Forschende zu Präsentationen, wissenschaftlichem Schreiben und einer effektiven Forschungshaltung
- Part XV: Versuch, die in Part I vorgestellten Probleme mit den im Buch behandelten unterschiedlichen Methoden zu lösen
Was nicht behandelt wird
- Aktuelle Trends der Computer Vision oder verschiedene praktische Anwendungsfelder (Formanalyse, Objektverfolgung, Bewegungsanalyse, Gesichtserkennung usw.) werden nicht behandelt
- Für solche detaillierten Anwendungen sind Konferenzbeiträge oder Fachbücher besser geeignet
Danksagung
- Dank an Lehrende, Studierende und Kolleginnen und Kollegen, die verschiedene Ausbildungen und Forschungen im Bereich Computer Vision beeinflusst haben
- Konkreter Dank für vielfältige Zusammenarbeit, darunter Lehrmaterialien aus verschiedenen Konferenzen, Experimente, Unterstützung einzelner Kapitel und das Cover-Design
- Jede Autorin und jeder Autor dankt außerdem Familie und nahestehenden Personen für die anhaltende Unterstützung
Zitierinformationen
- Es wird ein BibTeX-Format bereitgestellt, das beim Zitieren des Buches verwendet werden kann
Ressourcen für Lehrende
- Die gedruckte Ausgabe des Buches ist bei MIT Press erhältlich
- Mit dem Buch verknüpfte Vorlesungsfolien werden online bereitgestellt
Literaturverzeichnis
- Enthält eine Liste wichtiger klassischer und aktueller Werke zu Computer Vision, Machine Learning, Signalverarbeitung, Geometrie, Sehwissenschaft und verwandten Bereichen
1 Kommentare
Hacker-News-Kommentare
In dem Buch "On Research, Writing and Speaking" gibt es eine interessante Stelle. "Das sieht schwierig aus." Stimmt. Mit bloßer Intelligenz allein gewinnt man nicht mehr. Es wird die Erfahrung geteilt, dass im Graduiertenstudium diejenigen vorne liegen, die hart arbeiten
Wegen der technischen Veränderungen der letzten zwei Jahre wird jemand aus der Praxis um einen Kommentar gebeten, ob die bisherigen Inhalte zu Machine Learning, insbesondere im Bereich Computer Vision, noch gültig sind
Nach wie vor sehr relevant. Auch die neuesten Methoden sind im Kern Weiterentwicklungen, die auf denselben Grundlagen aufbauen. Es ist sogar wünschenswert, die Grundkonzepte und traditionellen Algorithmen intensiver zu lesen. Hough transform, canny edge, sift, Harris corner und ähnliche klassische Verfahren muss man gut kennen, um als echter Experte zu gelten. Daraus ergibt sich ein klarer Kompetenzunterschied zu Entwicklern, die nur angesagte Technologie-Keywords auswendig lernen und bloß APIs aneinanderstecken
Noch immer sind in Systemen, in denen GPU-Beschleunigung schwierig ist, „klassische“ Computer-Vision-Verfahren unverzichtbar. Ich arbeite praktisch daran, das Problem Simultaneous localization and mapping in ressourcenbeschränkten Umgebungen zu lösen. Ich werde mir das Kapitel zu Structure from Motion auf jeden Fall durchlesen
Es gibt die Anmerkung, dass der Abschnitt "Writing this book" so wirken könnte, als hätte ein LLM zwei Drittel des Manuskripts geschrieben. Wahrscheinlich ist eher gemeint, dass der Inhalt des Buchs durch die vielen neuen LLM-Themen gewachsen ist, daher wäre eine Klarstellung sinnvoll
Als weiteres gutes Buch im Bereich Computer Vision wird das folgende empfohlen
Das Buch wird überschwänglich gelobt; es sei kaum zu glauben, dass es kostenlos veröffentlicht wurde
Absolut richtig. Ich frage mich, ob jemand eine Möglichkeit gefunden hat, es als PDF herunterzuladen. Ich finde es beim Lernen unbedingt nötig, eigene Notizen oder Referenzmaterialien anzulegen
Die Communities rund um Machine Learning, Computer Vision und Robotik haben eine großartige Kultur, Lehrbücher kostenlos online zu veröffentlichen. Selbst Lehrwerke auf Spitzenniveau in diesem Bereich sind frei online verfügbar. In anderen Disziplinen verlangen Professoren in den USA oft den Kauf der neuesten Ausgabe, was hohe Kosten verursacht, aber in diesem Bereich werden die besten Materialien für Menschen in Entwicklungsländern und weltweit offen zugänglich gemacht. Häufig werden auch Vorlesungsunterlagen und Videos mitveröffentlicht
Es wird um Empfehlungen für gute Bücher zu Machine Vision gebeten. Der Kern effektiver Machine Vision liege aus dieser Sicht nicht nur in Computer Vision selbst, sondern in der Auswahl von Kamera, Optik und Beleuchtung. Wenn die Qualität des Eingangbildes schlecht ist, kann auch das Ergebnis nur schlecht sein