Grundlagen der Computer Vision (2024)

(visionbook.mit.edu)

6 Punkte von GN⁺ 2025-06-16 | 1 Kommentare | Auf WhatsApp teilen

Foundations of Computer Vision ist ein einführendes Lehrbuch zur Computer Vision, das Bildverarbeitung und Machine Learning gemeinsam behandelt und sich sowohl an Bachelor- und Masterstudierende als auch an erfahrene Praktiker richtet
Nachdem es im November 2010 erstmals dem MIT Press vorgeschlagen wurde, wurde mehr als 10 Jahre lang daran geschrieben, und das Ziel, kurze und prägnante Kapitel zu schaffen, wurde im Wandel des Fachgebiets immer weiter ausgedehnt
Die Deep-Learning-Revolution von 2012 lieferte die Werkzeuge, um ältere Ideen in praktische Implementierungen zu überführen, und einige frühe Konzepte, die zeitweise verdrängt worden waren, gewannen mit der Zeit wieder an Bedeutung
Das Buch besteht aus 15 Parts, darunter Bildentstehung, Lernen, Signal- und Bildverarbeitung, Filter, Multiskalen-Darstellungen, neuronale Netze, generative Modelle, 3D-Geometrie, Bewegung, Szenenverständnis und Ratschläge für Forschende
Statt die neuesten Ergebnisse der Computer Vision vollständig abzudecken oder Formenanalyse, Objektverfolgung, menschliche Posenanalyse und Gesichtserkennung tiefgehend zu behandeln, konzentriert es sich auf die Grundkonzepte, die zum Verständnis vieler Anwendungen nötig sind

Für welche Leser ist das Buch gedacht

Foundations of Computer Vision behandelt grundlegende Themen der Computer Vision aus der Perspektive von Bildverarbeitung und Machine Learning
Die Hauptzielgruppe sind Bachelor- und Masterstudierende, die in die Computer Vision einsteigen, doch das Buch soll auch für erfahrene Praktiker nützlich sein
Um eine intuitive Vorstellung der Konzepte zu vermitteln, enthält es viele Visualisierungen
Ursprünglich war ein großes Buch geplant, das das Fach breit abdeckt, doch weil der Umfang der Computer Vision zu groß ist, wurde die Ausrichtung auf ein kleineres Buch geändert
- Jedes Kapitel sollte auf höchstens fünf Seiten begrenzt werden
- Diese Begrenzung zwang dazu, sich in jedem Thema auf die wesentlichen Konzepte zu konzentrieren, die zum Verständnis nötig sind
- Das Ziel, ein kurzes Buch zu schreiben, wurde letztlich dennoch nicht erreicht

Ein Schreibprozess von mehr als 10 Jahren

Die Idee für das Buch wurde dem MIT Press erstmals am 24. November 2010 vorgeschlagen
Das Schreiben verlief nicht linear, und der Umfang des Manuskripts wuchs nicht nur, sondern schrumpfte zeitweise auch wieder, bevor er erneut zunahm
Die gesamte Arbeit dauerte mehr als 10 Jahre
Während des Schreibprozesses wurden viele Beispiele entwickelt und überarbeitet, mit dem Ziel, dass Leser durch eigenes Nachvollziehen der Beispiele lernen können

Alte Ideen, die auch nach Deep Learning weiterleben

Die Computer Vision hat sich in den vergangenen zehn Jahren stark verändert, doch die heutigen Methoden sind tief in der Geschichte der Computer Vision und der KI verwurzelt
Auch wenn sich Bezeichnungen geändert haben und einige Ideen neu hinzugekommen sind, stehen die heutigen Methoden nicht losgelöst von früheren Konzepten
Das Buch betont die vereinheitlichenden Themen hinter vielen Konzepten
Eine der zentralen Metaphern sind mehrere Perspektiven (views)
- Eine reale physische Szene wird aus unterschiedlichen Winkeln, mit verschiedenen Sensoren und zu verschiedenen Zeitpunkten betrachtet
- Aus mehreren Perspektiven wird ein Verständnis der zugrunde liegenden Realität gewonnen
- Auch das Buch folgt einer Struktur, die verschiedene Perspektiven verbindet, um die Grundlagen der Computer Vision herauszuarbeiten
Die Deep-Learning-Revolution von 2012 machte das Fundament der Computer Vision robuster und lieferte Werkzeuge, um viele in der Frühzeit des Fachgebiets vorgeschlagene Ideen in funktionierende Implementierungen zu überführen
Nach dem Aufstieg von Deep Learning gerieten einige frühe Ideen zeitweise in Vergessenheit, doch im Lauf der Zeit kehrten viele davon zurück

Der Umfang des Buchs in 15 Parts

Die meisten Kapitel setzen das Verständnis zuvor behandelter Themen voraus, daher empfiehlt sich eine Lektüre in der angegebenen Reihenfolge
Part I: motivierende Themen, die Probleme der Vision einführen und in einen gesellschaftlichen Kontext stellen, einfache visuelle Systeme und grundlegende mathematische Werkzeuge
Part II: der Prozess der Bildentstehung
Part III: Grundlagen des Lernens anhand von Vision-Beispielen und allgemein anwendbare Konzepte
Part IV: Einführung in Signal- und Bildverarbeitung als Fundament der Computer Vision
Part V: lineare Filter und ihre Anwendungen wie Gaussian kernels, binomial filters, image derivatives, Laplacian filter und temporal filters
Part VI: Multiskalen-Bildrepräsentationen
Part VII: neuronale Netze für Vision
- convolutional neural networks
- recurrent neural networks
- transformers
- Der Fokus liegt eher auf den zentralen Prinzipien als auf einzelnen Architekturen
Part VIII: statistische Bildmodelle und grafische Modelle
Part IX: zwei starke Modellierungsansätze im Zeitalter neuronaler Netze
- Generative Modellierung behandelt statistische Bildmodelle, die die Entstehung natürlicher Bilder und synthetischer Bilder beschreiben, die geeigneten geometrischen Regeln folgen
- Repräsentationslernen sucht nach nützlichen abstrakten Bilddarstellungen wie Vektoreinbettungen
Part X: Herausforderungen beim Aufbau lernbasierter Vision-Systeme
Part XI: geometrische Werkzeuge und Anwendungen zur Rekonstruktion der 3D-Weltstruktur aus 2D-Bildern
Part XII: Sequenzverarbeitung und Bewegungsmessung
Part XIII: Szenenverständnis und Objekterkennung
Part XIV: Ratschläge für Nachwuchsforschende zu Präsentationen, wissenschaftlichem Schreiben und einer effektiven Forschungshaltung
Part XV: Rückkehr zum in Part I vorgestellten einfachen visuellen System und Anwendung der Methoden des Buchs auf Spielzeugprobleme

Was bewusst nicht tief behandelt wird

Es bietet keinen Überblick über die allerneuesten Ergebnisse der modernen Computer Vision
Viele Anwendungen wie Formenanalyse, Objektverfolgung, menschliche Posenanalyse und Gesichtserkennung werden nicht tiefgehend behandelt
Solche Anwendungsthemen lassen sich besser über aktuelle Konferenzbeiträge der Computer Vision und spezialisierte Monografien lernen
Der Fokus des Buchs liegt nicht auf den neuesten Resultaten über alle Anwendungen hinweg, sondern auf Grundkonzepten

Gemeinsam erwähnte verwandte Bücher

Als allgemeine Lehrbücher zur Computer Vision werden folgende Bücher genannt
- Computer Vision: A Modern Approach
- Rick Szeliskis Computer Vision: Algorithms and Applications
Physikalisch basierte Grundlagen werden in Horns Robot Vision gut behandelt
David Marrs Vision wird als das Buch genannt, das zum Einstieg in die Computer Vision führte, und als Werk mit herausragender Intuition und exzellenter Darstellung gewürdigt
Die Geometrie des Sehens mit mehreren Kameras wird in Hartley und Zissermans Multiple View Geometry in Computer Vision ausführlich behandelt
Im Zusammenhang mit 3D-Geometrie werden Koenderinks Solid Shape, Faugeras’ Three-Dimensional Computer Vision sowie Trucco und Verris Introductory Techniques for 3D Computer Vision erwähnt
Als Lehrbücher zum Lernen werden Werke von Mackay, Bishop, Murphy sowie Goodfellow·Bengio·Courville genannt
Probabilistische Modelle in der Vision werden in Princes Lehrbuch gut behandelt
Für die menschliche visuelle Wahrnehmung wird Steve Palmers Vision Science: Photons to Phenomenology besonders hervorgehoben
Für Low-Level-Vision wird Granlund und Knutssons Signal Processing for Computer Vision erwähnt, für High-Level-Vision Ullmans High-level Vision
Als Buch über Licht und Sehen wird Minnaerts Light and Color in the Outdoors genannt

Zitationsinformationen und Lehrmaterialien

Der BibTeX-Eintrag zum Zitieren des Buchs enthält folgende Informationen
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
Die gedruckte Ausgabe kann bei MIT Press gekauft werden
Folien für Lehrende können über Dropbox heruntergeladen werden

1 Kommentare

GN⁺ 2025-06-16

Hacker-News-Kommentare

In On Research, Writing and Speaking gibt es eine interessante Passage: „Das klingt nach harter Arbeit.“ Stimmt. Ab diesem Punkt geht es nicht mehr um Klugheit. Dann sind alle um einen herum ebenfalls klug. In der Graduate School kommen die Fleißigen voran
- Das ist definitiv eine Einsicht. Jeder erreicht irgendwann den Punkt, an dem es nicht mehr reicht, sich allein auf Klugheit zu verlassen.
  Viele merken das beim Eintritt in die Universität, aber im Bachelor ist der Lernstoff klar umrissen und hat eine Obergrenze, sodass man sich bis zu einem gewissen Grad durchschlagen kann. In der Promotion dagegen gibt es kaum eine Obergrenze, keine festgelegte Zahl von Papers, die man pro Woche lesen muss, und auch kein „Das kommt nicht in der Prüfung dran“. Der Ertrag von mehr Klugheit flacht nicht ab – es gibt schlicht keine Decke. Man kann mehr lesen, mit der Flut an Literatur Schritt halten und Experimente und Methoden immer weiter verbessern.
  Außerdem braucht man Soft Skills und ein Netzwerk. Man muss zu Konferenzen gehen, die Strömungen in der Community verstehen, Leute treffen, Kaffee trinken oder essen gehen. Statt wie im Bachelor auf Anweisungen zu warten, muss man selbst aktiv werden und zugleich skeptisch und kritisch genug gegenüber bestehenden Methoden sein, aber neue Ideen entwickeln, die relevant und interessant genug sind, damit die Community sie versteht und akzeptiert.
  Ohne die externe Taktung durch Vorlesungen und Prüfungen muss man seine Zeit selbst organisieren sowie Deadlines und Routinen setzen. All das hat praktisch keine Obergrenze, und die Erwartungen sind unklar. Selbst wenn man gründlich genug gearbeitet hat, kann man zum ersten Mal eine Ablehnung erleben, weil Gutachter die Neuheit nicht erkennen oder es gerade nicht gut zum aktuellen Trend passt.
  Am Ende kann eine Promotion jeden an seine mentalen Grenzen bringen. Das ist frustrierend und für viele Promovierende bekanntlich eine harte Zeit. Natürlich kann man, wenn es nur um den Abschluss geht, auch eine „Durchhalten“-Strategie fahren; wer aber eine akademische Laufbahn anstrebt, erwartet in der Regel mehr als das Minimum – umso mehr, wenn man sich im Bachelor mit guten Noten durchgeschlagen hat.
- Im dritten Bachelorjahr hatte ich das Gefühl, selbst mit harter Arbeit im Unterricht nicht mehr mitzukommen. Es war ein Ingenieurstudiengang, in den man mit einem Highschool-Notendurchschnitt von etwa 90 % kam, und er war so schwierig, dass bis zum zweiten Jahr 75 % der Studierenden abbrachen.
- Ich wünschte, jemand hätte mir das in der Graduate School gesagt. Es hat viel zu lange gedauert, zu lernen, wie man ein erfolgreicher Graduate Student wird, und ehrlich gesagt habe ich es erst richtig verstanden, nachdem ich die Uni beendet hatte.
Ein weiteres gutes Buch in diesem Bereich ist: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- Ein weiteres Standardwerk ist Szeliskis Computer Vision 2nd Ed aus dem Jahr 2022: https://szeliski.org/Book/
  Forsyth & Ponce ist ebenfalls gut, aber inzwischen etwas in die Jahre gekommen. Der Klassiker für 3D ist weiterhin Hartley & Zissermans Multiple View Geometry.
Es ist erstaunlich, dass dieses Buch kostenlos verfügbar ist. Danke an die Seite – Autor oder Verlag –, die es öffentlich zugänglich gemacht hat.
- In den Communities rund um Maschinelles Lernen, Computer Vision und Robotik gibt es wirklich eine gute Kultur, Bücher kostenlos online zu veröffentlichen. Man kann die besten Lehrbücher dieser Bereiche gratis lesen.
  Das steht in ziemlich starkem Kontrast zu anderen Fächern in den USA, in denen Professoren Studierende faktisch dazu zwingen, die neueste Ausgabe eines Lehrbuchs für Hunderte Dollar zu kaufen. Dadurch können auch Menschen in Ländern mit weniger finanziellen Mitteln überall auf der Welt auf die besten Materialien zugreifen. Oft werden auch Vorlesungsunterlagen und Videos online geteilt.
- Absolut, und ich schließe mich dem Dank an. Allerdings frage ich mich, ob jemand eine Möglichkeit gefunden hat, es als PDF herunterzuladen. Beim Lesen von Lernmaterialien sollte man meiner Meinung nach Notizen und Verweise anbringen können.
Der Abschnitt „Writing this book“ kann versehentlich so gelesen werden, als sei bei 2/3 des Manuskripts ein LLM verwendet worden.
Gemeint ist vermutlich, dass das LLM viel mehr Schreibanregungen geliefert hat; es wäre gut, das klarer zu formulieren.
- So lese ich das nicht. Tatsächlich war ChatGPT das erste Tool, das beim Schreiben helfen konnte, und weniger als ein Drittel dieses Buchs wurde nach der Veröffentlichung von ChatGPT geschrieben.
  Es sieht eher so aus, als seien auf dem Diagramm wichtige Ereignisse im Bereich Maschinelles Lernen/Künstliche Intelligenz markiert.
Wenn jemand in diesem Bereich arbeitet: Ich frage mich, wie relevant dieser Inhalt noch ist. Von außen betrachtet wirkt es, als seien große Teile des Machine Learning, einschließlich Computer Vision, durch die Fortschritte der letzten zwei Jahre völlig umgekrempelt worden.
- Er ist nach wie vor sehr relevant. Unter den jüngeren Methoden gibt es nichts wirklich Revolutionäres; alles steht auf denselben Grundlagen. Eher lohnt es sich, auch noch ältere Bücher zu lesen.
  Es gibt viele reale, profitable Computer-Vision-Anwendungen, die mit klassischen Methoden wie Hough-Transformation, Canny-Kanten, SIFT und Harris-Cornern gebaut wurden. Wenn man wie ein ernsthafter Experte wirken will und nicht wie jemand, der nur Buzzwords herunterbetet und eine API anschließt, sollte man diese Dinge kennen.
- Immer noch sehr relevant. Der Großteil der außerhalb der Wissenschaft eingesetzten Computer Vision basiert weiterhin auf älteren Inhalten oder klassischen Computer-Vision-Algorithmen.
  Gelegenheiten, die neuesten Modelle und Methoden einzusetzen, gibt es seltener, als man denkt. Meist sind sie nicht so relevant, passen nur in extrem speziellen Fällen oder diese Komplexität ist von vornherein nicht nötig.
- Besonders auf Systemen, bei denen GPU-Beschleunigung nicht leicht nutzbar ist, gibt es noch viele Probleme, die man mit „klassischer“ Computer Vision lösen muss. Da ich praktisch an simultaner Lokalisierung und Kartierung (SLAM) auf Plattformen mit begrenzten Rechenressourcen arbeite, werde ich mir das Kapitel zu Structure from Motion auf jeden Fall ansehen.
Ich frage mich, ob es eine Computer-Vision-Vorlesung auf Basis dieses Buchs gibt. Falls es Materialien wie Videos gibt, wüsste ich gern davon.
Ich hätte gern Empfehlungen für gute Bücher über Machine Vision. Ich denke, die Grundlage effektiver Machine Vision – und darüber hinaus Computer Vision – liegt darin, die richtige Kamera, Optik und Beleuchtung auszuwählen. Schlechter Input führt zu schlechtem Output, daher sind hochwertige Bilder entscheidend.
- Ich frage mich, ob du ein oder zwei Use Cases nennen kannst, bei denen solche Faktoren in der Praxis einen großen Unterschied gemacht haben.

Grundlagen der Computer Vision (2024)

Für welche Leser ist das Buch gedacht

Ein Schreibprozess von mehr als 10 Jahren

Alte Ideen, die auch nach Deep Learning weiterleben

Der Umfang des Buchs in 15 Parts

Was bewusst nicht tief behandelt wird

Gemeinsam erwähnte verwandte Bücher

Zitationsinformationen und Lehrmaterialien

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare