- Im Bereich Machine Learning (ML) und Data Science, der vom Lärm um große Sprachmodelle (LLMs) übertönt wird, passieren viele interessante Dinge
- Cynthia Rudin veröffentlicht weiterhin herausragende Forschung zu erklärbarer künstlicher Intelligenz (AI)
- Interessante Projekte der letzten Monate:
- Erklärung zu NeRFs:
- Ein grundlegendes Neudenken von 3D-Grafik: Statt texturierter Polygone werden leuchtende halbtransparente Kugeln im Raum platziert
- Positionen und Farben der Kugeln werden durch ein neuronales Netz anhand präziser Kamerabilder aus mehreren Blickwinkeln und deren Posen gelernt und können per Raytracing auf der GPU gerendert werden
- Da die Szenen aus Fotos erzeugt werden, wirken sie vollkommen realistisch, lassen sich aber auch erkunden
- Theoretisch kann man solche Szenen animieren, aber wie das in der Praxis funktioniert, ist weiterhin ein Forschungsthema
- Ob das besser sein wird als optimierte polygonbasierte Systeme wie Nanite+Photogrammetry, ist unklar
- Frage nach Tools, mit denen sich aus Straßenvideos aus einem Fahrzeug heraus 3D-Szenen erstellen lassen:
- Fokus auf die Landschaft entlang der Straße; mehrfaches Abfahren aus verschiedenen Winkeln ist möglich, und lange Verarbeitungszeiten wären in Ordnung
- Ziel ist es, reale Regionalstraßen für einen Rennsimulator zu erstellen
- Interesse an geometrischem Deep Learning:
- Wie sich Modelle prinzipiell so entwerfen lassen, dass sie bekannte Symmetrien in den Daten respektieren
- ConvNets sind für ihre Translationsäquivarianz bekannt, aber es gibt auch neuere Beispiele für andere Symmetriegruppen
- Es gibt auch die Frage, ob sich bestimmte Symmetrien automatisch entdecken oder identifizieren lassen
- Vorstellung des von der ML+X-Community der UW-Madison veranstalteten Machine Learning Marathon:
- Ein etwa 12-wöchiges Sommerevent, das als Wettbewerb auf Kaggle ausgetragen wird
- Eine Gelegenheit, ML-Tools gemeinsam zu lernen und auf reale Datensätze anzuwenden, um innovative Lösungen zu finden
- Es gibt verschiedene Challenges, geeignet sowohl für Einsteiger als auch für fortgeschrittene Praktiker
- Teilnehmende, Projektberater und Veranstalter treffen sich wöchentlich oder alle zwei Wochen, um Tipps auszutauschen und kurze Demos/Diskussionen zu führen
- Zusätzlich zum intrinsischen Gewinn durch Skill-Aufbau und Community-Bildung gibt es Preisgeld für die Siegerteams
- Vorstellung des Vision-Language-Action-(VLA)-Modells RT-2 als eine Art Cousin der LLMs:
- Neben Text- und Bilddaten bezieht es auch Robotik-Bewegungsdaten als „eine weitere Sprache“ ein und verwendet sie als Tokens zur Ausgabe von Bewegungsaktionen des Roboters
- Meinung, dass Computer-Vision-Modelle der SAM-Familie viele menschliche Annotation-Services und -Tools zu einem gewissen Grad überflüssig gemacht haben:
- Automatisches Labeling von Bilddaten ist damit in relativ hoher Qualität möglich
- Erfahrungsbericht zum Launch von Scholars.io, um die neueste Forschung zu bestimmten Themen auf arXiv zu finden:
- Durch das Herausfiltern irrelevanter Forschung soll es anderen helfen, Forschungsaktivitäten jenseits von LLMs zu entdecken
- Frage, ob es sich auch 2024 noch lohnt, ML weiter zu lernen, plus Hinweis auf die eigene Intuition:
- Geteilte Arbeitserfahrung mit einem Nebenprojekt unter Einsatz von xgboost
- Es fühlt sich weiterhin wertvoll an, ML zu lernen, aber ganz sicher ist man sich nicht
Noch keine Kommentare.