Ask HN: Welche Trends gibt es im ML-Bereich, die nicht im Lärm um LLMs untergehen?

(news.ycombinator.com)

19 Punkte von GN⁺ 2024-03-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Im Bereich Machine Learning (ML) und Data Science, der vom Lärm um große Sprachmodelle (LLMs) übertönt wird, passieren viele interessante Dinge
Cynthia Rudin veröffentlicht weiterhin herausragende Forschung zu erklärbarer künstlicher Intelligenz (AI)
Interessante Projekte der letzten Monate:
- 3D-Szenenrekonstruktion aus wenigen Bildern: NAVER LABS Europe
- Gaussian Avatars: Gaussian Avatars
- Relightable Gaussian Codec: Relightable Gaussian Codec
- Alles tracken: Co-Tracker, Omnimotion
- Alles segmentieren: Segment Anything by Facebook Research
- Hervorragende Modelle zur Schätzung menschlicher Posen: Yolov8, Googles MediaPipe-Modelle
- Realistisches TTS: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- Starkes STT: meist auf Whisper basierend
- Maschinelle Übersetzung: zum Beispiel Meta SeamlessM4T
- Beeindruckend, wie viele Ergebnisse aus Metas R&D kommen
Erklärung zu NeRFs:
- Ein grundlegendes Neudenken von 3D-Grafik: Statt texturierter Polygone werden leuchtende halbtransparente Kugeln im Raum platziert
- Positionen und Farben der Kugeln werden durch ein neuronales Netz anhand präziser Kamerabilder aus mehreren Blickwinkeln und deren Posen gelernt und können per Raytracing auf der GPU gerendert werden
- Da die Szenen aus Fotos erzeugt werden, wirken sie vollkommen realistisch, lassen sich aber auch erkunden
- Theoretisch kann man solche Szenen animieren, aber wie das in der Praxis funktioniert, ist weiterhin ein Forschungsthema
- Ob das besser sein wird als optimierte polygonbasierte Systeme wie Nanite+Photogrammetry, ist unklar
Frage nach Tools, mit denen sich aus Straßenvideos aus einem Fahrzeug heraus 3D-Szenen erstellen lassen:
- Fokus auf die Landschaft entlang der Straße; mehrfaches Abfahren aus verschiedenen Winkeln ist möglich, und lange Verarbeitungszeiten wären in Ordnung
- Ziel ist es, reale Regionalstraßen für einen Rennsimulator zu erstellen
Interesse an geometrischem Deep Learning:
- Wie sich Modelle prinzipiell so entwerfen lassen, dass sie bekannte Symmetrien in den Daten respektieren
- ConvNets sind für ihre Translationsäquivarianz bekannt, aber es gibt auch neuere Beispiele für andere Symmetriegruppen
- Es gibt auch die Frage, ob sich bestimmte Symmetrien automatisch entdecken oder identifizieren lassen
Vorstellung des von der ML+X-Community der UW-Madison veranstalteten Machine Learning Marathon:
- Ein etwa 12-wöchiges Sommerevent, das als Wettbewerb auf Kaggle ausgetragen wird
- Eine Gelegenheit, ML-Tools gemeinsam zu lernen und auf reale Datensätze anzuwenden, um innovative Lösungen zu finden
- Es gibt verschiedene Challenges, geeignet sowohl für Einsteiger als auch für fortgeschrittene Praktiker
- Teilnehmende, Projektberater und Veranstalter treffen sich wöchentlich oder alle zwei Wochen, um Tipps auszutauschen und kurze Demos/Diskussionen zu führen
- Zusätzlich zum intrinsischen Gewinn durch Skill-Aufbau und Community-Bildung gibt es Preisgeld für die Siegerteams
Vorstellung des Vision-Language-Action-(VLA)-Modells RT-2 als eine Art Cousin der LLMs:
- Neben Text- und Bilddaten bezieht es auch Robotik-Bewegungsdaten als „eine weitere Sprache“ ein und verwendet sie als Tokens zur Ausgabe von Bewegungsaktionen des Roboters
Meinung, dass Computer-Vision-Modelle der SAM-Familie viele menschliche Annotation-Services und -Tools zu einem gewissen Grad überflüssig gemacht haben:
- Automatisches Labeling von Bilddaten ist damit in relativ hoher Qualität möglich
Erfahrungsbericht zum Launch von Scholars.io, um die neueste Forschung zu bestimmten Themen auf arXiv zu finden:
- Durch das Herausfiltern irrelevanter Forschung soll es anderen helfen, Forschungsaktivitäten jenseits von LLMs zu entdecken
Frage, ob es sich auch 2024 noch lohnt, ML weiter zu lernen, plus Hinweis auf die eigene Intuition:
- Geteilte Arbeitserfahrung mit einem Nebenprojekt unter Einsatz von xgboost
- Es fühlt sich weiterhin wertvoll an, ML zu lernen, aber ganz sicher ist man sich nicht

Ask HN: Welche Trends gibt es im ML-Bereich, die nicht im Lärm um LLMs untergehen?

Verwandte Beiträge

Noch keine Kommentare.