19 Punkte von GN⁺ 2024-03-29 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Im Bereich Machine Learning (ML) und Data Science, der vom Lärm um große Sprachmodelle (LLMs) übertönt wird, passieren viele interessante Dinge
  • Cynthia Rudin veröffentlicht weiterhin herausragende Forschung zu erklärbarer künstlicher Intelligenz (AI)
  • Interessante Projekte der letzten Monate:
  • Erklärung zu NeRFs:
    • Ein grundlegendes Neudenken von 3D-Grafik: Statt texturierter Polygone werden leuchtende halbtransparente Kugeln im Raum platziert
    • Positionen und Farben der Kugeln werden durch ein neuronales Netz anhand präziser Kamerabilder aus mehreren Blickwinkeln und deren Posen gelernt und können per Raytracing auf der GPU gerendert werden
    • Da die Szenen aus Fotos erzeugt werden, wirken sie vollkommen realistisch, lassen sich aber auch erkunden
    • Theoretisch kann man solche Szenen animieren, aber wie das in der Praxis funktioniert, ist weiterhin ein Forschungsthema
    • Ob das besser sein wird als optimierte polygonbasierte Systeme wie Nanite+Photogrammetry, ist unklar
  • Frage nach Tools, mit denen sich aus Straßenvideos aus einem Fahrzeug heraus 3D-Szenen erstellen lassen:
    • Fokus auf die Landschaft entlang der Straße; mehrfaches Abfahren aus verschiedenen Winkeln ist möglich, und lange Verarbeitungszeiten wären in Ordnung
    • Ziel ist es, reale Regionalstraßen für einen Rennsimulator zu erstellen
  • Interesse an geometrischem Deep Learning:
    • Wie sich Modelle prinzipiell so entwerfen lassen, dass sie bekannte Symmetrien in den Daten respektieren
    • ConvNets sind für ihre Translationsäquivarianz bekannt, aber es gibt auch neuere Beispiele für andere Symmetriegruppen
    • Es gibt auch die Frage, ob sich bestimmte Symmetrien automatisch entdecken oder identifizieren lassen
  • Vorstellung des von der ML+X-Community der UW-Madison veranstalteten Machine Learning Marathon:
    • Ein etwa 12-wöchiges Sommerevent, das als Wettbewerb auf Kaggle ausgetragen wird
    • Eine Gelegenheit, ML-Tools gemeinsam zu lernen und auf reale Datensätze anzuwenden, um innovative Lösungen zu finden
    • Es gibt verschiedene Challenges, geeignet sowohl für Einsteiger als auch für fortgeschrittene Praktiker
    • Teilnehmende, Projektberater und Veranstalter treffen sich wöchentlich oder alle zwei Wochen, um Tipps auszutauschen und kurze Demos/Diskussionen zu führen
    • Zusätzlich zum intrinsischen Gewinn durch Skill-Aufbau und Community-Bildung gibt es Preisgeld für die Siegerteams
  • Vorstellung des Vision-Language-Action-(VLA)-Modells RT-2 als eine Art Cousin der LLMs:
    • Neben Text- und Bilddaten bezieht es auch Robotik-Bewegungsdaten als „eine weitere Sprache“ ein und verwendet sie als Tokens zur Ausgabe von Bewegungsaktionen des Roboters
  • Meinung, dass Computer-Vision-Modelle der SAM-Familie viele menschliche Annotation-Services und -Tools zu einem gewissen Grad überflüssig gemacht haben:
    • Automatisches Labeling von Bilddaten ist damit in relativ hoher Qualität möglich
  • Erfahrungsbericht zum Launch von Scholars.io, um die neueste Forschung zu bestimmten Themen auf arXiv zu finden:
    • Durch das Herausfiltern irrelevanter Forschung soll es anderen helfen, Forschungsaktivitäten jenseits von LLMs zu entdecken
  • Frage, ob es sich auch 2024 noch lohnt, ML weiter zu lernen, plus Hinweis auf die eigene Intuition:
    • Geteilte Arbeitserfahrung mit einem Nebenprojekt unter Einsatz von xgboost
    • Es fühlt sich weiterhin wertvoll an, ML zu lernen, aber ganz sicher ist man sich nicht

Noch keine Kommentare.

Noch keine Kommentare.