21 Punkte von xguru 2023-03-22 | Noch keine Kommentare. | Auf WhatsApp teilen

Highlights

  • Die Tool-Landschaft konsolidiert sich auf Python, PyData, Pytorch und Gradient-boosted Decision Trees (GBDT)
  • Deep Learning hat GBDT bei tabellarischen Daten noch nicht ersetzt
  • Transformer dominieren NLP und beginnen im Computer Vision-Bereich mit Convolutional Neural Networks (CNN) zu konkurrieren
  • Wettbewerbe decken verschiedene Forschungsfelder ab, darunter Computer Vision, NLP, tabellarische Daten, Robotik und Zeitreihenanalyse
  • Einzelmodell-Lösungen gewinnen gelegentlich, aber große Ensembles gewinnen in der Regel
  • Es gibt mehrere Plattformen für Machine-Learning-Wettbewerbe sowie Dutzende von Websites, die eigens für einzelne Wettbewerbe erstellt wurden
  • Competitive Machine Learning wird weiterhin immer populärer, auch in der Wissenschaft
  • 50 % der Sieger sind Solo-Gewinner, und 50 % der Sieger gewinnen zum ersten Mal. 30 % haben bereits zwei oder mehr Siege errungen
  • Einige Teilnehmer können erheblich in Hardware investieren, um ihre Lösungen zu trainieren, aber auch Teilnehmer mit kostenloser Hardware wie Google Colab können weiterhin gewinnen

Competitive ML Landscape

  • Bemerkenswerte Wettbewerbe und Trends
    • Gemessen am Preisgeld: DrivenDatas Snowcast Showdown (gesponsert vom US Department of Housing and Urban Development). Preisgeld von $500k
    • Am beliebtesten war Kaggles American Express Default Prediction. Mehr als 4000 Teams nahmen teil. Preisgeld von $100k. Der erste Platz ging an einen Solo-Teilnehmer bei seiner ersten Teilnahme (neuronales Netz + LightGBM)
    • Der größte unabhängige Wettbewerb war Stanfords AI Audit Challenge
    • Das größte Fachgebiet war Computer Vision: Umwelt, Medizin
    • Das zweitgrößte Fachgebiet war NLP: NLP + Suche, NLP + Reinforcement Learning
    • Auch der Bereich Sequential Decision-Making wächst
  • Plattformen
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • Weitere interessante Plattformen: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Zweck
    • Gut organisierte Wettbewerbe
      • stellen interessante Probleme zusammen mit Trainingsdaten bereit, die man gerne lösen möchte
      • verfügen über einen Pool kompetenter potenzieller Teilnehmer
      • haben Mechanismen, die Teilnehmer bestrafen, die overfitten
      • bieten ausreichend starke (finanzielle) Anreize, damit Teilnehmer echte Anstrengungen in die Problemlösung investieren
      • umfassen eine öffentliche Begutachtung der Gewinnerlösung (nach Ende des Wettbewerbs)

Winning Solutions

  • Winning Toolkit: Python, an zweiter Stelle C++
  • Häufig genutzte Python-Pakete
    • PyData: Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT: LightGBM, XGBoost, CatBoost
    • Hyperparameter-Optimierung: Optuna
    • Experiment-Tracking: W&B
    • Visualisierung: matplotlib, seaborn
    • NLP-Toolkit: Transformers
    • Computer-Vision-Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

Noch keine Kommentare.

Noch keine Kommentare.