Highlights
- Die Tool-Landschaft konsolidiert sich auf Python, PyData, Pytorch und Gradient-boosted Decision Trees (GBDT)
- Deep Learning hat GBDT bei tabellarischen Daten noch nicht ersetzt
- Transformer dominieren NLP und beginnen im Computer Vision-Bereich mit Convolutional Neural Networks (CNN) zu konkurrieren
- Wettbewerbe decken verschiedene Forschungsfelder ab, darunter Computer Vision, NLP, tabellarische Daten, Robotik und Zeitreihenanalyse
- Einzelmodell-Lösungen gewinnen gelegentlich, aber große Ensembles gewinnen in der Regel
- Es gibt mehrere Plattformen für Machine-Learning-Wettbewerbe sowie Dutzende von Websites, die eigens für einzelne Wettbewerbe erstellt wurden
- Competitive Machine Learning wird weiterhin immer populärer, auch in der Wissenschaft
- 50 % der Sieger sind Solo-Gewinner, und 50 % der Sieger gewinnen zum ersten Mal. 30 % haben bereits zwei oder mehr Siege errungen
- Einige Teilnehmer können erheblich in Hardware investieren, um ihre Lösungen zu trainieren, aber auch Teilnehmer mit kostenloser Hardware wie Google Colab können weiterhin gewinnen
Competitive ML Landscape
- Bemerkenswerte Wettbewerbe und Trends
- Gemessen am Preisgeld: DrivenDatas Snowcast Showdown (gesponsert vom US Department of Housing and Urban Development). Preisgeld von $500k
- Am beliebtesten war Kaggles American Express Default Prediction. Mehr als 4000 Teams nahmen teil. Preisgeld von $100k. Der erste Platz ging an einen Solo-Teilnehmer bei seiner ersten Teilnahme (neuronales Netz + LightGBM)
- Der größte unabhängige Wettbewerb war Stanfords AI Audit Challenge
- Das größte Fachgebiet war Computer Vision: Umwelt, Medizin
- Das zweitgrößte Fachgebiet war NLP: NLP + Suche, NLP + Reinforcement Learning
- Auch der Bereich Sequential Decision-Making wächst
- Plattformen
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Weitere interessante Plattformen: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Zweck
- Gut organisierte Wettbewerbe
- stellen interessante Probleme zusammen mit Trainingsdaten bereit, die man gerne lösen möchte
- verfügen über einen Pool kompetenter potenzieller Teilnehmer
- haben Mechanismen, die Teilnehmer bestrafen, die overfitten
- bieten ausreichend starke (finanzielle) Anreize, damit Teilnehmer echte Anstrengungen in die Problemlösung investieren
- umfassen eine öffentliche Begutachtung der Gewinnerlösung (nach Ende des Wettbewerbs)
Winning Solutions
- Winning Toolkit: Python, an zweiter Stelle C++
- Häufig genutzte Python-Pakete
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter-Optimierung: Optuna
- Experiment-Tracking: W&B
- Visualisierung: matplotlib, seaborn
- NLP-Toolkit: Transformers
- Computer-Vision-Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm
Noch keine Kommentare.