State of Competitive Machine Learning 2022

xguru · 2023-03-22T11:05:02+09:00

Highlights Die Tool-Landschaft konsolidiert sich auf Python, PyData, Pytorch und Gradient-boosted Decision Trees (GBDT) Deep Learning hat GBDT bei tabellarischen Daten noch nicht ersetzt Transformer dominieren NLP und beginnen im Computer Vision-Bereich mit Convolutional Neural Networks (CNN) zu konkurrieren Wettbewerbe decken verschiedene Forschungsfelder ab, darunter Computer Vision, NLP, tabellarische Daten, Robotik und Zeitreihenanalyse Einzelmodell-Lösungen gewinnen gelegentlich, aber große Ensembles gewinnen in der Regel Es gibt mehrere Plattformen für Machine-Learning-Wettbewerbe sowie Dutzende von Websites, die eigens für einzelne Wettbewerbe erstellt wurden Competitive Machine Learning wird weiterhin immer populärer, auch in der Wissenschaft 50 % der Sieger sind Solo-Gewinner, und 50 % der Sieger gewinnen zum ersten Mal. 30 % haben bereits zwei oder mehr Siege errungen Einige Teilnehmer können erheblich in Hardware investieren, um ihre Lösungen zu trainieren, aber auch Teilnehmer mit kostenloser Hardware wie Google Colab können weiterhin gewinnen Competitive ML Landscape Bemerkenswerte Wettbewerbe und Trends Gemessen am Preisgeld: DrivenDatas Snowcast Showdown (gesponsert vom US Department of Housing and Urban Development). Preisgeld von $500k Am beliebtesten war Kaggles American Express Default Prediction. Mehr als 4000 Teams nahmen teil. Preisgeld von $100k. Der erste Platz ging an einen Solo-Teilnehmer bei seiner ersten Teilnahme (neuronales Netz + LightGBM) Der größte unabhängige Wettbewerb war Stanfords AI Audit Challenge Das größte Fachgebiet war Computer Vision: Umwelt, Medizin Das zweitgrößte Fachgebiet war NLP: NLP + Suche, NLP + Reinforcement Learning Auch der Bereich Sequential Decision-Making wächst Plattformen Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Weitere interessante Plattformen: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Zweck Gut organisierte Wettbewerbe stellen interessante Probleme zusammen mit Trainingsdaten bereit, die man gerne lösen möchte verfügen über einen Pool kompetenter potenzieller Teilnehmer haben Mechanismen, die Teilnehmer bestrafen, die overfitten bieten ausreichend starke (finanzielle) Anreize, damit Teilnehmer echte Anstrengungen in die Problemlösung investieren umfassen eine öffentliche Begutachtung der Gewinnerlösung (nach Ende des Wettbewerbs) Winning Solutions Winning Toolkit: Python, an zweiter Stelle C++ Häufig genutzte Python-Pakete PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter-Optimierung: Optuna Experiment-Tracking: W&B Visualisierung: matplotlib, seaborn NLP-Toolkit: Transformers Computer-Vision-Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

Highlights

Die Tool-Landschaft konsolidiert sich auf Python, PyData, Pytorch und Gradient-boosted Decision Trees (GBDT)
Deep Learning hat GBDT bei tabellarischen Daten noch nicht ersetzt
Transformer dominieren NLP und beginnen im Computer Vision-Bereich mit Convolutional Neural Networks (CNN) zu konkurrieren
Wettbewerbe decken verschiedene Forschungsfelder ab, darunter Computer Vision, NLP, tabellarische Daten, Robotik und Zeitreihenanalyse
Einzelmodell-Lösungen gewinnen gelegentlich, aber große Ensembles gewinnen in der Regel
Es gibt mehrere Plattformen für Machine-Learning-Wettbewerbe sowie Dutzende von Websites, die eigens für einzelne Wettbewerbe erstellt wurden
Competitive Machine Learning wird weiterhin immer populärer, auch in der Wissenschaft
50 % der Sieger sind Solo-Gewinner, und 50 % der Sieger gewinnen zum ersten Mal. 30 % haben bereits zwei oder mehr Siege errungen
Einige Teilnehmer können erheblich in Hardware investieren, um ihre Lösungen zu trainieren, aber auch Teilnehmer mit kostenloser Hardware wie Google Colab können weiterhin gewinnen

Competitive ML Landscape

Bemerkenswerte Wettbewerbe und Trends
- Gemessen am Preisgeld: DrivenDatas Snowcast Showdown (gesponsert vom US Department of Housing and Urban Development). Preisgeld von $500k
- Am beliebtesten war Kaggles American Express Default Prediction. Mehr als 4000 Teams nahmen teil. Preisgeld von $100k. Der erste Platz ging an einen Solo-Teilnehmer bei seiner ersten Teilnahme (neuronales Netz + LightGBM)
- Der größte unabhängige Wettbewerb war Stanfords AI Audit Challenge
- Das größte Fachgebiet war Computer Vision: Umwelt, Medizin
- Das zweitgrößte Fachgebiet war NLP: NLP + Suche, NLP + Reinforcement Learning
- Auch der Bereich Sequential Decision-Making wächst
Plattformen
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Weitere interessante Plattformen: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Zweck
- Gut organisierte Wettbewerbe
  - stellen interessante Probleme zusammen mit Trainingsdaten bereit, die man gerne lösen möchte
  - verfügen über einen Pool kompetenter potenzieller Teilnehmer
  - haben Mechanismen, die Teilnehmer bestrafen, die overfitten
  - bieten ausreichend starke (finanzielle) Anreize, damit Teilnehmer echte Anstrengungen in die Problemlösung investieren
  - umfassen eine öffentliche Begutachtung der Gewinnerlösung (nach Ende des Wettbewerbs)

Winning Solutions

Winning Toolkit: Python, an zweiter Stelle C++
Häufig genutzte Python-Pakete
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter-Optimierung: Optuna
- Experiment-Tracking: W&B
- Visualisierung: matplotlib, seaborn
- NLP-Toolkit: Transformers
- Computer-Vision-Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

State of Competitive Machine Learning 2022

Highlights

Competitive ML Landscape

Winning Solutions

Verwandte Beiträge

Noch keine Kommentare.