- Foundation-Modell speziell für tabellarische (strukturierte) Daten, mit einer scikit-learn-artigen
fit/predict-Schnittstelle, über die sich Klassifikations- und Regressionsaufgaben direkt ausführen lassen
- Das Basismodell TabPFN-2.6 wurde ausschließlich mit synthetischen Daten trainiert und lädt beim ersten Einsatz den Checkpoint automatisch herunter, sodass keine separate Trainingspipeline erforderlich ist
- Auch keine Datenvorverarbeitung nötig: Statt Skalierung, One-Hot-Encoding usw. anzuwenden, sollen die Rohdaten unverändert eingegeben werden; auch fehlende Werte können intern verarbeitet werden
- Eine GPU wird empfohlen (~8 GB VRAM oder mehr); auf der CPU ist die Ausführung nur für etwa weniger als 1.000 Samples praktikabel, und für Umgebungen ohne GPU wird der TabPFN Client (Cloud-Inferenz) angeboten
- Batch-Vorhersagen sind erforderlich: Wird
predict für jedes einzelne Sample aufgerufen, wird das Trainingsset jedes Mal neu berechnet, wodurch es etwa 100-mal langsamer ist als ein einzelner Aufruf — empfohlen wird, das Testset in Einheiten von 1.000 aufzuteilen
- Der optimale Leistungsbereich liegt bei bis zu 100.000 Samples und 2.000 Features; für 50.000 bis 100.000 Samples soll
ignore_pretraining_limits=True gesetzt werden, und oberhalb von 100.000 ist der Large Datasets Guide anzuwenden
- Mit TabPFN Extensions werden Erweiterungen wie SHAP-Interpretierbarkeit, Ausreißererkennung, Erzeugung synthetischer Daten, Embedding-Extraktion, Hyperparameter-Optimierung und Post-Hoc-Ensembling bereitgestellt
- Auf HuggingFace stehen zahlreiche spezialisierte Checkpoints bereit: für viele Features (bis zu 1.000), große Stichprobenmengen (30.000+), kleine Stichprobenmengen (unter 3K) sowie auf realen Daten feinabgestimmte Versionen
- In der Enterprise Edition werden latenzarme Inferenz auf Basis einer Distillation-Engine, Unterstützung für bis zu 10 Millionen Zeilen sowie kommerzielle Lizenzen geboten
- Zusätzlich verfügbar ist TabPFN UX, eine No-Code-Grafikoberfläche, die sich ohne Code nutzen lässt
- Der Code steht unter der Prior Labs License (Apache 2.0 + Attributionsanforderung), die Modellgewichte von TabPFN-2.5/2.6 unter einer nicht-kommerziellen Lizenz
Noch keine Kommentare.