Die Datenvalidierungs-Landschaft im Jahr 2025

Erläuterung der wichtigsten Datenvalidierungstools zum aktuellen Zeitpunkt (2025) sowie Empfehlungen je nach Anwendungsfall
Datenvalidierung (Gültigkeitsprüfung) ist der Prozess, bei dem die Qualität von Daten automatisch oder halbautomatisch überprüft wird
- Prüfung von Datentypen, Zählen fehlender Werte, Erkennung ungewöhnlicher Werte
Nicht nur Zeilen in DataFrames, sondern auch API-Eingaben oder Formularübermittlungen können validiert werden
Nutzer können Regeln festlegen, etwa dass die Werte einer bestimmten Spalte in einem bestimmten Bereich liegen müssen
Bei fehlgeschlagener Validierung: Fehler auslösen, einen Validierungsbericht erstellen und anschließend manuell oder automatisch weiterverarbeiten

Warum Datenvalidierung wichtig ist

Analysearbeit in öffentlichen Einrichtungen lässt sich in zwei Kategorien einteilen:
- Ad-hoc-Analysen – einmalige Analyseaufgaben
- Regelmäßige Statistik-Erstellung – regelmäßiges Erfassen und Verarbeiten neuer Daten
Daten müssen validiert werden, bevor Fehler die Analyseergebnisse beeinflussen
Datenvalidierung ist wirksam, um das Fehlerrisiko zu senken und die Genauigkeit zu erhöhen

Wichtige Datenvalidierungstools

1. Great Expectations

Leistungsstarkes Datenvalidierungstool auf Produktionsniveau
Es gibt ein Open-Source-Paket, außerdem wird ein kostenpflichtiger Cloud-Service angeboten
Bietet fortgeschrittene Funktionen:
- Automatisierungen wie das Senden von Slack-Nachrichten bei Validierungsfehlern sind möglich
Die Einrichtung ist komplex und erfordert oft Data-Science-Kenntnisse

Beispielcode:

import great_expectations as gx  
import pandas as pd  

context = gx.get_context()  
df = pd.read_csv("https://raw.githubusercontent.com/great-expectations/gx_tutorials/…;)  

data_source = context.data_sources.add_pandas("pandas")  
data_asset = data_source.add_dataframe_asset(name="pd dataframe asset")  
batch_definition = data_asset.add_batch_definition_whole_dataframe("batch definition")  
batch = batch_definition.get_batch(batch_parameters={"dataframe": df})  

# Prüfen, ob der Wert zwischen 1 und 6 liegt  
expectation = gx.expectations.ExpectColumnValuesToBeBetween(column="passenger_count", min_value=1, max_value=6)  
validation_result = batch.validate(expectation)

Beispiel für die Einrichtung von Slack-Benachrichtigungen bei Validierungsfehlern:

from gx.actions import SlackNotificationAction, UpdateDataDocsAction  

action_list = [  
    SlackNotificationAction(  
        name="send_slack_notification_on_failed_expectations",  
        slack_token="${validation_notification_slack_webhook}",  
        slack_channel="${validation_notification_slack_channel}",  
        notify_on="failure",  
        show_failed_expectations=True,  
    ),  
    UpdateDataDocsAction(name="update_all_data_docs"),  
]

2. Pointblank

Aktuelles Python-Datenvalidierungstool, veröffentlicht 2024 (entwickelt von RStudio → Posit)
Von Great Expectations beeinflusst und mit intuitiver Syntax
Unterstützt verschiedene Datenquellen wie Polars, Pandas und DuckDB

Beispielcode:

import pointblank as pb  

validation = (  
    pb.Validate(data=pb.load_dataset(dataset="small_table"))  
    .col_vals_gt(columns="d", value=100)  
    .col_vals_le(columns="c", value=5)  
    .col_exists(columns=["date", "date_time"])  
    .interrogate()  
)

Fehlende Funktionen zur Automatisierung nachgelagerter Schritte → Folgeprozesse müssen manuell behandelt werden

3. Pandera

Bietet eine API ähnlich wie Great Expectations
Unterstützt statistische Hypothesentests
Unterstützt verschiedene Datenquellen wie Polars, Geopandas und Pyspark

Beispielcode:

import pandas as pd  
import pandera as pa  

df = pd.DataFrame({  
    "column1": [1, 4, 0, 10, 9],  
    "column2": [-1.3, -1.4, -2.9, -10.1, -20.4],  
    "column3": ["value_1", "value_2", "value_3", "value_2", "value_1"],  
})  

schema = pa.DataFrameSchema({  
    "column1": pa.Column(int, checks=pa.Check.le(10)),  
    "column2": pa.Column(float, checks=pa.Check.lt(-1.2)),  
    "column3": pa.Column(str, checks=[  
        pa.Check.str_startswith("value_"),  
        pa.Check(lambda s: s.str.split("_", expand=True).shape[1] == 2)  
    ]),  
})  

validated_df = schema(df)

Beispiel für statistische Hypothesentests:

from scipy import stats  

schema = pa.DataFrameSchema({  
    "height_in_feet": pa.Column(float, [  
        pa.Hypothesis.two_sample_ttest(  
            sample1="M",  
            sample2="F",  
            groupby="sex",  
            relationship="greater_than",  
            alpha=0.05,  
            equal_var=True  
        )  
    ]),  
    "sex": pa.Column(str)  
})  

schema.validate(df)

4. Pydantic

Dictionary-basiertes Validierungstool, nicht für DataFrames
Geeignet für JSON und unstrukturierte Daten
Kann in API-Frameworks wie FastAPI integriert werden

Beispielcode:

from pydantic import BaseModel, PositiveInt  
from datetime import datetime  

class User(BaseModel):  
    id: int  
    name: str = 'John Doe'  
    signup_ts: datetime | None  
    tastes: dict[str, PositiveInt]  

external_data = {  
    'id': 123,  
    'signup_ts': '2019-06-01 12:22',  
    'tastes': {'wine': 9, 'cheese': 7, 'cabbage': '1'}  
}  

user = User(**external_data)

5. Cerberus

Dictionary-basiertes Validierungstool
Einfache regelbasierte Konfiguration
Gibt True/False zurück → wirft keine Fehler

Beispielcode:

from cerberus import Validator  

schema = {'name': {'type': 'string'}}  
v = Validator(schema)  
document = {'name': 'john doe'}  
v.validate(document)  
# True

6. jsonschema

JSON-Datenvalidierungstool
Schemabasierte Definition

Beispielcode:

from jsonschema import validate  

schema = {  
    "type": "object",  
    "properties": {  
        "price": {"type": "number"},  
        "name": {"type": "string"}  
    }  
}  

validate(instance={"name": "Eggs", "price": 34.99}, schema=schema)

Welches Tool sollte im öffentlichen Sektor verwendet werden?

DataFrame- oder Datenbankvalidierung:
- Einsatz in Produktionssystemen → Great Expectations empfohlen
- Einfache Validierung → Pandera empfohlen
- Ein neues Tool ausprobieren → Pointblank empfohlen
API- oder Benutzereingabevalidierung:
- Unstrukturierte Daten → Pydantic empfohlen
Einfache JSON-Validierung:
- jsonschema empfohlen
Wenn eine sehr einfache Validierung benötigt wird:
- Cerberus empfohlen

Die Datenvalidierungs-Landschaft im Jahr 2025

Warum Datenvalidierung wichtig ist

Wichtige Datenvalidierungstools

1. Great Expectations

2. Pointblank

3. Pandera

4. Pydantic

5. Cerberus

6. jsonschema

Welches Tool sollte im öffentlichen Sektor verwendet werden?

Verwandte Beiträge

Noch keine Kommentare.