Manchmal macht sogar verfrühte Optimierung Spaß (2025)

Beim Verkleinern der Struktur zur Protokollierung von ICMP Echo Requests in einem Konnektivitäts-Monitoring-System sank die Speichernutzung des Ringpuffers von 12 KiB auf 4 KiB
Als statt sent_ns und received_ns beide zu speichern nach dem Empfang nur noch die Latenz erhalten blieb und dafür eine Union verwendet wurde, schrumpfte das Array auf 8 KiB
Nanosekunden-Genauigkeit wurde durch 100-Mikrosekunden-Einheiten ersetzt und received in ein Bitfeld umgewandelt, aber wegen Struct Padding ergab sich keine weitere Einsparung
Indem statt der Quelladresse ein Teil der Bedeutung des ICMP-identifier durch einen 4-Bit-Zähler ersetzt wurde, schrumpfte die Struktur auf 8 Byte und ein Array mit 512 Elementen auf 4 KiB
Die Anwendung hatte keine Speicherbeschränkung, daher gab es keinen praktischen Bedarf, aber es wurde zu einem Optimierungsexperiment, das sogar Feldanordnung und die Kosten des Bitzugriffs betrachtete

Problemstellung: Wie Ping-Protokolle gespeichert werden

Das Konnektivitäts-Monitoring-System sendet ICMP Echo Requests an mehrere Server und beobachtet die durchschnittliche Latenz und den Paketverlust über Intervalle von 1, 5 und 15 Minuten
Die zuerst naheliegende Speicherform war ein Ringpuffer mit 512 Einträgen, wobei jeder Eintrag Sendezeitpunkt, Empfangszeitpunkt, Quelladresse, Sequenznummer und Empfangsstatus enthält
Die Größe des anfänglichen Struktur-Arrays pings_rb[512] wurde mit 12 KiB gemessen

struct ping_timestamp {
    uint64_t sent_ns;
    uint64_t received_ns;
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

Erste Einsparung: Sendezeitpunkt und verstrichene Zeit per Union zusammenführen

Der tatsächlich gewünschte Wert ist nach dem Empfang die Latenz received - sent, daher müssen Sendezeitpunkt und verstrichene Zeit nicht gleichzeitig gespeichert werden
In der Struktur, die sent_ts und elapsed_ts per Union zusammenfasst, wird derselbe Slot vor dem Senden als Sendezeitpunkt und nach dem Empfang als verstrichene Zeit verwendet
Nach dieser Änderung schrumpfte das 512er-Array von 12 KiB auf 8 KiB

struct ping_timestamp_2 {
    union {
        uint64_t sent_ts;
        uint64_t elapsed_ts;
    };
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

Zweiter Versuch: geringere Präzision und Bitfelder

Ping-Zeiten werden in Zehner-, Hunderter- oder Tausender-Millisekunden gemessen, daher ist es nicht nötig, volle Nanosekunden-Präzision zu speichern
Wenn die Zeiteinheit auf 100 Mikrosekunden, also 0,1 ms, umgestellt wird, sind mit 43 Bit bis zu 20 Jahre Ping-Tracking möglich
Für den Wahrheitswert von received 8 Bit zu verwenden ist übertrieben, daher wurde ein Bitfeld eingesetzt
Das Array von ping_timestamp_3 blieb jedoch ebenfalls bei 8 KiB, sodass keine weitere Einsparung entstand

struct ping_timestamp_3 {
    uint64_t sent_or_elapsed_ts: 43;
    uint64_t received: 1;
    uint64_t seq_no: 16;
    in_addr_t source_addr;
};

Warum die Größe wegen Struct Padding nicht kleiner wurde

Bei ping_timestamp_2 werden am Ende Padding-Bytes angehängt, um die Alignment-Anforderungen zu erfüllen
ping_timestamp_3 legt Zeit, Empfangsstatus und Sequenznummer in die ersten 8 Byte, danach bleiben aber Quelladresse und Padding übrig
Trotz Bitfeldern bleiben 36 Bit Padding übrig, sodass die Gesamtgröße der Struktur nicht sinkt
Allein ein bool auf ein Bit zu reduzieren löst die Probleme von Speicherlayout und Alignment nicht

Quelladresse entfernen und ein 4-Bit-Zähler

Während das Produkt in mobilen Datennetzen läuft, ändert sich die Quelladresse häufig, deshalb speicherte die bisherige Struktur die Quelladresse
Wenn sich die Adresse ändert, wird auch die Sequenznummer zurückgesetzt; in der Vergangenheit wurden schon gleichzeitig Pakete mit unterschiedlichen Quelladressen und derselben Sequenznummer verarbeitet
ICMP Echo Requests haben ein 16-Bit-Feld identifier, mit dem die Anwendung die von ihr gesendeten Pakete identifizieren kann
Da nicht alle 16 Bit benötigt werden, werden die übrigen 4 Bit als rollierender Zähler verwendet, der bei Änderungen der Quelladresse inkrementiert wird
Dieser Zähler wird passend zu Quelladressänderungen erhöht, die an anderer Stelle der Anwendung überwacht werden

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t received : 1;
    uint64_t counter: 4;
    uint64_t seq_no: 16;
};

Endergebnis und Feldanordnung

Die endgültige Struktur entfernt das Feld für die Quelladresse und speichert Zeit, Empfangsstatus, Zähler und Sequenznummer in 64 Bit
Das Ringpuffer-Array mit 512 Elementen ist damit 4 KiB groß und passt auf eine Datenseite
Gegenüber den ursprünglichen 12 KiB werden insgesamt 8 KiB eingespart
Die Reihenfolge der Felder wurde so angepasst, dass seq_no an einer 16-Bit-Grenze liegt und beim Laden ohne Shift mit einem einzelnen ldrh-Befehl gelesen werden kann
Zum Lesen von elapsed_or_sent_ts ist nur eine Maske nötig

Zusätzliche Optimierung: Kosten für den Zugriff auf das Empfangs-Bit senken

In einem Nachtrag vom 2025-06-21 wird erklärt, dass durch das Vertauschen von received und counter beim Zugriff auf das received-Bit nur noch ein Shift statt Shift plus Maske nötig ist
Diese Änderung macht den Zugriff auf received günstiger, verursacht aber beim Lesen von counter die Kosten, das received-Bit per Maske zu entfernen
In einem Nachtrag vom 2025-06-22 wird ausgenutzt, dass counter nur gelesen wird, wenn received wahr ist
Wenn die Bedeutung von received umgedreht und als not_received gespeichert wird, kann innerhalb der Bedingung, die prüft, ob not_received gleich 0 ist, die Maske für counter vom Compiler vollständig entfernt werden

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t counter: 4;
    uint64_t not_received : 1;
    uint64_t seq_no: 16;
};

Fazit

Das Optimierungsergebnis reduzierte die Speichernutzung von 12 KiB auf 4 KiB, obwohl die Anwendung selbst nicht speicherbeschränkt ist
Unabhängig vom praktischen Bedarf wurde daraus ein Experiment zu Struct-Layout, Padding, Bitfeldern und den Kosten des Zugriffs auf Instruktionsebene
Im letzten Kommentar wird klargestellt, dass sogar der Ausdruck „Problem“ locker verwendet wurde und nicht einmal ein Benchmark durchgeführt wurde

Manchmal macht sogar verfrühte Optimierung Spaß (2025)

Problemstellung: Wie Ping-Protokolle gespeichert werden

Erste Einsparung: Sendezeitpunkt und verstrichene Zeit per Union zusammenführen

Zweiter Versuch: geringere Präzision und Bitfelder

Warum die Größe wegen Struct Padding nicht kleiner wurde

Quelladresse entfernen und ein 4-Bit-Zähler

Endergebnis und Feldanordnung

Zusätzliche Optimierung: Kosten für den Zugriff auf das Empfangs-Bit senken

Fazit

1 Kommentare

Lobste.rs-Meinungen

Manchmal macht sogar verfrühte Optimierung Spaß (2025)

Problemstellung: Wie Ping-Protokolle gespeichert werden

Erste Einsparung: Sendezeitpunkt und verstrichene Zeit per Union zusammenführen

Zweiter Versuch: geringere Präzision und Bitfelder

Warum die Größe wegen Struct Padding nicht kleiner wurde

Quelladresse entfernen und ein 4-Bit-Zähler

Endergebnis und Feldanordnung

Zusätzliche Optimierung: Kosten für den Zugriff auf das Empfangs-Bit senken

Fazit

Verwandte Beiträge

1 Kommentare

Lobste.rs-Meinungen