8 Punkte von yechoi 2023-09-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das Team der LINE Data Platform hat die Richtung festgelegt, die Nutzung von Hive schrittweise einzustellen und in eine Spark-Umgebung zu migrieren
  • Migrationsmethode – Engine austauschen und bei Problemen die Queries anpassen
  • Beispiele für Query-Änderungen:
    • bei Verwendung temporärer Tabellen (CREATE TEMPORARY TABLE)
    • bei Verwendung impliziter Typumwandlungen, die gegen die ANSI-Richtlinien verstoßen (Store Assignment Policy)
    • wenn es Probleme mit bisher verwendeten UDFs gibt
    • wenn neue UDFs eingeführt wurden
    • wenn Mengenoperationen auf den Map-Typ angewendet wurden
    • wenn mehrere Partitionen gelöscht werden müssen
  • Nach der Migration fehlten bestimmte Daten, weshalb Troubleshooting durchgeführt wurde
  • Fünf Problemfälle und Gegenmaßnahmen:
    • Nach Ausführung der Query fehlen einige Ergebnisse
    • Daten können nicht gelesen werden, wenn sich unter einem Partitionsverzeichnis Unterverzeichnisse befinden
    • Beim Ausführen eines Jobs wird ein Partitionsverzeichnis gelöscht, wodurch Queries fehlschlagen, die diese Partition verwenden
    • Beim Lesen von Daten aus einer Partition und Schreiben in eine andere Partition derselben Tabelle tritt AnalysisException("Cannot overwrite a path that is also being read from") auf
    • Ergebnisse werden dupliziert und dadurch doppelt geladen
  • Neben OpenChat ist geplant, bis Ende des Jahres sämtliche Queries aus mehreren derzeit betreuten Domains – insgesamt mehrere Hundert – vollständig auf Spark zu migrieren

Noch keine Kommentare.

Noch keine Kommentare.