- Das Team der LINE Data Platform hat die Richtung festgelegt, die Nutzung von Hive schrittweise einzustellen und in eine Spark-Umgebung zu migrieren
- Migrationsmethode – Engine austauschen und bei Problemen die Queries anpassen
- Beispiele für Query-Änderungen:
- bei Verwendung temporärer Tabellen (
CREATE TEMPORARY TABLE)
- bei Verwendung impliziter Typumwandlungen, die gegen die ANSI-Richtlinien verstoßen (Store Assignment Policy)
- wenn es Probleme mit bisher verwendeten UDFs gibt
- wenn neue UDFs eingeführt wurden
- wenn Mengenoperationen auf den Map-Typ angewendet wurden
- wenn mehrere Partitionen gelöscht werden müssen
- Nach der Migration fehlten bestimmte Daten, weshalb Troubleshooting durchgeführt wurde
- Fünf Problemfälle und Gegenmaßnahmen:
- Nach Ausführung der Query fehlen einige Ergebnisse
- Daten können nicht gelesen werden, wenn sich unter einem Partitionsverzeichnis Unterverzeichnisse befinden
- Beim Ausführen eines Jobs wird ein Partitionsverzeichnis gelöscht, wodurch Queries fehlschlagen, die diese Partition verwenden
- Beim Lesen von Daten aus einer Partition und Schreiben in eine andere Partition derselben Tabelle tritt
AnalysisException("Cannot overwrite a path that is also being read from") auf
- Ergebnisse werden dupliziert und dadurch doppelt geladen
- Neben OpenChat ist geplant, bis Ende des Jahres sämtliche Queries aus mehreren derzeit betreuten Domains – insgesamt mehrere Hundert – vollständig auf Spark zu migrieren
Noch keine Kommentare.