Probleme beheben, die bei der Migration von HiveQL zu Spark SQL auftreten

yechoi · 2023-09-05T18:35:38+09:00

Das Team der LINE Data Platform hat die Richtung festgelegt, die Nutzung von Hive schrittweise einzustellen und in eine Spark-Umgebung zu migrieren Migrationsmethode – Engine austauschen und bei Problemen die Queries anpassen Beispiele für Query-Änderungen: bei Verwendung temporärer Tabellen (CREATE TEMPORARY TABLE) bei Verwendung impliziter Typumwandlungen, die gegen die ANSI-Richtlinien verstoßen (Store Assignment Policy) wenn es Probleme mit bisher verwendeten UDFs gibt wenn neue UDFs eingeführt wurden wenn Mengenoperationen auf den Map-Typ angewendet wurden wenn mehrere Partitionen gelöscht werden müssen Nach der Migration fehlten bestimmte Daten, weshalb Troubleshooting durchgeführt wurde Fünf Problemfälle und Gegenmaßnahmen: Nach Ausführung der Query fehlen einige Ergebnisse Daten können nicht gelesen werden, wenn sich unter einem Partitionsverzeichnis Unterverzeichnisse befinden Beim Ausführen eines Jobs wird ein Partitionsverzeichnis gelöscht, wodurch Queries fehlschlagen, die diese Partition verwenden Beim Lesen von Daten aus einer Partition und Schreiben in eine andere Partition derselben Tabelle tritt AnalysisException("Cannot overwrite a path that is also being read from") auf Ergebnisse werden dupliziert und dadurch doppelt geladen Neben OpenChat ist geplant, bis Ende des Jahres sämtliche Queries aus mehreren derzeit betreuten Domains – insgesamt mehrere Hundert – vollständig auf Spark zu migrieren

Das Team der LINE Data Platform hat die Richtung festgelegt, die Nutzung von Hive schrittweise einzustellen und in eine Spark-Umgebung zu migrieren
Migrationsmethode – Engine austauschen und bei Problemen die Queries anpassen
Beispiele für Query-Änderungen:
- bei Verwendung temporärer Tabellen (CREATE TEMPORARY TABLE)
- bei Verwendung impliziter Typumwandlungen, die gegen die ANSI-Richtlinien verstoßen (Store Assignment Policy)
- wenn es Probleme mit bisher verwendeten UDFs gibt
- wenn neue UDFs eingeführt wurden
- wenn Mengenoperationen auf den Map-Typ angewendet wurden
- wenn mehrere Partitionen gelöscht werden müssen
Nach der Migration fehlten bestimmte Daten, weshalb Troubleshooting durchgeführt wurde
Fünf Problemfälle und Gegenmaßnahmen:
- Nach Ausführung der Query fehlen einige Ergebnisse
- Daten können nicht gelesen werden, wenn sich unter einem Partitionsverzeichnis Unterverzeichnisse befinden
- Beim Ausführen eines Jobs wird ein Partitionsverzeichnis gelöscht, wodurch Queries fehlschlagen, die diese Partition verwenden
- Beim Lesen von Daten aus einer Partition und Schreiben in eine andere Partition derselben Tabelle tritt AnalysisException("Cannot overwrite a path that is also being read from") auf
- Ergebnisse werden dupliziert und dadurch doppelt geladen
Neben OpenChat ist geplant, bis Ende des Jahres sämtliche Queries aus mehreren derzeit betreuten Domains – insgesamt mehrere Hundert – vollständig auf Spark zu migrieren

Probleme beheben, die bei der Migration von HiveQL zu Spark SQL auftreten

Verwandte Beiträge

Noch keine Kommentare.