Launch HN: Regatta Storage (YC F24) – Technologie zur Umwandlung von S3 in ein lokales, POSIX-ähnliches Cloud-Dateisystem
(news.ycombinator.com)-
Einführung in Regatta Storage
- Regatta Storage ist ein neues Cloud-Dateisystem, das unbegrenzte Kapazität bietet, lokal ähnliche Performance liefert und die automatische Synchronisierung mit S3-kompatiblem Storage unterstützt
- Macht große Datensätze in S3 mit Tools wie Spark, Pytorch und pandas sofort zugänglich
- Durch das Erstellen eines Kontos kann der Service kostenlos ausprobiert werden
-
Hintergrund der Entwicklung
- Der Gründer entwickelte Regatta auf Grundlage seiner Erfahrung beim Aufbau und Betrieb von Cloud-Storage bei Amazon EFS und Netflix
- Er mochte die Einfachheit und Skalierbarkeit von EFS, nutzte es bei Netflix jedoch nur selten
- Beim Verschieben von Workloads von lokalen Festplatten auf NFS traten Performance-Probleme auf
- Regatta wurde entwickelt, um Probleme im Cloud-Storage-Markt zu lösen, die weder durch Block- noch durch File-Storage abgedeckt werden
-
Merkmale von Regatta
- Ein nutzungsbasiertes Cloud-Dateisystem, das automatisch zusammen mit Anwendungen skaliert
- Synchronisiert sich automatisch mit S3 in nativen Dateiformaten, sodass eine Verbindung zu bestehenden Datensätzen möglich ist und Dateidaten direkt aus S3 genutzt werden können
- Nicht genutzte Daten werden aus dem Regatta-Cache entfernt, sodass nur für S3-Storage bezahlt wird
- Es wird ein benutzerdefiniertes Datei-Protokoll entwickelt, das für Workloads mit vielen kleinen Dateien lokal ähnliche Performance und für verteilte Datenverarbeitung Lustre-ähnliche Skalierungsleistung bietet
-
Technische Umsetzung
- Kunden mounten das Regatta-Dateisystem über NFSv3, und die Caching-Instanz wird mit dem S3-Bucket des Kunden verbunden
- Bietet gecachte Lese- und Schreib-Performance im Submillisekundenbereich bei starker Konsistenz
- Komplexe Operationen wie das Umbenennen von Verzeichnissen werden schnell und zuverlässig ausgeführt und asynchron in den S3-Bucket propagiert
-
Anwendungsfälle und Erwartungen
- Wird zum Aufbau serverloser Jupyter-Notebook-Server für AI-Forschende verwendet
- Wird als verteilte Caching-Schicht auf S3 eingesetzt, um mit niedriger Latenz auf gemeinsame Dateien zuzugreifen
- Ersetzt Ceph-Boot-Volumes und senkt dadurch die Kosten
- Nutzerfeedback und Ideen zur künftigen Ausrichtung sind willkommen, und das Team freut sich auf Rückmeldungen aus der Community
1 Kommentare
Hacker-News-Kommentare
Der Unterschied zwischen Rclone und Regatta Storage besteht darin, dass Regatta bei mutierenden Dateisystem-Operationen eine High-Speed-Caching-Schicht verwendet und dadurch starke Konsistenz bietet. Rclone hat keine Schicht, die Konsistenz zwischen parallelen Clients gewährleistet.
Eines der coolsten Produkte aus YC, und ich habe einige Fragen dazu, wie es funktioniert.
Ich hoste DuckDB mit GCP Filestore und hätte gern Informationen zu Preis und Performance von Regatta.
Ich interessiere mich dafür als Backup-Disk für SQLite/DuckDB/parquet und hätte gern gecachte Reads aus dem lokalen NVMe-Storage der Instanz.
Ich halte es für eine gute Idee, NFS als Protokoll zu verwenden.
Es gibt Bedenken, dass AWS dieses Produkt kopieren und zu einem niedrigeren Preis anbieten könnte.
Ich habe 2008 vor dem CEO von Adobe erfolgreich eine Demo gezeigt, bei der ein mit dem iPhone aufgenommenes Foto automatisch als Datei auf dem Mac erschien.
Ich frage mich, ob man mit Lambda + SQLite + Regatta Real-Time-ACID-SQL-Storage aufbauen kann.
Es ist nicht klar, wie Konflikte bei Datei-Updates behandelt werden.
Es gibt beachtenswerte Alternativen wie s3fs, rclone und goofys.