5 Punkte von GN⁺ 2024-11-19 | 1 Kommentare | Auf WhatsApp teilen
  • Einführung in Regatta Storage

    • Regatta Storage ist ein neues Cloud-Dateisystem, das unbegrenzte Kapazität bietet, lokal ähnliche Performance liefert und die automatische Synchronisierung mit S3-kompatiblem Storage unterstützt
    • Macht große Datensätze in S3 mit Tools wie Spark, Pytorch und pandas sofort zugänglich
    • Durch das Erstellen eines Kontos kann der Service kostenlos ausprobiert werden
  • Hintergrund der Entwicklung

    • Der Gründer entwickelte Regatta auf Grundlage seiner Erfahrung beim Aufbau und Betrieb von Cloud-Storage bei Amazon EFS und Netflix
    • Er mochte die Einfachheit und Skalierbarkeit von EFS, nutzte es bei Netflix jedoch nur selten
    • Beim Verschieben von Workloads von lokalen Festplatten auf NFS traten Performance-Probleme auf
    • Regatta wurde entwickelt, um Probleme im Cloud-Storage-Markt zu lösen, die weder durch Block- noch durch File-Storage abgedeckt werden
  • Merkmale von Regatta

    • Ein nutzungsbasiertes Cloud-Dateisystem, das automatisch zusammen mit Anwendungen skaliert
    • Synchronisiert sich automatisch mit S3 in nativen Dateiformaten, sodass eine Verbindung zu bestehenden Datensätzen möglich ist und Dateidaten direkt aus S3 genutzt werden können
    • Nicht genutzte Daten werden aus dem Regatta-Cache entfernt, sodass nur für S3-Storage bezahlt wird
    • Es wird ein benutzerdefiniertes Datei-Protokoll entwickelt, das für Workloads mit vielen kleinen Dateien lokal ähnliche Performance und für verteilte Datenverarbeitung Lustre-ähnliche Skalierungsleistung bietet
  • Technische Umsetzung

    • Kunden mounten das Regatta-Dateisystem über NFSv3, und die Caching-Instanz wird mit dem S3-Bucket des Kunden verbunden
    • Bietet gecachte Lese- und Schreib-Performance im Submillisekundenbereich bei starker Konsistenz
    • Komplexe Operationen wie das Umbenennen von Verzeichnissen werden schnell und zuverlässig ausgeführt und asynchron in den S3-Bucket propagiert
  • Anwendungsfälle und Erwartungen

    • Wird zum Aufbau serverloser Jupyter-Notebook-Server für AI-Forschende verwendet
    • Wird als verteilte Caching-Schicht auf S3 eingesetzt, um mit niedriger Latenz auf gemeinsame Dateien zuzugreifen
    • Ersetzt Ceph-Boot-Volumes und senkt dadurch die Kosten
    • Nutzerfeedback und Ideen zur künftigen Ausrichtung sind willkommen, und das Team freut sich auf Rückmeldungen aus der Community

1 Kommentare

 
GN⁺ 2024-11-19
Hacker-News-Kommentare
  • Der Unterschied zwischen Rclone und Regatta Storage besteht darin, dass Regatta bei mutierenden Dateisystem-Operationen eine High-Speed-Caching-Schicht verwendet und dadurch starke Konsistenz bietet. Rclone hat keine Schicht, die Konsistenz zwischen parallelen Clients gewährleistet.

    • Regatta Storage verwendet bei mutierenden Dateisystem-Operationen eine High-Speed-Caching-Schicht und bietet dadurch starke Konsistenz.
    • Rclone hat keine Schicht, die Konsistenz zwischen parallelen Clients gewährleistet.
  • Eines der coolsten Produkte aus YC, und ich habe einige Fragen dazu, wie es funktioniert.

    • Ich frage mich, ob es zu Leistungseinbußen kommt, wenn man auf einer lokalen 10-GB-Disk Daten im Bereich von 50 GB verarbeitet.
    • Ich frage mich, ob man auch in anderen Clouds außer AWS hohe Geschwindigkeit erreichen kann.
    • Ich bin neugierig auf die Verwendung von FUSE- und NFS-Mounts.
    • Ich frage mich, ob man Clickhouse oder Postgres auf einem Regatta-Volume betreiben kann.
    • Ich frage mich, wie ihr zu Open Source steht.
    • Ich frage mich, ob man es auf mehreren Servern mounten kann und welche Einschränkungen es dabei gibt.
  • Ich hoste DuckDB mit GCP Filestore und hätte gern Informationen zu Preis und Performance von Regatta.

    • Ich hätte gern Informationen zu Preis und Performance einer 10-TiB-Instanz.
  • Ich interessiere mich dafür als Backup-Disk für SQLite/DuckDB/parquet und hätte gern gecachte Reads aus dem lokalen NVMe-Storage der Instanz.

    • Ich brauche Locking- und Shared-Memory-Funktionen, die man mit NFS nicht bekommt.
    • Ich könnte das zwar direkt im User Space implementieren, aber dann würde ich eher gleich S3 verwenden.
  • Ich halte es für eine gute Idee, NFS als Protokoll zu verwenden.

    • Ich habe bei IBM einmal ein ähnliches verschlüsseltes Dateisystem geschrieben.
    • Wenn man ein Dateisystem mountet und alle Daten „einfach da sind“, wirkt das wie Magie.
  • Es gibt Bedenken, dass AWS dieses Produkt kopieren und zu einem niedrigeren Preis anbieten könnte.

  • Ich habe 2008 vor dem CEO von Adobe erfolgreich eine Demo gezeigt, bei der ein mit dem iPhone aufgenommenes Foto automatisch als Datei auf dem Mac erschien.

    • Ich habe mit FUSE eine lokale FUSE-Implementierung gebaut, die mit dem verteilten Objektspeicher von Adobe kommunizierte.
    • Mit dem Start von Dropbox habe ich begonnen, im Bereich Research & Development für verteilte Systeme zu arbeiten.
  • Ich frage mich, ob man mit Lambda + SQLite + Regatta Real-Time-ACID-SQL-Storage aufbauen kann.

  • Es ist nicht klar, wie Konflikte bei Datei-Updates behandelt werden.

    • Wenn zum Beispiel zwei Nutzer dieselbe Datei auf unterschiedlichen Rechnern aktualisieren, frage ich mich, wie die endgültige Datei aussieht.
  • Es gibt beachtenswerte Alternativen wie s3fs, rclone und goofys.