- "Overview of SHARD: A System for Highly Available Replicated Data" 1988
- Als erste Arbeit, die Datenbank-Sharding vorstellte, wurde sie in zahllosen Papers zitiert, existiert aber "nicht"
- "Integral Neural Networks"
- "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
- "Latency Lags Bandwidth"
- "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
- "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
- "Enso: A Streaming Interface for NIC-Application Communication"
- "Search-Based Regular Expression Inference on a GPU"
- "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
- "FP2: Fully in-Place Functional Programming"
- "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
- "A Holistic Approach to Undesired Content Detection in the Real World"
3 Kommentare
Integral Neural Networks sind wirklich beeindruckend.
Der Kern scheint das Konzept zu sein, die Gewichtsverteilung zu diskretisieren; ähnlich wie in der Abtasttheorie klingt es so, als könne man die als kontinuierliche Funktion dargestellte Gewichtsverteilung diskretisieren und dadurch den Rechenaufwand optimieren.
Wenn man sich auch die aktuellen LLMs ansieht, werden Modelle durch Quantisierung so umgewandelt, dass sie bei ähnlicher Leistung weniger Rechenaufwand benötigen — das scheint eine ähnliche Methodik zu sein.
Der erste Eintrag ist etwas absurd, aber interessant.
Where is the original "Overview of SHARD" paper?
Wenn man sich die Kommentare unter dem Link ansieht, hat der Autor selbst vor Kurzem darauf geantwortet.
Es handelte sich um ein internes Dokument für ein Unternehmen/Forschungsinstitut, daher gab es offenbar keine öffentlich zugängliche Möglichkeit, darauf zuzugreifen.
"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)
Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."
Solche Fälle kommen tatsächlich öfter vor. Der Grund, warum man trotzdem zitiert, obwohl sich der eigentliche Inhalt nicht verifizieren lässt, ist meist, den Ursprung eines in der Arbeit erwähnten spezifischen Konzepts oder einer Forschung klar zu machen. Aus Sicht anderer Forschender muss überprüfbar sein, ob das in der eigenen Arbeit gemeinte Sharding dasselbe Sharding ist, das andere ebenfalls meinen, ob es sich um ein anderes Konzept handelt, das nur denselben Namen trägt und von jemand anderem vorgeschlagen wurde, oder ob es in Wirklichkeit gar kein existierendes Konzept ist und der Begriff Sharding nur benutzt wird, um etwas vorzutäuschen.
Auch im Deep Learning gibt es immer wieder Netzwerkmodelle, die denselben Namen tragen, aber unterschiedliche Forschungsergebnisse darstellen.