Schnellere und hochwertigere KI-Antworten für alle, Phind-405B

(phind.com)

1 Punkte von GN⁺ 2024-09-06 | 1 Kommentare | Auf WhatsApp teilen

There is no content to summarize from the provided article link.

1 Kommentare

GN⁺ 2024-09-06

Hacker-News-Kommentare

Phind ist für mich immer noch die beste KI-gestützte Suchmaschine
Bei technischen Fragen liefert sie gute Referenzlinks, mit denen man die Antwort überprüfen oder tiefer einsteigen kann
Beispiele aus dem Verlauf sind Videoformate mit Mastodon-Unterstützung https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, ein Vergleich von XFS und ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1 sowie der no-slot-clock-Ansatz beim Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple
Die Antworten sind nicht perfekt, aber sie geben einen guten Überblick, und die Links zu Webquellen sind hervorragend. ChatGPT und Claude sind darin schwächer, und Bing CoPilot kann das teilweise, gefällt mir aber weniger
- In meinen Tests hat auch Phind 70B halluziniert
  Ich habe zum Beispiel nach Bluetooth-Ohrhörern gefragt, bei denen sich der Akku leicht austauschen lässt, und es wurden immer wieder Produkte empfohlen, bei denen der Akku ins Gehäuse eingelötet ist. Fairerweise hat auch Perplexity bei dieser Frage versagt
- Ich denke, hier gibt es noch ziemlich viel Verbesserungspotenzial, und wir arbeiten daran, Antwortaufbau und Überprüfbarkeit weiter zu verbessern
- Phind war für mich früher vor allem das Tool, um im Internet relevantere und aktuellere Informationen zu finden, aber seit etwa drei Monaten ist das nicht mehr so
  Mit der Zeit wurden die Antworten bei vielen Fragen immer unvollständiger oder falscher, und schlimmer noch: Manchmal hieß es, es könne keine Antwort gefunden werden, obwohl sie auf den verlinkten Referenzseiten stand
  Am Ende bin ich wieder hauptsächlich zu Bing und gpt 4o zurückgekehrt, und ehrlich gesagt zögere ich, Zeit in einen neuen Versuch mit der neuen Version zu investieren
- Hier sehe ich Literaturangaben, aber wenn ich selbst frage, bekomme ich selbst im eingeloggten Zustand nur Antworten ohne Zitate
  Ich dachte, das sei ein altes Problem gewesen, das bereits behoben wurde, aber ich habe es immer noch. Wenn ich ausgeloggt frage, werden Referenzen angezeigt, aber dann basiert die Antwort auf dem instant-Modell
- Aus ähnlichen Gründen nutze ich oft Brave Search
  Man kann leicht zwischen normaler Suche und LLM-basierter Suche zu der jeweils passenderen Option wechseln
Ich habe es gerade ausprobiert: Ich habe nach einem Forschungsthema gefragt, das ich gerade untersuche, und bekam zwar eine Antwort, aber ohne Literaturangaben
Also habe ich die Antwort kopiert und konkret nach Quellen gefragt, woraufhin sich entschuldigt wurde mit dem Hinweis, dass der Verweis auf eine bestimmte Studie in der vorherigen Antwort ein Fehler gewesen sei und die Suchergebnisse keine relevanten Informationen enthielten, die diese Behauptung stützen
Ich weiß nicht so recht, was ich davon halten soll
- In einem weiteren Test hat es aber ziemlich gut abgeschnitten, als ich um eine kurze Erklärung zur Verwendung von Laravel 11 Blade fragments bat
  Danach habe ich drei Zeilen Routing-Code aus Laravel gegeben und gefragt, wie man es so implementiert, dass das zurückzugebende Fragment über einen URL-Parameter bestimmt wird
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  Dass eine passende View vorhanden sein muss, war ein guter Anfang, aber dann wurde Folgendes empfohlen
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  Ich konnte sofort sehen, dass das falsch war, aber jemand, der gerade lernt, vielleicht nicht. Deshalb musste ich noch einmal nachfragen: „Moment, woher weiß dieser Code denn, welche View er verwenden soll?“ Erst dann kam die richtige Antwort
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  Bei solchen Modellen ist es viel zu leicht, Edge Cases zu finden, und man muss praktisch alles infrage stellen, was man als Antwort bekommt. Trotzdem sind sie manchmal sehr leistungsfähig und nützlich
- Prüfe zuerst, ob Always search aktiviert ist, und versuche dann die erste Frage noch einmal
  Dann solltest du die richtige Antwort zusammen mit Referenzen erhalten
- Ich hasse diese Formulierungen wie „Als KI-Assistent hätte ich vorsichtiger sein sollen“ wirklich
- Diese lange Entschuldigung war ehrlich gesagt nur eine weitschweifige und wiederholende Art zu sagen: „Ich habe einfach irgendetwas behauptet“
  Natürlich gibt es auch Menschen, die so reden. Wenn der LLM-Hype etwas Positives hat, dann vielleicht, dass er uns gegen diese psychopathische Art zu sprechen immun macht
Stimmt die Aussage „Das Kernproblem der AI-basierten Suche ist, dass sie im Vergleich zu klassischem Google viel zu langsam ist. Selbst wenn sie bessere Antworten erzeugt, schreckt die zusätzliche Latenz ab“?
Die meisten Beschwerden, die ich selbst habe oder höre, betreffen ungenaue AI-Ergebnisse, zum Beispiel selbstbewusst falsche Antworten bei Programmierhilfe.
- Bis man nach dem Drücken von Enter überhaupt etwas sieht, ist es natürlich langsamer.
  Aber sollte nicht eher die Zeit bis ein relevanter Satz richtiger Antworten im Kopf angekommen ist das Maß sein? Nach diesem Kriterium scheint die 20 Jahre alte Methode ihren Höhepunkt schon vor über 10 Jahren erreicht zu haben, sonst hätte Phind wohl kaum Aufmerksamkeit bekommen.
  Bei der 20 Jahre alten, PageRank-artigen Suche kommt die Zeit von der Anfrage bis zur tatsächlichen Antwort im Kopf inzwischen fast einem „DNF“, also einem Nicht-Abschluss, gleich.
  Ob Halluzinationen oder irrelevante Ergebnisse: Beides muss man gedanklich herausfiltern. Verhältnismäßig gibt es mehr irrelevante Ergebnisse als Halluzinationen, wir haben nur schon vor langer Zeit aufgehört, der Suchergebnisseite zu vertrauen.
- Das ist ein Dreiecksproblem aus Geschwindigkeit / Genauigkeit / Kosten.
  Kleine Modelle sind bei den Serving-Kosten effizient und schnell, können aber zur Hälfte falsch liegen.
  Große Modelle laufen auf günstiger Hardware langsam, können dafür aber genauere Antworten geben und sind meist für die private Nutzung schnell genug.
  Die dritte Option sind große, schnelle und genaue Modelle, aber dafür muss man Nvidia/Groq usw. ziemlich viel Geld zahlen, und um die Stromkosten in den Griff zu bekommen, müsste man vielleicht sogar noch ein Solarkraftwerk bauen.
- Meiner Erfahrung nach stimmt das.
  Bevor ich etwas suche, schätze ich oft erst ab, ob es schneller ist, kurz die Google-Ergebnisse zu überfliegen oder darauf zu warten, dass Perplexity Pro langsam Zeile für Zeile eine Antwort ausgibt.
- Ich sehe beides als Kernproblem.
  Wenn die Ergebnisse korrekt sind, sind sie zu langsam, und selbst die gelieferten Ergebnisse sind oft ungenau, sodass man ihnen kaum vertrauen kann.
Wie im Titel ist das nicht für alle gedacht, sondern für Pro-Nutzer.
Der Titel ist irreführend und sollte besser geändert werden.
Mich würde interessieren, wie sich das im Vergleich zu Kagi Assistant schlägt.
Auf der Tarifseite steht: unbegrenzt Phind-405B und Phind-70B Search für 20 $ im Monat, täglich über 500 Anfragen an GPT-4o, über 500 an Claude 3.5 Sonnet und 10 an Claude Opus.
Es heißt, „Phind-405B erreicht 92 % bei HumanEval 0-shot und ist damit auf dem Niveau von Claude 3.5 Sonnet“ — gibt es dazu auch andere Benchmarks?
- Ich habe Phind sechs Monate lang bezahlt genutzt und bin inzwischen mit Kagi Assistant zufriedener.
  Es liefert nicht ganz so viele Links, aber das Gesamtergebnis ist ähnlich gut oder besser, und man kann auch Lenses verwenden. Eine normale Suchmaschine ist ebenfalls dabei.
  Bei Phind gab es einen nervigen UI-Fehler: In Firefox sprang die Scrollbar manchmal zufällig herum, anscheinend sowohl während des Tippens als auch während der Token-Generierung. Wenn man jedes Mal die gerade gelesene Stelle wiederfinden muss, kostet das ziemlich viel Zeit, und selbst das bloße Zurückspringen ganz nach unten ist lästig.
  Das Kernproblem bleibt bei beiden, dass sie bei schwierigen Fragen immer noch zu viele Halluzinationen produzieren — das ist überall ein gemeinsames Problem.
- Mit der VSCode-Erweiterung ergibt das schon eher Sinn, wenn man sie nutzt.
  Für reine Suche weiß ich es nicht. Meiner Erfahrung nach war Phind mit Internetzugang nicht besonders stark, und manche Leute schalten die Suchfunktion sogar ab, um bessere Antworten zu bekommen.
- Die Zahl 92 % macht die Bewertung schwierig, weil das eher bedeutet, dass es schwierigere Benchmarks braucht.
  Gerade Modelle mit hohen Scores geben oft plausible Antworten mit vielen Halluzinationen aus. Llama 3 wirkt auf mich zum Beispiel gesprächig und selbstsicher, liegt aber ziemlich oft daneben.
  Bei dieser Leistungsstufe scheint man in einen Bereich schwieriger Edge Cases zu kommen, in dem schon die richtige Antwort selbst mehrdeutig ist.
- Wenn ich mir den Preis ansehe, scheint es unter „Phind unbegrenzt + ChatGPT 500-mal pro Tag“ für 20 $ im Monat keine günstigere Abo-Stufe zu geben.
  Was gebraucht wird, ist nicht so etwas, sondern ein Tarif wie 100 Anfragen pro Monat für 5 $. Für eine Suchmaschine mit Fokus auf Programmierung sollte man sich fragen, warum Leute dafür denselben Preis wie bei funktionsreicheren Konkurrenten zahlen sollten.
Ich glaube, ich habe in den letzten 5–6 Monaten Phind Pro abonniert.
Die Verschmutzung der Suchergebnisse scheint etwas besser geworden zu sein, aber bei Anschlussfragen ruiniert es die Antwort noch immer manchmal.
Wenn man zum Beispiel mit Bezug auf den Code in der direkt vorherigen Antwort nachfragt, basiert die nächste Antwort manchmal nicht auf dem Gesprächskontext, sondern auf irgendeinem Code aus den Suchergebnissen. Ich kenne mich mit RAG nicht gut genug aus, um zu sagen, wie man das mit Prioritäten oder Ähnlichem beheben könnte.
Davon abgesehen bin ich wirklich gespannt, wie sie ihre eigenen Artifacts im Webinterface umsetzen. Das Artifacts-UI von Claude passt beim Arbeiten im Web sehr gut zu meinem Workflow, und auch die Versionsverwaltung mehrerer Dateien gefällt mir.
- An Artifacts wird gearbeitet.
  Mich würde interessieren, bei welchem Modell sich diese Verschmutzung zeigt.
Moment mal, das ist tatsächlich ziemlich gut.
Für vernünftige Ergebnisse muss man zwar immer noch Anschlussfragen stellen, aber als ich es Anfang des Jahres getestet habe, ist es bei den meisten Testanfragen komplett gescheitert.
Es wäre gut, wenn es zumindest eine kostenlose Anfrage gäbe, damit Nutzer den Dienst bewerten können.
- Das schnelle Modell Phind Instant ist komplett kostenlos.
Phind ist in den letzten Jahren das beste Produktivitätswerkzeug, das ich gefunden habe.
Glückwunsch dazu, und ich hoffe, ihr baut es weiterhin so gut weiter aus.
Ich habe einer AI vor Kurzem die folgende Frage gestellt
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
Ich fragte, ob dabei nicht eine Kopie entstehe, aber sie antwortete sehr selbstsicher, dass nicht kopiert werde. Offenbar ging sie davon aus, dass auto den Typ als const-Referenz ableitet und deshalb keine Kopie erfolgt. Das ist falsch; dafür bräuchte man auto& oder const auto&. Als ich noch einmal fragte, ob sie sich sicher sei, antwortete sie noch selbstsicherer
Die Godbolt-Ausgabe ist hier: https://godbolt.org/z/Mz8x74vxe
Man sieht, dass "copy" ausgegeben wird, und auch, dass auf dem kopierten Objekt eine non-const-Methode aufgerufen werden kann, was bedeutet, dass es sich um einen non-const-Typ handelt
Ich habe Phind dasselbe gefragt, und es gab dieselbe Antwort: https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Wie können zwei unterschiedliche AIs, von denen eine sich sogar als speziell fürs Coden positioniert, so selbstsicher danebenliegen?
- Das zeigt, dass solche Tools letztlich Token-Generierungsmaschinen sind und die Ausgabe nur pseudo-intelligent wirkt
  Ich glaube nicht, dass wir sie schon blind vertrauen sollten
- Einer der alten Tricks, um LLMs zu besseren Antworten zu bringen, ist, sie zu bitten: „Lass uns Schritt für Schritt darüber nachdenken“
  Ich habe Claude dazu die folgende Frage so gestellt
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  „Entsteht dadurch eine Kopie? Lass uns Schritt für Schritt darüber nachdenken.“
  Das kann hilfreich sein, wenn man solche Tools häufiger zur Unterstützung nutzen möchte

Schnellere und hochwertigere KI-Antworten für alle, Phind-405B

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare