8 Punkte von GN⁺ 2024-07-05 | 1 Kommentare | Auf WhatsApp teilen
  • Ziel war es, über die Hacker-News-Threads "Ask HN: Who Is Hiring" den aktuellen Arbeitsmarkt und seine Trends zu erfassen
  • Mit Selenium wurde jeden Monat nach "ask hn who is hiring {month} {year}" gegoogelt, um die Thread-IDs zu sammeln
  • Mit der HN-API wurden die IDs der Top-Kommentare erfasst und in einer sqlite3-Datenbank gespeichert
  • Die Kommentare wurden mit GPT-4o klassifiziert
  • Mit der Methode llm.batch(array) von LangChain wurden die Daten parallel verarbeitet, um sie schnell auszuwerten

Ergebnisse

Wie viele Stellen erlauben Remote-Arbeit?
  • Während der Pandemie unterstützte nur etwa ein Fünftel der Stellen keine Remote-Arbeit
  • Der Anteil der Stellen mit Remote-Unterstützung ist weniger stark gesunken als erwartet
Wie viele Stellen sponsern Visa?
  • Der Anteil der Stellen mit Visa-Sponsoring war in den vergangenen zwei Jahren relativ stabil
  • Es ist weiterhin schwierig, Stellen mit Visa-Sponsoring zu finden
Wie verändert sich die Verteilung nach Erfahrungsniveau?
  • In den kommenden 6 bis 12 Monaten wird es wichtig sein, mehr als 8 Jahre Berufserfahrung zu haben
Wie viele Stellen gibt es je US-Bundesstaat?
  • In der Bay Area und in NYC gibt es deutlich mehr Stellen als in anderen Regionen
Welche Datenbanken werden verwendet?
  • PostgreSQL dominiert die Nutzung anderer Datenbanken deutlich
Welche JavaScript-Frameworks sind gefragt?
  • Die Nachfrage nach React ist sehr hoch
  • Mit three.js wurde ein interaktives Bubble-Chart erstellt, ohne eine logarithmische Skala zu verwenden
Wie ist die Gehaltsverteilung?
  • Es werden keine konkreten Details zur Gehaltsverteilung angegeben

Erkenntnisse

  • Modellfelder sollten so präzise wie möglich beschrieben werden
  • Bei der Klassifizierung sollten die Klassen in der Beschreibung ausdrücklich genannt werden
  • Beim Extrahieren von Mengen sollten Trennzeichen in der Beschreibung ausdrücklich angegeben werden

Weitere Arbeit

  • Aufbauend auf der ersten Arbeit ließe sich ein Mini-SaaS entwickeln, das klassifiziert und monatlich passende Stellen aus den Threads "Ask HN: Who is hiring?" zuordnet, wenn Nutzer die gesuchte Stelle beschreiben

Meinung von GN⁺

  • Dieser Beitrag zeigt gut, wie sich der Arbeitsmarkt mit Data Science und NLP analysieren lässt
  • Die Parallelverarbeitung mit GPT-4o und LangChain ist nützlich, um große Datenmengen schnell zu verarbeiten
  • Dass Stellen mit Visa-Sponsoring schwer zu finden sind, spiegelt die Realität wider und ist für Menschen auf der Suche nach solchen Informationen hilfreich
  • Die hohe Nachfrage nach React und PostgreSQL ist eine gute Orientierung für alle, die diese Technologien lernen möchten
  • Die Idee eines Mini-SaaS könnte, wenn sie tatsächlich umgesetzt wird, vielen Jobsuchenden sehr helfen

1 Kommentare

 
GN⁺ 2024-07-05
Hacker-News-Kommentare
  • Die Analyse mit GPT-4o ist interessant

    • Kürzlich wurden die Datensätze "Who is Hiring" und "Who wants to be hired" mit pandas und spaCy analysiert
    • Es scheint nützlich zu sein, wenn ein LLM zwischen 'go' und 'rust' unterscheiden kann
    • Schade, dass node.js und nodejs sowie react-native und react native nicht zusammengeführt werden
    • Es ist unklar, warum ein Selenium-Skript verwendet wird, um wiederholt Google-Suchen auszuführen
    • Es wurde ein Skript geteilt, das direkt die API nutzt und einen Regex zum Abgleich der Titel verwendet
  • Schade, dass sich der Quellcode des Projekts nicht auf GitHub finden lässt

    • Ich beschäftige mich zum ersten Mal mit langchain, und die API ist weniger konsistent als erwartet
    • Es stellt sich die Frage, ob das nicht auch mit Ollama möglich wäre
    • Die vielen Wrapper sind komplex ineinander verschachtelt, was verwirrend ist
    • Es braucht ein Tutorial für Einsteiger
  • Danke, dass Zeit und Geld in das Projekt investiert wurden

    • Zusätzliche Statistiken zu "remote" und "in-person" sind interessant
    • Dass in-person-Unternehmen wiederholt einstellen, könnte am Wachstum liegen oder daran, dass passende Kandidaten schwer zu finden sind
    • Dass remote-Unternehmen verschwinden, könnte daran liegen, dass sie die benötigten Talente gefunden haben oder das Geschäft aufgegeben wurde
  • Eine großartige Kombination aus LLM und traditioneller Analyse

    • LLMs sind hervorragend darin, menschliche Nuancen, Sarkasmus und Redewendungen zu verstehen
    • ML ist exzellent darin, Informationen aus dem Kontext zu extrahieren
    • Für tatsächliche Zahlenberechnungen sind LLMs nicht zuverlässig
  • Balken in einem Diagramm zu stapeln ist keine gute Idee

    • Denn die zweite Ebene lässt sich nicht richtig beurteilen
    • Besser wäre es, remote und non-remote bei jedem Zeitstempel nebeneinander darzustellen
  • Mit einer logarithmischen Skala würde das Diagramm nicht seltsam aussehen

    • Stattdessen wurde mit 300 Zeilen Code und three.js ein Bubble-Chart gebaut
    • Hacker verhalten sich eben wie Hacker
  • Es wäre interessant, dieselbe Analyse mit Claude 3 Haiku durchzuführen

    • Es kostet nur 1/40 von GPT-4o
    • Es gibt die Vermutung, dass die Ergebnisse ähnlich wären
  • Ein Vergleich mit einer Zufallsstichprobe von Indeed oder LinkedIn wäre interessant

    • Hacker News ist im Vergleich zur allgemeinen Industrie eine verzerrte Gruppe
  • Im Graphen der JS-Frameworks gibt es sowohl eine Bubble für "React Native" als auch für "React-Native"

  • Ich würde gern eine ähnliche Analyse zu "Who Wants to be Hired" sehen

    • Damit ließen sich Trends bei Menschen erkennen, die Schwierigkeiten bei der Jobsuche haben
    • Das könnte Menschen helfen, die ihre Karriere gezielt weiterentwickeln wollen