- Ziel war es, über die Hacker-News-Threads "Ask HN: Who Is Hiring" den aktuellen Arbeitsmarkt und seine Trends zu erfassen
- Mit Selenium wurde jeden Monat nach "ask hn who is hiring {month} {year}" gegoogelt, um die Thread-IDs zu sammeln
- Mit der HN-API wurden die IDs der Top-Kommentare erfasst und in einer
sqlite3-Datenbank gespeichert
- Die Kommentare wurden mit GPT-4o klassifiziert
- Mit der Methode
llm.batch(array) von LangChain wurden die Daten parallel verarbeitet, um sie schnell auszuwerten
Ergebnisse
Wie viele Stellen erlauben Remote-Arbeit?
- Während der Pandemie unterstützte nur etwa ein Fünftel der Stellen keine Remote-Arbeit
- Der Anteil der Stellen mit Remote-Unterstützung ist weniger stark gesunken als erwartet
Wie viele Stellen sponsern Visa?
- Der Anteil der Stellen mit Visa-Sponsoring war in den vergangenen zwei Jahren relativ stabil
- Es ist weiterhin schwierig, Stellen mit Visa-Sponsoring zu finden
Wie verändert sich die Verteilung nach Erfahrungsniveau?
- In den kommenden 6 bis 12 Monaten wird es wichtig sein, mehr als 8 Jahre Berufserfahrung zu haben
Wie viele Stellen gibt es je US-Bundesstaat?
- In der Bay Area und in NYC gibt es deutlich mehr Stellen als in anderen Regionen
Welche Datenbanken werden verwendet?
- PostgreSQL dominiert die Nutzung anderer Datenbanken deutlich
Welche JavaScript-Frameworks sind gefragt?
- Die Nachfrage nach React ist sehr hoch
- Mit
three.js wurde ein interaktives Bubble-Chart erstellt, ohne eine logarithmische Skala zu verwenden
Wie ist die Gehaltsverteilung?
- Es werden keine konkreten Details zur Gehaltsverteilung angegeben
Erkenntnisse
- Modellfelder sollten so präzise wie möglich beschrieben werden
- Bei der Klassifizierung sollten die Klassen in der Beschreibung ausdrücklich genannt werden
- Beim Extrahieren von Mengen sollten Trennzeichen in der Beschreibung ausdrücklich angegeben werden
Weitere Arbeit
- Aufbauend auf der ersten Arbeit ließe sich ein Mini-SaaS entwickeln, das klassifiziert und monatlich passende Stellen aus den Threads "Ask HN: Who is hiring?" zuordnet, wenn Nutzer die gesuchte Stelle beschreiben
Meinung von GN⁺
- Dieser Beitrag zeigt gut, wie sich der Arbeitsmarkt mit Data Science und NLP analysieren lässt
- Die Parallelverarbeitung mit GPT-4o und LangChain ist nützlich, um große Datenmengen schnell zu verarbeiten
- Dass Stellen mit Visa-Sponsoring schwer zu finden sind, spiegelt die Realität wider und ist für Menschen auf der Suche nach solchen Informationen hilfreich
- Die hohe Nachfrage nach React und PostgreSQL ist eine gute Orientierung für alle, die diese Technologien lernen möchten
- Die Idee eines Mini-SaaS könnte, wenn sie tatsächlich umgesetzt wird, vielen Jobsuchenden sehr helfen
1 Kommentare
Hacker-News-Kommentare
Die Analyse mit GPT-4o ist interessant
Schade, dass sich der Quellcode des Projekts nicht auf GitHub finden lässt
Danke, dass Zeit und Geld in das Projekt investiert wurden
Eine großartige Kombination aus LLM und traditioneller Analyse
Balken in einem Diagramm zu stapeln ist keine gute Idee
Mit einer logarithmischen Skala würde das Diagramm nicht seltsam aussehen
Es wäre interessant, dieselbe Analyse mit Claude 3 Haiku durchzuführen
Ein Vergleich mit einer Zufallsstichprobe von Indeed oder LinkedIn wäre interessant
Im Graphen der JS-Frameworks gibt es sowohl eine Bubble für "React Native" als auch für "React-Native"
Ich würde gern eine ähnliche Analyse zu "Who Wants to be Hired" sehen