Data Engineer (m/w/d)
Um zuverlässige KI-Automatisierung im großen Maßstab zu ermöglichen, suchen wir einen Data Engineer (m/w/d), der robuste Datenpipelines für den produktiven Einsatz, verteilte Datenverarbeitungssysteme und hochwertige Datenstrukturen für unsere KI-Plattform entwickelt.
Du spielst eine zentrale Rolle dabei, sicherzustellen, dass KI-Systeme schnell, sicher und strukturiert auf die benötigten Daten zugreifen können.
- Design und Aufbau skalierbarer Datenpipelines zur Aufnahme, Transformation und Bereitstellung strukturierter und unstrukturierter Daten
- Entwicklung verteilter Datenverarbeitungs-Workflows zur Unterstützung von KI-Features wie Wissensabruf, Automatisierungsprozessen und Analytics
- Aufbau und Betrieb von Daten-Ingestionssystemen zur Anbindung von Enterprise-APIs, Datenbanken, File Storage und Streaming-Quellen
- Modellierung und Optimierung von Datensätzen für KI-Anwendungen, inklusive Embeddings-Pipelines und Vektorindexierung
- Sicherstellung von Datenqualität, Konsistenz und Observability über alle Pipelines und Speicherlösungen hinweg
- Optimierung von Abfrageperformance, Datenaktualität und Kosteneffizienz in großen Datensystemen
- Enge Zusammenarbeit mit AI Engineers zur Umsetzung von Retrieval-Augmented Generation (RAG) und wissensbasierten KI-Features
- Implementierung von Batch- und Echtzeitverarbeitung mittels Queues, Streaming-Systemen oder eventgetriebenen Architekturen
- Design und Betrieb von Datenspeicherlösungen wie relationalen Datenbanken, Object Storage und Vektordatenbanken
- Umsetzung von Data-Governance-Praktiken (z. B. Zugriffskontrolle, Datenherkunft/Lineage und Monitoring)
- Zusammenarbeit mit DevOps bei containerisierten Deployments, Infrastrukturautomatisierung und Cloud-Datenservices
- Zusammenarbeit mit unserem Data-Research-Team
- Fundierte Erfahrung im Aufbau von Datenpipelines im produktiven Einsatz
- Gutes Verständnis von verteilten Systemen und skalierbaren Datenarchitekturen
- Erfahrung im Umgang mit großen Datenmengen und deren Performance-Optimierung
- Vertrautheit mit modernen Daten-Tools und Workflow-Orchestrierung
- Erfahrung in der Bereitstellung von Daten für AI/ML- oder Analytics-Anwendungen
- Pragmatistische Arbeitsweise mit Fokus auf Zuverlässigkeit und Wartbarkeit
- Fähigkeit zur Zusammenarbeit mit Backend-, AI- und Infrastruktur-Teams
- Interesse an KI-getriebenen Datensystemen und neuen Entwicklungen im Bereich Dateninfrastruktur
- SQL (mindestens 5 Jahre Erfahrung)
- Praktische Erfahrung mit Python
- PostgreSQL / analytische Datenbanken
- Konzepte der verteilten Datenverarbeitung
- Streaming- / Messaging-Systeme
- Datenmodellierung & Pipeline-Orchestrierung
- Vektordatenbanken & Embeddings-Pipelines
- Cloud-Plattformen (Azure, GCP oder AWS)
- Docker & CI/CD
- Impact: Aufbau intelligenter produktiver Systeme, die den Einsatz von KI in Unternehmen neu definieren
- Innovation: Arbeit mit modernsten Frameworks und Modell-Ökosystemen
- Kultur: Kollaboratives, kreatives und eigenverantwortliches Team
- Flexibilität: Remote-first und flexible Arbeitszeiten
- Wachstum: Zugang zu KI-Ressourcen, Tools und Weiterbildungen
- Beteiligung: Virtual Stock Option Plan (VSOP)