AI Inference Engineer (all genders)
Was erwartet dich
- Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen für Kunden mit hohen Anforderungen an Datensouveränität, Sicherheit und Betriebskontrolle – on-premises, in privaten Cloud-Umgebungen oder souveränen europäischen Cloud-Setups.
- Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden überführst du AI-Use-Cases in den produktiven Betrieb.
- Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.
- Außerdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgrößen, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.
- Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging
- Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarchitekturen, Deployment-Templates und Betriebs-Playbooks und stärkst so unsere Applied-AI-Capability.
Was erwarten wir von dir
- Persönlicher Background: Erfahrung in Platform Engineering, Cloud Infrastructure, MLOps, LLMOps, DevOps, Backend Engineering oder Machine Learning Engineering. Entscheidend ist deine Erfahrung im Aufbau und Betrieb produktiver Systeme und dein Antrieb zu schneller persönlicher Weiterentwicklung
- Inference Engineering: Du verstehst die technischen und wirtschaftlichen Zusammenhänge moderner LLM-Inferenz, von Model-Serving und GPU-Auslastung über Quantisierung, Batching und KV-Cache-Management bis hin zu Latenz, Durchsatz und Kosten.
- Cloud & Plattformen: Docker, Kubernetes, Helm, Terraform, CI/CD, Linux sowie Observability gehören für dich zum Arbeitsalltag.
- AI-Verständnis: Du kannst Transformer-basierte Modelle wie LLMs und Embeddings einordnen und fundierte technische Entscheidungen für produktive AI-Systeme treffen.
- Security & Governance: Themen wie Identitäten, Berechtigungen, Secrets, Logging, Auditierung und Compliance denkst du, insbesondere in regulierten Umgebungen, von Anfang an mit.
- Kommunikation & Arbeitsweise: Du vermittelst komplexe technische Zusammenhänge verständlich, arbeitest pragmatisch und bewegst dich auch in dynamischen Projektumfeldern sicher.
- Pluspunkt: Erfahrung mit vLLM, SGLang oder vergleichbaren Inference-Technologien, GPU-Clustern, souveränen Cloud- oder Private-Cloud-Umgebungen.
- On the road: Du bist reisebereit und flexibel, unsere Kunden bundesweit vor Ort zu beraten.
- Let's talk: Du sprichst fließend Deutsch und Englisch - super, dann findest du dich bei Exxeta bestens zurecht
Warum Exxeta
Bei Exxeta entwickeln wir digitale Lösungen, die wirklich etwas verändern – in Unternehmen, Märkten und Köpfen. Über 1200 Kolleg:innen bringen dafür Technologie, Ideen und unterschiedliche Perspektiven zusammen. Was uns antreibt: Neugier, Teamspirit und der Anspruch, echten Impact zu schaffen. Hightech with a heartbeat eben.
Empfohlene Jobs
Bürosachbearbeiter (w/m/d)
Bürosachbearbeiter (w/m/d) gesucht - Wir suchen für unseren Kunden, eine Organisation im Gesundheitswesen mit Sitz in Stuttgart, zum nächstmöglichen Zeitpunkt einen Bürosachbearbeiter (w/m/d) . …
Environmental Apprentice (m/f/d)
Work with Us. Change the World. At AECOM, we're delivering a better world. Whether improving your commute, keeping the lights on, providing access to clean water, or transforming skylines, our…
Teamleitung (m/w/d) für das Stadttaubenprojekt
~ Dienstwagen (PKW) und Diensthandy ~40 Std. Woche / Beginn: ab sofort ~ Eine interessante Tätigkeit an wechselnden Einsatzorten im Stadtgebiet ~ Viel Gestaltungspotential und eine langfristige …
Teamleiter:in EG-Prüfung im Teilsystem ZZS für den Digitalen Knoten Stuttgart
Zum nächstmöglichen Zeitpunkt suchen wir dich als Teamleiter:in EG-Prüfung im Teilsystem ZZS für den Digitalen Knoten Stuttgart (w/m/d) für die DB Projekt Stuttgart-Ulm GmbH am Standort Stuttgart. …
Microsoft Dynamics 365 CE Consultant (m/w/d); bundesweite Standorte sowie Homeoffice
Für einen erfolgreich am Markt etablierten IT- Dienstleister mit Sitz im Süden von Niedersachsen und Standorten in Europa, Nordamerika und Asien mit aktuell rund 550 Mitarbeitern suchen wir zur Erwei…
Bauleiter (m/w/d) HLSK
BAULEITER (m/w/d) HLSK Stuttgart, BREMER Süd GmbH Berufserfahrung Architektur, Bauwesen WIR SIND: In Deutschland zählt BREMER zu den führenden Unternehmen im schlüsselfertigen Industrie- un…
Registrieren Sie sich kostenlos für Online-Umfragen. Jede Teilnahme wird belohnt..
Bei MeinungsOrt haben wir eine lebendige Community geschaffen, in der sich jeder bei unserer Online-Umfrageplattform anmelden und für seine Meinung belohnt werden kann. Wir arbeiten mit Partnern auf…
DHBW Studium Physician Assistant (m/w/d) Herz- und Gefäßchirurgie
DHBW Studium Physician Assistant (m/w/d) Herz- und Gefäßchirurgie 24.06.2026 Robert-Bosch-Krankenhaus GmbH Stuttgart Weitere passende Anzeigen: Jobmailer Ihre Merkliste / Mit Klick auf ein…
Praktikant (m/w/d)
BAUHAUS baut vor allem auf eines: Den Einsatz aller Mitarbeiter:innen – füreinander und für jeden einzelnen Kunden. Denn nur mit Respekt, Zusammenhalt und Leidenschaft macht es Spaß, jeden Tag aufs N…
Initiativbewerbung bei der pmX Group - Gestalte deine Zukunft mit uns!
Deine Aufgaben xxx Dein Profil xxx Warum wir? Du möchtest ein Teil der pmX Group werden, doch die passende Stelle war bisher nicht dabei? Kein Problem – bewirb dich trotzdem! Ob kau…