Freelance Agent Evaluation Engineer

Mindrift
Stuttgart

Please submit your CV in English and indicate your level of English proficiency.

Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems.  Participation is project-based, not permanent employment.

What this opportunity involves

We're building a dataset to evaluate AI coding agents - how well a model handles real-world developer tasks.

You'll create challenging tasks and evaluation criteria within realistic simulated environments:

  • Build realistic developer environments - a virtual company with codebase, infrastructure, and context (tickets, docs, conversations) that forms a believable development history
  • Design tasks from intermediate states of these environments - craft the prompt, define what "solved" means, and ensure the task is solvable by an AI agent
  • Write tests that verify agent solutions - accept all valid approaches and reject incorrect ones, neither too strict nor too lenient
  • Iterate on tasks and tests based on QA feedback - review agent solutions, analyze failures, and refine until the evaluation is fair and robust

What this is NOT

  • Not data labeling
  • Not prompt engineering
  • Not writing code from scratch - the agent writes most of the code; you guide and evaluate

What we look for

  • 5+ years in software development
  • Core stack: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis
  • Experience writing tests (functional, integration)
  • English proficiency - B2+

Why this is hard

Frontier models are already good at coding. Creating a task that genuinely challenges the best models is non-trivial. You need to deeply understand where models fail and what scenarios reveal the difference between a good and a bad solution. Tasks have many valid solutions - writing tests that accept all correct solutions and reject incorrect ones is harder than it sounds.

How it works

Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid

Effort estimate

Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.

Compensation

Up to $50/hr equivalent , depending on level and pace. Tasks are estimated at ~20 hours each; you set your own schedule.

Veröffentlicht am 2026-06-10

Empfohlene Jobs

(Senior)-Berater Kredit (m/w/d) - Aufsichtsrechtliche Beratung

Baden-Württembergischer Genossenschaftsverband e.V.
Stuttgart

Das machen wir mit Überzeugung: Der Baden-Württembergische Genossenschaftsverband (BWGV) ist eine der bedeutendsten und mitgliederstärksten Wirtschaftsorganisationen im Südwesten. Unsere Aufgabens…

Details Anzeigen
Veröffentlicht am 2025-10-28

Technischer Planer TGA (w/m/d)

pmX GmbH
Stuttgart

Deine Aufgaben Erstellung von Konstruktions- und Ausführungszeichnungen für Lüftungs- und Klimaanlagen Anfertigung und Pflege technischer Zeichnungen im 2D- und 3D-Bereich mit AutoCAD Erstel…

Details Anzeigen
Veröffentlicht am 2026-05-21

(Senior) Consultant E-Akte & Prozessoptimierung Public Sector (all genders)

Msg Systems AG
Stuttgart

Das erwartet dich bei uns ~ Begleitung der Digitalisierung und Transformation im öffentlichen Sektor an der Schnittstelle zwischen Organisation und IT ~ Erhebung, Analyse und Optimierung dokument…

Details Anzeigen
Veröffentlicht am 2026-02-06

Entwicklungsingenieur (m/w/d) Hard- & Software - Sensorik für Rauchmelder in Direktvermittlung

FERCHAU GmbH
Stuttgart

Das ist zukünftig Ihr Job *Entwicklung und Weiterentwicklung von Hard- und Softwarelösungen für optische Rauchmelder mit Fokus auf das Streulichtprinzip sowie alternative Detektionstechnologien *Konze…

Details Anzeigen
Veröffentlicht am 2026-05-07

Duales Studium Mechatronik/Elektromobilität und Fahrzeugsystemtechnik (B.Eng.), Campusmodell Stuttgart/Sindelfingen 2026 (w/m/d)

Mercedes-Benz AG
Stuttgart

Life is always about becoming… Im Leben geht es darum, sich auf eine Reise zu begeben, um die beste Version unseres zukünftigen Selbst zu werden. Während wir Neues entdecken, stellen wir uns Herausfo…

Details Anzeigen
Veröffentlicht am 2026-01-14

Senior Sales Manager Customer Experience / Financial Services (all genders)

Msg Systems AG
Stuttgart

Das erwartet dich bei uns Verantworte die strategische Neukundengewinnung und den Ausbau von Key Accounts im Bereich Customer Experience für Financial‑Services‑Kunden Positioniere CX‑ und CRM‑L…

Details Anzeigen
Veröffentlicht am 2025-08-12

Consultant Cybersecurity DACH (w/m/x) - Ingenieur, Consulting, IT-Security

NTT
Stuttgart

Deine Benefits ~ Flexible Arbeitszeiten mit Gleitzeitregelung und Reisezeit ist Arbeitszeit ~30 Tage Urlaub, zusätzlich sind der 24.12. und 31.12. arbeitsfreie Tage  ~ Sabbatical bis zu einem Ja…

Details Anzeigen
Veröffentlicht am 2026-05-25

Betriebskraft (gn) sichere Perspektive

Gi Group Deutschland GmbH (Düsseldorf )
Stuttgart

Betriebskraft (gn) sichere Perspektive ab sofort in Teilzeit in Stuttgart Die Gi Group ist ein international agierender Personaldienstleister mit mehr als 500 Standorten in 40 Ländern. Deine Aufgab…

Details Anzeigen
Veröffentlicht am 2026-02-09

Team Lead / Head of für Microsoft Dynamics 365 Business Central Partner (all gender)

Primepeople GmbH
Stuttgart

UNSER MANDANT Komm an Bord eines zertifizierten Top Microsoft-Partners und finde im Operations-Team für Business Central die richtigen Rahmenbedingungen für Deine berufliche Weiterentwicklung: ein…

Details Anzeigen
Veröffentlicht am 2026-03-09

Operationstechnische Assistenten (m/w/d) - Top-Verdienst bis 5.350,00 €

jobcrew PERSONALDIESTLEISTUNGEN GmbH
Stuttgart

Endlich ein Job, wie er sein sollte: Fokus auf Dich statt Dauerstress Bei der Jobcrew stehst Du im Mittelpunkt.** Uns ist wichtig, dass Du Dich auf das konzentrieren kannst, was Du am besten kannst:…

Details Anzeigen
Veröffentlicht am 2026-05-22