Freelance Agent Evaluation Engineer
Please submit your CV in English and indicate your level of English proficiency.
Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.
What this opportunity involves
We're building a dataset to evaluate AI coding agents - how well a model handles real-world developer tasks.
You'll create challenging tasks and evaluation criteria within realistic simulated environments:
- Build realistic developer environments - a virtual company with codebase, infrastructure, and context (tickets, docs, conversations) that forms a believable development history
- Design tasks from intermediate states of these environments - craft the prompt, define what "solved" means, and ensure the task is solvable by an AI agent
- Write tests that verify agent solutions - accept all valid approaches and reject incorrect ones, neither too strict nor too lenient
- Iterate on tasks and tests based on QA feedback - review agent solutions, analyze failures, and refine until the evaluation is fair and robust
What this is NOT
- Not data labeling
- Not prompt engineering
- Not writing code from scratch - the agent writes most of the code; you guide and evaluate
What we look for
- 5+ years in software development
- Core stack: Python (FastAPI), JavaScript/TypeScript (React), Docker, Postgres, Kafka, Redis
- Experience writing tests (functional, integration)
- English proficiency - B2+
Why this is hard
Frontier models are already good at coding. Creating a task that genuinely challenges the best models is non-trivial. You need to deeply understand where models fail and what scenarios reveal the difference between a good and a bad solution. Tasks have many valid solutions - writing tests that accept all correct solutions and reject incorrect ones is harder than it sounds.
How it works
Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid
Effort estimate
Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.
Compensation
Up to $50/hr equivalent , depending on level and pace. Tasks are estimated at ~20 hours each; you set your own schedule.
Empfohlene Jobs
(Senior)-Berater Kredit (m/w/d) - Aufsichtsrechtliche Beratung
Das machen wir mit Überzeugung: Der Baden-Württembergische Genossenschaftsverband (BWGV) ist eine der bedeutendsten und mitgliederstärksten Wirtschaftsorganisationen im Südwesten. Unsere Aufgabens…
Technischer Planer TGA (w/m/d)
Deine Aufgaben Erstellung von Konstruktions- und Ausführungszeichnungen für Lüftungs- und Klimaanlagen Anfertigung und Pflege technischer Zeichnungen im 2D- und 3D-Bereich mit AutoCAD Erstel…
(Senior) Consultant E-Akte & Prozessoptimierung Public Sector (all genders)
Das erwartet dich bei uns ~ Begleitung der Digitalisierung und Transformation im öffentlichen Sektor an der Schnittstelle zwischen Organisation und IT ~ Erhebung, Analyse und Optimierung dokument…
Entwicklungsingenieur (m/w/d) Hard- & Software - Sensorik für Rauchmelder in Direktvermittlung
Das ist zukünftig Ihr Job *Entwicklung und Weiterentwicklung von Hard- und Softwarelösungen für optische Rauchmelder mit Fokus auf das Streulichtprinzip sowie alternative Detektionstechnologien *Konze…
Duales Studium Mechatronik/Elektromobilität und Fahrzeugsystemtechnik (B.Eng.), Campusmodell Stuttgart/Sindelfingen 2026 (w/m/d)
Life is always about becoming… Im Leben geht es darum, sich auf eine Reise zu begeben, um die beste Version unseres zukünftigen Selbst zu werden. Während wir Neues entdecken, stellen wir uns Herausfo…
Senior Sales Manager Customer Experience / Financial Services (all genders)
Das erwartet dich bei uns Verantworte die strategische Neukundengewinnung und den Ausbau von Key Accounts im Bereich Customer Experience für Financial‑Services‑Kunden Positioniere CX‑ und CRM‑L…
Consultant Cybersecurity DACH (w/m/x) - Ingenieur, Consulting, IT-Security
Deine Benefits ~ Flexible Arbeitszeiten mit Gleitzeitregelung und Reisezeit ist Arbeitszeit ~30 Tage Urlaub, zusätzlich sind der 24.12. und 31.12. arbeitsfreie Tage ~ Sabbatical bis zu einem Ja…
Betriebskraft (gn) sichere Perspektive
Betriebskraft (gn) sichere Perspektive ab sofort in Teilzeit in Stuttgart Die Gi Group ist ein international agierender Personaldienstleister mit mehr als 500 Standorten in 40 Ländern. Deine Aufgab…
Team Lead / Head of für Microsoft Dynamics 365 Business Central Partner (all gender)
UNSER MANDANT Komm an Bord eines zertifizierten Top Microsoft-Partners und finde im Operations-Team für Business Central die richtigen Rahmenbedingungen für Deine berufliche Weiterentwicklung: ein…
Operationstechnische Assistenten (m/w/d) - Top-Verdienst bis 5.350,00 €
Endlich ein Job, wie er sein sollte: Fokus auf Dich statt Dauerstress Bei der Jobcrew stehst Du im Mittelpunkt.** Uns ist wichtig, dass Du Dich auf das konzentrieren kannst, was Du am besten kannst:…