Role Summary

We are seeking a Reinforcement Learning Engineer with experience manipulating virtual environments to train autonomous agents. This role focuses on the design of robust simulation environments, reward structures, and policy architectures that can navigate complex, multi-sensor landscapes.

Responsibilities

Cross-Functional Coordination: Work with partner ML and Annotation engineers and TPMs to spec out data, simulation, and training requirements.
Environment Design: Build and maintain high-fidelity 2D/3D simulation environments (using tools like Unity, Unreal, or Isaac Sim) that serve as the training ground for RL agents.
Reward Engineering: Design and tune complex reward functions that align agent behavior with product goals and safety constraints.
Algorithm Implementation: Develop and optimize RL algorithms (e.g., PPO, SAC, or Offline RL) capable of handling high-dimensional 3D observation spaces.
Sim-to-Real Strategy: Analyze the "reality gap" and implement domain randomization or adaptation techniques to ensure models perform reliably in real-world scenarios.

Résumé du poste

Nous recherchons une personne Ingénieur·e Forward Deployed en apprentissage par renforcement ayant de l’expérience dans la manipulation d’environnements virtuels pour entraîner des agents autonomes. Ce poste est axé sur la conception d’environnements de simulation robustes, de structures de récompense et d’architectures de politiques capables d’évoluer dans des environnements complexes et multi-capteurs

Responsabilités

Coordination interfonctionnelle : Collaborer avec des personnes ingénieur·e·s en ML et en annotation ainsi qu’avec des TPM afin de définir les exigences en matière de données, de simulation et d’entraînement.
Conception d’environnements : Concevoir et maintenir des environnements de simulation 2D/3D haute fidélité (à l’aide d’outils tels que Unity, Unreal ou Isaac Sim) servant de terrain d’entraînement pour les agents d’apprentissage par renforcement.
Ingénierie des récompenses : Concevoir et ajuster des fonctions de récompense complexes afin d’aligner le comportement des agents avec les objectifs du produit et les contraintes de sécurité.
Implémentation d’algorithmes : Développer et optimiser des algorithmes d’apprentissage par renforcement (p. ex., PPO, SAC ou RL hors ligne) capables de gérer des espaces d’observation 3D de grande dimension.
Stratégie simulation-vers-réel : Analyser l’« écart de réalité » et mettre en œuvre des techniques de randomisation de domaine ou d’adaptation afin d’assurer des performances fiables des modèles en conditions réelles.

NBCUniversal is hiring a Forward-Deployed RL Engineer | Ingénieur·e Forward Deployed en apprentissage par renforcement

Job Description

Responsibilities

Skills & Technologies

Explore Biotech Careers

Salary Information

Create a Job Alert

Related Opportunities

Graphics Platform QA Specialist (Contract)

Coordinator, Strategic Partnerships

DreamWorks TV - Production Assistant

Director, Field Publicity & Promotions - Focus Features

Sous Chef, CityWalk Food

Sr Business Analyst - Contract Lifecycle Management

NBCUniversal is hiring a Forward-Deployed RL Engineer | Ingénieur·e Forward Deployed en apprentissage par renforcement

Job Description

Responsibilities

Skills & Technologies

Explore Biotech Careers

Salary Information

Create a Job Alert

Related Opportunities

Graphics Platform QA Specialist (Contract)

Coordinator, Strategic Partnerships

DreamWorks TV - Production Assistant

Director, Field Publicity & Promotions - Focus Features

Sous Chef, CityWalk Food

Sr Business Analyst - Contract Lifecycle Management

The Last Stop in Your Job Hunt

Advanced Filtering and Job Discovery

Save Jobs and Get Notified

Get Ahead of the Competition

Weekly top job matches delivered to your inbox

The Last Stop in Your
Job Hunt