AI Data Engineer

Iconvergence • Menlo Park, CA, US • 4d ago

:Main Responsibilities:

AI-Augmented Data Pipelines: Design and maintain AI-augmented, large-scale data pipelines (billions of images) integrating traditional transformations with ML models (classifiers, embeddings, LLMs) for cleaning and annotation.
Remote Inference Orchestration: Own the systems for remote ML model inference orchestration within pipelines, managing batching, retries, async jobs, and ensuring graceful degradation.
Feature Pipelines: Build and maintain scalable pipelines for generating, storing, and serving vector embeddings, including nearest-neighbor index management and quality validation.
Data Curation at Scale: Source, filter, and curate training datasets using a combination of SQL and model-derived signals (e.g., aesthetic scores, NSFW classifiers), owning the end-to-end data flow and maintaining governance, quality, and compliance.

Additional Responsibilities:

LLM-Assisted Annotation: Design and operate pipelines that use LLMs and vision models for automated annotation of training data, including auditing workflows to measure and improve annotation model performance.
Tooling & Frameworks: Contribute to shared tooling and frameworks that make it easier for the broader team to build AI-augmented data pipelines — e.g., reusable operators for model invocation, standard patterns for async job management.

Qualifications:

Bachelor's degree or higher in Computer Science, Data Engineering, Machine Learning, or a related STEM field.
5+ years of industry experience in data engineering, ML engineering, or a hybrid role involving both data pipelines and model serving/inference.
Demonstrated track record of building and operating production data pipelines that invoke ML models at scale.

Pay: $50.00 - $55.00 per hour

Work Location: In person

Related Jobs

Lead Data Engineer/ETL

Principal Software • Pleasanton, CA, US • 1w ago

Data Science

1w ago

Data Engineer AI

Quest Global • Sunnyvale, CA, US • 3w ago

Data Science

3w ago

HR Business Analyst

Cupertino Electric, Inc. • Full-time • San Jose, CA, US • 5m ago

Data Science

5m ago

EHS Manager

Veolia Water Technologies & Solutions • Full-time • San Jose, California • 6m ago

Data Science

6m ago

Water Field Supervisor

Veolia Water Technologies & Solutions • Full-time • East Palo Alto, California • 6m ago

Data Science

6m ago

On-Site Specialist

Veolia Water Technologies & Solutions • Full-time • Fremont, California • 8m ago

Data Science

8m ago

Technical Customer Advisor

Veolia Water Technologies & Solutions • Full-time • Santa Clara, California • 9m ago

Data Science

9m ago

Water Treatment Field Supervisor

Veolia Water Technologies & Solutions • Full-time • East Palo Alto, California • 12m ago

Data Science

12m ago

Student Intern

SLB • Full-time • Menlo Park, California • 24m ago

Data Science

24m ago

Collections Specialist

Veolia Water Technologies & Solutions • Full-time • San Jose, California • 24m ago

Data Science

24m ago