VNG Career Site Header

Chia sẻ việc làm

  • Logo Footer
  • Logo Footer

Công việc liên quan

Tìm công việc

Senior Platform Engineer (AI Inference & Agent Platform), GreenNode

OfficialTechSystem26-ENG-3766
locationThành phố Hồ Chí Min...
Xem mô tả bằng
Tiếng Việt

Mô tả công việc

Chúng tôi đang tìm kiếm Senior Platform Engineer có kinh nghiệm trong việc triển khai, vận hành và tối ưu các hệ thống Kubernetes (K8S), LLM Inference Platform và Agent Platform phục vụ các workloads AI/GenAI ở quy mô lớn.

Bạn sẽ đóng vai trò quan trọng trong việc xây dựng và vận hành các nền tảng AI-native tập trung vào large-scale LLM inference, GPU acceleration, agent workloads đảm bảo hệ thống ổn định, hiệu năng cao và có khả năng mở rộng.

Trách nhiệm chính
  • Triển khai, vận hành và tối ưu Kubernetes clusters trên môi trường cloud hoặc on-premise.
  • Xây dựng và vận hành LLM Inference Platform và Agent Platform phục vụ GenAI applications, AI agents và large-scale AI workloads.
  • Triển khai và tối ưu các inference engines như vLLM, SGLang, Triton, TensorRT-LLM, llama.cpp, KServe, Ray Serve hoặc các nền tảng tương đương.
  • Tối ưu inference performance cho LLM workloads thông qua batching, quantization, KV-cache optimization, parallelism và runtime tuning.
  • Tối ưu GPU utilization, autoscaling, scheduling, latency và throughput cho large-scale inference systems.
  • Thiết kế và vận hành scalable serving architectures cho multi-tenant AI workloads với các yêu cầu về high availability và cost efficiency.
  • Thiết lập và vận hành monitoring & observability systems cho AI platform và inference workloads.
  • Define và tinh chỉnh metrics, alert thresholds, SLO/SLA và error budgets cho inference services.
  • Xây dựng deployment pipelines, rollout strategies và automation workflows cho AI systems.
  • Tham gia xử lý sự cố, root cause analysis và cải thiện reliability của hệ thống.
  • Phối hợp cùng AI Engineers và Product Teams để cải tiến AI platform và developer experience. 

Yêu cầu

  • Tối thiểu 5 năm kinh nghiệm ở vị trí Platform Engineer / SRE / DevOps Engineer hoặc các vị trí tương đương.
  • Có kinh nghiệm triển khai và vận hành Kubernetes production workloads.
  • Hiểu rõ Kubernetes ecosystem: networking, ingress, storage, autoscaling, observability, security.
  • Có kinh nghiệm với AI/ML infrastructure, GPU workloads, LLM inference systems và các inference engines như vLLM, SGLang, Triton, TensorRT-LLM, llama.cpp hoặc các hệ thống tương đương.
  • Có hiểu biết về LLM inference optimization techniques như quantization, batching, tensor/pipeline parallelism hoặc KV-cache optimization là lợi thế.
  • Có kinh nghiệm với monitoring & observability stack như Prometheus, Grafana, Loki, ELK/OpenSearch, OpenTelemetry.
  • Có kinh nghiệm với CI/CD, GitOps, Helm, Terraform, ArgoCD hoặc các công cụ tương đương.
  • Có khả năng viết automation scripts bằng Python / Bash / Go.
  • Kiến thức tốt về Linux systems, networking, distributed systems và performance tuning.
  • Chủ động, có tư duy hệ thống và khả năng xử lý production incidents.
  • Có tư duy AI-native, chủ động ứng dụng AI tools và automation để tối ưu vận hành và nâng cao hiệu quả engineering workflows.

Điểm cộng

  • Có kinh nghiệm với LLMOps, RAG systems, AI agents hoặc agent orchestration frameworks.
  • Có hiểu biết về inference orchestration, request routing hoặc disaggregated serving architectures là một lợi thế.
  • Có kinh nghiệm với distributed systems như Kafka, ClickHouse, Elasticsearch/OpenSearch hoặc vector databases.
  • Có kinh nghiệm triển khai AI platform trên môi trường on-premise hoặc private cloud là một lợi thế.
  • Có chứng chỉ như CKA/CKAD/CKS, AWS/GCP/Azure Certified hoặc các chứng chỉ cloud/platform liên quan.