Chia sẻ việc làm
Công việc liên quan
- Senior System Engineer, GreenNodethành phố hồ chí minh
- CTV Kinh Doanh (Soundbox), Zalopaythành phố hồ chí minh
- Head of Internal Audit, Business Operationsthành phố hồ chí minh
Tìm công việc
Senior Platform Engineer (AI Inference & Agent Platform), GreenNode
OfficialTechSystem26-ENG-3766
thành phố hồ chí minh
Xem mô tả bằng
Tiếng Việt
Mô tả công việc
Chúng tôi đang tìm kiếm Senior Platform Engineer có kinh nghiệm trong việc triển khai, vận hành và tối ưu các hệ thống Kubernetes (K8S), LLM Inference Platform và Agent Platform phục vụ các workloads AI/GenAI ở quy mô lớn.
Bạn sẽ đóng vai trò quan trọng trong việc xây dựng và vận hành các nền tảng AI-native tập trung vào large-scale LLM inference, GPU acceleration, agent workloads đảm bảo hệ thống ổn định, hiệu năng cao và có khả năng mở rộng.
Trách nhiệm chính
Bạn sẽ đóng vai trò quan trọng trong việc xây dựng và vận hành các nền tảng AI-native tập trung vào large-scale LLM inference, GPU acceleration, agent workloads đảm bảo hệ thống ổn định, hiệu năng cao và có khả năng mở rộng.
Trách nhiệm chính
- Triển khai, vận hành và tối ưu Kubernetes clusters trên môi trường cloud hoặc on-premise.
- Xây dựng và vận hành LLM Inference Platform và Agent Platform phục vụ GenAI applications, AI agents và large-scale AI workloads.
- Triển khai và tối ưu các inference engines như vLLM, SGLang, Triton, TensorRT-LLM, llama.cpp, KServe, Ray Serve hoặc các nền tảng tương đương.
- Tối ưu inference performance cho LLM workloads thông qua batching, quantization, KV-cache optimization, parallelism và runtime tuning.
- Tối ưu GPU utilization, autoscaling, scheduling, latency và throughput cho large-scale inference systems.
- Thiết kế và vận hành scalable serving architectures cho multi-tenant AI workloads với các yêu cầu về high availability và cost efficiency.
- Thiết lập và vận hành monitoring & observability systems cho AI platform và inference workloads.
- Define và tinh chỉnh metrics, alert thresholds, SLO/SLA và error budgets cho inference services.
- Xây dựng deployment pipelines, rollout strategies và automation workflows cho AI systems.
- Tham gia xử lý sự cố, root cause analysis và cải thiện reliability của hệ thống.
- Phối hợp cùng AI Engineers và Product Teams để cải tiến AI platform và developer experience.
Yêu cầu
- Tối thiểu 5 năm kinh nghiệm ở vị trí Platform Engineer / SRE / DevOps Engineer hoặc các vị trí tương đương.
- Có kinh nghiệm triển khai và vận hành Kubernetes production workloads.
- Hiểu rõ Kubernetes ecosystem: networking, ingress, storage, autoscaling, observability, security.
- Có kinh nghiệm với AI/ML infrastructure, GPU workloads, LLM inference systems và các inference engines như vLLM, SGLang, Triton, TensorRT-LLM, llama.cpp hoặc các hệ thống tương đương.
- Có hiểu biết về LLM inference optimization techniques như quantization, batching, tensor/pipeline parallelism hoặc KV-cache optimization là lợi thế.
- Có kinh nghiệm với monitoring & observability stack như Prometheus, Grafana, Loki, ELK/OpenSearch, OpenTelemetry.
- Có kinh nghiệm với CI/CD, GitOps, Helm, Terraform, ArgoCD hoặc các công cụ tương đương.
- Có khả năng viết automation scripts bằng Python / Bash / Go.
- Kiến thức tốt về Linux systems, networking, distributed systems và performance tuning.
- Chủ động, có tư duy hệ thống và khả năng xử lý production incidents.
- Có tư duy AI-native, chủ động ứng dụng AI tools và automation để tối ưu vận hành và nâng cao hiệu quả engineering workflows.
- Có kinh nghiệm với LLMOps, RAG systems, AI agents hoặc agent orchestration frameworks.
- Có hiểu biết về inference orchestration, request routing hoặc disaggregated serving architectures là một lợi thế.
- Có kinh nghiệm với distributed systems như Kafka, ClickHouse, Elasticsearch/OpenSearch hoặc vector databases.
- Có kinh nghiệm triển khai AI platform trên môi trường on-premise hoặc private cloud là một lợi thế.
- Có chứng chỉ như CKA/CKAD/CKS, AWS/GCP/Azure Certified hoặc các chứng chỉ cloud/platform liên quan.
Ứng tuyển thành công!
Cám ơn bạn đã quan tâm đến cơ hội nghề nghiệp tại VNG. Chúng tôi đã nhận được hồ sơ ứng tuyển của bạn. Trong trường hợp hồ sơ của bạn phù hợp với vị trí này chúng tôi sẽ liên hệ với bạn trong vòng 2 tuần. Nếu hiện tại VNG chưa có vị trí phù hợp, chúng tôi sẽ lưu trữ hồ sơ của bạn trong cơ sở dữ liệu và mời bạn cho các cơ hội khác trong tương lai.
