VNG Career Site Header

Chia sẻ việc làm

  • Logo Footer
  • Logo Footer

Công việc liên quan

Tìm công việc

Senior Site Reliability Engineer (K8s), Digital Business

OfficialTechSystem25-ENG-3170
locationThành phố Hồ Chí Min...
Xem mô tả bằng
Tiếng Việt

Mô tả công việc

Chúng tôi đang tìm kiếm Senior Site Reliability Engineer (SRE) có kinh nghiệm trong việc xây dựng, vận hành và tối ưu hạ tầng hệ thống sử dụng Kubernetes (K8S). Bạn sẽ làm việc cùng đội DevOps/Platform để đảm bảo hệ thống hoạt động ổn định, tự động hóa cao và có khả năng mở rộng linh hoạt

Trách nhiệm chính
  • Vận hành và tối ưu hệ thống Kubernetes với quy mô lớn
  • Xây dựng, giám sát và tối ưu các hệ thống Observability như Prometheus, Alertmanager, Grafana, ELK,..
  • Thiết kế và định nghĩa các alert thresholds, SLO/SLA, error budgets cho các dịch vụ quan trọng.
  • Tự động hóa các quy trình vận hành (CI/CD, auto scaling, backup, logging, etc.).
  • Tham gia xử lý sự cố (incident response) và thực hiện post-mortem analysis để cải thiện độ ổn định của hệ thống.
  • Xây dựng và chuẩn hóa tài liệu vận hành (runbook/playbook) nhằm đảm bảo quy trình xử lý sự cố và triển khai được nhất quán, rõ ràng, tự động hoá và dễ áp dụng.
  • Hỗ trợ team phát triển sản phẩm trong việc nghiên cứu, triển khai và tối ưu hiệu năng hệ thống
  • Có khả năng triển khai, vận hành, hoặc tối ưu database systems (MySQL, PostgreSQL, MongoDB, Redis,...) là một lợi thế. 

Yêu cầu

  • Tối thiểu 3 năm kinh nghiệm làm việc với vai trò SRE/DevOps / System Engineer.
  • Có khả năng trực on-call và phản ứng kịp thời trước cảnh báo hệ thống, xử lý sự cố hoặc escalate khi cần.
  • Thành thạo Kubernetes, Docker, và các công cụ trong hệ sinh thái Cloud Native.
  • Có khả năng triển khai, giám sát, vận hành và troubleshoot hệ thống, đồng thời xây dựng tài liệu và runbook hỗ trợ xử lý sự cố.
  • Hiểu và xác định được điểm nghẽn hiệu năng (performance bottleneck), đề xuất và đánh giá hiệu quả tối ưu sau khi thay đổi.
  • Tư duy hệ thống mạnh mẽ, chủ động trong việc phát hiện và xử lý vấn đề.
  • Có kinh nghiệm với CI/CD pipelines (GitLab CI, Jenkins, ArgoCD, etc.).
  • Biết vận hành và tối ưu Database, Big Data, AI là một lợi thế
  • Kỹ năng viết script tự động hóa bằng Python / Bash / Go là một điểm cộng.
  • Kỹ năng làm việc nhóm, giao tiếp tốt và tư duy giải quyết vấn đề chủ động.