VNG Career Site Header

Chia sẻ việc làm

  • Logo Footer
  • Logo Footer

Công việc liên quan

Tìm công việc

Senior Site Reliability Engineer (Database), Digital Business

OfficialTechSystem25-ENG-3169
locationThành phố Hồ Chí Min...
Xem mô tả bằng
Tiếng Việt

Mô tả công việc

Chúng tôi đang tìm kiếm Senior Site Reliability Engineer (SRE) có kinh nghiệm chuyên sâu trong việc triển khai, vận hành và tối ưu hệ thống database trên môi trường Kubernetes (K8S).
Bạn sẽ đóng vai trò quan trọng trong việc đảm bảo hạ tầng dữ liệu luôn ổn định, hiệu năng cao, có khả năng mở rộng, và được giám sát chủ động thông qua hệ thống quan sát (observability) hiện đại.

Trách nhiệm chính
  • Nghiên cứu, triển khai, quản trị và tối ưu các database systems (PostgreSQL, Kafka, Opensearch, Redis, v.v.) trên Kubernetes.
  • Vận hành, tối ưu và mở rộng hệ thống Kubernetes cluster.
  • Thiết lập và quản lý các monitoring & alerting systems như Prometheus, Alertmanager, Grafana, ELK, v.v.
  • Define và tinh chỉnh metrics, alert thresholds, SLO/SLA, error budgets cho các dịch vụ database và hạ tầng quan trọng.
  • Tham gia xử lý sự cố (incident response), điều tra nguyên nhân gốc rễ (root cause analysis) và thực hiện post-mortem để tăng độ tin cậy hệ thống.
  • Tự động hóa quy trình vận hành (backup, failover, scaling, recovery, patching, CI/CD, etc.).
  • Xây dựng, chuẩn hóa runbook / playbook / documentation giúp đội ngũ phản ứng nhanh và hiệu quả trong tình huống khẩn cấp.
  • Phối hợp cùng team phát triển để cải tiến các sản phẩm database/big data. 

Yêu cầu

Yêu cầu công việc
  • Tối thiểu 3 năm kinh nghiệm làm việc ở vị trí SRE / DevOps / Database Engineer / System Engineer.
  • Thành thạo việc triển khai, vận hành và tối ưu database systems (MySQL, PostgreSQL, MongoDB, Redis, Kafka,...) trên môi trường on-premise hoặc on-cloud.
  • Có kinh nghiệm triển khai và vận hành Kubernetes trong môi trường on-premise hoặc cloud (EKS, GKE, AKS).
  • Kinh nghiệm thiết lập metrics, alert thresholds, dashboards cho hệ thống database và hạ tầng.
  • Có khả năng trực on-call, theo dõi cảnh báo và xử lý hoặc escalate kịp thời các sự cố hệ thống.
  • Thành thạo các công cụ monitoring & logging như Prometheus, Alertmanager, Grafana, Loki, ELK Stack,...
  • Biết viết script tự động hóa bằng Python / Bash / Go.
  • Kiến thức tốt về networking, storage, performance tuning, backup & recovery.
  • Tư duy hệ thống mạnh mẽ, chủ động trong việc phát hiện và xử lý vấn đề.
Điểm cộng
  • Có kinh nghiệm vận hành distributed databases hoặc high availability clusters (Patroni, Galera, Sentinel, etc.).
  • Kinh nghiệm với big data systems (Kafka, ClickHouse, Elasticsearch, etc.).
  • Có chứng chỉ liên quan như CKA/CKAD, AWS/GCP Certified, DB Admin Certifications là một lợi thế.