Chia sẻ việc làm
Công việc liên quan
- Senior DevOps Engineerthành phố hồ chí minh
- HR Business Partner, Digital Businessthành phố hồ chí minh
- Leader Automation Engineer, VNGGamesthành phố hồ chí minh
Tìm công việc
Senior Site Reliability Engineer (Database), Digital Business
OfficialTechSystem25-ENG-3169
thành phố hồ chí minh
Xem mô tả bằng
Tiếng Việt
Mô tả công việc
Chúng tôi đang tìm kiếm Senior Site Reliability Engineer (SRE) có kinh nghiệm chuyên sâu trong việc triển khai, vận hành và tối ưu hệ thống database trên môi trường Kubernetes (K8S).
Bạn sẽ đóng vai trò quan trọng trong việc đảm bảo hạ tầng dữ liệu luôn ổn định, hiệu năng cao, có khả năng mở rộng, và được giám sát chủ động thông qua hệ thống quan sát (observability) hiện đại.
Trách nhiệm chính
- Nghiên cứu, triển khai, quản trị và tối ưu các database systems (PostgreSQL, Kafka, Opensearch, Redis, v.v.) trên Kubernetes.
- Vận hành, tối ưu và mở rộng hệ thống Kubernetes cluster.
- Thiết lập và quản lý các monitoring & alerting systems như Prometheus, Alertmanager, Grafana, ELK, v.v.
- Define và tinh chỉnh metrics, alert thresholds, SLO/SLA, error budgets cho các dịch vụ database và hạ tầng quan trọng.
- Tham gia xử lý sự cố (incident response), điều tra nguyên nhân gốc rễ (root cause analysis) và thực hiện post-mortem để tăng độ tin cậy hệ thống.
- Tự động hóa quy trình vận hành (backup, failover, scaling, recovery, patching, CI/CD, etc.).
- Xây dựng, chuẩn hóa runbook / playbook / documentation giúp đội ngũ phản ứng nhanh và hiệu quả trong tình huống khẩn cấp.
- Phối hợp cùng team phát triển để cải tiến các sản phẩm database/big data.
Yêu cầu
Yêu cầu công việc
- Tối thiểu 3 năm kinh nghiệm làm việc ở vị trí SRE / DevOps / Database Engineer / System Engineer.
- Thành thạo việc triển khai, vận hành và tối ưu database systems (MySQL, PostgreSQL, MongoDB, Redis, Kafka,...) trên môi trường on-premise hoặc on-cloud.
- Có kinh nghiệm triển khai và vận hành Kubernetes trong môi trường on-premise hoặc cloud (EKS, GKE, AKS).
- Kinh nghiệm thiết lập metrics, alert thresholds, dashboards cho hệ thống database và hạ tầng.
- Có khả năng trực on-call, theo dõi cảnh báo và xử lý hoặc escalate kịp thời các sự cố hệ thống.
- Thành thạo các công cụ monitoring & logging như Prometheus, Alertmanager, Grafana, Loki, ELK Stack,...
- Biết viết script tự động hóa bằng Python / Bash / Go.
- Kiến thức tốt về networking, storage, performance tuning, backup & recovery.
- Tư duy hệ thống mạnh mẽ, chủ động trong việc phát hiện và xử lý vấn đề.
Điểm cộng
- Có kinh nghiệm vận hành distributed databases hoặc high availability clusters (Patroni, Galera, Sentinel, etc.).
- Kinh nghiệm với big data systems (Kafka, ClickHouse, Elasticsearch, etc.).
- Có chứng chỉ liên quan như CKA/CKAD, AWS/GCP Certified, DB Admin Certifications là một lợi thế.
Ứng tuyển thành công!
Cám ơn bạn đã quan tâm đến cơ hội nghề nghiệp tại VNG. Chúng tôi đã nhận được hồ sơ ứng tuyển của bạn. Trong trường hợp hồ sơ của bạn phù hợp với vị trí này chúng tôi sẽ liên hệ với bạn trong vòng 2 tuần. Nếu hiện tại VNG chưa có vị trí phù hợp, chúng tôi sẽ lưu trữ hồ sơ của bạn trong cơ sở dữ liệu và mời bạn cho các cơ hội khác trong tương lai.
