Senior Site Reliability Engineer (Database), GreenNode

OfficialTechSystem25-ENG-3169

Thành phố Hồ Chí Min...

Xem mô tả bằng

Tiếng Việt

Mô tả công việc

Chúng tôi đang tìm kiếm Senior Site Reliability Engineer (SRE) có kinh nghiệm chuyên sâu trong việc triển khai, vận hành và tối ưu các hệ thống Enterprise-Grade Database Clusters và Kubernetes (K8S).

Bạn sẽ đóng vai trò quan trọng trong việc đảm bảo hạ tầng dữ liệu luôn ổn định, hiệu năng cao, có khả năng mở rộng, và được giám sát chủ động thông qua hệ thống quan sát (observability) hiện đại.

Trách nhiệm chính

Nghiên cứu, triển khai, quản trị và tối ưu các database systems (SQL Server, Oracle, MongoDB, MySQL, PostgreSQL, Redis, v.v.).
Vận hành, tối ưu và mở rộng hệ thống Kubernetes cluster.
Thiết lập và quản lý các monitoring & alerting systems như Prometheus, Alertmanager, Grafana, ELK, v.v.
Define và tinh chỉnh metrics, alert thresholds, SLO/SLA, error budgets cho các dịch vụ database và hạ tầng quan trọng.
Tham gia xử lý sự cố (incident response), điều tra nguyên nhân gốc rễ (root cause analysis) và thực hiện post-mortem để tăng độ tin cậy hệ thống.
Tự động hóa quy trình vận hành (backup, failover, scaling, recovery, patching, CI/CD, etc.).
Xây dựng, chuẩn hóa runbook / playbook / documentation giúp đội ngũ phản ứng nhanh và hiệu quả trong tình huống khẩn cấp.
Phối hợp cùng team phát triển để cải tiến các sản phẩm database/big data.

Yêu cầu

Tối thiểu 3 năm kinh nghiệm làm việc ở vị trí SRE/DBA/System Engineer.
Thành thạo việc triển khai, vận hành và tối ưu database systems (SQL Server, Oracle, MongoDB, MySQL, PostgreSQL, Redis, v.v.) trên môi trường on-premise hoặc on-cloud.
Có kinh nghiệm triển khai và vận hành Kubernetes trong môi trường on-premise hoặc cloud (EKS, GKE, AKS).
Kinh nghiệm thiết lập metrics, alert thresholds, dashboards cho hệ thống database và hạ tầng.
Có khả năng trực on-call, theo dõi cảnh báo và xử lý hoặc escalate kịp thời các sự cố hệ thống.
Thành thạo các công cụ monitoring & logging như Prometheus, Alertmanager, Grafana, Loki, ELK Stack,...
Biết viết script tự động hóa bằng Python / Bash / Go.
Kiến thức tốt về networking, storage, performance tuning, backup & recovery.
Tư duy hệ thống mạnh mẽ, chủ động trong việc phát hiện và xử lý vấn đề.

Điểm cộng

Có kinh nghiệm vận hành các Enterprise-grade database cluster như SQL Server, Oracle, MongoDB Enterprise là một lợi thế.
Có kinh nghiệm vận hành distributed databases hoặc high availability clusters (Patroni, Galera, Sentinel, etc.) là một lợi thế.
Kinh nghiệm với big data systems (Kafka, ClickHouse, Elasticsearch, etc.).
Có chứng chỉ liên quan như MCSA/MCSE/Azure Database Administrator, Oracle Database (OCA / OCP), MongoDB Certified DBA / Developer, CKA/CKAD, AWS/GCP Certified hoặc DB Admin Certifications khác là một lợi thế.

Ứng tuyển thành công!

Cám ơn bạn đã quan tâm đến cơ hội nghề nghiệp tại VNG. Chúng tôi đã nhận được hồ sơ ứng tuyển của bạn. Trong trường hợp hồ sơ của bạn phù hợp với vị trí này chúng tôi sẽ liên hệ với bạn trong vòng 2 tuần. Nếu hiện tại VNG chưa có vị trí phù hợp, chúng tôi sẽ lưu trữ hồ sơ của bạn trong cơ sở dữ liệu và mời bạn cho các cơ hội khác trong tương lai.