VNG Career Site Header

Chia sẻ việc làm

  • Logo Footer
  • Logo Footer

Công việc liên quan

Tìm công việc

Senior System Engineer, GreenNode

OfficialTechSystem26-PRD-3629
locationThành phố Hồ Chí Min...
Xem mô tả bằng
Tiếng Việt

Mô tả công việc

Về công ty:

GreenNode là đơn vị cung cấp hạ tầng và giải pháp AI Cloud hàng đầu tại khu vực Đông Nam Á, thành viên của VNG Corporation và là đối tác Cloud chính thức của NVIDIA.

Với hơn 20 năm kinh nghiệm xây dựng và vận hành hạ tầng cloud quy mô lớn — bắt đầu từ chính nhu cầu nội bộ của “khách hàng số 0” là VNG — GreenNode sở hữu năng lực chuyên sâu về bảo mật, tối ưu hạ tầng và chuyển đổi cloud. GreenNode mang đến hệ sinh thái AI Cloud tinh gọn, tập trung vào các sản phẩm cốt lõi phục vụ cho những ứng dụng có quy mô lớn, lượng người dùng cao và các bài toán AI chuyên sâu. Hạ tầng được triển khai trên mô hình đa vùng sẵn sàng (multi-availability zones) và đa khu vực (multi-region) tại Vietnam và Thailand, đảm bảo hiệu năng cao, tính sẵn sàng, độ ổn định và khả năng mở rộng linh hoạt cho các hệ thống vận hành quan trọng.
Với sự am hiểu sâu sắc về nhu cầu công nghệ của các doanh nghiệp số — đặc biệt là các ngân hàng tầm trung, công ty FinTech và doanh nghiệp bán lẻ — GreenNode đồng hành chặt chẽ cùng khách hàng trong suốt hành trình chuyển đổi, hỗ trợ tăng trưởng bền vững và mở rộng ra thị trường quốc tế.

Tóm tắt công việc:

Vị trí Senior System Engineer chịu trách nhiệm vận hành, xử lý sự cố và tối ưu các hệ thống cloud quy mô lớn dựa trên nền tảng OpenStack, với trọng tâm chuyên sâu về networking, SDN data plane, tương tác với kernel, hành vi container/runtime, tự động hóa và phân tích hiệu năng hệ thống.

Trách nhiệm chính:
  • Vận hành và xử lý sự cố các thành phần của OpenStack (như Neutron, Nova, LB) hoặc các nền tảng cloud tương đương, tập trung vào tenant networking, routing, NAT, security groups và xử lý sự cố trong môi trường production.
  • Phân tích luồng packet end-to-end, debug các vấn đề kết nối, packet loss, latency tăng cao hoặc hành vi hệ thống không ổn định thông qua các công cụ như tcpdump, iproute2, flow inspection, logs và system traces.
  • Làm việc với các công nghệ SDN hoặc virtual networking như OVS, OVN, Tungsten Fabric/Contrail, VMware NSX hoặc các giải pháp tương đương; hiểu rõ các mô hình overlay networking như VXLAN, MPLS và EVPN.
  • Ưu tiên nếu có thêm kinh nghiệm với: OpenStack Neutron, Tungsten Fabric/Contrail, EVPN/MPLS, VPN/IPSec, kernel tuning, Docker/containerd internals hoặc hệ thống xử lý high PPS.
  • Điều tra các điểm nghẽn hiệu năng, bao gồm giới hạn PPS, CPU saturation, hành vi NIC offload, MTU mismatch, RSS, NUMA/CPU pinning, network stack của kernel và khả năng tương thích tính năng giữa hệ điều hành, kernel, driver và các phiên bản nền tảng khác nhau.
  • Debug các vấn đề ở cấp độ hệ thống liên quan đến Linux kernel, hành vi của Docker/container runtime, sự khác biệt giữa cgroup v1/v2, kernel modules, tương tác driver và các mismatch tính năng giữa các bản phân phối hoặc phiên bản kernel khác nhau.
  • Xây dựng hoặc sử dụng automation để thu thập logs, kiểm tra cấu hình hệ thống, xác thực trạng thái runtime, so sánh cấu hình giữa các node và hỗ trợ chuẩn hóa vận hành ở quy mô lớn thông qua các công cụ như Ansible kết hợp shell hoặc Python scripts.
  • Xử lý các sự cố production, thực hiện root cause analysis và phối hợp với hệ thống monitoring/logging để xác định các vấn đề mang tính hệ thống và ngăn ngừa tái diễn.

Yêu cầu

  • Có kỹ năng xử lý sự cố hệ thống Linux vững chắc, hiểu rõ cách kernel tương tác với hệ thống, networking stack, cơ chế quản lý process/tài nguyên và hành vi của container runtime như Docker hoặc containerd.
  • Nắm chắc nền tảng networking, bao gồm TCP/IP, routing, NAT và cơ chế hoạt động L2/L3 trong môi trường ảo hóa và overlay network.
  • Có kinh nghiệm thực tế với virtual networking, SDN hoặc các nền tảng cloud networking như OpenStack, Kubernetes networking, VMware hoặc các hệ thống tương đương.
  • Có khả năng debug sự cố dựa trên packet-level và system-level tools, thay vì chỉ phụ thuộc vào cấu hình, giao diện quản trị hoặc tài liệu từ vendor.
  • Có kinh nghiệm sử dụng các công cụ automation/configuration management như Ansible để thu thập logs, kiểm tra tham số hệ thống, xác thực tính nhất quán của cấu hình và triển khai thay đổi vận hành an toàn trên nhiều node.
  • Có tư duy lập trình, có khả năng đọc hiểu, review và xử lý lỗi trong code hoặc logic bằng Python, Go, Shell hoặc C/C++, đồng thời có thể phân tích nguyên nhân gốc rễ vượt ra ngoài các runbook tiêu chuẩn.