BackTrở về
Ask a Senior - 07/08/2024

TRUST but VERIFY!

Anh Vũ Minh Quân

Anh Vũ Minh Quân

Senior Site Reliability, Head of Infrastructure & Support Department
Sao chép link

Nhấn vào ĐÂY để đọc phiên bản tiếng Anh.

 

Hi anh Quân, cảm ơn anh đã trở thành khách mời của Ask a Senior #15. Mở đầu, anh có thể chia sẻ lý do vì sao anh lựa chọn trở thành một Site Reliability Engineer (SRE) không? 

 

💚  Xin chào các bạn. 

 

Tính cách của anh là thích sắp xếp mọi thứ ngăn nắp và khá cầu toàn. Công việc của một SRE đòi hỏi một sự cầu toàn rất cao trong việc xây dựng hệ thống với mục tiêu cao nhất là sự ổn định. Anh cảm thấy công việc này giúp anh phát huy được các tính cách đó. Ngoài ra, vì không có một giải pháp nào là hoàn hảo cho mọi vấn đề và cái tốt nhất thường không dễ nhìn thấy nên các SRE cần phải liên tục thách thức các giải pháp, tư duy đang áp dụng và liên tục học hỏi, cải tiến. Anh rất thích điều đó. 

 

 

Trong một tổ chức thì đội ngũ SRE quan trọng đến mức nào? 

 

💚 SRE nói vui thì giống như đội ngũ giám sát công trình mà công việc là quản lý, kiểm soát và theo dõi chất lượng, các tiêu chuẩn kỹ thuật để đảm bảo hệ thống hạ tầng đạt chuẩn về thiết kế, triển khai và vận hành. 

 

 

Với tầm quan trọng như vậy, liệu chân dung của một SRE có giống như một siêu anh hùng giấu mặt trong thế giới công nghệ không? Theo anh, một SRE điển hình sẽ có những phẩm chất, kĩ năng gì? 

 

💚Xin được nhường tên gọi Siêu Anh Hùng cho đội ngũ phát triển sản phẩm. SRE sẽ là đội ngũ hậu cần thầm lặng giúp những thành quả của họ tạo ra được bền vững và thông suốt. 

 

Kĩ năng quan trọng của một SRE là “tư duy” và biết cách “đặt câu hỏi đúng”. Cần phải có một tư duy phản biện mạnh để luôn tối đa hóa mục đích và cần phải biết đặt câu hỏi chính xác để có thể đến được với giải pháp tối ưu nhanh nhất. 

 

Theo anh, hai phẩm chất cần rèn luyện mỗi ngày của SRE là Empathize và Blameless. Các SRE cần thấu hiểu sâu sắc điểm mạnh, khó khăn giữa mỗi đồng nghiệp, mỗi nhóm/phòng ban, và luôn hướng tới việc giải quyết vấn đề thay vì chỉ trích, đổ lỗi.

 

 

Lộ trình để trở thành một Senior SRE là gì?  

 

💚 Đầu tiên bạn phải liên tục học hỏi để: 

  • Có tư duy liên tục phát triển và cải tiến; 
  • Có hiểu biết đa dạng từ phần cứng cho đến phần mềm, từ hệ thống vật lý đến hệ thống cloud; 
  • Nắm bắt được các xu hướng công nghệ mới trong ngành để đưa ra các cải tiến phù hợp với yêu cầu hệ thống của công ty.  

 

Như vậy sau 2-3 năm, bạn có thể trở thành một Middle Level SRE. 

 

💚 Sau đó, bạn cần: 

  • Hiểu biết sâu sắc tại sao hệ thống lại hoạt động như vậy, nhằm đưa ra các giải pháp thông minh cũng như phản ứng nhanh nhạy trong khi xử lý các sự cố nghiêm trọng; 
  • Nâng cao tính chủ động, độc lập trong công việc và thích ứng nhanh với các yêu cầu mới của hệ thống; 
  • Nâng cao khả năng giao tiếp, chia sẻ với các đội nhóm khác để thấu hiểu và phối hợp công việc. 

 

Như vậy sau 2-3 năm tiếp theo bạn có thể trở thành một Senior SRE. 

 

 

Anh đã gặp khó khăn, thách thức nào nên chặng đường ấy? 

 

💚 Trí nhớ của anh khá hữu hạn, việc phải học rất nhiều thứ cùng một lúc khiến anh gặp nhiều khó khăn. Anh sẽ cố gắng viết xuống thật nhiều các kiến thức học hỏi được và chỉ ghi nhớ cần phải tìm kiến thức đó ở đâu. Ngoài ra, cố gắng đào sâu tìm hiểu cái căn bản nhất đằng sau các công nghệ cũng giúp anh không cần nhớ quá nhiều. Khi cần đến, chỉ cần vận dụng kiến thức căn bản sẽ dễ dàng diễn giải được cách thức hoạt động. 

 

💚  Vì là “giám sát công trình” nên anh sẽ làm việc với gần như tất cả các phòng ban, bộ phận. Thách thức lớn nhất trong bất kỳ sự hợp tác cross-team nào chính ra rào cản ngôn ngữ. Ngôn ngữ ở đây không phải là tiếng Việt hay tiếng Anh mà là ngôn ngữ trong phạm vi hiểu biết của mỗi người. Để giải quyết thách thức đó thì cách duy nhất là ngồi lại với nhau, tìm cách hiểu ngôn ngữ của nhau. Từ đó, chúng ta cùng hiểu vấn đề theo một cách và cùng nhau giải quyết. 

 

Anh có trải qua điều gì khác với lộ trình thông thường không? 

 

💚Anh không phải là một người phù hợp làm Specialist - một chuyên gia trong một lĩnh vực cụ thể nên anh cố gắng trở thành một Generalist: cố gắng đọc và nắm bắt thật nhiều kiến thức ở phổ rộng. Việc đó giúp anh có một nguồn ý tưởng và lựa chọn phong phú để giải quyết cùng một bài toán. 

 

 

Cốc Cốc nằm ở đâu trên hành trình của anh? 

 

💚 Cốc Cốc chính là nơi giúp anh nâng tầm các kỹ năng của bản thân để góp phần tạo ra giá trị hữu hình cho tổ chức. Cốc Cốc luôn tự hào là có sản phẩm rất đặc thù, đếm trên đầu ngón tay các sản phẩm tương tự trên thế giới, nên thách thức, bài toán của hệ thống cũng gần như độc nhất. Để đảm bảo sự ổn định của một hệ thống phục vụ hàng chục triệu người sử dụng, SRE luôn là vị trí rất quan trọng, có nhiều cơ hội để học hỏi và nâng cao kỹ năng. 

 

 

Điều gì truyền cảm hứng cho anh nhất trong công việc của mình?   

 

💚 Anh cảm thấy mình luôn học được cái gì đó mới mỗi ngày từ công việc và từ những đồng nghiệp xung quanh. 

 

 

Công việc đòi hỏi sự tập trung, chính xác cao nhưng có lẽ đôi khi chúng ta vẫn gặp phải những sai lầm. Với anh, điều mà SRE nên tránh nhất là gì? 

 

💚 Trong SRE, có 1 thiếu sót (hơn là sai lầm) thường gặp đó là quá tự tin vào kết quả hiện tại trước mắt mà bỏ qua việc theo dõi, giám sát sau đó: Hãy nhớ Trust but Verify! Vì không có gì là hoàn hảo, ngay cả chúng ta cũng không thể hoàn toàn tránh khỏi những lỗi mang tính con người. Việc luôn đặt ra các chỉ dẫn để đo lường kết quả giúp chúng ta tránh khỏi những sự cố đáng tiếc.  

 

 

Những bài toán lớn mà một SRE sẽ phải giải quyết là gì? Anh có gợi ý nào về hướng xử lý? 

 

💚 Cân bằng giữa phát triển và ổn định. 

Gợi ý: Chúng ta không bao giờ nên kỳ vọng vào một mức độ ổn định 100%, hãy cố gắng đưa mục tiêu của hệ thống lên ngày càng cao hơn nhưng cũng luôn để dành 5%, 1%, 0.01% để chúng ta có thể phát triển. 

 

💚 Cân bằng giữa sự ổn định và bảo mật. 

Gợi ý: Chúng ta thật sự cần hiểu rõ giữa muôn vàn các nguy cơ bảo mật phát hiện bởi các công cụ thì nguy cơ nào thực sự có khả năng trở thành lỗ hổng trong hệ thống đặc thù của mỗi tổ chức. 

 

💚 Các sự cố gây ra bởi các thiết kế tạm, thiết kế chưa đạt chuẩn. 

Gợi ý: Cần có một quy trình quản lý sự cố. Luôn ngồi lại sau mỗi sự cố để phân tích, mổ xẻ tìm ra đầy đủ các nguyên nhân trực tiếp lẫn gián tiếp sau đó xử lý triệt để. Sau mỗi lần như vậy, chúng ta cũng cần xem xét lại để cải tiến các quy trình xử lý sự cố. 

 

Sự cân bằng giữa công việc và cuộc sống có quan trọng với SRE không? Phải làm gì để duy trì điều này?   

 

💚Cân bằng giữa công việc và cuộc sống quan trọng với tất cả mọi người. Phương pháp của anh trong vấn đề này chính là thay đổi tư duy cũng như góc nhìn của bản thân về “sự cân bằng”. Đối với anh, “cân bằng” chính là anh có thể kết hợp thời gian cho công việc lẫn cuộc sống. Ví dụ như trong lúc rửa bát anh vẫn có thể nghĩ về công việc, khi gia đình con cái đi nghỉ hết thì anh lại có thể tiếp làm việc. Với anh đó chính là cân bằng. 

 

 

Thật một quan điểmlạvề sự cân bằng!

 

Nhưng qua đó, em thể thấy niềm say với nghề SRE của anh. Em mong rằng với tình yêu dành cho công việc, anh sẽ còn đi xa hơn nữa trên hành trình của mình. Cảm ơn chia sẻ của anh! 

Loading...