Vì sao YouTube phải tự sản xuất chip, chỉ dùng để nén video cho mọi thiết bị xem đều mượt?
Khoảng 5 năm trước, phó chủ tịch phụ trách công nghệ của Google, Partha Ranganathan đã nhận ra rằng, định luật Moore không còn đúng, kể cả về mật độ transistor lẫn tác dụng của những con chip CPU đa dụng đối với từng nhu cầu cụ thể nữa. Giờ không thể kỳ vọng cứ 1 năm rưỡi, hiệu năng chip xử lý lại tăng gấp đôi, nhưng chi phí không tăng quá cao nữa. Là người đảm trách công việc quản lý kinh phí để nâng cấp toàn bộ cơ sở hạ tầng của Google, cứ 4 năm nâng cấp một thế hệ chip mạnh gấp đôi trở thành một vấn đề đau đầu với ông Ranganathan. Khi ấy, ông biết Google cũng như YouTube phải làm điều gì đó mới mẻ.
Theo dõi kỹ quá trình vận hành, ông Ranganathan cùng các cộng sự phát hiện ra, đối với dịch vụ YouTube, đòi hỏi sức mạnh xử lý lớn nhất trong toàn bộ quy trình là giai đoạn transcode video. Quy trình này cho phép nén những video clip từ 360p đến 8K mọi người đăng tải lên YouTube, để mọi thiết bị xem đều có chất lượng đẹp nhưng dung lượng băng thông tải về là nhẹ nhất, cho dù đó là máy tính, laptop, điện thoại hay TV.
Để tiện so sánh, con số ước tính là cứ mỗi phút lại có 500 giờ video được tải lên YouTube. Đôi khi có những clip phức tạp đến mức, có một clip đơn lẻ phải xử lý để tạo ra từ 10 đến 15 phiên bản khác nhau, từ độ phân giải khác nhau, clip có HDR tone mapping hay không, và clip có phải định dạng quay 360 độ hay không…
Những con chip CPU đa dụng mà Google mua của Intel hay AMD không phục vụ được đúng nhu cầu đó theo cách kinh tế nhất mà họ mong muốn. Thứ họ cần là một chip ASIC (application-specific intergrated circuit) phục vụ chuyên biệt một tác vụ, hệt như cụm chip Neural Engine hoặc Media Engine trong Apple Silicon ấy. Tương tự, cũng là ASIC nhưng khi được tinh chỉnh để xử lý giải mã blockchain, chúng ta có những hệ thống đào Bitcoin hoặc tiền số với sức mạnh lớn hơn GPU đa dụng nhiều.
Scott Silver, phó chủ tịch phụ trách kỹ thuật ở YouTube nói: “Điều chúng tôi thực sự muốn là lấy tất cả những video được người dùng tải lên YouTube, rồi transcode chúng sang mọi định dạng có thể, tạo ra trải nghiệm tốt nhất có thể.” Nhu cầu và áp lực xử lý của data center YouTube nặng đến mức, chỉ cần 10 phút họp với CEO Susan Wojcicki, dự án tự phát triển chip ASIC dùng transcode video YouTube đã được phê duyệt.
Năm 2018, YouTube bắt đầu triển khai sử dụng chip Argos, một dạng Video Coding Unit (VCU) họ tự phát triển, nhưng mãi đến năm 2021 mới công khai về sản phẩm này. Tên gọi con chip được lấy từ con quái vật nhiều mắt trong thần thoại Hy Lạp. Trong khoảng thời gian đó, Google nói rằng chip Argos của họ tạo ra hiệu năng mạnh gấp 20 đến 33 lần so với những phần cứng máy chủ mua bên ngoài, dù chúng đã được tinh chỉnh để transcode video nhanh nhất có thể.
Nhà phân tích thị trường chip bán dẫn Mike Feibus nói: “Với tác vụ transcoding, vốn là một quá trình rất cụ thể và đòi hỏi sức mạnh phần cứng rất lớn, con chip của Google tạo ra sẽ đem lại cho họ tỷ lệ hiệu năng rất cao nhưng chi phí lại thấp."
Hiện tại thì Google đang vận hành hàng nghìn chip Argos thế hệ 2 ở rất nhiều data center của YouTube trên toàn thế giới, và đội ngũ nghiên cứu đang phát triển ít nhất 2 mẫu chip ASIC nữa.
Thông thường, bỏ tiền tự phát triển chip xử lý đều chỉ đi kèm với một mục đích duy nhất là tiết kiệm chi phí. Nhưng đôi khi tự làm chip cũng cho phép một tập đoàn công nghệ tự chủ và có được lợi thế kỹ thuật. Vả lại hiện giờ, số lượng những hãng sản xuất được chip xử lý cho máy chủ, bán cho các đơn vị cũng chỉ đếm được trên đầu ngón tay: Nvidia, AMD, Intel. Và tất cả họ đều chỉ làm chip CPU và GPU đa dụng, không thể so sánh được với ASIC hoặc chip chuyên dụng.
Tự phát triển chip transcode không chỉ giúp YouTube xem mượt hơn, mà chính Google cũng có được lợi thế rất lớn về mặt công nghệ, chi phí vận hành cũng như chiến lược.
Không chỉ có Argos, năm 2016, Google đã giới thiệu chip ASIC phục vụ xử lý AI và deep learning, mang tên Tensor Processing Unit (TPU). Hiện giờ họ đã có 4 thế hệ chip TPU, một trong số đó đang được trang bị bên trong chiếc Pixel 6 và 6 Pro, tạo ra lợi thế không nhỏ về mặt hiệu năng xử lý AI so với các đơn vị khác trên thị trường.
Theo Protocol