5 nguyên tắc khi thử nghiệm Benchmark cho smartphone

Thông thường, sản phẩm nào có điểm benchmark cao hơn thì sẽ thu được nhiều tiền hơn. Vụ scandal gần đây liên quan tới vi xử lý của Intel và ARM trên smartphone cho thấy tất cả những lỗ hổng của 'hệ thống benchmark'. Khi sử dụng cụm từ 'hệ thống', chúng ta sẽ bàn tới cả cách tiến hành benchmark, cách thông báo kết quả và ý nghĩa của chúng tới người dùng. Chúng ta sẽ tìm ra những lỗ hổng và cách khắc phục chúng.

Điều đầu tiên cần phải chỉ ra là việc thực hiện các cuộc benchmark một cách 'đúng đắn' là tối quan trọng đối với người mua. Trong nhiều trường hợp, người tiêu dùng có thể đưa ra lựa chọn sai lầm, và thủ phạm chính là các kết quả benchmark với 2 lỗ hổng chính: 1) đưa ra kết quả benchmark không tương xứng với trải nghiệm người dùng cuối (ví dụ như đưa ra điểm benchmark trên một sản phẩm mẫu có cấu hình cao chứ không phải là sản phẩm cuối được bán ra thị trường); 2) thực hiện benchmark một cách 'lừa đảo' nhằm lợi dụng người dùng (ví dụ như so sánh thời gian tải web của 2 chiếc smartphone được sử dụng trên 2 hệ thống mạng có tốc độ khác nhau). Các vụ scandal liên quan tới benchmark smartphone đã mắc phải cả 2 cáo buộc nói trên: chúng giống như một tập phim truyền hình Big Brother vậy.

Gần đây nhất, chúng ta có thể kể đến một thông báo của hãng nghiên cứu thị trường ABI Research có tên 'Vi xử lý di động của Intel vượt trội so với NVIDIA, Qualcomm, Samsung'. Các tờ báo khác như Register nhanh chóng 'ăn theo' bằng những bài báo có tựa đề như 'Đáng kinh ngạc! Smartphone Intel đánh bại ARM trong thử nghiệm sức mạnh'. Seeking Alpha cũng nhanh chóng nhảy vào cuộc chơi, trích dẫn nghiên cứu của ABI và đưa ra một bài báo có tên gọi 'Intel đập tan ARM: cổ phiếu ARM giảm 20%'.

Sau khoảng vài chục bài báo có nội dung như vậy, nếu như bạn đặt niềm tin vào báo giới, chắc chắn Qualcomm, Samsung và Nvidia sẽ phá sản và Intel sẽ 'thừa hưởng' toàn bộ thị phần vi xử lý di động của các công ty này. Dĩ nhiên, ngay đến cả Intel cũng sẽ không tin vào điều đó, mặc dù phải thừa nhận rằng vi xử lý di động Atom của công ty đã được cải thiện rất nhiều so với 3 năm về trước.

Sau đó, vào tháng 7, công ty nghiên cứu BDTI đưa ra một thông báo có tên gọi 'Benchmark smartphone: Người tiêu dùng chú ý!', tấn công trực tiếp vào bài viết của ABI và chương trình benchmark được công ty nghiên cứu này sử dụng (AnTuTu). Nhà nghiên cứu Jeff Bier của BDTI cho biết: 'chương trình biên dịch đã bỏ qua một vài bước căn bản trong các đoạn mã nguồn benchmark'.

Nói một cách dễ hiểu, Bier cho biết khi được đo đạc bằng AnTuTu, vi xử lý Atom của Intel không phải thực hiện nhiều tác vụ như các vi xử lý kiến trúc ARM và do đó hiển nhiên sẽ có điểm số cao hơn và tiêu thụ ít điện năng hơn. Chỉ vài giờ sau khi thông báo của BDTI được đưa ra, AnTuTu đưa ra một điểm số benchmark mới cho Atom, thay đổi kết quả tới 20%. Hãy thử tưởng tượng nếu xe máy của bạn cũng được kiểm thử theo cùng một cách như vậy: ngày hôm trước, người ta nói rằng xe của bạn đi được 100km khi đổ đầy bình xăng. Ngày hôm sau, họ lại đưa ra một thông báo khác, nói rằng xe của bạn chỉ đi được 80km. Thật là vớ vẩn!

Vụ việc của Intel không phải là scandal duy nhất liên quan tới benchmark. Trên mảnh đất PC, các phần mềm Sysmark và MobileMark đã liên tiếp gặp phải nhiều tranh cãi, và thậm chí cả 3D Benchmarks cũng không thể thoát khỏi scandal. Năm 2003, Apple cũng bị cáo buộc 'ăn gian' kết quả benchmark G5. Các hệ thống máy chủ cũng là những ví dụ điển hình về benchmark sai lệch. Do đó, việc các kết quả benchmark di động bị lợi dụng vào các mục đích xấu cũng không có gì là lạ cả.

Các biên tập viên của Forbes đã liên lạc với Intel về sự việc nói trên, và tuyên bố của người khổng lồ vi xử lý là tất cả mọi người đều không nên sử dụng chỉ duy nhất một kết quả benchmark để đo đạc sức mạnh, và rằng các câu hỏi liên quan tới benchmark của AnTuTu thì nên hỏi AnTuTu. Và khi các biên tập viên này liên lạc với AnTuTu, họ không hề nhận được phản hồi. Rõ ràng, benchmark smartphone là một vấn đề, vậy ngành công nghệ nên làm gì?

Theo Forbes, có 5 nguyên tắc quan trọng mà các thử nghiệm benchmark bắt buộc phải tuân theo:

1. Benchmark tốt nhất là các benchmark thể hiện mô hình sử dụng trong thực tế, với xuất phát điểm là những gì mà người dùng muốn sử dụng trên điện thoại của họ. Trên smartphone, benchmark phải có trọng tâm là các nội dung được sử dụng: mạng xã hội, email, nhắn tin, web, game, nhạc, ảnh, video và nghe gọi. Ví dụ, benchmark smartphone của bạn có thể hiện thời gian chờ khi hiển thị ảnh hoặc thời lượng pin hay không?

2. Không bao giờ chỉ dựa trên một benchmark duy nhất: không có phần mềm benchmark nào là hoàn hảo và tất cả các phần mềm này đều có một lỗ hổng nào đó. Trong trường hợp của AnTuTu, có quá nhiều tờ báo đã sử dụng kết quả một benchmark duy nhất và thổi phồng vấn đề lên quá mức.

3. Benchmark các thiết bị người dùng cuối: rất nhiều benchmark được tiến hành trên các sản phẩm kiểm thử, không phải là các sản phẩm thực tế. Thông thường, giữa sản phẩm dành cho thị trường và sản phẩm kiểm thử sẽ luôn luôn có sự khác biệt (cả xấu và tốt). Một vài sản phẩm thiết kế mẫu sẽ sử dụng phần mềm (firmware) giai đoạn beta và do đó có thể nhanh hơn hoặc chậm hơn các sản phẩm được sản xuất hàng loạt. Nhiều sản phẩm cuối có thể chứa phần mềm rác của nhà sản xuất, làm tốc độ xử lý của máy chậm hơn. Trong thông báo với Forbes, Intel đã tỏ ra rất rõ ràng rằng các kết quả thử nghiệm bị rò rỉ từ sản phẩm mẫu của vi xử lý Bay Trail cần phải được bỏ qua.

4. Các benchmark dựa trên ứng dụng là đáng tin cậy nhất: có 3 loại benchmark chính: benchmark tổng hợp, benchmark dựa trên ứng dụng và benchmark lai giữa tổng hợp và ứng dụng. Benchmark tổng hợp, ví dụ như thử nghiệm bộ nhớ của AnTuTu, thường chạy một thuật toán để đo đạc tổng thể một hệ thống nhỏ bên trong smartphone, chứ không phải là hiệu năng chạy ứng dụng thực tế của chiếc smartphone đó. Lợi thế của benchmark tổng hợp là chúng rất dễ phát triển và dễ sử dụng. Các benchmark dựa trên ứng dụng như 3D Benchmark đáng tin cậy hơn: các trò chơi thực tế như Crysis sẽ được chạy và đo hiệu năng. Các benchmark dạng lai cũng khá đáng tin tưởng, nếu chúng phản ánh được hiệu năng thực tế của ứng dụng. Các benchmark dựa trên ứng dụng đòi hỏi rất nhiều thời gian và tài nguyên để phát triển.

5. Hãy tìm những benchmark minh bạch: một vài công ty sản xuất phần mềm benchmark sẽ thông báo rất rõ với bạn về những yếu tố được họ thử nghiệm, cách thức thực hiện và thậm chí là cả mã nguồn của benchmark. Nếu như bạn đọc được một kết quả benchmark không có các yếu tố trên, hãy cẩn thận và tự hỏi: 'Tại sao họ không làm như vậy?'

6. Hãy đi tìm sự nhất quán: các benchmark tốt nhất đều có thể được chạy nhiều lần và đưa ra kết quả ổn định. Nếu bạn chạy một benchmark nhiều lần và nhận được nhiều kết quả khác nhau, bạn không nên tin vào phần mềm benchmark đó nữa.

Trong khi không có benchmark nào là hoàn hảo và không có vấn đề, phương thức thực hiện benchmark của FutureMark là đáng tin tưởng nhất: cách FutureMark thực hiện benchmark đủ tường minh để giúp bạn đi đến những quyết định quan trọng nhất.

Benchmark trên di động là một trong những loại benchmark khó phát triển nhất. Đầu tiên, benchmark trên di động cần phải hỗ trợ nhiều loại hệ điều hành khác nhau, trong đó nổi bật nhất là iOS và Android. Thứ 2, có tới 3 loại kiến trúc vi xử lý mà các phần mềm benchmark cần phải hỗ trợ: ARM, MIPS và X86. Thứ 3, smartphone có thể coi là một hệ thống lớn tích hợp nhiều hệ thống nhỏ như vi xử lý tín hiệu hình ảnh, vi xử lý tín hiệu số và bộ mã hóa video – tất cả các bộ phận này đều khó hỗ trợ. Cuối cùng, việc đo đạc các bộ phận riêng biệt của một chip SoC (System on a Chip) hoặc thậm chí là một chip SoC hoàn chỉnh là rất khó do chúng ta cần đặt ra các tiêu chuẩn cực kỳ rõ ràng cho các bộ phận khác nhau.

Thực tế, vụ scandal AnTuTu-Intel-ARM là một điều rất may mắn đối với ngành công nghệ, vì nhờ có sự kiện này mà tất cả phải nhìn lại cách smartphone đang được đánh giá thông qua các thử nghiệm benchmark, nhìn lại những điểm yếu của benchmark và những hậu quả tai hại khi cả một ngành công nghiệp vội vàng đi đến những kết luận lớn chỉ từ một benchmark duy nhất. Bây giờ là lúc để ngành hi-tech vá lại những lỗ hổng này.