Thậm chí có người còn post video về thử nghiệm của họ nữa (bên dưới, họ thử dùng chữ 'cat food' - thức ăn cho mèo - và Facebook hiện đúng quảng cáo về sản phẩm này). Vậy chẳng phải Facebook đang nghe lén bạn để hiển thị quảng cáo định hướng đấy sao?
Điều này có khả thi không?
Hãy nói về mặt kĩ thuật trước. Giả sử Facebook hoặc Facebook Messenger hoặc các app con của Facebook thật sự có lắng nghe bạn liên tục kể cả khi bạn đang không bật điện thoại. Khi đó, bạn giống như đang gọi một cuộc gọi thoại với Facebook vậy. Trung bình mỗi giây cuộc gọi thoại này sẽ chiếm 3KB dung lượng, và giả sử bạn cầm máy liên tục bên mình khoảng 6 tiếng mỗi ngày, vậy tính ra sẽ có khoảng 130MB dung lượng data giọng nói với mỗi người mỗi ngày được gửi về Facebook, theo ước tính của Antonio García Martínez, người đầu tiên làm giám đốc sản phẩm mảng quảng cáo cho Facebook và giờ đã nghỉ việc.
Đem con số 130MB / người / ngày này nhân cho 150 triệu người dùng tích cực mỗi ngày tại Mỹ (dùng Mỹ làm ví dụ vì người Mỹ nói tiếng Anh, và đặt giả thuyết là Facebook có khả năng phân tích giọng nói tiếng Anh tốt nhất), chúng ta có tổng dung lượng dữ liệu vào khoảng 20 petabyte mỗi ngày. Lưu ý số này chỉ mới ở Mỹ thôi nhé, chưa áp dụng cho toàn thế giới.
Nếu bạn chưa biết thì toàn bộ hệ thống lưu trữ dữ liệu của Facebook hiện đang có dung lượng tầm 300 petabyte, mỗi ngày tăng thêm cỡ 600 terabyte nữa. Như vậy, nếu Facebook thật sự nghe lén bạn thì mỗi ngày Facebook phải tiếp nhận một lượng dữ liệu lớn hơn gấp 33 lần so với hiện nay. Đây là con số lớn khổng lồ và đứng ở góc nhìn kĩ thuật, sẽ rất khó để có thể chứa hết bọn chúng, chưa kể tới nguồn lực xử lý cần dùng để phân tích các từ được nói để trả về kết quả cho hệ thống hiển thị quảng cáo.
Ở phía người dùng, việc phát sinh 130MB dung lượng mỗi ngày cũng sẽ khiến bạn cảnh giác ngay lập tức vì mức độ sử dụng 3G, 4G tăng lên nhanh chóng. Giả sử mỗi tháng bạn có 2GB miễn phí thì chỉ 2 tuần là con số này đã cạn sạch rồi. Chưa hết, việc ghi nhận và truyền dữ liệu giọng nói liên tục về máy chủ còn khiến thiết bị của bạn chạy chậm thường xuyên, mau hao pin và nóng máy. Nói cách khác, việc làm này của Facebook sẽ bị phát hiện ngay lập tức.
Tất nhiên, ở trên chúng ta đang đặt giả thuyết về việc stream dữ liệu liên tục giữa điện thoại với máy chủ Facebook. Nhưng cũng có một cách thông minh hơn và ít bị phát hiện hơn: Facebook sẽ chỉ kích hoạt nghe lén khi bạn nói đúng một từ khóa nào đó. Đây là cách mà các trợ lý ảo như Amazon Alexa, Google Assistant hay sắp tới là Siri đang sử dụng. Chỉ khi bạn gọi tên của mấy 'cô gái' này, mấy 'cổ' mới bắt đầu chạy lên và lắng nghe mệnh lệnh của bạn. Như vậy gói data cần truyền giữa thiết bị của bạn với Facebook sẽ rất nhỏ gọn và khó bị phát hiện.
Nhưng vấn đề là từ khóa được Facebook sử dụng là gì? Rất khó để Facebook có thể chọn từ khóa kích hoạt vì những đoạn hội thoại bình thường của bạn có thể có cả nghìn chữ trong đó, với mỗi người bạn lại nói một vấn đề khác nhau. Việc sử dụng 1 vài từ khóa để kích hoạt là chuyện bất khả thi. Và đó là chỉ mới áp dụng cho tiếng Anh, mở rộng ra các ngôn ngữ khác lại càng không thể, đặc biệt là tiếng Việt rất phong phú cũng như chưa có những hệ thống nhận diện, phân tích đủ mạnh và đủ tốt.
Bên cạnh đó, Martínez cho biết tính đến lúc ông nghỉ việc ở Facebook thì hệ thống quảng cáo định hướng của công ty đang có khoảng 1 triệu từ khóa dùng để nhận biết vấn đề mà người dùng đang trao đổi là gì để mà chọn quảng cáo cho phù hợp. Facebook chẳng thể nào lắng nghe hết 1 triệu từ khóa này vì như vậy điện thoại của bạn không thể chịu nổi, và một lần nữa, bạn sẽ nhanh chóng phát hiện ra những thứ kỳ quái với app Facebook bằng những công cụ đo có sẵn của Android, iOS. Ngay cả khi chiếc điện thoại của bạn là Note8 hay iPhone X mới nhất thì gánh nặng này vẫn là quá lớn với phần cứng của một cái điện thoại.
Bao nhiêu người bị tình trạng này?
Giờ chúng ta sẽ giả sử Facebook thật sự có thể nghe lén bạn và chuyển thể thành đúng mẫu quảng cáo bạn quan tâm. Không có mức CPU bị sử dụng quá cao, không có hiện tượng pin mau hết, không có data bị sử dụng đụng trần... Cứ cho là Facebook đạt được một thành tựu nào đó để luôn luôn lắng nghe và luôn luông thấu hiểu đi. Vậy có bao nhiêu % trong những đoạn hội thoại là thông tin có thể được dùng cho quảng cáo?
Không nhiều.
Chính Martínez đã thử nghiệm điều đó khi ông còn làm ở Facebook. Hãng từng thử nghiệm một dự án tên mã 'Project Chorizo', trong đó Facebook sẽ lấy hết tất cả mọi dữ liệu của người dùng mà họ có trong tay, từ các bài post, link, địa điểm check in... và nhét vào một cỗ máy xử lý để xem liệu những dữ liệu này có cải thiện hiệu quả quảng cáo hay không.
Trước khi tới được bước đánh giá hiệu quả, Facebook rất ngạc nhiên vì lượng thông tin có thể dùng để định hướng quảng cáo trong tất cả mọi dữ liệu nói trên thực ra rất nhỏ, chỉ vài phần trăm, dù cho Facebook có thể nhiều cách khác nhau. Martínez ví von việc này giống như nhét cả một trại nuôi thú vật vào một chiếc máy nghiền để rồi đầu ra là một cây xúc xích bé tí tẹo. Nói cách khác, những nhà quảng cáo đang không hứng thú với bạn nhiều như bạn nghĩ.
Theo Martínez, đây là thứ người dùng thường hiểu nhầm ở Facebook. Chúng ta có xu hướng đặt mình ở trung tâm thế giới và giả định rằng cuộc sống của mình rất quan trọng, người ngoài rất muốn tìm hiểu xem cuộc đời của bạn như thế nào. Nhưng đó không phải là điều đúng đắng. Các nhà quảng cáo không quan tâm đến hầu hết dữ liệu cá nhân của bạn.
Nói ngắn gọn: bạn có một tấm ảnh khỏa thân trên Internet không có nghĩa là mọi người sẽ trả tiền để xem nó.
Thứ mà các nhà quảng cáo thật sự quan tâm đa phần không nằm trong các cuộc hội thoại của bạn ở Facebook. Những dữ liệu quý giá đó nằm trong những món hàng bạn đã mua từ các trang thương mại điện tử như Amazon, trong hồ sơ mua xe, mua nhà, trong dữ liệu khách hàng của cửa hàng bán lẻ gần bạn, nói chung là ở những chỗ mà bạn đã chi tiền ra.
Nó có chạy không?
Giả sử (lại giả sử) Facebook làm được hết tất cả mọi thứ và hệ thống định hướng quảng cáo cũng chạy hoàn hảo. Như vậy chúng ta sẽ có những tình huống như sau:
'Tôi cần bay từ TP.HCM ra Hà Nội ngày 11/11, bạn nào có vé tốt pm' => hiện quảng cáo cho Vietnam Airline hay Vietjet Air hay Traveloka.
'Thằng chó đó nói chuyện chán quá' => hiện quảng cáo cửa hàng thịt chó, ủa khoan, sao kỳ vậy?
Ngôn ngữ của con người là một hệ thống cực kì phức tạp, nó có thể có nhiều nghĩa khác nhau và cũng là bài toán vô cùng nan giải với thuật toán định hướng quảng cáo. Hệ thống AI này không thể nào gợi ý đúng tất cả mọi trường hợp nếu chỉ có những câu từ chung chung như thế.
Lại nói về 'Project Chorizo', sau quá trình nghiền xúc xích nói trên, việc tăng trưởng số lượt click (cũng là cách Facebook tính tiền nhà quảng cáo) nhờ vào các bài post của người dùng cũng không có gì đáng kể. Không phải là không tăng, nhưng không phải là mức mà các nhà quảng cáo sẵn sàng chi thêm để có được.
Vậy điều gì có thể giải thích cho những video giống như cái mà bạn thấy đầu bài?
Cũng giống như việc bạn hay gặp trời mưa sau khi mới rửa xe, bạn đang xem video của một vài người dùng Facebook gặp một số tình huống có vẻ là ngẫu nhiên, bạn đang bỏ qua hàng triệu người dùng khác không gặp vấn đề này.
Và trong đa số trường hợp, Facebook không cần phải thực hiện phép màu gì để nhắm vào bạn cả. Họ có những công cụ mạnh hơn rất nhiều lần để định hướng quảng cáo thay vì sử dụng những câu từ rất chung chung từ đoạn hội thoại nghe lén. Facebook có tất cả dữ liệu về sở thích, bạn bè, các mối quan hệ của bạn, họ có đầy đủ thông tin về thiết bị bạn đang sử dụng, các cửa hàng bạn đã ghé thăm, kể cả những món hàng bạn mua bán mà không qua thẻ tín dụng. Ồ, và tài khoản của bạn được link với số điện thoại cũng có lý do cả đấy
Ngoài Facebook, Twitter, LinkedIn cũng như các mạng lưới quảng cáo khác đều đang thực hiện theo cách này. Nó chỉ là một phần trong thế giới của các công nghệ quảng cáo mà thôi, và bởi vì bạn sử dụng Facebook nhiều nên bạn thấy nó nhiều và để ý nó thường xuyên. Sẽ rất khó để bạn thoát khỏi các hình thức quảng cáo hiện đại ngày nay.
Kết bài: Facebook đang không nghe lén bạn, nhưng vẫn đang theo dõi bạn bằng nhiều cách khác mà có khi bạn còn không ngờ tới. Phát súng mà bạn không nghe thấy tiếng mới thật sự là phát súng kết liễu bạn!
Tham khảo: Wired