Điều đáng lo ngại hơn là thông tin về những phím bạn gõ và dữ liệu nhạy cảm sẽ được gởi về một máy chủ phía thứ 3.
Mỗi khi lướt web thì các trang web thường sử dụng các dịch vụ tracker để theo dõi thói quen, thu thập dữ liệu người dùng để phục vụ cho mục đích quảng cáo. Tuy nhiên, vấn đề đang đi xa hơn khi hầu hết các trang web có lượng truy cập lớn trên thế giới đang ghi lại mọi thứ mà bạn gõ hay click, chẳng hạn như một đoạn từ khóa tìm kiếm hay một đoạn tin nhắn. Thậm chí khi bạn bắt đầu điền vào một biểu mẫu trên web với địa chỉ email, số điện thoại, thông tin cá nhân nhưng rồi quyết định không nhấn tiếp tục nữa, chỉ để đó thì các trang web cũng đã có được thông tin mà họ muốn.
Trang Motherboard cũng dẫn chứng rằng phát hiện của đại học Princeton tương tự với vụ Facebook theo dõi người dùng với những dòng cập nhật trạng thái bỏ dỡ, chưa được đăng lên cách đây 4 năm. Cụ thể là vào năm 2013, Facebook đã bị phát hiện ghi lại những gì đang được người dùng nhập nhưng sau đó xóa mà không đăng tải thành một post hoàn chỉnh ở chế độ công khai. Lúc đó người dùng rất hoang mang nhưng hiện tại điều đáng chú ý là tất cả những trang web phổ biến này đều vận hành một cơ chế tương tự mà bạn hoàn toàn không biết.
Công bằng mà nói thì những trang web được đại học Princeton phát hiện không chủ động sử dụng các dịch vụ keylog, họ không chủ ý thu thập thông tin nhập liệu từ người dùng mà thay vào đó là hậu quả của việc sử dụng một tính năng được gọi là Session Replay Script. Đây là những đoạn script được trang web sử dụng để theo dõi tính tương tác và hỗ trợ trong khâu thiết kế UX, thông báo cho người chủ trang web biết được thói quen của người xem từ đó cải tiến trải nghiệm truy cập trang web của mình. Thật không may là những đoạn script này có thể ghi lại hầu như mọi thứ và gởi dữ liệu đến máy chủ để phân tích.
Chuyện trở nên tồi tệ hơn khi các nhà nghiên cứu phát hiện ra rằng thông tin nhạy cảm này lại không được giữ kín. Một khi Sesson Replay Script ghi lại toàn bộ hoạt động của một người dùng trên trang web và cho phép chủ trang web truy xuất thông tin theo dõi thì họ sẽ có thể biết được thông tin cụ thể về một người dùng và xem lại những gì họ đã tương tác với trang web theo thời gian thực như click vào đâu, gõ cái gì. Dưới đây là video demo tính năng Session Replay Script của FullStory, rõ mồn một từng thao tác!
Các nhà nghiên cứu tại Princeton đã chọn ra 7 công ty chuyên cung cấp dịch vụ Session Replay phổ biến trên thị trường và thử nghiệm các sản phẩm của họ trên một loạt các trang web. Họ phát hiện ra có ít nhất là một trong số các đoạn script đang được sử dụng bởi 482/50.000 trang có lượng truy cập lớn nhất trên thế giới theo xếp hạng Alexa. Danh sách các trang này bạn có thể xem tại đây, chúng được chia thành 2 trạng thái là 'evidence of session recording' (có bằng chứng về việc ghi lại phiên duyệt web của người dùng) và 'analytics script exists (có sự xuất hiện của các đoạn script dùng để phân tích).
Trong top 10 trang đầu tiên thì Yandex.ru - được mệnh danh là 'Google của Nga' xếp hạng 1 và đây cũng là một nhà cung cấp dịch vụ Session Replay, tiếp đến là Wordpress.com dùng dịch vụ của Yandex và đáng chú ý là Coccoc.com - nhà phát hành trình duyệt Cốc Cốc cũng dùng dịch vụ của Yandex, cả 3 đều được đánh dấu 'evidence of session recording' tức có thể ghi lại dữ liệu nhập liệu của người dùng và nguy cơ dữ liệu được gởi ra ngoài. Microsoft, Adobe, GoDaddy, UOL và nhiều trang khác cũng bị phát hiện chứa mã phân tích nhưng dùng các dịch vụ Session Replay khác nhau và ít nguy cơ hơn. Điều kỳ lạ hơn là những trang web lớn như HP, Atlassian, Xfinity và Comcast cũng bị đánh dấu 'evidence of session recording'.
Rất nhiều công ty thu thập và trao đổi dữ liệu này cũng cung cấp các dịch vụ để loại bỏ thông tin nhạy cảm nhưng rất nhiều công ty khác lại không. Nếu như dữ liệu bị rò rỉ ra ngoài thì vấn đề về quyền riêng tư của người dùng sẽ bị vi phạm nghiêm trọng, chưa kể là 'Việc thu thập nội dung từ trang web thông qua mã replay từ phía thứ 3 có thể khiến thông tin nhạy cảm như tình trạng y tế, thông tin thẻ tín dụng và nhiều thông tin cá nhân khác được phơi bày. Thông tin có thể bị rò rỉ qua các phần mềm lọc, chẳng hạn như 2 nhà cung cấp dịch vụ Session Replay là UserReplay và SessionCam đều chặn hoàn toàn thông tin bằng cách theo dõi vị trí mà một người dùng nhấn vào trước khi họ bắt đầu gõ. Tuy nhiên, nếu thông tin được hiển thị mặc định trên một màn hình, người dùng không cần phải nhấp chuột mà chỉ việc gõ thôi thì thông này có thể bị bỏ sót và cứ thế trôi đến máy chủ phía thứ 3.
Các nhà nghiên cứu cũng phát hiện ra rằng những dịch vụ Session Replay thực tế đang đứng trước nguy cơ tấn công cao. Không chỉ là mục tiêu có giá trị lớn, rất nhiều dịch vụ này cung cấp trang phân tích sử dụng giao thức HTTP không mã hóa thay vì HTTPS. 'Hacker có thể thực hiện tấn công man-in-the-middle tiêm mã độc vào trang web và truy xuất toàn bộ dữ liệu được ghi lại,' đại học Princeton cho biết.
Kể từ khi bản báo cáo của đại học Princeton được công bố thì nhiều trang web đang sử dụng các dịch vụ Session Replay Scripts và các nhà cung cấp đã lên tiếng phản hồi. Nhiều trang web cho rằng họ không nhận thức được cơ chế hoạt động và nguy cơ tiềm ẩn từ các dịch vụ này đồng thời nhấn mạnh đang tìm cách cải tiến để bảo vệ dữ liệu người dùng. SessionCam cũng đã đăng tải trên trang blog của mình rằng họ nhận thức rõ vấn đề và trấn an rằng công ty đang bảo vệ an toàn dữ liệu người dùng.
Về mặt giải pháp, đại học Princeton cho rằng người dùng nên cài đặt các phần mềm chặn quảng cáo như AdBlock Plus để chặn Session Replay Scripts. Ngoài ra chúng ta có thể dùng thêm các phần mềm chặn tracker như Ghostery để đảm bảo giữ kín thông tin cá nhân khi tương tác với mọi trang web.
Theo: Alphr