Đó không hẳn là cuộc cách mạng cho cách chúng ta tương tác với nhau như Internet, hay với môi trường xung quanh như thực tế ảo, mà là cách chúng ta tương tác với máy móc.
Những tai nghe không dây đang tạo nên một làn gió mới cho thị trường thiết bị thông minh. Không chỉ là một cảnh trong phim viễn tưởng Her nữa, giờ các thiết bị đó đã xuất hiện ngoài đời thực. Gần đây, Sony vừa cho ra mắt trợ lý ảo bằng tai nghe đầu tiên của mình, Xperia Ear. Năm ngoái, Intel cũng trình diễn một sản phẩm với ý tưởng tương tự có tên Jarvis. Ngoài ra, Bragi Dash, một thiết bị có thể nói với người dùng, sắp ra mắt trên Kickstarter để gọi vốn, trong khi một đồng nghiệp của họ, startup Here, đã gọi thành công số vốn 17 triệu USD để cạnh tranh trên thị trường tai nghe thông minh này.
Nhưng tên tuổi đình đám nhất lại là Apple. Các thông tin rò rỉ cho biết, Apple sẽ loại bỏ jack cắm tai nghe trên iPhone và thay thế nó bằng một cặp tai nghe không dây của Beats. Tuy nhiên, vẫn còn nhiều điều phải giải quyết trước mắt để công nghệ này tiến gần hơn với người dùng.
Một cảnh trong phim 'Her'.
Khoảnh khắc iPhone của điều khiển bằng âm thanh
Nhờ vào thành công của Amazon với thiết bị điều khiển bằng giọng nói, loa thông minh Echo, làm cho việc giao tiếp giữa người và máy bằng âm thanh đã trở nên thú vị hơn. Nhưng cho dù Echo Amazon đã chiếm một phần tâm trí của người dùng, theo một nghiên cứu của Mind Meld, chỉ có 4% người dùng smartphone đã dùng thử Echo. Trong khi đó, có đến 62% người dùng thị trường này đã dùng thử các AI điều khiển bằng giọng nói trên di động như Siri, Google Now và Cortana. Điều đó nghĩa là thành công ban đầu của Echo trên thị trường có thể sẽ nhanh chóng bị đè bẹp khi làn sóng các thiết bị cá nhân mới từ Sony, Apple và các startup nhỏ khác – trừ khi Amazon tìm ra một thị trường ngách cho thiết bị của mình.
Xperia Ear của Sony.
Điều gì khiến cho thị trường này hấp dẫn đến vậy? Hãy thử tưởng tượng một trợ lý cá nhân có thể ghi lại mọi cuộc hội thoại, một nhà nghiên cứu hữu dụng tự động kiểm tra IMDb cho tên một diễn viên bạn thậm chí chẳng nhớ ra, một người lắng nghe vấn đề của bạn, thậm chí đưa ra các liệu pháp chữa trị cũng như âm thầm tư vấn cho bạn kiến thức của các chuyên gia. Tất cả gói gọn trong một chiếc tai nghe không dây, có microphone và gần như sống trong tai của bạn. Nghe có vẻ viễn tưởng, nhưng nó bắt đầu có mặt trên thị trường.
“Tôi nghĩ xu hướng đeo tai sẽ là xu hướng có được “khoảnh khắc iPhone”,” Jason Mars , trợ lý giáo sư tại Đại học Michigan và là đồng giám đốc của Clarity-Lab cho biết. “Với Amazon Echo, có một số ý tưởng thú vị về những việc bạn có thể nói tại nhà. Giờ, với công nghệ đeo tai, bạn có thể tưởng tượng về một trợ lý ảo luôn kết nối với bạn.”
Một cấp độ mới của sự thân mật … nhưng với ai
Một vấn đề thường làm cản trở sự giao tiếp giữa người và máy, đó là sự riêng tư. Một ai đó đi lướt qua cũng có thể nhìn vào màn hình máy tính của bạn. Ngay cả điện thoại hay đồng hồ thông minh cũng không hoàn toàn riêng tư. Giữa các thiết bị này với người dùng vẫn còn một khoảng cách lớn, theo đúng nghĩa đen, đến tai của bạn. Nhưng với các thiết bị đeo tai, cảm giác lại hoàn toàn khác, giống như ai đó thân thiết thì thầm vào tai bạn vậy.
Mark Rolston, cựu CCO của Frog và là đồng sáng lập Argodesign, cho rằng, tính tự nhiên của sự tiếp xúc riêng tư này sẽ thay đổi quan hệ của bạn với AI. Trong khi bạn có thể không muốn điện thoại hay chiếc smartwatch nhắc nhở bạn về ngày sinh nhật của ai đó, nhưng một giọng nói mà chỉ bạn nghe thấy, cho biết thông tin tương tự thì hoàn toàn chấp nhận được. Tương tự như vậy, sẽ thật thiếu tôn trọng khi tra cứu thông tin trên điện thoại ngay trước mặt ai đó, nhưng sẽ thật hữu ích nếu điều đó được làm hoàn toàn vô hình với một AI trong tai của bạn.
Những thách thức về phần mềm
Mặc dù những hình ảnh trên thật thú vị nhưng có một điều có thể phá hủy tất cả những viễn cảnh tươi đẹp trên. Đó là sự chênh lệch giữa kỳ vọng của người dùng và thực tế những gì công nghệ AI có thể làm. “Nếu bạn đi quá nhanh, quá sớm, sẽ có rất nhiều góc khuất mà bạn không thể giải quyết.” Dan Eisenhardt, tổng giám đốc của bộ phận Headworn cho Intel. “Như Siri, tôi đã cho Siri một vài cơ hội, nhưng sau một hay hai lần, cô ấy không hoạt động vào lúc tôi thất vọng … do vậy tôi không sử dụng Siri nữa.”
Mẫu thử nghiệm thiết bị đeo tai Jarvis của Intel.
Tại Intel, Eisenhardt đang cố gắng giải quyết vấn đề này bằng cách tạo ra những thiết bị đeo tay phát ra âm thanh dựa trên ngữ cảnh cụ thể. Đầu năm nay, Intel và Oakley hợp tác để ra mắt Radar, một thiết bị thông minh kết hợp giữa kính và tai nghe, có thể trả lời câu hỏi của người chạy bộ và đạp xe như “Tôi đã chạy được bao xa?” hay “Nhịp tim tôi đang như thế nào?”. Với ngữ cảnh hẹp như vậy, Radar có thể hiểu chủ đề của cuộc thảo luận, đưa ra câu trả lời chính xác hơn cũng như giảm đi sự thất vọng của người dùng với thiết bị.
Một điều khác bạn nên biết về trợ lý ảo đeo tai của mình. Đó là liệu sẽ có một giọng nói duy nhất luôn bên bạn, hay mỗi công ty sẽ phát triển một giọng nói đặc trưng riêng của mình. Cho đến nay, nhiều thương hiệu đã lo lắng về việc để Alexa trong Amazon Echo kiểm soát ứng dụng hoặc sản phẩm của họ. Rõ ràng, không phải ai cũng muốn một giọng nói xa lạ nào đó đại diện cho thương hiệu của mình.
“Giải pháp có thể là giọng nói cho mỗi thương hiệu cần phải đúng nghĩa đen của nó, là giọng nói của mỗi thương hiệu.” Ông Rolston cho biết. “Vì vậy nếu tôi có một ứng dụng bên trong Siri là của một công ty pizza, có lẽ tôi sẽ không phải nói “Này Siri” mà sẽ là “Này Pizza Pizza”.”
Những thách thức về cơ sở hạ tầng
Với mỗi người dùng iPhone, Siri không gì hơn một bản cập nhật phần mềm. Nhưng chi phí đằng sau phần mềm đó thật đắt đỏ. Để triển khai Siri, Apple đã phải xây một trung tâm dữ liệu trị giá 1 tỷ USD tại Bắc Carolina. Chính vì lý do đó, dễ hiểu tại sao Amazon, công ty sở hữu mạng lưới máy chủ lớn nhất hành tinh, hiện đang thống trị thị trường giọng nói thông minh này. Ngay cả như vậy, toàn bộ số máy chủ hiện tại của chúng ta cũng không đủ quy mô cho các trợ lý ảo này.
Thiết bị giám sát sinh học Bragi Dash sắp ra mắt trên Kickstarter.
“Nếu mỗi người trên hành tinh muốn tương tác liên tục với Siri, Cortana, chúng ta đơn giản là không đủ quy mô để xoay vòng trong trung tâm dữ liệu để hỗ trợ dung lượng tải này.” Ông Jason Mars cho biết. “Có một quy mô nhất định về công nghệ chưa thể giải quyết được. Giống như việc chúng ta vẫn chưa thể cho phép mọi điện thoại di động trên hành tinh liên tục tải về các đoạn video, bởi vì các cột tín hiệu không thể hỗ trợ việc này. Tương tự, chúng ta vẫn chưa có đủ hạ tầng điện toán để liên tục nói chuyện với các trợ lý ảo với quy mô hàng triệu hay hàng tỷ người được.”
Đó là lý do tại sao trong phòng thí nghiệm của Mars, anh đang nghiên cứu phương pháp để cải thiện gấp 10 và gấp 100 lần cách chúng ta thiết kế máy chủ hiện nay. Ví dụ, nếu điện thoại của mỗi người có thể xử lý nhiều tải hơn, trong khi máy chủ chỉ triển khai phần cứng chuyên dụng để chạy một số ít các phần mềm như AI, điều này là hoàn toàn có thể.
Thiết kế phần cứng đeo tai
Trong khi quy mô máy chủ chỉ là một thách thức về kỹ thuật, sự thoải mái và tiện lợi của các thiết bị đeo tai lại là thách thức từ chính người dùng đối với các hãng sản xuất. Gadi Amit, người sáng lập hãng thiết kế NewDealDesign, không tin rằng mọi thiết bị đều tốt như Sony hay các startup khác tô vẽ.
Đầu tiên, tai nghe vốn luôn là thiết bị khó có thể chiều lòng tất cả mọi người. Ví dụ, một vài người có thể cho rằng tai nghe của Apple là hoàn hảo, trong khi người khác lại không thể đeo nó chỉ vài giây. “Vấn đề của sự thoải mái luôn là một vấn đề rất cá nhân. Một vài người cảm thấy nó khá ổn, một số khác lại thấy nó không thể chấp nhận được.” Amit cho biết. “Nó chẳng bao giờ có được sự chấp nhận 100%, đặc biệt khi đang chạy.” Khác hẳn với màn hình cảm ứng, một điều được chấp nhận bởi gần như 100% dân số.
Tai nghe thông minh của startup Here.
Một vấn đề khác mà Amit nhanh chóng chỉ ra là giới hạn về microphone và hệ thống nhận diện âm thanh. Mặc dù rất tốt, nhưng trên thực tế, độ chính xác của các hệ thống này thường chỉ lên đến 90%. “Nghe có vẻ rất nhiều, nhưng nó thực sự là khủng khiếp. Trong một cuộc hội thoại bình thường, đã là điều kinh khủng, khi bạn không thể hiểu được 5% trong số đó.” Amit nói. “Nó sẽ là rất tuyệt với một số ứng dụng. Nhưng chúng ta sẽ chẳng đi đến đâu với tai nghe, để loại bỏ giao diện đồ họa, trong vài năm tới.”
Thay vào đó, Amit tưởng tượng rằng tương lai gần sẽ là một “tấm thảm” của tương tác, mà máy tính đeo tai hay hệ thống điều khiển bằng giọng nói sẽ chỉ là một bộ phận trong đó. Ngoài ra, vẫn còn những hệ thống tương tác khác như bằng giao diện đồ họa của màn hình cảm ứng. Bên cạnh đó, cũng có những công nghệ nhận biết cử chỉ và cảm xúc trên khuôn mặt như những chiếc kính thực tế ảo hay hệ thống rung phản hồi với các cảm xúc của cơ thể.
“Chúng ta có năm giác quan, và chúng ta phải sử dụng toàn bộ chúng để tương tác với các công nghệ thông minh.” Amit nói. “Khó khăn thực sự khi chúng ta thiết kế các dự án này, là phải tìm được cách kết hợp đúng, để mọi người đủ linh hoạt khi chấp nhận mức thoải mái của họ. Sự lai ghép là thách thức chúng ta có hiện tại. Chúng ta có tất cả các công nghệ này, nhưng làm thế nào để có được sự kết hợp đúng với nhau?”
Đó có thể là lý do tại sao Apple gần đây mua lại hai công ty chắc bạn chưa nghe bao giờ. Emotient, một phần mềm nhận diện tâm trạng, có thể đọc cảm xúc trên gương mặt. Và Faceshift, một phần mềm có thể ghi lại và tạo ra một gương mặt của con rối từ khuôn mặt người. Kết hợp với nhau, đây có thể là những sự bổ sung cho Siri khi nhận diện người dùng.
Mảnh ghép còn thiếu: thái độ của xã hội
Tuy nhiên, thách thức lớn nhất với các trợ lý ảo đeo tai này, lại là một vấn đề còn lớn hơn cả các trung tâm dữ liệu, các yếu tố sinh lý, hay thậm chí là sự lạm dụng. Đó là sự cân nhắc của xã hội về một AI sống ngay trong tai của bạn. Theo Don Norman, giám đốc phòng thiết kế tại UC San Diego, cho rằng không phải lúc nào một trợ lý ảo cũng nên nói chuyện, hay cung cấp thông tin cho bạn, mà phải lựa chọn đúng thời điểm phù hợp.
“Tôi lo ngại về sự an toàn. Chúng ta đã biết những người làm bị thương chính mình vì xem điện thoại khi đang đi bộ. Họ đâm vào thứ gì đó, nhưng ít chiếc điện thoại là do bạn điều khiển. Bạn có thể dừng lúc chúng lúc nào muốn.” Ông nói. “Nhưng nếu là một trợ lý ảo, đưa ra lời khuyên, đề xuất thông tin, nói với tôi những điều có vẻ thú vị, nhưng tôi không kiểm soát khi nào nó xảy ra, và có thể đó sẽ là tình huống nguy hiểm.”
Đó là lý do tại sao Norman nghiên cứu về những khác biệt phức tạp giữa các xã hội khác nhau qua ống kính của xe tự động. Ví dụ như cách một chiếc xe tự động đi qua một đám đông tại nút giao thông. Nếu ở California, xe có thể tiến từ từ về phía trước và người đi bộ sẽ dừng lại để nhường đường, thì ở châu Á, chiếc xe sẽ phải lao qua đám đông mạnh mẽ hơn, nếu không muốn phải đứng chờ cả ngày trên đường. Đó là sự phức tạp về văn hóa mà máy móc chưa thể hiểu được.
Nhưng với những người vẫn tin vào ngày tận thế, khi công nghệ dẫn dắt loài người, lưu ý rằng hiện tại trung bình, chúng ta đang kiểm tra smartphone của mình 150 lần một ngày. Nếu điều đó vẫn chưa đánh bại con người, thì dường như chưa có công nghệ mới nào có thể bắt xã hội loài người phải quỳ gối trước nó cả.
Tham khảo Fastcodesign