Một nỗi sợ hãi lớn đối với việc AI có thể tái tạo hoàn hảo giọng nói của một người là khả năng lừa đảo của nó. Loại công nghệ này đã đạt được những tiến bộ vượt bậc trong vài tháng qua và không có gì ngạc nhiên khi chúng đang bị bọn tội phạm lạm dụng, những kẻ có thể giả giọng để thuyết phục gia đình chủ sở hữu rằng người đó cần hỗ trợ tài chính.
Tờ Washington Post đưa tin rằng một cặp vợ chồng người Canada ở độ tuổi 70 gần đây đã nhận được một cuộc điện thoại giống như cháu trai của họ nói rằng ông ta đang ở trong tù và cần tiền bảo lãnh. Họ đã rút tối đa 3.000 đô la Canada từ một ngân hàng và chuẩn bị rút số tiền tương tự từ một ngân hàng khác thì người quản lý nói với họ rằng họ đang bị lừa đảo; hóa ra một khách hàng khác đã nhận được một cuộc gọi tương tự và biết rằng nó đã bị giả mạo.
Một cặp vợ chồng khác không may mắn như vậy là cha mẹ của Benjamin Perkin. Họ nhận được một cuộc gọi từ luật sư nói rằng con trai họ đã giết một nhà ngoại giao Hoa Kỳ trong một vụ tai nạn xe hơi, và Perkin đang ở trong tù và cần tiền cho các chi phí pháp lý. Luật sư gọi điện cho Perkin, người nói rằng ông yêu họ và đánh giá cao số tiền.
Giọng nói nghe 'đủ gần để bố mẹ tôi thực sự tin rằng họ đã nói chuyện với tôi,' Perkin nói. Cha mẹ của anh ấy đã gửi 15.449 đô la cho kẻ lừa đảo thông qua một thiết bị đầu cuối bitcoin và không thể lấy lại được.
Lừa đảo dựa trên giọng nói không phải là mới. Dữ liệu của Ủy ban Thương mại Liên bang tiết lộ rằng trong số 36.000 báo cáo vào năm ngoái về những người bị bọn tội phạm giả danh bạn bè hoặc gia đình lừa đảo, hơn 5.100 vụ trong số này xảy ra qua điện thoại.
Giả mạo giọng nói của một người từng là một quy trình phức tạp và kéo dài liên quan đến việc khám phá và thu thập hàng giờ âm thanh và kết quả cuối cùng không phải lúc nào cũng thuyết phục. Tuy nhiên, giờ đây, các công cụ trí tuệ nhân tạo đã giúp quá trình này trở nên dễ dàng đến mức những kẻ lừa đảo chỉ cần một đoạn clip nhỏ về một người đang nói, thường được thu thập từ tài khoản mạng xã hội, để tạo lại giọng nói của họ một cách chính xác.
Một ví dụ về công nghệ này là công cụ Vall-E của Microsoft mà công ty đã công bố vào tháng Giêng. Dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 10 năm 2022, công nghệ này hoạt động bằng cách phân tích giọng nói của một người, chia nhỏ thông tin thành các thành phần và sử dụng quá trình đào tạo để tổng hợp âm thanh của giọng nói nếu họ nói các cụm từ khác nhau. Ngay cả sau khi chỉ nghe một đoạn mẫu dài ba giây, Vall-E có thể tái tạo âm sắc và giai điệu cảm xúc của người nói. Kiểm tra xem nó thuyết phục đến mức nào trên trang GitHub này .
ElevenLabs, nơi cung cấp một công cụ giọng nói AI tổng quát, gần đây đã tweet rằng họ đang nhận thấy 'ngày càng có nhiều trường hợp lạm dụng nhân bản giọng nói.' Nó dẫn đến việc loại bỏ khả năng nhân bản giọng nói khỏi phiên bản miễn phí của chương trình VoiceLab.