
Bằng cách sử dụng 2 trí thông minh nhân tạo khác nhau, cái đầu tiên sẽ tập trung vào việc chuyển đổi chữ thành âm phổ (spectrogram - biểu đồ âm thanh), sau đó chuyển dữ liệu này cho cái thứ 2 (WaveNet) để tạo ra những âm thanh đến tai người nghe.
WaveNet được tạo ra ở phòng thứ nghiệm DeepMind của Google, nơi tạo ra 'kỳ thủ cờ vây' Alpha Go. Theo các công bố hiện tại thì Tacotron 2 có thể xử lý những từ rất khó phát âm, có thể phân tích để tìm ra trọng tâm cần nhấn trong câu, nhấn mạnh những gì viết hoa hay tự phân tích để tìm ra từ đúng với một số sai chính tả cơ bản.
Spectrogram tạo ra từ Tacotron 2
Hiện tại hệ thống Tacotron 2 mới tạo ra một giọng nữ duy nhất, nói tiếng Anh. Nhưng sau này thì chắc chắn Google sẽ tạo thêm các giọng nói khác nữa. Hiện tại Google đang sử dụng WaveNet để nói với Google Assistant, khi Tacotron 2 ra mắt thì chắc chắn nó sẽ được ứng dụng lên rất nhiều nền tảng khác nhau.
Tham khảo: Quartz, ảnh minh họa: venturebeat