Microsoft đã tạo ra hệ thống dịch tự động từ tiếng Trung sang tiếng Anh chính xác như con người

Một đội ngũ chuyên gia nghiên cứu của Microsoft đã tạo ra được hệ thống dịch tự động đầu tiên có thể dịch báo từ tiếng Trung sang tiếng Anh với chất lượng và độ chính xác như con người.

Xuedong Huang, nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch tự động của Microsoft. (Ảnh: Scott Eklund/Red Box Pictures)

Những nhà nghiên cứu tại phòng nghiên cứu ở Mỹ và Châu Á cho biết hệ thống của họ đã đạt được sự tương đồng với con người khi thực hiện chương trình kiểm tra các bài báo có tên gọi newstest2017, được phát triển bởi một nhóm đối tác công nghệ và giáo dục, ra mắt tại hội nghị nghiên cứu WMT17 vào mùa thu năm ngoái. Để đảm bảo kết quả chính xác và tương đương với những gì con người làm được, nhóm đã tuyển vào hai chuyên viên đánh giá song ngữ nhằm so sánh kết quả của Microsoft với phần dịch thuật của hai người dịch độc lập.

Xuedong Huang, nhà nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch thuật tự động của Microsoft, gọi đây là một cột mốc quan trọng của một trong những quy trình xử lý ngôn ngữ tự nhiên phức tạp nhất.

“Đạt được sự tương đồng với con người trong việc dịch tự động là ước mơ của tất cả chúng tôi”, Huang cho hay. “Chúng tôi chỉ không nhận ra rằng mình có thể thành công sớm như vậy”.

Huang cũng là người dẫn đầu nhóm nghiên cứu gần đây đạt được hiệu quả nhận diện giọng nói hội thoại tương đồng như con người. Ông chia sẻ rằng cột mốc dịch thuật này đặc biệt đáng ghi nhớ vì khả năng giúp con người hiểu nhau tốt hơn.

“Giúp xóa bỏ rào cản ngôn ngữ mang con người đến gần hơn với nhau là điều rất tuyệt,” ông nói. “Tôi tự hào về điều đó”.

Dịch tự động là một vấn đề mà các nhà chuyên gia đã nghiên cứu hàng thập kỷ, và hầu hết thời gian đó, nhiều người tin việc tương đương với con người là không bao giờ đạt được. Tuy nhiên, đạt được cột mốc này không có nghĩa là những thách thức của việc dịch tự động đã được giải quyết.

Ming Zhou, phó giám đốc Khối Nghiên cứu Microsoft Châu Á và trưởng bộ phận xử lý ngôn ngữ tự nhiên cùng làm việc trong dự án, nói rằng nhóm rất vui mừng khi đạt được cột mốc tương đồng con người trên bộ dữ liệu. Nhưng ông cho rằng vẫn còn nhiều khó khăn phía trước, như thử nghiệm hệ thống trên các tin tức thời gian thực.

Arul Menezes, Giám đốc quản lý đối tác nghiên cứu của nhóm dịch tự động của Microsoft chia sẻ rằng nhóm đã bắt đầu chứng minh hệ thống của họ có thể làm việc tốt được như con người khi xử lý song song hai ngôn ngữ Trung Quốc – Tiếng Anh - có rất nhiều dữ liệu cần xử lý và kiểm tra, bao gồm từ vựng thông thường trong các tin tức phổ biến.

Arul Menezes, Giám đốc quản lý đối tác nghiên cứu của nhóm dịch tự động của Microsoft. (Ảnh: Dan DeLong)

“Trong trường hợp tốt nhất, khi lượng dữ liệu và công nghệ cho phép, chúng tôi muốn thử xem mình có thể đạt được đến trình độ dịch thuật chuyên nghiệp hay không“, ông Menezes, người giúp quản lý dự án nói.

Menezes cho biết nhóm nghiên cứu có thể áp dụng những phát minh kỹ thuật mà họ đã làm được trong dự án này cho các sản phẩm thương mại về dịch thuật đa ngôn ngữ của Microsoft. Đây sẽ là khởi đầu cho các dịch thuật chính xác và tự nhiên hơn giữa các ngôn ngữ và những đoạn văn có các từ vựng phức tạp và chuyên biệt hơn.

Học kép, hệ thống cân nhắc, đào tạo chung và quy tắc hóa thỏa thuận

Mặc dù các chuyên gia công nghệ và giáo dục đã nghiên cứu dịch thuật nhiều năm, chỉ mới gần đây, khi áp dụng phương thức đào tạo hệ thống AI mới, gọi là hệ thống thần kinh chuyên sâu (deep neural networks), họ mới đạt được cột mốc quan trọng này. Phương thức này giúp họ tạo nên những dịch thuật trôi chảy, tự nhiên hơn, bao gồm ngoại cảnh rộng hơn phương pháp dịch tự động trước đây.

Để đạt được sự tương đồng trên bộ dữ liệu này, ba nhóm nghiên cứu của Microsoft Bắc Kinh, Redmond, Washington đã làm việc cùng nhau, bổ sung các phương pháp đào tạo mới giúp hệ thống dịch thuật trôi chảy và chính xác hơn. Trong nhiều trường hợp, những phương pháp mới bắt chước cách con người học việc bằng cách lặp đi lặp lại, thực hiện nhiều lần đến khi làm được.

“Hầu hết các nghiên cứu được truyền cảm hứng từ cách con người làm việc”, Tie-Yan Liu, trưởng phòng nghiên cứu chính của nhóm Nghiên cứu Châu Á Microsoft ở Bắc Kinh, người dẫn đầu nhóm dự án dịch thuật tự động chia sẻ.

Một phương pháp mà họ sử dụng là học kép. Đây là cách kiểm tra thực tế kết quả làm việc của hệ thống: Mỗi lần họ gửi một câu qua hệ thống để được dịch từ tiếng Trung sang tiếng Anh, nhóm nghiên cứu cũng dịch ngược lại từ tiếng Anh sang tiếng Trung. Việc này tương tự với những gì người ta hay làm để đảm bảo độ chính xác của việc dịch thuật tự động, đồng thời cho phép hệ thống tái xác định và học hỏi từ lỗi sai. Học kép được phát triển bởi nhóm nghiên cứu của Microsoft cũng được áp dụng để cải thiện kết quả của các công việc AI khác.

Một phương pháp khác được gọi là hệ thống cân nhắc (deliberation networks), tương tự với cách con người hiệu chỉnh và sửa phần viết của mình bằng cách đọc đi đọc lại nhiều lần. Những nhà nghiên cứu dạy cho hệ thống lặp lại quy trình dịch cùng một câu nhiều lần, từ đó dần hiệu chỉnh và cải thiện dịch thuật.

Những nhà nghiên cứu cũng phát triển hai kỹ thuật mới để cải thiện độ chính xác của việc dịch thuật, Zhou nói.

Một kỹ thuật gọi là đào tạo kết hợp, được sử dụng để liên tục thức đẩy các hệ thống dịch tiếng Anh sang Trung và ngược lại. Với phương pháp này, hệ thống dịch Anh – Trung thực hiện dịch câu tiếng Anh sang Trung để có được một cặp câu. Sau đó chúng được bổ sung vào bộ dữ liệu đào tạo, dịch ngược lại từ tiếng Trung sang Anh. Quy trình giống y sau đó được áp dụng, khi đó, kết quả dịch của hai hệ thống cải thiện hơn.

Một kỹ thuật khác gọi là quy tắc hóa thỏa thuận. Với phương pháp này, dịch thuật được thực hiện từ trái sang phải và phải sang trái. Nếu kết quả giống nhau, độ chính xác được đánh giá cao hơn khi có sự khác biệt trong hai kết quả. Phương pháp này dùng để khuyến khích hệ thống đưa ra các mẫu dịch tương đồng hơn.

Zhou kỳ vọng những phương pháp và kỹ thuật này sẽ thực sự hữu ích trong việc cải thiện dịch thuật tự động đối với nhiều ngôn ngữ và tình huống khác nhau, hoặc hơn thế nữa, áp dụng vào các ứng dụng AI khác ngoài dịch thuật.

Không có câu trả lời “đúng”

Bộ tài liệu kiểm tra mà nhóm đã dùng để đạt được mốc tương đương với con người này gồm khoảng 2,000 câu đến từ các báo mạng đã được dịch chuyên nghiệp. Microsoft đã thực hiện nhiều vòng đánh giá trên bộ kiểm tra này, ngẫu nhiên chọn hàng trăm đoạn dịch để đánh giá mỗi lần. Mặc dù đã vượt các yêu cầu của bộ kiểm tra, để xác minh chất lượng thực sự của bộ máy dịch thuật tự động, Microsoft còn thuê một nhóm các chuyên gia ngôn ngữ từ bên ngoài để so sánh kết quả của Microsoft với nội dung dịch thủ công bởi con người.

Phương pháp xác nhận kết quả phần nào cho thấy sự phức tạp của việc dạy cho hệ thống dịch thuật chính xác. Với các nhiệm vụ như nhận diện giọng nói, khá dễ dàng để có thể đánh giá hệ thống có làm tốt như người không, bởi vì kết quả lý tưởng sẽ là sự giống nhau giữa người và máy. Các nhà nghiên cứu gọi đây là việc nhận diện khuôn mẫu (pattern recognition task).

Dịch thuật có phần khác hơn. Thậm chí hai người dịch trôi chảy có thể dịch một câu theo cách khác nhau, và không câu nào sai. Đó là bởi vì có nhiều hơn một cách đúng để nói về cùng một thứ.

“Dịch tự động phức tạp hơn nhiều so với nhận diện một khuôn mẫu đơn thuần,” Zhou nói. “Con người có thể dùng nhiều từ khác nhau để diễn tả cùng một ý, nhưng không phải lúc nào bạn cũng có thể chỉ ra cái nào tốt hơn”.

Những nhà nghiên cứu cho rằng sự phức tạp này làm cho dịch tự động là một vấn đề đầy thách thức, nhưng cũng rất đáng tự hào nếu có thể vượt qua được vấn đề đó.

Liu nói không ai biết được hệ thống dịch tự động sẽ có thể làm tốt việc dịch bất cứ từ ngữ của bất kỳ ngôn ngữ nào chính xác và cường điệu được như con người dịch hay không. Nhưng những phát minh gần đây cho thấy các nhóm có thể tiếp tục thực hiện các bước tiến xa hơn để đạt được mục tiêu đó và các thành tựu AI khác, như đạt được sự tương đồng với con người trong dịch đuổi.

“Một điều duy nhất chúng tôi có thể khẳng định đó chính là việc chúng tôi sẽ ngày càng làm tốt hơn,” Liu chia sẻ.

BinhDa (Tuấn Hà) - Nguồn: TCBC Microsoft

Cập nhật ngày:
22-03-2018, 17:27

TIN LIÊN QUAN

Hồ sơ SEC cho thấy Microsoft dường như đã buông bỏ mảng di động

Sau nhiều nỗ lực vực lại mảng điện thoại, Microsoft dường như đã lên tiếng đầu hàng. Họ không còn khao khát xâm nhập lại thị trường điện thoại thông minh và bây giờ sẽ tập trung vào AI.

Châu Á sẽ là khu vực chủ lực để phát triển AI toàn cầu

Phải mất gần bảy thập kỷ, con người mới đạt được những thành tựu về AI như ngày nay. Tuy nhiên, trong những năm qua, sự hội tụ của dữ liệu lớn (big data), điện toán đám mây (clould computing), cùng với những đột phá trong thuật toán phần mềm

Microsoft ra mắt Project xCloud: Dịch vụ streaming cho phép người dùng trải nghiệm game từ nhiều nền tảng

xCloud chính là giải pháp Microsoft tạo ra dành cho những ai đam mê game hạng nặng mà khôgn sỡ hữu các cỗ máy Xbox hay PC mạnh. Bạn chỉ cần kết nối với dịch vụ của Microsft và có một đường truyền đủ mạng là có thể chiến các siêu phẩm như Halo

Microsoft vẫn đang cặm cụi nghiên cứu cover E-Ink cho Lumia 640

Có vẻ như Microsoft Research vẫn tiếp tục thực hiện ý tưởng này. Bằng chứng là họ vừa trình bày dự án này tại UbiComp 2018, một hội nghị về pervasive và ubiquitous computing (điện toán mọi lúc mọi nơi) đang được tổ chức tại Singapore.

Microsoft nghiên cứu tay cầm chơi game dành cho smartphone và tablet

Hình ảnh và các tài liệu của của dự án này đã được Windows Central đăng tải. Được biết, nguyên bản của thiết bị này được chế tạo bằng phương pháp in 3D với hai bộ phận chính. Trong đó, phần tay cầm chơi game được chia làm hai dùng để gắn vào hai

Apple Watch ghi nhận thông tin người dùng cho mục đích nghiên cứu

Người dùng Apple Watch sẽ được hỏi liệu họ có muốn thiết bị này thu thập các thông tin về sức khoẻ để giúp hãng thực hiện một công trình nghiên cứu về tim mạch cùng với trường đại học Standford.

Tần suất của các cuộc tấn công mạng trên “đám mây” gia tăng

Báo cáo An ninh mạng phiên bản 22 của Microsoft vừa được công bố chỉ ra rằng, do các tổ chức dịch chuyển lên công nghệ điện toán đám mây ngày càng nhiều khiến tần suất và độ phức tạp của các cuộc tấn công mạng nhắm tới “đám mây” cũng gia tăng.

Microsoft Edge sắp được hỗ trợ dịch trang web

Bên cạnh đó, nếu đang sử dụng Bing Rewards with the Edge (phần thưởng khi sử dụng công cụ tìm kiếm Bing với Microsoft Edge), sự cố đôi khi trình duyệt ngăn người dùng nhận phần thưởng (cho việc sử dụng công cụ tìm kiếm mặc định) cũng sẽ được khắc

THỦ THUẬT HAY

Thủ thuật

Những dấu hiệu nhận biết laptop lỗi card màn hình và cách khắc phục

Khi laptop lỗi card màn hình sẽ làm ảnh hưởng rất lớn đến chất lượng hình ảnh. Nếu không được khắc phục sớm sẽ làm hư màn hình, bài viết sau sẽ giúp bạn nhận biết va sửa lỗi card màn hình laptop.

Thủ thuật

Hướng dẫn vô hiệu hóa chữ “đã xem” trên tin nhắn Facebook và WhatsApp

Có nhiều cách để bạn đọc tin nhắn mà người gửi không hề biết rằng tin nhắn đã được đọc trên Facebook và WhatsApp. Bằng cách đó bạn có thể giả vờ mình chưa nhìn thấy tin nhắn và tránh bất kỳ lời giải thích không cần

Thủ thuật

Cách tải ảnh từ iCloud về máy tính không cần iPhone, iPad

iCloud là kho lưu trữ dữ liệu 'trên mây' rất tiện dụng dành cho người dùng iPhone, iPad. Thủ thuật sau đây của chúng tôi giúp bạn tải hình ảnh video trên iCloud về máy tính mà không cần thông qua iPhone.

Tiện ích Internet

Cách tạo ảnh theo phong cách cổ trang đang rất Hot hiện nay

Nếu bạn đang muốn đổi một avatar mới thật độc đáo để khoe với bạn bè, thì hôm nay, mình xin hướng dẫn mọi người các để tạo ảnh theo phong cách cổ...

Thủ thuật

Kết nối điện thoại Android với Windows 10 với Continue on PC

Smartphone ngày nay có rất nhiều tính năng mới và được ví như chiếc máy tính thu nhỏ, tuy nhiên, không phải tất cả mọi thứ đều thực hiện được trên thiết bị này. Microsoft thấu hiểu điều này nên với bản Fall Creators

ĐÁNH GIÁ NHANH

Điện thoại / Đánh giá

[Video] Tổng quan các chức năng phần mềm của LG V30

LG mô tả khá kĩ về cách mà họ làm cho bạn cảm thấy thoải mái và thân thiện, ví dụ như hiệu ứng chuyển nhẹ nhàng từ màn hình khóa vào trong homescreen, cũng như cách mà Floating Bar mới có thể thay cho màn hình phụ của

Công nghệ / Điện thoại / Đánh giá

Trên tay Vivo Y33s – Smartphone hơn 5 triệu, camera 50MP

Vivo Y33s là bản kế nhiệm của Vivo Y31 2021 được nâng cấp và cải tiến rất nhiều. Camera, vi xử lý, tuổi thọ pin và đặc biệt giá bán chỉ dưới 6 triệu đồng. Bài viết trên tay vivo Y33s dưới đây sẽ giúp bạn hiểu rõ hơn về

Điện thoại / Đánh giá

Hiệu năng và thời lượng pin Huawei P20 có thể đáp ứng được nhu cầu người dùng?

Huawei là hãng điện thoại thứ ba bên cạnh Samsung và Apple sử dụng con chip do chính mình sản xuất trên hầu hết các sản phẩm điện thoại. Tất nhiên việc hãng có thể tự sản xuất chip luôn mang lại rất nhiều lợi ích, đặc