Google Translate chỉ có thể dịch được 100 ngôn ngữ nhưng cỗ máy mới này có thể dịch được hàng nghìn loại

“Máy dịch” là dịch thuật tự động trên máy tính, không có sự tham gia của con người, phân biệt với “người dịch”. Hiện nay, các công cụ dịch trực tuyến mới chỉ hoạt động với dưới 100 trong số gần 7.000 ngôn ngữ trên thế giới. Một kỹ thuật mới có thể thay đổi điều đó.

Ước tính hiện có 6.900 ngôn ngữ khác nhau mà con người đang sử dụng. Hơn một nửa dân số toàn cầu giao tiếp bằng cách dùng các ngôn ngữ phổ biến như tiếng Trung, tiếng Anh, tiếng Hindi, tiếng Tây Ban Nha và tiếng Nga. Thực tế, 95% dân số thế giới chỉ sử dụng 100 ngôn ngữ để giao tiếp.

 

Các nhà ngôn ngữ học ước tính rằng khoảng một phần ba số ngôn ngữ trên thế giới chỉ có dưới 1.000 người nói. Những ngôn ngữ này có thể biến mất trong vòng 100 năm tới, mang đi theo di sản văn hoá độc đáo mà chúng chứa đựng: những thành ngữ, những câu truyện cười, những phương thuốc thảo dược và thậm chí là những cảm xúc độc đáo.

 

Liệu máy học (machine learning) có thể giúp bảo tồn những ngôn ngữ này hay không? Vấn đề là quá trình máy dịch dựa vào các bộ dữ liệu rất lớn đã được chú thích. Lượng dữ liệu này bao gồm nhiều sách, bài báo và trang web đã được dịch sang các ngôn ngữ khác theo cách thủ công. Tập dữ liệu càng lớn, máy dịch càng tốt.

 

 

Google Translate chỉ có thể dịch được 100 ngôn ngữ nhưng cỗ máy mới này có thể dịch được hàng nghìn loại

 

Nhưng những bộ dữ liệu khổng lồ này không tồn tại đối với hầu hết các ngôn ngữ. Đó là lý do tại sao máy dịch chỉ hoạt động với một phần rất nhỏ trong số những ngoại ngữ phổ biến nhất. Ví dụ, Google Translate, chỉ làm việc được với khoảng 90 ngôn ngữ. Vì vậy một thách thức quan trọng đối với các nhà ngôn ngữ học là tìm ra cách phân tích tự động các ngôn ngữ ít phổ biến để hiểu rõ hơn về chúng.

 

Mới đây, Ehsaneddin Asgari và Hinrich Schutze tại Đại học Ludwig-Maximilian ở Munich (Đức) nói rằng họ đã làm được điều đó.

 

Cách tiếp cận của họ tập trung vào các yếu tố quan trọng của hầu hết ngôn ngữ, từ đó tạo ra một bước đệm cho máy dịch.

 

Kỹ thuật mới này dựa trên một văn bản duy nhất đã được dịch sang ít nhất 2.000 ngôn ngữ khác nhau. Đó chính là Kinh thánh. Họ đã tạo ra một cơ sở dữ liệu được gọi là Parallel Bible Corpus, bao gồm bản dịch Tân Ước của 1.169 ngôn ngữ. Bộ dữ liệu này không đủ lớn cho máy dịch như của Google hay một số nền tảng khác. Do đó, Asgari và Schutze đã đưa ra một cách tiếp cận khác dựa trên cách thức thời gian xuất hiện (tense - thì/thời) trong các ngôn ngữ khác nhau.

 

Hầu hết các ngôn ngữ sử dụng những từ, cụm từ cụ thể để thể hiện các thì. Vì vậy, thủ thuật mới là xác định thủ công các tín hiệu này bằng nhiều ngôn ngữ và sau đó sử dụng kỹ thuật khai thác dữ liệu (data-mining) vào các bản dịch khác nhằm tìm kiếm từ hay chuỗi ký tự đóng vai trò tương đương.

 

Ý tưởng ban đầu của Asgari và Schutze là tìm tất cả những từ này trong bản dịch tiếng Anh của Kinh Thánh. Nhưng có một chút thay đổi, Asgari và Schutze không bắt đầu bằng tiếng Anh. Bởi vì đó là một ngôn ngữ tương đối cũ với nhiều trường hợp ngoại lệ, làm cho việc “học” trở nên khó khăn.

 

Thay vào đó, họ bắt đầu bằng một bộ ngôn ngữ Creole, vốn được phát triển từ nhiều ngôn ngữ khác nhau. Ngôn ngữ Creole trẻ hơn, ít bị tác động của lịch sử hơn. Mặt khác nó chứa các dấu hiệu tốt hơn về chức năng của từ ngữ (cụ thể ở đây là thì).

 

Kỹ thuật này cho phép các nhà nghiên cứu tạo ra các bản đồ cho thấy các ngôn ngữ sử dụng cấu trúc thì tương tự nhau có liên quan đến nhau như thế nào (xem sơ đồ dưới).

 

 

 

Đó là công việc thú vị. Asgari và Schutze đã phát triển một phương pháp tính toán để phân tích cách con người sử dụng thì quá khứ, hiện tại và tương lai trong hơn 1.000 ngôn ngữ.

 

Đột phá này có ứng dụng quan trọng. Bản đồ về thì của ngôn ngữ cho phép các nhà nghiên cứu nhanh chóng tìm ra mối quan hệ giữa các ngôn ngữ và cách chúng được kết nối. Điều đó có thể được sử dụng để hiểu rõ hơn về sự tiến hóa của ngôn ngữ.

 

Ngôn ngữ học tính toán đã có tác động sâu sắc đến sự hiểu biết của chúng ta về ngôn ngữ, sự khác biệt của các ngôn ngữ trên thế giới và cách để máy móc có thể hiểu chúng. Lĩnh vực mới nổi này có thể giúp tự động dịch nhiều ngôn ngữ trực tiếp sang các ngôn ngữ khác dưới dạng văn bản hoặc giọng nói.

 

Theo GenK

TIN LIÊN QUAN

Hơn 200 triệu dùng Google Translate mỗi ngày

Tiết lộ tại Google I/O 2013, kĩ sư phụ trách Google Translate cho biết, dịch vụ phiên dịch trực tuyến của hãng hiện đang có hơn 200 triệu người dùng với hơn 1 tỉ lượt dịch mỗi ngày.

Công nghệ dịch thông minh của Google bổ sung thêm ngôn ngữ

Nhờ tính năng tính hợp sẵn của Chorme, những người không thành thạo về tiếng Anh sẽ đọc được bất kỳ trang web nào. Theo Google, Chrome đã dịch hơn 150 triệu trang web chỉ bằng 1 click đó quả thực là một thành công không nhỏ.

Xerox ra mắt tính năng Easy Translator scan văn bản gốc và in ra ngôn ngữ khác trực tiếp trên máy in

Nhà sản xuất máy in Xerox đã vừa giới thiệu một dịch vụ dịch thuật văn bản có tên Xerox Easy Translator cho phép bạn scan một văn bản ở ngôn ngữ này và in ra ở một ngôn ngữ khác....

Du lịch nước ngoài sẽ đỡ bối rối hơn với tính năng mới này của Google Translate

Với tính năng mới này của Google dịch thì việc đi du lịch đến nhiều quốc gia với những ngôn ngữ khác nhau sẽ dễ dàng hơn rất nhiều

Chia sẻ công cụ hỗ trợ trích xuất văn bản từ hình ảnh và dịch thuật với hơn 50 ngôn ngữ khác nhau

Như các bạn đã biết, để trích xuất nội dung văn bản trong những file ảnh chúng ta thường phải sử dụng khá nhiều thao tác phức tạp như tìm kiếm ứng dụng hỗ trợ, chuyển đổi định dạng tệp tin...

[Tips] Kinh nghiệm mua máy phiên dịch Atalk VN Chính Hãng

Bạn đang tìm kiếm một chiếc máy phiên dịch cầm tay giúp bạn xóa tan rào cản ngôn ngữ và giao tiếp với mọi người trên thế giới một cách dễ dàng? Tuy nhiên, bạn không biết đâu là chiếc máy thông dịch phù hợp với nhu cầu của bản thân hoặc không có kinh

Lý giải tiếng kêu khi bẻ khớp đốt ngón tay

Bẻ khớp đốt ngón tay làm phát ra âm thanh do sự hình thành nhanh chóng của một khoang rỗng hay bong bóng khí trong lòng chất lỏng lấp đầy không gian giữa các khớp xương.

[Ứng dụng cuối tuần] Làm thế nào để dịch nhanh mọi nội dung trên điện thoại Android

BizLIVE - Mặc dù các ứng dụng dịch trên smartphone hiện nay đã khá thông minh nhưng khi sử dụng, nhiều ứng dụng vẫn chưa thật sự nhanh và tiện. ...

THỦ THUẬT HAY

Cách chia sẻ máy in giữa Windows, Mac và Linux trong cùng một mạng

Giả sử bạn có một hệ thống bao gồm đầy đủ các hệ điều hành như Windows, Mac và Linux, vậy làm thế nào để bạn có thể chia sẻ máy in giữa Windows, Mac và Linux giữa chúng trong cùng một mạng. Bài viết dưới đây sẽ mật bí

Hơn 100 bài tập Python có lời giải(code mẫu )

Hơn 100 bài tập Python kèm code mẫu được anh chàng zhiwehu chia sẻ trên Github, tuy nhiên, lời giải của loạt bài tập này được viết trên phiên bản Python đã cũ. Sau đây Quản Trị Mạng sẽ Việt hóa và chỉnh sửa để phù hợp

Cách làm bánh bông lan bằng nồi cơm điện

Ngoài nấu cơm, bạn có thể dùng nồi cơm điện để nấu món bánh bông lan thơm ngon tại nha rất dễ dàng.

Cách gõ biểu tượng Apple đơn giản mà không cần cài thêm các công cụ của bên thứ 3

Mặc định Apple chỉ hỗ trợ người dùng gõ biểu tượng 'trái táo cắn dở' trên máy tính Mac bằng tổ hợp phím, tuy nhiên người dùng hoàn toàn có thể gõ biểu tượng trên những thiết bị khác như iPhone hay iPad bằng mẹo vặt đơn

Cách soạn thảo bằng giọng nói với ứng dụng Speechnotes

Với ứng dụng Speechnotes – Speech To Text, bạn có thể soạn thảo như một phần mềm soạn thảo văn bản thông thường hoặc đặc biệt hơn là nhập văn bản bằng giọng nói với hơn 100 ngôn ngữ, trong đó có tiếng Việt.

ĐÁNH GIÁ NHANH

Trên tay Vivo V9: giao diện tận dụng toàn bộ màn hình, SnapDragon 626, camera kép

Vivo V9 là chiếc điện thoại hiếm hoi sử dụng tai thỏ nhưng phần viền dưới không dày, nó khá mỏng và hài hòa với thiết kế tổng thể của máy. Nhìn chung thì ở mức giá 7.99 triệu đồng cùng với SnapDragon 626 thì V9 vẫn có

Đánh giá nhanh Samsung DeX Pad: Có sáng tạo, có thay đổi nhưng vẫn chưa đủ

Cùng với Galaxy S9/ S9+ Samsung cũng giới thiệu chiếc DeX thế hệ mới để kết nối điện thoại với màn hình lớn phục vụ công việc, lần này Samsung đã thay đổi hoàn toàn thiết kế của DeX cũ.

Đánh giá thông số kỹ thuật Honda Winner 150 và Yamaha Exciter 150

Chiếc xe underbone côn tay của Honda cũng chính thức ra mắt. Honda Winner 150 được cho là sẽ cạnh tranh với Yamaha Exciter 150 hay Suzuki Raider 150 ở phân khúc này. Đây đều là những chiếc xe 150 phân khối mạnh mẽ,