Hệ thống phân tích dữ liệu được cải tiến với giao diện mở giúp tăng tính bảo mật, đánh dấu một công nghệ đột phá trong quy trình phân tích dữ liệu với mã hóa bảo mật hai điểm đầu cuối sử dụng công nghệ Phần mềm trên nền Silicon của Oracle.
Nhằm hỗ trợ các lập trình viên thiết kế những nền tảng phân tích 'Dữ liệu lớn' (Big Data) thế hệ kế tiếp, Oracle vừa ra mắt một giao diện lập trình ứng dụng API mở cùng bộ lập trình chuyên dụng cho hệ thống Tăng tốc Phân tích Dữ liệu (DAX – Data Analytics Accelerator) qua Chương trình Lập trình viên Phần mềm trên nền Silicon. Chương trình cũng đồng thời giúp các lập trình viên tìm hiểu nhiều hoàn cảnh sử dụng và mẫu code tiêu biểu, từ đó kiểm nghiệm và xác nhận khả năng của hệ thống DAX trong việc tăng tốc các phần mềm phân tích khi sử dụng công nghệ Phần mềm trên nền Silicon.
Ông John Fowler, Phó giám đốc điều hành Mảng Hệ thống, Oracle cho biết: “Hệ thống phân tích dữ liệu năng suất cao là nhân tố thiết yếu trong các quá trình hoạt động quan trọng, như thu thập dữ liệu lượng truy cập, đánh giá mạng xã hội hay hành vi mua hàng,… Qua chương trình Lập trình viên Phần mềm trên nền Silicon, các nhà lập trình giờ đã có thể ứng dụng công nghệ DAX của chúng tôi để giải quyết những khó khăn tưởng chừng như không thể giải quyết từ trước trong mọi lĩnh vực phân tích dữ liệu, bởi chúng tôi đã tích hợp hệ thống tăng tốc phân tích dữ liệu vào các vi xử lý, giúp tốc độ quét dữ liệu nhanh tới 170 tỷ dòng trên giây”.
Ông John Fowler, Phó Giám đốc điều hành mảng Hệ thống tại Oracle.
Cùng việc phát hành vi xử lý SPARC M7 với 32 lõi và 256 nhân, Oracle đã thành công tạo một số tính năng Phần mềm trên nền Silicon bằng việc tích hợp những chức năng phần mềm cấp độ cao vào thiết kế vi xử lý. Một trong những khả năng mới vượt trội của vi xử lý SPARC M7, cũng là một trong những cải tiến Phần mềm trên nền Silicon trong SPARC M7, là công nghệ DAX – giúp phần tích dữ liệu không thường gặp một cách hiệu quả.
Hệ thống tăng tốc phân tích dữ liệu trên SPARC M7
Hệ thống DAX tăng khả năng xử lý của các chức năng tùy chọn – như Quét, Xuất, Chọn và Dịch dữ liệu – với tốc độ rất nhanh. Hệ thống DAX của SPARC M7 giúp tăng tốc những quá trình phân tích bước đầu này tại một thiết bị riêng biệt với các lõi điện toán tiêu chuẩn.
Nâng cấp phần mềm cơ bản giúp DAX tương thích với Cơ sở dữ liệu Orace 12c, và mọi ứng dụng thế hệ trước. Từ đó, hệ thống tăng tốc phân tích dữ liệu được cải tiến trong toàn bộ ứng dụng của Orace, của mô hình cộng đồng cung cấp phần mềm độc lập ISV và của riêng khách hàng.
Quy trình quét và chọn lọc dữ liệu ở số lượng lớn sẽ không còn khó khăn bởi khả năng sử dụng đồng thời 32 lõi xử lý chuyên dụng trong bộ vi xử lý SPARC, giúp tốc độ hoạt động tuyến bộ nhớ lên tới 160 GB/s giữa bộ nhớ cache và bộ nhớ DRAM. Hệ thống tăng tốc này lần đầu tiên được tích hợp ngay trên chip giúp đạt tốc độ và hiệu suất cao nhất, cho phép các lập trình viên tận dụng các giao diện lập trình ứng dụng API trong hệ thống điều hành doanh nghiệp Oracle Solaris 11, và ứng dụng phù hợp trong nhiều hoàn cảnh sử dụng khác nhau.
Như một ví dụ tiêu biểu của việc tích hợp hệ thống Tăng tốc Phân tích Dữ liệu vào quá trình học máy và sử dụng Dữ liệu Lớn, các kỹ sư của Oracle đã chứng minh được rằng hệ thống DAX có thể cải thiện đáng kể tốc độ của các khuôn khổ xử lý dữ liệu Apache Spark, một trong những phương thức xử lý một khối lượng dữ liệu lớn phổ biến nhất hiện nay. Qua dự án này, các kỹ sư đã sử dụng công nghệ DAX cùng Apache Spark để lấy 1 tỷ dòng dữ liệu trong bộ nhớ và chắt lọc qua một khối 3D nhanh chóng đến mức việc phân tích dữ liệu tương tác nay cũng trở nên khả thi.
Oracle SPARC M7.
Thiết kế của SPARC M7 và DAX mang lại những lợi ích sau:
• Bộ nhớ băng thông hàng đầu: Với bộ nhớ băng thông hàng đầu tốc độ 16BG/s, bộ vi xử lý SPARC M7 có đủ khả năng điều hành cả các hệ thống DAX và các lõi vi xử lý.
• Giảm tải cho hệ thống DAX: Giải phóng các lõi vi xử lý để phục vụ các công đoạn xử lý khác.
• Giải nén kết hợp với xử lý trong bộ nhớ hiệu quả: Tích hợp quá trình giải nén vào hệ thống DAX giờ sẽ nhanh hơn rất nhiều so với việc triển khai phần mềm. Thiết kế quá trình giải nén cùng với quá trình quét dữ liệu giúp tránh các công đoạn chuyển bộ nhớ không cần thiết. Kết quả từ hệ thống DAX sẽ được nhập vào bộ nhớ CPU cache giúp tăng tính hiệu quả của CPU.
• So sánh trong phạm vi với DAX: Rất nhiều truy vấn phân tích dữ liệu thực tế đều được lập trình để xác định lượng dữ liệu chuyển giao giữa các ngày, hay phân loại giá sản phẩm cụ thể, v.v… Công nghệ DAX có thể so sánh trong phạm vi với tốc độ tương đương những so sánh riêng biệt. Các vi xử lý khác thường phải mất thêm một lượng thời gian tính toán cho mỗi lần so sánh.
• Tránh tình trạng đầy bộ nhớ cache: Hệ thống DAX tự thực hiện các công đoạn tính toán mà không cần lưu trữ dữ liệu trung gian vào bộ nhớ cache, giúp giải phóng bộ nhớ cache của CPU vào các công đoạn xử lý khác.
Hợp tác với Cộng đồng Lập trình viên và các Tổ chức Giáo dục Đại học hàng đầu Thế giới
Oracle luôn nỗ lực mang lại những cải tiến cho bộ vi xử lý truyền thống để cải thiện hiệu suất giải quyết khối lượng công việc với hơn 20 kết quả nhanh kỷ lục so với các đối thủ. Tuy nhiên, Phần mềm trên nền Silicon có khả năng mang lại những cải tiến thuật toán hàm số cần thiết trong những lĩnh vực như bảo mật và phân tích dữ liệu, bằng cách sử dụng những hàm này để giải quyết những thuật toán cụ thể trên vi xử lý với tốc độ và hiệu quả cao hơn.
Oracle cũng công bố một số mẫu code và quá trình tích hợp DAX với Apache Spark điển hình, giúp tối ưu hóa năng suất của lập trình viên, đồng thời đẩy nhanh tốc độ triển khai dự án dự án. Các tài liệu này có thể truy cập tại Điện toán đám mây Phần mềm trên nền Silicon của Oracle . Ngoài ra, Oracle hiện đang là đối tác của các tổ chức giáo dục đại học hàng đầu trong các dự án nghiên cứu về Phần mềm trên nền Silicon.
Ugur Centimenel, Chủ tịch ngành Khoa học Máy tính, Đại học Brown cho biết: “Hiện chúng tôi đang nghiên cứu hiệu suất hoạt động của DAX qua các dạng sắp xếp dữ liệu hiện đại trong bộ nhớ. Sau khi hoàn thành nghiên cứu này, chúng tôi sẽ tiếp tục tìm hiểu những tính năng của DAX trong việc tăng tốc quá trình khai thác và ảo hóa dữ liệu tương tác với hệ thống cơ sở dữ liệu trong bộ nhớ Tupleware và hệ thống xử lý trong thời gian thực S-Store. Với những nghiên cứu này, chúng tôi có thể xác định hiệu suất và khả năng mở rộng của M7 và DAX trong những công việc đòi hỏi tìm kiếm và học máy phức tạp với lượng dữ liệu lớn'.
Giao diện lập trình ứng dụng mở API dành cho Hệ thống Tăng tốc Phân tích Dữ liệu của Oracle hiện đã có trên Điện toán đám mây Phần mềm trên Silicon. Các lập trình viên có thể tham gia vào công đồng Lập trình viên Phần mềm trên Silicon của Oracle ngay bây giờ để khởi động quá trình phát triển ứng dụng Dữ liệu lớn và phân tích thế hệ tiếp theo.