1. WebCopy (Windows)
WebCopy của Cyotek lấy một URL trang web và quét các liên kết, các trang và phương tiện truyền thông. Khi tìm trang, nó sẽ tìm các liên kết, các trang và phương tiện truyền thông cho đến khi toàn bộ trang web được phát hiện. Sau đó, bạn có thể sử dụng các tùy chọn cấu hình để quyết định tải phần nào.
2. HTTrack (Windows, Linux, Android)
HTTrack “nổi tiếng” hơn WebCopy và được cho là tốt hơn vì nó là mã nguồn mở và có sẵn trên các nền tảng khác ngoài Windows, nhưng giao diện có một chút phức tạp. Tuy nhiên, nó hoạt động tốt vì vậy đừng để điều đó khiến bạn bỏ qua ứng dụng này.
3. SiteSucker (Mac, iOS)
Nếu bạn đang sử dụng máy Mac, tùy chọn tốt nhất cho bạn là SiteSucker. Công cụ đơn giản này trích xuất toàn bộ trang web và duy trì cùng cấu trúc tổng thể và bao gồm tất cả các tệp phương tiện liên quan (ví dụ như hình ảnh, tệp PDF, trang tính). Nó có một giao diện sạch sẽ và dễ sử dụng, bạn chỉ cần dán URL trang web và nhấn Enter.Một tính năng tiện lợi của ứng dụng này là khả năng lưu những gì tải xuống vào một tệp, sau đó sử dụng tệp đó để tải xuống cùng một tệp và cấu trúc tương tự sau đó (hoặc trên máy khác). Tính năng này cho phép SiteSucker tạm dừng tải trang và tiếp tục sau đó. SiteSucker có giá là 5 đô la và không có phiên bản miễn phí hoặc bản dùng thử, có thể đây là nhược điểm lớn nhất của nó. Phiên bản mới nhất yêu cầu macOS 10.11 El Capitan hoặc mới hơn. Phiên bản cũ hơn của SiteSucker có sẵn cho các hệ thống Mac cũ, nhưng một số tính năng có thể bị thiếu.4. Wget (Windows, Mac, Linux)
Wget là một tiện ích dòng lệnh có thể lấy được tất cả các loại tệp qua các giao thức HTTP và FTP. Vì trang web được lưu trữ thông qua HTTP và hầu hết các tệp phương tiện web đều có thể truy cập qua HTTP hoặc FTP, điều này làm cho Wget trở thành công cụ tuyệt vời để trích xuất các trang web. Trong khi Wget thường được sử dụng để tải từng tệp một, nó có thể được sử dụng để tải tất cả các trang và tệp được tìm thấy qua trang ban đầu: wget -r -p //www.quantrimang.com Tuy nhiên, một số trang web có thể phát hiện và ngăn chặn những gì bạn đang cố gắng làm vì ripping một trang web có thể khiến họ mất rất nhiều băng thông. Để thực hiện, bạn có thể “ngụy trang” thành là một trình duyệt web với một chuỗi user agent: wget -r -p -U Mozilla //www.quantrimang.com Nếu muốn bạn cũng nên giới hạn tốc độ tải xuống (vì vậy bạn sẽ không chiếm băng thông của máy chủ) và tạm dừng giữa mỗi lần tải xuống (để bạn không gây quá tải máy chủ web với quá nhiều yêu cầu): wget -r -p -U Mozilla --wait=10 --limit-rate=35K //www.quantrimang.com Wget đi kèm với hầu hết các hệ thống dựa trên Unix. Trên máy Mac, bạn có thể cài đặt Wget sử dụng một lệnh Homebrew: brew install wget. Trên Windows, bạn sẽ cần phải sử dụng phiên bản được chuyển này để thay thế.Trang web càng lớn, lượng tải về càng nhiều, vì vậy không nên lưu các trang web quá lớn vì bạn cần hàng ngàn MB để lưu trữ tất cả các tệp phương tiện mà trang web đó sử dụng. Các trang web tốt nhất để tải xuống là những trang có nhiều văn bản và không nhiều hình ảnh và các trang web không thường xuyên thêm trang mới hoặc thay đổi. Vậy là bạn đã biết được bốn công cụ để có thể tải toàn bộ trang web đọc ngoại tuyến, hy vọng bài viết hữu ích và bạn có thể chia sẻ nó với bạn bè.
Nguồn: https://quantrimang.com/cach-tai-toan-bo-trang-web-de-doc-ngoai-tuyen-140098