Duy trì trang web của bạn liên quan đến việc có một chiến lược sao lưu chuyên dụng. Mặc dù sao lưu là điều cần thiết, nhưng chúng không phải là cách duy nhất để bảo vệ trang web của bạn. Tiện ích mở rộng tự nhiên để sao lưu là lưu trữ một trang web — mặc dù chúng là các quy trình bổ sung.
Có một số cách linh hoạt để lưu trữ một trang web. Tin vui là tất cả chúng đều thân thiện với người dùng và có thể truy cập được. Bạn chỉ cần chọn giải pháp phù hợp cho nhu cầu và yêu cầu của bạn.
Trong bài đăng này, chúng ta sẽ xem xét cách lưu trữ một trang web. Chúng tôi cũng sẽ khám phá các loại lưu trữ khác nhau mà bạn sẽ gặp, tổng hợp một số công cụ lưu trữ trang web nổi bật nhất và thảo luận một số mẹo để lưu trữ trang web của bạn.
Thích xem phiên bản video?
Giới thiệu về Lưu trữ Trang web
Lưu trữ một trang web có nghĩa là bảo quản nội dung, dữ liệu và phương tiện để tham khảo trong tương lai. Sử dụng một dịch vụ chuyên dụng như Wayback Machine (mặc dù chúng ta sẽ xem xét các giải pháp khác sau), bạn có thể xem các phiên bản cũ hơn của trang web.

Ở cấp độ kỹ thuật, trình thu thập thông tin chụp ảnh nhanh của một trang web, trang web này tạo nên chính kho lưu trữ. Bạn có thể truy cập nó bằng cách sử dụng một lịch đơn giản và xem từng lần lặp lại ở định dạng dòng thời gian nếu bạn muốn.

Về lý do tại sao các giải pháp như Wayback Machine lại tồn tại, chúng ta phải quay trở lại đầu những năm 2000. Bong bóng dot-com đã vỡ tan; nhiều doanh nghiệp đã đi xuống. Một số trang web phổ biến đã bị đóng cửa hoặc bị bỏ rơi, với rất ít ký ức để lại.
Giống như các định dạng truyền thông khác trước khi có internet, chẳng hạn như âm nhạc và truyền hình, các trang web này có giá trị lịch sử và hoài cổ. Để lưu chúng có nghĩa là cung cấp cho người dùng internet trong tương lai một cái nhìn thoáng qua về việc chúng ta sẽ tiến xa như thế nào so với công nghệ trước đây.
Internet Archive đã ra mắt Wayback Machine để giúp bảo quản các trang web. Nếu một trang web đã được lưu trữ trên đó, bạn có thể thấy một trang web đã phát triển như thế nào trong những năm qua.
Nhiều trình thu thập thông tin được yêu cầu để lưu trữ một trang web, bao gồm cả những lần thu thập dữ liệu riêng lẻ khổng lồ có thể mất nhiều năm để hoàn thành. Grunt cần thiết để thực hiện các cuộc “thám hiểm” thu thập thông tin và lưu trữ các ảnh chụp nhanh kết quả là rất lớn.
Ví dụ: máy chủ 100 Terabyte (TB) đầu tiên của Wayback Machine bắt đầu hoạt động vào năm 2004. Đến cuối năm 2020, Wayback Machine đã lưu trữ hơn 70 Petabyte (PB) dữ liệu. Đó là hơn 70.000 Terabyte.
Tuy nhiên, không phải ai cũng cảm thấy thoải mái với công việc mà Internet Archive đang làm. Đã có một số cuộc thảo luận và thách thức pháp lý dựa trên việc liệu một kho lưu trữ của một trang web có vi phạm các vấn đề bản quyền hiện có hay không.
Tuy nhiên, với sự tăng trưởng đáng kể về số lượng tài liệu lưu trữ được lưu trữ, có mong muốn rõ ràng là bảo tồn các trang web.
Tại sao bạn muốn lưu trữ một trang web
Có rất nhiều lý do để muốn lưu trữ một trang web, không chỉ đơn giản là vì lý do hoài cổ. Để có sự tương tự trong thế giới thực, hãy xem GitHub.

Github lưu trữ các kho lưu trữ của một dự án, cùng với mọi “cam kết” được thực hiện. Để so sánh điều này với lưu trữ trên internet, các kho lưu trữ đại diện cho toàn bộ kho lưu trữ và các cam kết là ảnh chụp nhanh.
Theo cách mà kho lưu trữ Git có giá trị, thì kho lưu trữ cũng vậy. Ví dụ: bạn có thể xem xét các lần lặp lại trước đây của trang web của mình — thậm chí từ nhiều năm trước — để tác động đến các lựa chọn thiết kế hiện tại của bạn.
Ngoài ra, bạn có thể có nghĩa vụ pháp lý phải lưu trữ trang web của mình, đặc biệt nếu bạn làm trong ngành tài chính hoặc pháp lý.
Cuối cùng, nếu bạn không may vướng vào các vụ kiện tụng xung quanh trang web của mình, thì tài liệu lưu trữ của bạn sẽ là bằng chứng có giá trị. Nếu bạn có thể trình bày các tài liệu lưu trữ trang web rõ ràng và đầy đủ, bạn có thể giải quyết tranh chấp ngay cả trước khi tòa án vào cuộc.
Sự khác biệt giữa sao lưu và lưu trữ
Trước khi chúng ta nói về các loại lưu trữ web khác nhau có sẵn, chúng ta nên quay lại chủ đề mà chúng ta đã đề cập trước đó. Trên giấy tờ, bản sao lưu trang web và kho lưu trữ trang web xuất hiện tương tự nhau. Tuy nhiên, chúng thực hiện các công việc khác nhau bổ sung cho nhau. Tóm lại:
- Sao lưu dựa trên dữ liệu. Họ quan tâm nhiều hơn đến việc bảo quản dữ liệu của trang web của bạn. Vì sao lưu là điều quan trọng nếu bạn cần khôi phục trang web của mình, việc sao lưu toàn bộ dữ liệu của bạn là điều tối quan trọng.
- Lưu trữ bảo tồn ngữ cảnh trên dữ liệu. Nếu bạn lướt qua kho lưu trữ của trang web yêu thích của mình, bạn sẽ nhận thấy rằng chức năng này thường bị chắp vá. Tuy nhiên, thiết kế và nội dung tĩnh của trang web thường còn nguyên vẹn.
Cần lưu ý rằng việc lưu trữ không có nghĩa là tránh hoàn toàn các nỗ lực bảo quản dữ liệu. Thật vậy, một trong những lợi ích là cho phép người dùng điều hướng trang web của bạn như thể nó đang hoạt động. Mặc dù vậy, do các trang web như Wayback Machine tồn tại dưới dạng “làn bộ nhớ” ảo, việc giữ nguyên hình ảnh sẽ được ưu tiên cao hơn so với việc duy trì chức năng phụ trợ.
Nói tóm lại, bạn sẽ muốn sử dụng cả bản sao lưu và lưu trữ cho trang web của mình — cái trước là biện pháp bảo vệ hàng ngày trong trường hợp xấu nhất xảy ra và cái sau là một cách bổ sung để giúp ghi lại sự phát triển của trang web của bạn.
Các loại lưu trữ web khác nhau mà bạn sẽ gặp phải
Lưu trữ web không chỉ có một hương vị. Bạn sẽ gặp một vài kiểu khác nhau. Dưới đây là bảng phân tích của từng loại:
- Phía khách hàng: Nó liên quan đến việc người dùng cuối lưu một phiên bản của trang web được đề cập. Nó đơn giản, có thể mở rộng và cho phép bạn lưu trữ một trang web mà không cần phiền phức.
- Phía máy chủ: Cách tiếp cận của Wayback Machine và các phương pháp khác được phân loại là lưu trữ phía máy chủ. Nó sử dụng trình thu thập thông tin và công nghệ khác để lưu trữ một trang web, nhưng nó cũng yêu cầu mức độ đồng ý không được tìm thấy trong lưu trữ phía máy khách.
- Dựa trên giao dịch: Mặc dù điều này vẫn dựa trên lưu trữ phía máy chủ, nhưng nó phức tạp hơn và cần có sự đồng ý rõ ràng từ chủ sở hữu trang web. Về cơ bản, nó lưu trữ các giao dịch trang web giữa người dùng cuối và máy chủ.
Đối với các trang web đơn giản có dữ liệu tĩnh, cùng với chiến lược lưu trữ có tổ chức, lưu trữ phía máy khách phải phù hợp với hóa đơn. Tuy nhiên, hầu hết các trang web khác sẽ ưu tiên lưu trữ phía máy chủ — lưu trữ dựa trên giao dịch không cần thiết cho hầu hết các trang web.
Cuối cùng — và chúng tôi sẽ thảo luận chi tiết hơn về vấn đề này trong suốt bài đăng — bạn cũng sẽ muốn xem xét nơi lưu trữ và cách lưu trữ của bạn. Ví dụ: một kho lưu trữ cục bộ không phải là một lựa chọn tồi, nhưng bạn có thể thấy nó biến mất nếu bạn gặp sự cố máy tính. Mặt khác, bạn có ít quyền kiểm soát hơn đối với những gì được lưu trữ nếu bạn chọn giải pháp của bên thứ ba.
Như bạn mong đợi, câu trả lời ở đây là sử dụng cách tiếp cận nhiều mặt để lưu trữ một trang web. Chúng tôi khuyên bạn nên coi các kho lưu trữ như bản sao lưu: giữ ba bản sao khác nhau ở các vị trí riêng biệt và được đồng bộ hóa bằng cách nào đó.
Bạn cũng có thể muốn làm cho một trong các kho lưu trữ hoạt động để bạn có thể tận dụng bất kỳ chức năng phía máy chủ nào trên trang web của mình. Kết quả là một trang web có chiến lược sao lưu và lưu trữ mạnh mẽ vẫn hữu ích cho những người khác.
Hướng dẫn cho người mới bắt đầu về các công cụ và trang web lưu trữ trên Internet
Có rất nhiều giải pháp có sẵn để lưu trữ một trang web. Chúng tôi sẽ tìm hiểu một vài trong số những cái phổ biến hơn, cùng với ý kiến của chúng tôi về cách nó có thể phù hợp với bạn.
1. Máy quay lui

Trước hết, chúng ta hãy thảo luận về Wayback Machine. Đây là công cụ đầu tiên thuộc loại này, vì vậy nó đặt tiêu chuẩn cho các công cụ lưu trữ khác.
Như vậy, nó có thể sẽ là nơi đầu tiên khi tìm cách lưu trữ một trang web. Nó có nhiều cách để tạo và tải lên các kho lưu trữ và thậm chí là một API chuyên dụng để kết nối với chức năng của nó. Cần lưu ý rằng nó cũng là một giải pháp lưu trữ phía máy chủ.
Điều đó nói rằng, do cách nó thu thập dữ liệu và lưu trữ các trang web, Wayback Machine có thể không bảo toàn được tất cả các chức năng của trang web của bạn. Tuy nhiên, nó được coi là tiêu chuẩn công nghiệp cho các nhà lưu trữ web và nó hoàn toàn miễn phí khi khởi động. Chúng tôi sẽ chỉ cho bạn cách lưu trữ một trang web chi tiết hơn bằng cách sử dụng Wayback Machine ở phần sau của bài viết này.
2. Archive.today

Tiếp theo là Archive.today. Nó tương tự về nhiều mặt với Wayback Machine — thậm chí theo thiết kế gần như “cổ điển” của trang web. Máy chủ dữ liệu của nó có trụ sở tại Châu Âu, nhưng nó tiếp cận cách lưu trữ khác với Wayback Machine.
Đối với người mới bắt đầu, Archive.today không dựa trên trình thu thập thông tin chạy trên web. Thay vào đó, bạn gửi URL của mình và đồng ý đưa vào kho lưu trữ. Bên cạnh đó, danh sách tính năng của nó còn nhiều thiếu sót hơn so với các giải pháp khác. Ví dụ: không có chính sách xóa mạnh mẽ và quá trình lưu trữ loại trừ một số loại tệp và phương tiện nhất định.
Tuy nhiên, nó miễn phí và phù hợp nếu bạn muốn có một nơi lưu trữ miễn phí. Trang này thậm chí còn có chức năng tìm kiếm để tìm các trang đã lưu trữ trước đó.
3. Heritrix

Chúng tôi đã đề cập đến Internet Archive và Wayback Machine gần như thay thế cho nhau trong bài đăng này cho đến nay. Tuy nhiên, Wayback Machine chỉ là một dịch vụ và Internet Archive cung cấp một số sản phẩm lưu trữ khác ngoài nó. Heritrix là một công cụ mã nguồn mở miễn phí được sinh ra từ sự hợp tác giữa Internet Archive và các thư viện Bắc Âu.
Về cơ bản, nó là một trình thu thập thông tin web hơn là một công cụ lưu trữ đầy đủ tính năng. Tuy nhiên, bạn có thể gói tất cả các kết quả được thu thập thông tin lại với nhau. Mặc dù điều này đã không xảy ra trong quá khứ, Wayback Machine hiện sử dụng Heritrix để thu thập dữ liệu các trang web để đưa vào trang web của chính nó. Hơn nữa, một số lượng lớn các thư viện và tổ chức sử dụng Heritrix để xây dựng các kho lưu trữ.
Mặc dù có các tính năng ấn tượng, việc cài đặt Heritrix đòi hỏi một số bí quyết kỹ thuật. Không có giao diện thân thiện với người dùng để cài đặt nó cho bạn, vì vậy bạn sẽ cần kiến thức về Git, GitHub và dòng lệnh.
Cũng như các giải pháp tương tự khác, Heritrix hoàn toàn miễn phí để sử dụng, vì vậy nó phù hợp như một giải pháp tự lưu trữ hiệu quả về chi phí.
4. Lớp tích hợp lưu trữ web (WAIL)

Nếu bạn đang sử dụng Heritrix để lưu trữ một trang web nhưng lại bị ảnh hưởng bởi kiến thức kỹ thuật cần thiết để cài đặt phần mềm đơn giản, thì có một giải pháp tiềm năng dành cho bạn. Lớp tích hợp lưu trữ web (WAIL) là một ứng dụng máy tính để bàn đa nền tảng miễn phí và mã nguồn mở cung cấp cho bạn Giao diện người dùng đồ họa (GUI) chức năng để sử dụng cùng với trình cài đặt.
Tin tốt là Heritrix là công cụ thu thập thông tin của WAIL. Nó có nghĩa là bạn có thể tận dụng sức mạnh của Heritrix trong khi không phải duyệt qua GitHub và dòng lệnh. Bên cạnh đó, WAIL sử dụng công cụ OpenWayback để “phát lại” các kho lưu trữ web.
Như vậy, bạn đã có một công cụ lưu trữ web đầy đủ tính năng sẵn sàng hoạt động trên máy tính của mình. Chúng tôi cũng sẽ cho bạn thấy chính xác cách hoạt động của WAIL trong phần sau của bài viết.
5. Stillio

Công cụ lưu trữ áp chót của chúng tôi được lập hóa đơn như một giải pháp tự động giúp chụp ảnh nhanh theo các khoảng thời gian đã định. Stillio là một dịch vụ cao cấp có giao diện khác với các giải pháp lưu trữ khác.
Trang web trông bóng bẩy và cung cấp cho bạn vô số tùy chọn để tạo một kho lưu trữ đáp ứng các yêu cầu chính xác của bạn. Ví dụ: bạn có thể thêm thẻ và tiêu đề tùy chỉnh vào URL của mình.
Hơn nữa, bạn có thể chọn lưu trữ các bản lưu trữ vào Dropbox, Google Drive và các dịch vụ của bên thứ ba khác.
Tuy nhiên, Stillio có một nhược điểm lớn: nó không hỗ trợ lưu trữ back-end. Bạn bị hạn chế đối với ảnh chụp màn hình của trang web của mình hơn là một kho lưu trữ đầy đủ dữ liệu. Đối với nhiều ứng dụng, điều này là không đủ.
Tuy nhiên, Stillio có thể hữu ích trong một số trường hợp, chẳng hạn như phục vụ như một công cụ theo dõi và quản lý thương hiệu. Ví dụ: bạn có thể chụp ảnh màn hình của các trang web của đối thủ cạnh tranh hoặc kết quả của công cụ tìm kiếm. Nó cũng tuyệt vời để xác minh nội dung.
Giá của Stillio bắt đầu từ 29 đô la mỗi tháng và tăng qua bốn cấp lên đến 299 đô la mỗi tháng. Đó là một câu hỏi lớn, đặc biệt là khi có các lựa chọn thay thế miễn phí với các tính năng mạnh mẽ hơn. Nhưng nếu nó hoàn toàn phù hợp với trường hợp sử dụng của bạn, thì bạn nên xem qua!
Đăng kí để nhận thư mới
6. Pagefreezer

Giải pháp cuối cùng của chúng tôi là một công cụ tự động khác. Pagefreezer cung cấp nhiều lợi ích tương tự như Stillio, nhưng nó cũng lưu trữ nội dung truyền thông xã hội, tin nhắn văn bản, các trang web đầy đủ và nền tảng cộng tác cấp doanh nghiệp.
Nhìn bề ngoài, Pagefreezer có vẻ như là một giải pháp mạnh mẽ hơn Stillio và sẽ có giá trị lớn hơn trong các trường hợp sử dụng khác nhau.
Ví dụ: khi luật pháp yêu cầu bạn phải lưu trữ đầy đủ một trang web, Pagefreezer phù hợp với hóa đơn. Nó cho phép bạn tự động hóa số lượng ảnh chụp nhanh và xem lại chúng bằng trình duyệt lưu trữ trang web và công cụ so sánh.
Nhìn chung, Pagefreezer là một giải pháp tuyệt vời cấp doanh nghiệp để lưu trữ tại nơi làm việc. Các công ty sử dụng Yammer hoặc Salesforce’s Chatter sẽ thu hút loại giải pháp này, người dùng Workplace cũng vậy.
Định dạng Tệp Lưu trữ Web (WARC) là gì?
Nếu bạn đang nghiên cứu cách lưu trữ một trang web, bạn sẽ bắt gặp định dạng Lưu trữ web (WARC). Đó là một tổ hợp được đóng gói bao gồm các tệp khác nhau của kho lưu trữ trang web của bạn để nó có thể di động và độc lập.
Internet Archive đã tạo ra WARC để lưu giữ dữ liệu web trên cơ sở lâu dài. Hiệp hội Bảo tồn Internet Quốc tế (IIPC) đã xuất bản thông số kỹ thuật đầy đủ của định dạng tệp. Nó sẽ lưu trữ hình ảnh, siêu dữ liệu và thực tế là mọi thứ mà trang web của bạn cần để chạy trên cơ sở độc lập.
Mặc dù ban đầu nó chỉ là một định dạng tệp tiện dụng, WARC hiện là một tiêu chuẩn ISO quốc tế cho các kho lưu trữ kỹ thuật số. Do đó, nó đã được các chính phủ và các cơ quan chính thức khác thông qua. Trên thực tế, có một số trường hợp sử dụng mà tệp WARC rất quan trọng:
- Khám phá điện tử : Đó là quá trình trong quá trình tranh tụng, nơi các bản ghi kỹ thuật số được nghiên cứu và trình bày để đưa vào thử nghiệm. Đối với các bản ghi trên mạng xã hội, tệp WARC đáp ứng tiêu chuẩn pháp lý về E-Discovery.
- Quyền Tự do Thông tin (FOI): Có nhiều chính phủ và cơ quan chính thức sử dụng FOI và Hồ sơ Mở để cung cấp dịch vụ “Quyền được biết” (RTK) cho các cử tri tiểu bang. Định dạng WARC lý tưởng trong các trường hợp liên quan đến bản ghi kỹ thuật số.
WARC được sử dụng bởi nhiều giải pháp lưu trữ và trình thu thập thông tin khác nhau, chẳng hạn như StormCrawler và Apache Nutch. Bạn cũng có thể điều chỉnh cài đặt của một công cụ dòng lệnh như Wget để tìm nạp và đóng gói các yêu cầu dưới dạng tệp WARC. Chúng ta sẽ thảo luận chi tiết hơn về vấn đề này ngay sau đây.
Có rất nhiều công cụ khác cũng có thể xuất ra tệp WARC. Ví dụ, công cụ lưu trang web mã nguồn mở wallabag có thể làm điều này.
Thay vào đó, grab-site là một ứng dụng dựa trên web để giúp thu thập thông tin lưu trữ dưới dạng tệp WARC.
Việc mở tệp WARC phụ thuộc vào công cụ bạn đang sử dụng. Bất kể giải pháp bạn thích là gì, hãy nhớ rằng một số công cụ này đã không được cập nhật trong một thời gian.
Do đó, bạn sẽ muốn đảm bảo rằng giải pháp đã chọn của bạn hoạt động với hệ thống hiện tại của bạn và nó sẽ có sẵn để sử dụng trong tương lai. Bạn sẽ đỡ phải đau đầu nếu bạn tránh một công cụ có thể ngừng hoạt động hoặc bị bỏ dở khi bạn đang thực hiện một dự án lưu trữ.
Mẹo quản lý kho lưu trữ ngoại tuyến của bạn
Trước khi chúng ta tìm hiểu cách lưu trữ một trang web, hãy dành vài phút để giúp bạn sắp xếp các kho lưu trữ hiện có của mình. Chúng tôi đã đề cập đến chủ đề này, nhưng việc có một phương pháp tiếp cận vững chắc sẽ giúp cho các kho lưu trữ của bạn dễ quản lý hơn. Người dùng trang web của bạn cũng sẽ được sử dụng nhiều hơn từ một kho lưu trữ được tổ chức tốt.
Có ba yếu tố chính bạn phải ghi nhớ:
- Tần suất: Quyết định tần suất bạn muốn lưu trữ một trang web. Các trang web lớn, động, phức tạp với những thay đổi gần như hàng ngày sẽ cần ảnh chụp nhanh thường xuyên hơn các trang tĩnh.
- Vị trí: Cũng giống như các bản sao lưu, bạn nên lưu các bản lưu trữ ở một số nơi khác nhau, bao gồm cả đám mây. Thực hiện theo quy tắc 3-2-1 để đảm bảo hơn. Chúng tôi cũng đề xuất nhiều hơn thế này nếu bạn muốn nắm bắt toàn bộ chiều sâu của trang web của mình.
- Cấu trúc: Giống như các thư mục trên máy tính của bạn, bạn nên sử dụng các thư mục rõ ràng, được chia nhỏ thành tên của kho lưu trữ trang web và ngày lưu trữ một trang web cụ thể.
Mặc dù bạn có thể mở rộng quản trị kho lưu trữ của mình hơn nữa, nhưng ba mẹo này sẽ bắt đầu quá trình lưu trữ của bạn ngay từ đầu.
5 cách để lưu trữ một trang web
Dưới đây, chúng tôi sẽ đề xuất năm cách khác nhau để lưu trữ một trang web. Chúng tôi đã đặt hàng các giải pháp dựa trên độ khó tương đối của chúng. Tuy nhiên, nếu bạn phát hiện ra một giải pháp mà bạn nghĩ sẽ phù hợp với nhu cầu hiện tại của mình, hãy thoải mái đi sâu vào và tìm thêm.
1. Lưu một trang vào máy tính cục bộ của bạn
Trước hết, hãy thảo luận về giải pháp đơn giản nhất. Thật tuyệt nếu bạn cần lưu trữ một trang duy nhất và tốt hơn nữa, chức năng này thực tế đã có trong mọi trình duyệt.
Bạn đang vật lộn với các vấn đề về thời gian chết và WordPress? Kinsta là một giải pháp lưu trữ tối ưu hóa hiệu suất được thiết kế để giúp bạn tiết kiệm thời gian. Kiểm tra các tính năng của chúng tôi
Để bắt đầu, hãy mở trình duyệt yêu thích của bạn và truy cập trang web bạn muốn lưu trữ. Khi trang đã tải, hãy điều hướng đến menu Tệp của trình duyệt và tìm tùy chọn Lưu Trang dưới dạng :

Tiếp theo, nhấn vào tùy chọn lưu trang, lúc này trình duyệt sẽ hiện ra hộp thoại.
Tại đây, hãy chọn một tên cho trang của bạn (mặc dù mặc định là ổn). Ngoài ra, hãy đảm bảo rằng bạn đang lưu toàn bộ trang thay vì chỉ HTML. Nó sẽ bảo vệ trang web với nhiều chức năng nhất có thể.
2. Sử dụng DevKinsta để lưu trữ trang web WordPress của bạn

Chúng tôi nghĩ DevKinsta là một công cụ thiết yếu để tạo và triển khai các trang web WordPress. Tuy nhiên, nó cũng có một chuỗi khác: nó cũng giúp bạn lưu trữ các trang web được lưu trữ trên Kinsta của mình.
Chúng tôi đã trình bày toàn bộ quy trình kéo bản sao lưu MyKinsta bên ngoài vào DevKinsta trong một trong các bài viết cơ sở kiến thức của chúng tôi. Tóm lại:
- Tạo và tải xuống bản sao lưu trong MyKinsta.
- Tạo một trang web mới với DevKinsta.
- Nhập nội dung và cơ sở dữ liệu của bạn.
- Thực hiện tìm kiếm và thay thế trên cơ sở dữ liệu của bạn để thay đổi tên URL từ trang web đang hoạt động của bạn thành kho lưu trữ cục bộ mới của bạn.
Tại thời điểm này, bạn có thể mở trang web của mình trong DevKinsta và sử dụng nó như thể nó đang hoạt động.
3. Sử dụng Kho lưu trữ Trực tuyến (Chẳng hạn như Máy quay lui)
Sẽ không có hướng dẫn nào hoàn chỉnh nếu không chỉ cho bạn cách thức hoạt động của Wayback Machine. May mắn thay, quá trình này rất đơn giản. Điều đó nói rằng, lưu ý rằng phương pháp này chỉ cho phép bạn lưu trữ các trang riêng lẻ (mặc dù dịch vụ Archive-It đăng ký cho phép bạn lưu trữ các trang đầy đủ).
Đối với phương pháp này, hãy truy cập trang chủ của Wayback Machine và xem biểu mẫu Lưu Trang Ngay bây giờ :

Để lưu trữ một trang, chỉ cần thêm URL bạn muốn lưu vào biểu mẫu này, sau đó nhấp vào Lưu Trang . Tùy thuộc vào mức độ lớn hay phức tạp của trang, bạn có thể cần đợi một vài phút trong khi trình thu thập thông tin và công cụ thực hiện công việc của chúng. Nó có thể là trang trông như thể nó bị rơi. Chúng tôi đã phải đối mặt với Màn hình chết trắng (WSoD) trong một thời gian trong quá trình thử nghiệm của mình.
Tuy nhiên, khi trang đã được lưu trữ, Wayback Machine sẽ chuyển hướng bạn đến trang mới, dành riêng.

Lưu ý rằng bạn cũng có thể sử dụng bookmarklet và tiện ích mở rộng trình duyệt để lưu trữ một trang web. Trên thực tế, hầu hết các trình duyệt hiện tại đều có các tùy chọn này, bao gồm Google Chrome, Firefox và Safari.
4. Cài đặt Lớp tích hợp lưu trữ web (WAIL)
Bước đầu tiên của bạn với cách tiếp cận này là tải xuống chính WAIL và cài đặt nó. May mắn thay, có một trình cài đặt chuyên dụng cho công cụ (mặc dù vì chương trình được viết bằng Python nên nó sử dụng mô-đun PyInstaller).
Quá trình cài đặt thật dễ dàng. Bất kể hệ điều hành (OS) của bạn là gì, bạn có thể thực hiện những việc sau:
- Điều hướng đến trang web WAIL và tải xuống trình cài đặt thích hợp cho hệ điều hành của bạn.
- Giải nén tệp cho phiên bản Windows hoặc gắn hình ảnh DMG cho macOS.
- Trên màn hình hộp thoại kết quả cho macOS, hãy kéo biểu tượng ứng dụng vào thư mục Ứng dụng của bạn. Đối với người dùng Windows, chỉ cần kéo thư mục đã giải nén vào ổ C: root của bạn.
- Khởi chạy WAIL.app hoặc WAIL.exe (tùy thuộc vào hệ điều hành của bạn).
Khi WAIL được mở, bạn sẽ thấy giao diện tối thiểu của nó:

Bây giờ bạn có ba tùy chọn để lựa chọn: xem một kho lưu trữ, kiểm tra trạng thái của nó hoặc lưu trữ một trang web. Các nút hơi khó hiểu, vì độ nghiêng tự nhiên của bạn có thể được đọc từ trái sang phải. Tuy nhiên, trong lần khởi chạy đầu tiên, bạn sẽ không có gì trong kho lưu trữ của mình.
Thay vào đó, hãy nhập URL cho trang web bạn muốn lưu trữ và nhấp vào Lưu trữ ngay! Bạn sẽ thấy WAIL bắt đầu thu thập thông tin trang web. Bạn có thể kiểm tra trạng thái thu thập thông tin của mình trên tab Advanced > Heritrix :

Khi hoàn tất, nó sẽ hiển thị cho bạn thông báo “Thành công”. Tại thời điểm này, bạn có thể nhấp vào nút Xem Lưu trữ trên tab Cơ bản . Thao tác này sẽ mở trang web đã lưu trữ của bạn trong trình duyệt, sẵn sàng cho bạn xem.
5. Sử dụng Wget nếu bạn thấy thoải mái khi sử dụng dòng lệnh
Đối với phương pháp cuối cùng của chúng tôi để lưu trữ một trang web, bạn sẽ cần một số thứ trước khi bắt đầu:
- Truy cập dòng lệnh vào máy tính của bạn
- Một công cụ dòng lệnh phù hợp như Windows Command Prompt hoặc Terminal trên macOS và Linux
- Đã cài đặt Wget trên máy tính của bạn
Bạn có thể đã có hai cái đầu tiên rồi.
Trên macOS, bạn có thể cài đặt Wget thông qua Homebrew bằng lệnh brew install wget
. Lưu ý rằng bạn cũng cần cài đặt Homebrew, nhưng chỉ mất vài giây. Trên Linux, Wget được cài đặt sẵn trên hầu hết các bản phân phối chính.
Nếu bạn là người dùng Windows, bạn có thể gặp khó khăn hơn khi cài đặt Wget trên máy tính của mình. Mặc dù có sẵn các hướng dẫn trên web, nhưng hướng dẫn của chúng dường như không nhất quán giữa các máy. Thay vào đó, chúng tôi khuyên bạn nên truy cập trang web chính thức của Wget và xem một số tệp nhị phân Windows có sẵn, vì chúng có nhiều khả năng phù hợp với bạn hơn.
Bất kể, khi bạn đã cài đặt Wget, việc sử dụng nó rất đơn giản. Đầu tiên, điều hướng đến một thư mục trong cửa sổ đầu cuối mới. Ở đây, chúng tôi cũng đang tạo thư mục, nhưng bước này là tùy chọn:
cd documents && mkdir archive && cd archive
Lưu ý rằng Wget sẽ kéo tất cả các bản tải xuống vào bất kỳ thư mục làm việc nào. Trong trường hợp này, chúng tôi đã chỉ định một thư mục cho các tệp của mình.
Tiếp theo, bạn sẽ muốn thu thập dữ liệu một trang web và kéo các tệp. Mọi hành động được gọi bằng lệnh wget
và bạn sẽ muốn sử dụng định dạng sau:
wget "https://kinsta.com/" --warc-file="kins"
Nhấn phím Enter sẽ bắt đầu tải kinsta.com xuống tệp index.html và tạo tệp WARC có tên kins-00000.warc.gz .

Wget rất mạnh và có nhiều lệnh và tùy chọn bạn có thể sử dụng. Ví dụ: bạn có thể sử dụng lệnh --mirror
để tạo tệp WARC chứa bản sao hoàn chỉnh của trang web của bạn. Bạn cũng có thể sử dụng lệnh --no-warc-compression
để ghi các tệp không nén, mặc dù điều này rõ ràng sẽ chiếm nhiều dung lượng hơn cho mỗi lần tải xuống. Sử dụng máy nén tích hợp là cách tiếp cận tối ưu.
Bản tóm tắt
Lưu trữ web đã phát triển từ nhu cầu ghi lại hình dạng thay đổi nhanh chóng của Internet. Nó hiện có nhiều ứng dụng hợp lệ — ví dụ, trong trường hợp các yêu cầu và hồ sơ pháp lý. Bất kể nhu cầu của bạn là gì, việc có một kho lưu trữ được tổ chức và có cấu trúc tốt có thể bổ sung cho chiến lược sao lưu tổng thể của bạn.
May mắn thay, có rất nhiều giải pháp có sẵn để trợ giúp. Hầu hết các trình duyệt đều cung cấp khả năng lưu trang web trên máy tính của bạn, mặc dù các giải pháp như DevKinsta cũng là những công cụ có khả năng thực hiện công việc này. Tuy nhiên, các công cụ lưu trữ chuyên dụng như Wayback Machine, Heritrix, WAIL và Wget đều là những giải pháp đặc biệt mạnh mẽ và cung cấp các định dạng tệp tiêu chuẩn để hoạt động.
Bài viết này có khiến bạn muốn lưu trữ một trang web của riêng mình không? Chia sẻ suy nghĩ và ý kiến của bạn trong phần bình luận bên dưới!
Tiết kiệm thời gian, chi phí và tối đa hóa hiệu suất trang web với:
- Trợ giúp tức thì từ các chuyên gia lưu trữ WordPress, 24/7.
- Tích hợp Cloudflare Enterprise.
- Tiếp cận khán giả toàn cầu với 34 trung tâm dữ liệu trên toàn thế giới.
- Tối ưu hóa với Giám sát Hiệu suất Ứng dụng được tích hợp sẵn của chúng tôi.
Tất cả những điều đó và hơn thế nữa, trong một kế hoạch không có hợp đồng dài hạn, hỗ trợ di chuyển và đảm bảo hoàn tiền trong 30 ngày. Kiểm tra các kế hoạch của chúng tôi hoặc nói chuyện với bộ phận bán hàng để tìm ra kế hoạch phù hợp với bạn.