Wayback Machine(Web archive)とは?使い方や削除方法を紹介。古いサイトを見直すことができます。
無料のメールフォームCMS「EasyMail」
無料で簡単インストール。PHP言語で開発されたオープンソースのメールフォームCMS「EasyMail(イージーメール)」を使ってみませんか?
改変でも、再配布でも、商用利用でも、有料販売でも、自由に無料でつかうことができるメールフォームです。
無料のメールフォームはこちら
目次
- 1 Wayback Machine(Web archive)とは
- 2 Wayback Machine(Web archive)のデータ保存数の確認方法
- 3 Wayback Machine(Web archive)の使い方
- 4 Wayback Machine(Web archive)で自分のサイトを探してみよう!
- 5 Wayback Machine(Web archive)にサイトを登録する方法
- 6 Wayback Machine(Web archive)にあるサイトの削除方法
- 7 Wayback Machine(Web archive)からアクセスを制限する方法
- 8 Wayback Machine以外のWeb archiveサイト
- 9 「Wayback Machine(Web archive)とは?」最後に
Wayback Machine(Web archive)とは
保存しているデータは約6,400億ページ以上あり、WEBサイトだけでなく、Twitterや書籍、音楽、映画などといったデータも保存されています。
Wayback Machineには以下のURLからアクセスすることができます。
Wayback Machine(Web archive)のデータ保存数の確認方法
Wayback Machine(ウェイバックマシン)に対象のURLやキーワードに対して、どれくらいのデータが保存されているのかを確認する方法を解説します。
結果が表示されると、画面内に「Saved 〇〇times between 〇〇 and 〇〇」と表示があるので、この部分がデータの保存数になり、以下の画像を参考にすると
「Saved 244 times between March 29, 2003 and January 18, 2022.」と書かれており、2002年3月29日から2022年1月18日の間に 244のアーカイブデータを保存しているという意味になります。
こちらは当社のwww.1st-net.jpのサイトを調べたのですが、こうした小さな規模のWEBサイトの場合であっても、Wayback Machineは昔からアーカイブデータを保存し、無料で簡単に閲覧することができます。
Wayback Machine(Web archive)の使い方
URLから検索する
キーワードから検索する
同じくWayback Machine(ウェイバックマシン)のサイトにアクセスして上述のURLをいれた入力欄に調べたいキーワードを入れます。すると、キーワードに関連するサイトの一覧が表示されるので、一覧に表示されたサイトのURLかサイトのサムネイルをクリックすると選択したサイトの情報を見ることができます。
検索窓に入力するキーワードは「サッカー」のような単ワードだけでなく「サッカー 高校生」のように複合キーワードでも可能です。
Wayback Machine(Web archive)で自分のサイトを探してみよう!
Wayback Machine(Web archive)にサイトを登録する方法
Wayback Machineでアーカイブをさせる方法については、2つの方法があります。自身のサイトや競合サイトをアーカイブしておけば、後から振り返ってサイトを確認する時にも役立ちますので参考にしてみてください。
自動保存
Wayback Machineは基本的に自動でアーカイブをしてくれますが、必ず自身のサイトをアーカイブしてくれるかや、アーカイブしてくれる日時を指定するといったことができません。
そのため、運営するサイトのアーカイブ結果を調べてみて、過去のアーカイブ状況が1ヶ月に1回程アーカイブされているということであれば、今後も同じくらいのペースでアーカイブされる可能性があります。(ただし、絶対ではありません)
そこで、確実にアーカイブをしておきたいという場合は次の手動保存する方法を試してみてください。
手動保存
Wayback MachineのTOPページの右下に以下画像のSave Page Nowという項目があります。
その欄に保存したいURLを入力してアーカイブ保存された最新ページに移動したらOKです。
Wayback Machine(Web archive)にあるサイトの削除方法
Wayback Machine(ウェイバックマシン)にアーカイブされた過去の情報を削除したいという場合は、Wayback Machineの運営元であるInternet Archiveにアーカイブ削除依頼のメールを送る必要があります。
Wayback Machine(Web archive)からアクセスを制限する方法
削除ではなく、以降はWayback Machine(ウェイバックマシン)に保存されたくないといった場合は、クローラーのアクセスを制限してサイトを保存させないようにすることもできます。
Wayback Machineはロボットクローラーと呼ばれるプログラムが24時間365日インターネット上を巡回し、WEBサイトのページデータをアーカイブ保存することで、過去のページを閲覧することができるようになります。
つまりWayback Machineのクローラーをサイトにアクセスさせないようにすれば、物理的にアーカイブができなくなります。
「robots.txt」と言われるクローラーのアクセス管理をするための命令文が記述されたファイルを使用するのですが、いくつかやり方があるので、それぞれのやり方については以下で解説します。
作業に慣れていない方は、必ず作業前にバックアップデータを保存しておくようにしましょう。
ドメインでアクセス制限
「robots.txt」に以下のテキストを記載してテキストファイルを保存し、サイトデータを保存しているデータサーバー内の一番上の階層であるディレクトリ(ルートディレクトリ)の中にアップロードして保存します。
1 2 |
User-agent: ia_archiver Disallow: / |
この対応で、ドメイン単位でWayback Machineのクローラーアクセスを制限することができます。
ディレクトリでアクセス制限
先ほどは、ドメイン単位でしたが、次はディレクトリ単位でアクセスを制限したい場合は「Disallow: /」以下にディレクトリ名を記載してルートディレクトリの中に「robots.txt」ファイルを保存します。
以下になります。
1 2 |
User-agent: ia_archiver Disallow: /ディレクトリ名/ |
制限したいディレクトリが複数ある場合は、以下のように制限したいディレクトリを追加していくイメージになります。
1 2 3 4 |
User-agent: ia_archiver Disallow: /ディレクトリ名A/ Disallow: /ディレクトリ名B/ Disallow: /ディレクトリ名C/ |
指定ページでアクセス制限
最後に指定したページでアクセス制限したい場合は、以下のテキストを「robots.txt」ファイルに記載してルートディレクトリの中に保存をします。
1 2 |
User-agent: ia_archiver Disallow: /ディレクトリ名/ページファイル名 |
ディレクトリ名が「seo」でページファイル名が「waybackmachine.html」の場合は以下のようになります。
1 2 |
User-agent: ia_archiver Disallow: /seo/waybackmachine.html |
Wayback Machine以外のWeb archiveサイト
Web archiveサイトは、インターネット上のコンテンツを保存している複数のサイトが存在します。Wayback Machineは最も有名なWeb archiveサイトの1つですが、以下にいくつかの代替Web archiveサイトを紹介します。
- 国立国会図書館WARP:国立国会図書館が運営するWeb archiveサイトです。
- Internet Archive Canada: このサイトは、カナダのインターネットアーカイブを保存することを目的としています。
- European Library: このサイトは、ヨーロッパのインターネットアーカイブを保存することを目的としています。
これらのWeb archiveサイトは、Webページのアーカイブを保存することで、インターネットの歴史を保存することができます。特定のWebページのアーカイブを探す際には、Wayback Machine以外のWeb archiveサイトも利用することができます。