インターネット・アーカイブ
インターネット・アーカイブ(Internet Archive)は、Web・マルチメディア資料のアーカイブを運営している団体である。本部はカリフォルニア州サンフランシスコのプレシディオに置かれている。
アーカイブには、「World Wide Webのスナップショット」と呼ばれる、ある時点において収集されたウェブページのコピー(ウェブアーカイブ)や、ソフトウェア・映画・本・録音データ(バンド等の許可によるライブ公演の録音も含む)などがある。アーカイブは、その資料を無償で研究者や歴史家などに提供している。
目次
歴史
アーカイブは1996年にブリュースター・カールによって設立された。
公式サイトによれば、その使命は以下のとおりである:
- 大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブはアメリカ議会図書館やスミソニアン博物館などの他機関との恊働も行う。
人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館に例えられることもある。
ウェイバックマシン
ウェイバックマシンが提供しているサイト例:
インターネットアーカイブは、アレクサ・インターネットのデータを元にした「ウェイバックマシン (Wayback Machine)」も運営している。このウェブアーカイブサービスを使えばウェブページのアーカイブ時点の情報を見ることができる。アーカイブはこれを「3次元インデックス」と呼んでいる。
ウェイバックマシンのアーカイブは徐々に増加し公開されている。アーカイブされたものの公開までには半年から一年かかっている。永続的に資料を保存し、すぐにそれを参照するための代わりとなるサイトとして、Archive-It systemなどもある。ウェイバックマシンが保持しているデータ容量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点ではおよそ1ペタバイトであり、月に20テラバイトの割合で増加を続けている。この増加率は2003年の報告の増加率月あたり12テラバイトのおよそ倍の速度になる。またこれは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2009年の段階ではデータ総量は約2ペタバイトとなっている。
このデータのコピーは新アレクサンドリア図書館でも保存されている。
「ウェイバックマシン」という名称はロッキー・アンド・ブルウィンクル・ショーの一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ワバックマシン (WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。
公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。
かと言って、閉鎖された過去のサイトがすべて完全に見られるわけではない。
Recall サーチエンジン
またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。
コレクション
動画、書籍、録音の多くがパブリックドメインにあるか、クリエイティブ・コモンズのライセンスで提供されている。音楽部門には、コンサートでの演奏の録音を許可しているアーティストや演奏家(グレイトフル・デッド、ストリング・チーズ・インシデント、トード・ザ・ウェット・スプロケット、311、fugaziなど)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。
オープンライブラリ
インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。
動画像コレクション
商用映画に加え、動画像コレクションには以下のようなものがある: ニュース映画コレクション、昔のアニメ(カートゥーン)コレクション、戦争映画・反戦映画などのプロパガンダコレクション、Skip Elsheimer氏によるA/V Geekコレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション)
ブリックフィルムコレクションにはレゴによるストップモーション・アニメーションがあり、中には映画のリメイクものをしているものもある。Election 2004 (2004年選挙)コレクションは、2004年アメリカ合衆国大統領選挙に関連する動画資料を中立の立場からまとめた資料である。Independent NewsコレクションにはインターネットアーカイブのWorld At War competition from 2001(歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年のスマトラ島沖地震の惨禍をとらえたものとなっている。
インターネットアーカイブには以下のような映画もある:
- 戦艦ポチョムキン
- D.O.A. (1950年)
- Danger Lights
- Dating Do's and Don'ts
- Duck and Cover
- Hemp For Victory
- Lying Lips
- ナイト・オブ・ザ・リビングデッド
- 吸血鬼ノスフェラトゥ
- The Power of Nightmares
- リーファー・マッドネス (1936年の映画)
- Sex Madness
- Why We Fight: 全7回中2エピソード分
- The Negro Soldier (1943年)
- War Comes to America (1945年)
論争
サイエントロジーサイト
2002年後半に、インターネットアーカイブはサイエントロジーの批判サイトをいくつもウェイバックマシンから削除した。ウェイバックマシンのエラーメッセージには、この削除は「サイトオーナーの要望による」との文言が載せられていたが、後に明らかになったところによればサイエントロジー教会の弁護士が削除を要求したものであった。この削除要求の法的根拠は不明であり、実際のサイトオーナー自身が削除を要求したものではなかった。
アーカイブ内のウェブページの証拠能力
2004年10月の「ポーランド・テレビ・SA社 対 エコースター・サテライト社」の裁判において、ウェイバックマシンのアーカイブが法的証拠の情報源として使われた。これはおそらく初めてのケースであったと思われる。ポーランド・テレビはポーランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコースター・サテライトはアメリカの衛星テレビ放送ネットワークである、ディッシュ・ネットワークの運営元である。裁判の過程で、エコースター社はテレウジャ・ポルスカ社のウェブサイトの過去の内容の証拠として、ウェイバックマシンのスナップショットをあげた。テレウジャ・ポルスカ社は、伝聞および非公式情報に基づくものとしてやめさせようとしたものの、下級審判事のアーランダー・ケイズはテレウジャ・ポルスカの伝聞との主張を退け、インターネットアーカイブ社従業員による宣誓供述をスナップショットの信頼に値するとして採用した。
グレイトフル・デッド
2005年11月、グレイトフル・デッドのコンサートの模様を収録した資料の無料ダウンロードが削除された。ニューヨーク・タイムズ紙の報道によれば、ジョン・ペリー・バーロウはこの変化の原因として、ボブ・ウィアー、ミッキー・ハート、ビル・クロイツマンのバンドの元メンバー3名の名を挙げた。元メンバーのフィル・レッシュは2005年11月30日付けでこの削除について個人サイト上でコメントを出した:
- グレイトフル・デッドのショーの全てが感謝祭前にArchive.orgから消えたのが気になった。私はこの決定に関与していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル・デッドの伝説であると信じているし、これらが求める人全ての手に入ることを望む。
ブリュースター・カールが11月30日にフォーラムへ投稿し、「観客による録音資料はダウンロードもしくはストリーム配信可能である。しかしながら、ミキサーでの録音資料はストリーム配信にのみ限られる。」とのバンドメンバーとの合意に達した内容をまとめた。
ホスティング環境
ネット上のすべてのデータを収拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスターで運用していたが、2009年春からはSun MicrosystemsのSun Fire X4500 63台でホスティングされている。OSはSolaris10で、1台あたり1テラバイトHDDを48台搭載(=総計3ペタバイト)、ファイルシステムはZFSを採用しているとのこと。施設も専用のSun Modular Datacenterを使用している[1]。
関連項目
- ウェブアーカイブ
- アレクサ・インターネット
- 電子図書館
- 電子的媒体による長期保存
- Heritrix
- リンク切れ(デッドリンク)
- プロジェクト・グーテンベルク
- クローラ(ロボット)
- ウェブ魚拓
参考文献
サイエントロジー論争
ウェイバックマシンによるアーカイブの法的証拠能力
グレイトフル・デッド論争
- Wrath of Deadheads stalls Web crackdown, ニューヨーク・タイムズの記事 (インターナショナル・ヘラルド・トリビューンサイト内)
- Phil Lesh's Hotline, 論争に対する2005年11月30日付コメント
- Good News and an Apology: GD on the Internet Archive, ブリュースター・カールによるarchive.org内のフォーラムへの投稿
外部リンク
- The Internet Archive
- The Open Library
- Petabox, a useful invention created in collaboration with the Internet Archive
- Wayback Machine
- Pictures and descriptions of the Wayback Machine hardware, with cost information
- Form 990-PF for Internet Archive (2003)
- Archive-It 1.5
- Warrick - ウェブサイトをインターネットアーカイブとサーチエンジンのキャッシュから復旧するためのツール
- オープン・ライブラリ
ミラーサイト
- International School of Information Science(新アレクサンドリア図書館にあるインターネットアーカイブ)