インターネット・アーカイブ
'''インターネット・アーカイブ'''(Internet Archive)は、[[World Wide Web|Web]]・[[マルチメディア]]資料の[[アーカイブ]]を運営している団体である。本部は[[カリフォルニア州]][[サンフランシスコ]]の[[プレシディオ]]に置かれている。 アーカイブには、「WWWのスナップショット」と呼ばれる、ある時点において収集された[[ウェブページ]]のコピー([[ウェブアーカイブ]])や、[[ソフトウェア]]・[[映画]]・[[本]]・[[録音]]データ(バンド等の許可によるライブ公演の録音も含む)などがある。アーカイブは、その資料を無償で研究者や歴史家などに提供している。 == 歴史 == アーカイブは[[1996年]]に[[ブリュースター・カール]]によって設立された。 公式サイトによれば、その使命は以下のとおりである: : 大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブは[[アメリカ議会図書館]]や[[スミソニアン博物館]]などの他機関との恊働も行う。 人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、[[アレクサンドリア図書館]]に例えられることもある。 == ウェイバックマシン == <div class="infobox"> ウェイバックマシンが提供しているサイト例: * [http://web.archive.org/web/%2A/www.amazon.com Amazon] * [http://web.archive.org/web/%2A/www.microsoft.com Microsoft] * [http://web.archive.org/web/%2A/news.bbc.co.uk BBC News] * [http://web.archive.org/web/%2A/www.google.com Google] * [http://web.archive.org/web/%2A/dmoz.org Open Directory] * [http://web.archive.org/web/%2A/www.wikipedia.org Wikipedia] ** [http://web.archive.org/web/%2A/ja.wikipedia.com/ 日本語版ウィキペディア] </div> インターネットアーカイブは、[[アレクサ・インターネット]]のデータを元にした「ウェイバックマシン (Wayback Machine)」も運営している。この[[ウェブアーカイブ]]サービスを使えば[[ウェブページ]]のアーカイブ時点の情報を見ることができる。アーカイブはこれを「3次元インデックス」と呼んでいる。 ウェイバックマシンのアーカイブは徐々に増加し公開されている。アーカイブされたものの公開までには半年から一年かかっている。永続的に資料を保存し、すぐにそれを参照するための代わりとなるサイトとして、Archive-It systemなどもある。ウェイバックマシンが保持しているデータ容量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点ではおよそ1ペタバイトであり、月に20テラバイトの割合で増加を続けている。この増加率は2003年の報告の増加率月あたり12テラバイトのおよそ倍の速度になる。またこれは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2009年の段階ではデータ総量は約2ペタバイトとなっている。 このデータのコピーは[[新アレクサンドリア図書館]]でも保存されている。 「ウェイバックマシン」という名称は[[ロッキー・アンド・ブルウィンクル・ショー]]の一シーンからとられた。このアニメシリーズは学者風の[[蝶ネクタイ]]をした犬のピーボディ先生と人間の助手シャーマンが「ワバックマシン (''WABAC machine'')」と呼ぶ[[タイムマシン]]を使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。 公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、[[オンラインソフトウェア]]の開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。 かと言って、閉鎖された過去のサイトがすべて完全に見られるわけではない。 === Recall サーチエンジン === またInternet Archiveの[[データベース]]的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。 == コレクション == 動画、書籍、録音の多くが[[パブリックドメイン]]にあるか、[[クリエイティブ・コモンズ]]のライセンスで提供されている。[[音楽]]部門には、コンサートでの演奏の録音を許可している[[アーティスト]]や演奏家([[グレイトフル・デッド]]、[[ストリング・チーズ・インシデント]]、[[トード・ザ・ウェット・スプロケット]]、[[311 (バンド)|311]]、[[fugazi]]など)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。 == オープンライブラリ == インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。 ===動画像コレクション=== 商用映画に加え、動画像コレクションには以下のようなものがある: [[ニュース映画]]コレクション、昔のアニメ([[カートゥーン]])コレクション、戦争映画・反戦映画などの[[プロパガンダ]]コレクション、Skip Elsheimer氏による''A/V Geek''コレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション) ''ブリックフィルム''コレクションには[[レゴ]]による[[ストップモーション・アニメーション]]があり、中には映画のリメイクものをしているものもある。''Election 2004 (2004年選挙)''コレクションは、[[2004年アメリカ合衆国大統領選挙]]に関連する動画資料を中立の立場からまとめた資料である。''Independent News''コレクションにはインターネットアーカイブの''World At War competition from 2001''(歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年の[[スマトラ島沖地震]]の惨禍をとらえたものとなっている。 インターネットアーカイブには以下のような映画もある: {{columns-list|2| *''[[戦艦ポチョムキン]]'' *''D.O.A.'' (1950年) *''Danger Lights'' *''Dating Do's and Don'ts'' *''Duck and Cover'' *''Hemp For Victory'' *''Lying Lips'' *''[[ナイト・オブ・ザ・リビングデッド]]'' *''[[吸血鬼ノスフェラトゥ]] *''The Power of Nightmares'' *''[[リーファー・マッドネス (1936年の映画)]]'' *''Sex Madness'' *''Why We Fight'': 全7回中2エピソード分 **''The Negro Soldier'' (1943年) **''War Comes to America'' ([[1945年の映画|1945年]]) }} == 論争 == === サイエントロジーサイト === 2002年後半に、インターネットアーカイブは[[サイエントロジー]]の批判サイトをいくつもウェイバックマシンから削除した。ウェイバックマシンのエラーメッセージには、この削除は「サイトオーナーの要望による」との文言が載せられていたが、後に明らかになったところによればサイエントロジー教会の弁護士が削除を要求したものであった。この削除要求の法的根拠は不明であり、実際のサイトオーナー自身が削除を要求したものではなかった。 === アーカイブ内のウェブページの証拠能力 === 2004年10月の「[[ポーランド・テレビ]]・SA社 対 エコースター・サテライト社」の裁判において、ウェイバックマシンのアーカイブが法的証拠の情報源として使われた。これはおそらく初めてのケースであったと思われる。ポーランド・テレビはポーランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコースター・サテライトはアメリカの衛星テレビ放送ネットワークである、[[ディッシュ・ネットワーク]]の運営元である。裁判の過程で、エコースター社はテレウジャ・ポルスカ社のウェブサイトの過去の内容の証拠として、ウェイバックマシンのスナップショットをあげた。テレウジャ・ポルスカ社は、[[伝聞証拠禁止の原則|伝聞]]および非公式情報に基づくものとしてやめさせようとしたものの、下級審判事のアーランダー・ケイズはテレウジャ・ポルスカの伝聞との主張を退け、インターネットアーカイブ社従業員による宣誓供述をスナップショットの信頼に値するとして採用した。 === グレイトフル・デッド === 2005年11月、[[グレイトフル・デッド]]のコンサートの模様を収録した資料の無料ダウンロードが削除された。[[ニューヨーク・タイムズ]]紙の報道によれば、[[ジョン・ペリー・バーロウ]]はこの変化の原因として、[[ボブ・ウィアー]]、[[ミッキー・ハート]]、[[ビル・クロイツマン]]のバンドの元メンバー3名の名を挙げた。元メンバーの[[フィル・レッシュ]]は2005年11月30日付けでこの削除について個人サイト上でコメントを出した: : グレイトフル・デッドのショーの全てが感謝祭前にArchive.orgから消えたのが気になった。私はこの決定に関与していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル・デッドの伝説であると信じているし、これらが求める人全ての手に入ることを望む。 [[ブリュースター・カール]]が11月30日にフォーラムへ投稿し、「観客による録音資料はダウンロードもしくはストリーム配信可能である。しかしながら、[[ミキサー (音響機器)|ミキサー]]での録音資料は[[ストリーミング|ストリーム配信]]にのみ限られる。」とのバンドメンバーとの合意に達した内容をまとめた。 == ホスティング環境 == ネット上のすべてのデータを収拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスターで運用していたが、2009年春からは[[Sun Microsystems]]のSun Fire X4500 63台でホスティングされている。OSは[[Solaris]]10で、1台あたり1テラバイトHDDを48台搭載(=総計3ペタバイト)、[[ファイルシステム]]は[[ZFS]]を採用しているとのこと。施設も専用の[[Sun Modular Datacenter]]を使用している[http://arstechnica.com/web/news/2009/03/sun-puts-internet-archive-in-a-box-but-will-it-stay-there.ars]。 == 関連項目 == * [[ウェブアーカイブ]] * [[アレクサ・インターネット]] * [[電子図書館]] * [[電子的媒体による長期保存]] * [[Heritrix]] * [[リンク切れ]](デッドリンク) * [[プロジェクト・グーテンベルク]] * [[クローラ]](ロボット) * [[ウェブ魚拓]] == 参考文献 == === サイエントロジー論争 === * [http://news.com.com/2100-1023-959236.html CNETの記事] * [http://www.archive.org/iathreads/post-view.php?id=778 archive.orgのフォーラムへの投稿] * [http://research.yale.edu/lawmeme/modules.php?name=News&file=article&sid=350 LawMemeの記事] === ウェイバックマシンによるアーカイブの法的証拠能力 === * [http://cyberlaw.stanford.edu/packets/vol_2_no_3/002728.shtml Internet Archive’s Web Page Snapshots Held Admissible as Evidence] ([[スタンフォード大学]]サイト内) === グレイトフル・デッド論争 === * [http://www.iht.com/bin/print_ipub.php?file=/articles/2005/12/01/business/deadheads.php Wrath of Deadheads stalls Web crackdown], ''[[ニューヨーク・タイムズ]]''の記事 (''[[インターナショナル・ヘラルド・トリビューン]]''サイト内) * [http://www.phillesh.net/philzonepages/friends_stuff/hotline-051130.html Phil Lesh's Hotline], 論争に対する2005年11月30日付コメント * [http://www.archive.org/iathreads/post-view.php?id=49553 Good News and an Apology: GD on the Internet Archive], ブリュースター・カールによるarchive.org内のフォーラムへの投稿 == 外部リンク == * [http://www.archive.org/index.php The Internet Archive] * [http://www.openlibrary.org/ The Open Library] * [http://www.petabox.org/ Petabox, a useful invention created in collaboration with the Internet Archive] * [http://web.archive.org/ Wayback Machine] * [http://www.archive.org/web/hardware.php Pictures and descriptions of the Wayback Machine hardware, with cost information] * [http://jnana.wikinerds.org/index.php/Form_990-PF_for_Internet_Archive_%282003%29 Form 990-PF for Internet Archive (2003)] * [http://www.archive-it.org Archive-It 1.5] * [http://warrick.cs.odu.edu/ Warrick] - ウェブサイトをインターネットアーカイブとサーチエンジンのキャッシュから復旧するためのツール * [http://www.openlibrary.org オープン・ライブラリ] === ミラーサイト === *[http://archive.bibalex.org/ International School of Information Science]([[新アレクサンドリア図書館]]にあるインターネットアーカイブ) {{DEFAULTSORT:いんたねつとあかいふ}} [[Category:ウェブサイト]] [[Category:電子図書館]] [[Category:電子書物]] [[Category:インターネットの文化]] [[Category:著作権侵害]]