ニュース

米国インターネットアーカイブの目指すこと――その理念、著作権という現実、AIとの関係

創設者ブリュースター・ケール氏が日本市場に向けて講演

 米国インターネットアーカイブ(Internet Archive)の創設者、ブリュースター・ケール氏が3月25日、日本市場向けのプレゼンテーションをオンラインで行った。近年、インターネットアーカイブの活動は日本であまり大きく取り上げられる機会はなかったが、今回はブリュースター・ケール氏自身がインターネットアーカイブの活動をプレゼンテーションし、さらに質問に答える機会となった。

 こうしたイベントの背景としては、日本からの賛同者を増やし、インターネットアーカイブの運営を続けていくうえでの資金を寄付によって募るという意図がある。

 また、今回のオンラインイベントは「Romancer」や「理想書店」などのデジタルパブリッシングソリューションを手掛ける株式会社ボイジャーがホストしている。

あらためて「インターネットアーカイブ」とは

 インターネットアーカイブは1996年に設立された非営利団体である。ウェブを随時クロールして、その時点でのHTMLファイル(スナップショット)を収集し、時系列に保存をする「ウェイバックマシン(Wayback Machine)」でも知られる。現在、ウェイバックマシンはウェブページとしても提供されているが、ウェブブラウザーにプラグインを入れておくことで、URLがデッドリンクになっていても、過去のページを参照できる機能としても提供されている。

 ウェブページ以外でも、ソフトウェア、映画、本、録音データなどのデジタル化された素材を収集していて、これらの資料を無償で公開している。保持しているコンテンツは次のような規模である。

  • ウェブページ:735億ページ
  • 書籍・教科書:4100万冊
  • 音声記録:1470万件(24万件のライブコンサート含む)
  • ビデオ:840万本(うちテレビニュース番組240万本)
  • 画像:440万枚
  • ソフトウェアプログラム:89万

 他のメディア、例えば新聞や放送ではそれを保存していることが多いのにも関わらず、ウェブページは時間とともにただただ消滅をしてしまう。誰もそれを保存していない。こうした問題意識から、インターネットアーカイブを開始したという。

 2011年5月には、東日本大震災を受け、国立国会図書館とともに「東日本大震災関連サイトのデジタルアーカイブ」の作成を推進していくと発表している。これは主に「民間・個人ウェブサイト」を収集することを目的としているという。商業メディア以外でも、さまざまな形態の情報が配信されたことは記憶に新しい。こうした情報、コンテンツは後世に残す意味は大きい。

その理念

 ブリュースター・ケール氏はThinking Machines社からキャリアをスタートし、ここでWAISシステムを考案し、のちにAOL社に売却した。さらに、ウェブサイトのアクセス数などをランキングするサービスのAlexa Internet社を設立したが、こちらはAmazon.comに売却している。現在、多くの人が知っている音声スマートアシスタントの名称はこの事業買収によって得た商標からきているが、そもそもは別のサービスだ。こうした事業の売却益を元手としてインターネットアーカイブは設立されている。

米国インターネットアーカイブ(Internet Archive)の創設者ブリュースター・ケール氏

 そして、2012年には「インターネットの世界的な成長と利用に多大な貢献」が認められ、インターネットソサエティ(ISOC)が与える「インターネットの殿堂」入りも果たした。

 ブリュースター・ケール氏の理念は一貫している。「インターネットサイトやその他の文化的遺物をデジタル形式で集めたデジタルライブラリーを構築することで、紙の図書館のように、研究者、歴史家、学者、印刷障害のある人、そして一般の人々に無料でアクセスできるようにしている。私たちの使命は『すべての知識への普遍的なアクセス』を提供することだ」(About the Internet Archive)ということだ。

 例えば「ウィキペディア」で情報を検索した場合、その根拠となった文献へのリンクが多数紹介されているが、その多くがデッドリンクになっていることに気付いている人も多いに違いない。このように、ウェブページは簡単に失われてしまう。リンクが失われるということは、より長期的な観点で見ると、情報の価値そのものが損なわれることにつながる。確かに事実に基づいていたにも関わらず、リンクが失われることで、その裏付けが失われることになる。また、デジタル化されていない情報ソース示されても、内容を参照するという意味での「リンク」としての役割が弱い。

著作権という現実

 ウェブページをクロールして検索できるようにするということはGoogleでも行われているが、過去のものまで時系列で記録するというアプローチが異なる。これは、コンテンツを掲出し公開した人からすると、何らかの事情で取り下げたはずのコンテンツが取り下げられずに記録として残り続けるという意味でもある。

 また、当然ながら、インターネットアーカイブの活動の前には著作権という壁がある。例えば、このプレゼンテーションと同日に出た「デジタル書籍を無料で公開したこと」に対する、大手出版社連合(Hachette Book Group、HarperCollins社、Wiley社、Penguin Random House社)が著作権侵害で訴えていた裁判の判決だ。第一審となる地方裁判所では出版社に有利な判決を下したことが報じられている。

 インターネットアーカイブは、デジタル書籍をオンラインで貸し出す活動を続けてきている。ただし、借りられるのは1冊あたり同時には1人だけで、誰かが借りているときには「返却」されるまでは借りることができない制度だ。しかし、新型コロナウイルス感染症の流行がピークだったとき、ステイホームによって図書館に行くことができない人が増えたことから、そして需要が高まったことから、インターネットアーカイブはこの制限を緩和し、1人10冊まで借りられるようにした。

 一方の原告である出版社は「原告の許可なく印刷物をスキャンし、デジタルコピーをウェブサイトの利用者に貸し出すことにより、127冊の書籍に関する著作権を侵害した」と主張をしていた。

 インターネットアーカイブ側の主張は「フェアユースの原則によって免責されている」というものだった。判決を受け、インターネットアーカイブは「図書館・読者・著者にとって打撃であること、民主主義の国際的繁栄のため本の所有・保存・貸出といった歴史的役割を図書館が維持できるようにするべきであること」とし、上訴するとしている。

  • インターネットアーカイブが電子書籍の著作権を巡る大手出版社との著作権訴訟の一審で敗訴(Gigazine

 とりわけ米国では公共図書館へのアクセスは、民主主義を維持するうえで情報を公平に得るための手段を確保するという基本的な人権として考えられている傾向があり、日本の公共図書館とは、少々異なって捉えられているところがある。これまでも公共図書館では必要な数のライセンスを然るべく購入するなどしているが、それが財政的な負担になっている館もあると聞く。

 この裁判については今回もプレゼンテーションのあとにオーディエンスからの質問が出た。係争中でもあると思われるが、ブリュースター・ケール氏の回答は「著作権は尊重する立場から慎重に対応をする」ということだ。

AIとの関係

 理念である「すべての知識への普遍的なアクセス」というと、最近、大きな技術的な進展があったAIとの関係が気になるところだ。これについて、ブリュースター・ケール氏は、AIによって出力される回答の質、真偽について大きな課題となっているが、それはどのような情報を学習したかによるかだとし、ライブラリーにある情報は質が高いことが担保されていて、それがAIという技術によって学習される意味はあるという認識を示した。ただし、具体的なインターネットアーカイブの活動については述べていない。

 一般的に考えれば、これだけのデジタル化されたコンテンツがあれば、AIにとっては重要な教師データになり、その出力の質も向上することが期待される。

デジタル化とアーカイブ

 著作権とデジタルアーカイブの関係は常に議論となり、理念と現実がぶつかり合う。「すべての知識への普遍的なアクセス」は、かつてGoogleも掲げた理念だが、実際には理解されなかった。あるいは理解はされたとしても、それによって失われる可能性がある将来の利益への懸念が勝っているということかもしれない。

 そしていま、一次情報がデジタル化されることだけでなく、生成型AIが登場し、その普及が見込まれてきたことによって、デジタル化されているコンテンツをもとにした再生産も始まっている。

 人類はここで何らかの抜本的な解決策を発明しないと、人類の知的活動の記録が将来的に失われることになりかねない。