やじうまWatch
海外掲示板「Reddit」、Wayback Machineのクロールをブロックして騒ぎに。果たしてその原因は?
2025年8月13日 10:38
海外掲示板「Reddit」が、Internet ArchiveのWayback Machineのクロールをブロックしたことが大きな騒ぎになっている。
ブロックの原因は、一部のAI企業がWayback Machine経由でRedditからコンテンツをスクレイピングしていることが判明したため。Redditは収益化の一環として、GoogleおよびOpenAIにAIモデルの学習に役立てることを目的としたアクセス権の販売を行っており、そのために他のクローラーのアクセスを拒否している。これによって、通常の方法ではRedditをスクレイピングできなくなったAI企業が、Redditのデータを保存しているWayback Machineのデータに目を付け、スクレイピングを行っていたことが判明。Reddit側はこうしたクローラーによるインデックス作成をブロックすべく、Wayback Machineによるクロールをトップページだけに制限。階層の深い個別の掲示板ページにたどり着けないようにしたというのが、現在までの流れだ。Internet Archiveにとっては、とばっちり以外の何物でもないが、無断でスクレイピングを行っているAnthropicを訴えるなど強硬姿勢を崩していないRedditのこと、この問題はまだまだ尾を引きそうだ。
- Reddit will block the Internet Archive(The Verge)
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit - Reddit sues Anthropic, alleging its bots accessed Reddit more than 100,000 times(The Verge)
https://www.theverge.com/ai-artificial-intelligence/679768/reddit-sues-anthropic-alleging-its-bots-accessed-reddit-more-than-100000-times-since-last-july