ライブドアは15日、ソーシャルブックマークサービス「livedoor クリップ」で公開されているURLなどのデータを、学術目的として研究機関や法人機関の研究者・個人などにCSV形式で無償提供するサービス「EDGE Datasets(エッジ データセット)」を開始した。
「EDGE Datasets」は、実験サイト「livedoor ラボ『EDGE』」で公開する。データの利用は学術研究目的を前提とし、指定の問い合わせフォームからリクエストを行った個人に対して、ダウンロード用のURLとパスワードを返信する。2008年12月版のデータセットには約157万行のクリップのデータが入っている。
データセットは、3つ以上の公開クリップがついているページへのクリップで、3カ月以上前から存在する公開クリップとなる。スパマーやR18の除外などはしないが、書き出し時点ですでに削除されているデータは除外される。ファイルはUTF-8のCSV形式で提供する。なお、6カ月ごとに新しいCSVファイルを提供する。
ライブドアによれば、ソーシャルブックマークの研究を行うには、事業者のサイトを巡回してクロールする必要があるため手間がかかり、研究手段や範囲が大きく制限されていたという。「今回のデータセット公開により、同一時刻のブックマーク数のデータ比較が可能になるなど、初めてすべての研究者が同じ条件で実験や追試を行うことが可能となる。これは、研究者から要望が高かった、データの汎用性・再現性・更新性・ID秘匿性などの条件をクリアすることとなり、ソーシャルブックマーク研究の方法論と実績の確立に大きく貢献できる」としている。
【追記 17:30】
「EDGE Datasets」のサイトでは、美少女ゲーム風の萌えキャラが描かれており、「べ、べつにアンタの論文が心配なんじゃないんだから!」など、いわゆる“ツンデレ”のセリフまで付けられている。これについてライブドアは、「年末に発表した『シシンデラ』からデザインに凝ったページにしている。今回もどのようなデザインにしようかと考えていたところ、エンジニアからツンデレな感じが良いかもという意見が挙がった」と説明。キャラクターには名前も設定されており、「緑の髪が『ディタ』、赤い髪が『セト』で、2人合せてデータセット」だという。
|
EDGE Datasets
|
関連情報
■URL
ニュースリリース
http://corp.livedoor.com/pressrelease/2009/01/0115-01.html
EDGE Datasets
http://labs.edge.jp/datasets/
■関連記事
・ ライブドア、レコメンデーションエンジンのソースコード公開(2008/12/25)
・ 「livedoor クリップ」に新機能、はてなブックマークとの連携など(2007/11/22)
( 野津 誠 )
2009/01/15 14:12
- ページの先頭へ-
|