関連研究その１ - nieghの日記

中本レン2007,情報処理学会　研究報告 2007-DBS-143,2007/7/2

タグ情報を利用したコンテキスト依存型協調フィルタリングに基づくWeb情報推薦

概要
　オンライン検索推奨システムは、CFによる推薦か、KWによる検索か、ソーシャルタギングに限定されている。
　本稿のシステムはCFとTaggingの両方の特性を併せ持つ。
　ユーザテストに基づき、KW検索やCF推薦に比べ良好な結果を得た。

1. Introduction
　人により評価が分かれる主観的情報はアルゴリズムでの評価は困難。→人による評価→ CFの研究開発の成功。
　CFの欠点は今ユーザが興味をもっている理由を考慮しない点である。関係性の時期や理由を知らない。
　同様に、taggingシステムも大衆を情報の評価や説明のために使う。だが、パーソナルな推薦はできない。
　この２つのシステムの利点を組み合わせたTCCFを提案している。CFによってパーソナルな推薦を、
　タグによって、コンテキストを提供する。
　本稿では、CF、tag、tagフィルタ付CFとの比較実験を行い、正確性とユーザの印象の両面でTCCFが最良で
　あったことを示す。

2. Related Work
2.1 Collaborative Filtering Systems
　CFは、関連がないか重要でない情報から、関連があるか重要な情報を選び出す(sort out)ために、ユーザの
　コミュニティが使われる。類似ユーザの好む他のアイテムも好まれるはずというアイディアに基づいている。
　いったん十分な量の評価テーブルが埋まると、そのユーザと他のユーザの間の評価の類似性が計算される。
　これを使うと、（他ユーザの評価値ｘ類似性で）評価値が予測でき、推薦ができる。
　しかし、評価値だけでは、好きか嫌いかだけで、なぜ好きかが表せない。
　すると、ドメインが大きいと、ユーザも多様な興味をもつのでマッチングが困難になる。しかも、
　興味ある全てのトピックを見れるわけでもない。

2.2 Social Tagging Systems
　Taggingはよく見かける。他の表現はメタデータとかカテゴライズ、ラベルなど。
　自然言語が付与される。　ボキャブラリは制御されず、適当な語句をユーザ自信で決める。
　Taggingの主な目的は検索で自分で再度見るために使ったり、他のユーザが新しいリソースを発見するために
　使われる。近年、SocialTaggingSystemsにより、再注目され、応用範囲も広がっている。
　それらは、ソーシャルネットの側面に注力していて、ユーザプロファイルのマッチングや推薦はまだこれから。
　Tagはコンテキストでのきっかけを提供する。
　Tagはいろいろな意図で使われる。例：犬の写真に：犬、動物、かわいい。
　→CFにmissing-linkを提供するのでは。＝５W1H、コンテキスト

3. TCCF Website Recommendation System
　主たるアイディア：CFでパーソナル推薦、Tagで参照時のコンテキストを提供する。
　コンテキスト：1)気に入った理由why　2)ユーザの状況(何に興味をもったか) 　←　TCCFを作った仮説
　良い推薦ーユーザの状況を考慮すること。
　ブックマーク→かなり気に入っている。　タグは従来のCFとの主要な区別。タグ＝コンテキスト
　著者らのブックマークシステム：
　・タグをつけてブックマークする。（図１）
　・タグで検索することでブックマークを検索できる。

3.1 TCCF User Similarity Model
　ユーザ類似度モデルは、　ブックマークサイト　＋　ブックマークに使われたタグ　の共通性。
　式１：sim_ccf(A,B) = 1/2n*Σ^n_k=1 {sim(T_A→k, T_B→k)+1}
　・sim(T_A→k, T_B→k)は、同じウェブサイトをブックマークしたタグベクトルのコサイン距離。
　・＋１は、同じサイトをブックマークしていることの加算。

3.2 TCCF Score Prediction Model
　式２：score(A,x) = 1/2Σ^n_k=1{sim_ccf(A,S_k)*(max(sim(T_S_k→1〜m, T_S_k→x))+1)} / {Σ^n_k=1 sim_ccf(A,S_k)}
　・Website x : 推薦候補集合(類似ユーザがブックマークしている全サイト)の１つ
　・S_k : 類似ユーザｋ
　・max() ：サイトｘに最も一致しているサイトとのTagベクタコサイン距離　
　・sim(T_S_k→j, T_S_k→x)：AとS_kが共通にブックマークしているサイトjのTagベクタと、サイトxのTagベクタのコサイン距離
　例）BとCは似ている。　Bがブックマークしている１と２が候補になる。2はTagベクタ(bush)がコモンサイト3と共通なので、１より
　　優先順位が高くなる。

3.3 System Design
　ディレクトリ構造ではなく、Tagでブックマーク。
　自分自身にサイトを説明するためのTagでのブックマーク。同じTagで検索。
　システム内の(他人の)全ブックマークをサーチして発見。　Firefoxのプラグイン。

4. User Testing
　メインゴール：TCCFと確立されたアルゴリズムとの効果測定
　さらには、推薦時のコンテキストの重要性を強調しておきたい。
　このシステムはPullベースなので、今興味のあるトピックだけをリクエストする。5つの推薦結果をTagサーチ結果の下部に示した。
　比較対象
　・CF：　ブックマークの共通数に基づくユーザ類似度。　ユーザ類似度ｘ評価値→スコア。
　・Tag：人気ベースの検索と同じ。　ブックーマークしているユーザ数→スコア
　・TagCF：CFの結果をTagでフィルタリングする
　・TCCF：３節に記載の方法
　のべ９人のテスト参加者

4.1 Test Procedure
　自分のユーザプロファイルとして、２０以上のブックマークを提供する。
　４つの推奨方法はランダムに選ばれ、１つづつテストされる。
　(1)好きなタグを１０以上選ぶ。
　(2)選択タグの１つづつに対しシステムが５つの推薦を行う。
　(3)タグの意味するコンテキストで有用なサイトならYESボタンを、だめならNoボタンを押す。
　(4)最後にその方式についてサーベイ評価をする。

4.2 Testing Results
4.2.1 Does TCCF give effective recommendations ?　→　YES
　(1)推薦は有用か (2)タグのコンテキストにあうか
　各方式の正確さ（Yesの個数/5）　→　（図３）

4.2.2 Does TCCF increase user satisfaction ?　→　YES
　コンテキストが考慮されたとき、的を得た推奨がされることを示した。
　正確さの結果ほどではないが、TCCFがトップであった。

4.2.3 Results Discussion
　TCCFはコンテキストを考慮したとき、ベターな推薦を提供する。
　CFはパーソナライゼーションはできるが、Tagの変化に適応できない。
　Tagはコンテキストに対応できるが、パーソナライゼーションできない。
　TagCFは、ユーザが気に入った理由を考慮できない。（★補足：CFの類似度計算の際、コンテキストを考慮していない）
　概して、コンテキストはパーソナライゼーションと同じぐらい重要である。

5. Conclusions and Future Work
　TCCFに基づくブックマークシステムを作り、テストで有用と示した。
　コンテキストの考慮は、パーソナライゼーションと同様に非常に重要である。
　今後、
　・推奨する評価値の閾値 →　正確な推奨に重要
　・CFとタグの重みのバランスの最適値を求めるための実験を計画している。（現在は同等においている）
　・タグベクトルの比較を助けるため、自然言語処理を試したい。
　・ユーザビリティテスト
　・継続利用でどうか？

- - - -

コメント
良い点
・比較対象の方法について、きちんとした説明がなされていること。
・今後の検討がリーズナブルなこと。
・TagCFを比較対象に入れていること。　それとの差異に言及していること。
・どのような評価実験を実施したのかが明確であること。

悪い点
・評価設計が悪い。
　コンテキストに沿っているか質問すれば、Tagを用いないCFに比べ必ず結果が良くなる。
　そのテストの後、満足度を聞けばそれにつられるのは当然。
・TagCFとの差異についての言及が不足していること。