関連研究その3

松原靖子2007, 情処研究報告 2007-DBS-143 2007/7/2

ユーザのスケジュール情報とPC内データ間の相関関係を利用したデスクトップ検索システムの開発

1. 研究の背景と目的
 現在の主な参照方法:ファイルの保存場所、名前、作成日時による検索→不十分
 本研究では、スケジュール帳上の行動データとファイル間の時間的相関関係による検索

2. 相関関係を利用したデータ検索手法
 例:「去年の旅行で撮影した写真」「このファイル作成時に閲覧していたWeb頁」
 本システムの相関抽出:時間、内容、キーワード類似

3. システム構成
 ・定期的処理部:検索用インデックス作成
 ・ユーザ質問応答部:クエリを元に関連データを検索・提示
 ・事前知識カスタマイズ部:ユーザの選好度に合わせた相関抽出 ← 事前知識の設定
  - イベントデータテンプレート:場所、時間、キーワード→イベント種別の判定
  - データ間関連確率パターン:データ性質xデータ性質→関連性の確率

4. 定期的処理部
 ポイント:扱うデータの種別、管理・利用の方法

4.1 データの収集
 ・ファイル利用履歴(ファイル名+保存場所+更新日時)
 ・ユーザのスケジュール(題名、日時、場所、メモ)←GoogleCalendar
 ・Web検索履歴(検索キーワード記入履歴、Web閲覧履歴)

4.2 イベントの種類判定
 例:旅行、授業、会議、ゼミ
 スケジュールデータとイベントデータテンプレートとの類似度から、イベント種類を自動判定

4.3 インデックスの作成
 ・timeインデックス:各データの時間的情報を蓄積→同時期利用データの抽出
 ・data-typeインデックス:各データの種類別→類似データの抽出
 ・keywordインデックス:ファイル名、スケジュールデータに含まれるキーワードの抽出

5. ユーザ質問応答部
5.1 ユーザ質問処理
 データ参照のきっかけのクエリ:中心イベント、関係の種類(時間、内容、キーワード)
  中心データー関係の種類ー関連データ
 ダミー事象:誤りを含むクエリ→類似事象を検索し、処理可

5.2 相関関係データの抽出処理
 応答部の最重要パート。
 関連度合ースコア算出処理
 ・時間的関連:完全一致をピークとする正規分布
 ・内容的関連:拡張子の一致、イベント種類(時間、記述内容)の比較
 ・キーワード関連:データ間の単語一致数
 スコア補正:カスタマイズ情報のデータ間関連確率パターン情報による補正
 (イベントと拡張子間の関連確率など)

5.3 各データ間相関関係の可視化表示
 データ間の相関→グラフ構造 データ間の距離、線の太さ

5.4 Web閲覧履歴検索処理
 Web閲覧履歴:時間的関係のみ。 (文書解析などなし)

6.システム実行例
 検索中心の入力ダイアログ → 検索関係の種類、関係の強さ → グラフ構造
 Web閲覧履歴:クエリKW、閲覧URL

7.まとめ
 実施:新しい検索手法。複数インデックス、イベント自動判定、事前知識による関連度補正
 未解決:イベント種別増加、データ数の増加、使いやすさ、Webの内容解析、精度、UI

    • -

コメント
良い点
・データ間の相関に着目して検索に応用する考え方が良い。
・図が多様されていて、論文のポイントが非常にわかりやすい。
・実際に稼働するシステムの試作ができているところ。
・データの提示方法が良い。

悪い点
・関連研究のサーベイがない。
・提案方式の有用性の評価がない。 今後にも触れられていない。
 (どのように評価するべきかについて興味があり)