関連研究その3
松原靖子2007, 情処研究報告 2007-DBS-143 2007/7/2
ユーザのスケジュール情報とPC内データ間の相関関係を利用したデスクトップ検索システムの開発
1. 研究の背景と目的
現在の主な参照方法:ファイルの保存場所、名前、作成日時による検索→不十分
本研究では、スケジュール帳上の行動データとファイル間の時間的相関関係による検索
2. 相関関係を利用したデータ検索手法
例:「去年の旅行で撮影した写真」「このファイル作成時に閲覧していたWeb頁」
本システムの相関抽出:時間、内容、キーワード類似
3. システム構成
・定期的処理部:検索用インデックス作成
・ユーザ質問応答部:クエリを元に関連データを検索・提示
・事前知識カスタマイズ部:ユーザの選好度に合わせた相関抽出 ← 事前知識の設定
- イベントデータテンプレート:場所、時間、キーワード→イベント種別の判定
- データ間関連確率パターン:データ性質xデータ性質→関連性の確率
4. 定期的処理部
ポイント:扱うデータの種別、管理・利用の方法
4.1 データの収集
・ファイル利用履歴(ファイル名+保存場所+更新日時)
・ユーザのスケジュール(題名、日時、場所、メモ)←GoogleCalendar
・Web検索履歴(検索キーワード記入履歴、Web閲覧履歴)
4.2 イベントの種類判定
例:旅行、授業、会議、ゼミ
スケジュールデータとイベントデータテンプレートとの類似度から、イベント種類を自動判定
4.3 インデックスの作成
・timeインデックス:各データの時間的情報を蓄積→同時期利用データの抽出
・data-typeインデックス:各データの種類別→類似データの抽出
・keywordインデックス:ファイル名、スケジュールデータに含まれるキーワードの抽出
5. ユーザ質問応答部
5.1 ユーザ質問処理
データ参照のきっかけのクエリ:中心イベント、関係の種類(時間、内容、キーワード)
中心データー関係の種類ー関連データ
ダミー事象:誤りを含むクエリ→類似事象を検索し、処理可
5.2 相関関係データの抽出処理
応答部の最重要パート。
関連度合ースコア算出処理
・時間的関連:完全一致をピークとする正規分布
・内容的関連:拡張子の一致、イベント種類(時間、記述内容)の比較
・キーワード関連:データ間の単語一致数
スコア補正:カスタマイズ情報のデータ間関連確率パターン情報による補正
(イベントと拡張子間の関連確率など)
5.3 各データ間相関関係の可視化表示
データ間の相関→グラフ構造 データ間の距離、線の太さ
5.4 Web閲覧履歴検索処理
Web閲覧履歴:時間的関係のみ。 (文書解析などなし)
6.システム実行例
検索中心の入力ダイアログ → 検索関係の種類、関係の強さ → グラフ構造
Web閲覧履歴:クエリKW、閲覧URL
7.まとめ
実施:新しい検索手法。複数インデックス、イベント自動判定、事前知識による関連度補正
未解決:イベント種別増加、データ数の増加、使いやすさ、Webの内容解析、精度、UI
-
- -
コメント
良い点
・データ間の相関に着目して検索に応用する考え方が良い。
・図が多様されていて、論文のポイントが非常にわかりやすい。
・実際に稼働するシステムの試作ができているところ。
・データの提示方法が良い。
悪い点
・関連研究のサーベイがない。
・提案方式の有用性の評価がない。 今後にも触れられていない。
(どのように評価するべきかについて興味があり)