(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6374771
(24)【登録日】2018年7月27日
(45)【発行日】2018年8月15日
(54)【発明の名称】ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法
(51)【国際特許分類】
G06F 17/30 20060101AFI20180806BHJP
G10L 15/00 20130101ALI20180806BHJP
【FI】
G06F17/30 350C
G06F17/30 170A
G06F17/30 210D
G10L15/00 200T
【請求項の数】9
【全頁数】11
(21)【出願番号】特願2014-234174(P2014-234174)
(22)【出願日】2014年11月19日
(65)【公開番号】特開2016-99694(P2016-99694A)
(43)【公開日】2016年5月30日
【審査請求日】2017年8月12日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】服部 元
(72)【発明者】
【氏名】滝嶋 康弘
【審査官】
樋口 龍弥
(56)【参考文献】
【文献】
特開2014−002653(JP,A)
【文献】
特開2004−110524(JP,A)
【文献】
特開2014−146066(JP,A)
【文献】
特開2008−009552(JP,A)
【文献】
特開2008−146461(JP,A)
【文献】
米国特許出願公開第2014/0129220(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
テキストを含む複数のレコードを蓄積したレコード蓄積手段から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索する検索装置であって、
前記レコードには、記録日時が付与されており、
前記レコード蓄積手段を用いて、複数のレコードを、所定数のカテゴリに分類するカテゴリ分類手段と、
前記レコード蓄積手段を用いて、前記クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する類似レコード検索手段と、
検索された前記レコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する曖昧度算出手段と、
前記クエリテキストに対して、検索結果として、前記曖昧度が高いレコードから順に出力する検索結果出力手段と
を有することを特徴とする検索装置。
【請求項2】
前記レコード蓄積手段は、レコード毎に、前記曖昧度算出手段を用いて算出された曖昧度を対応付けて蓄積する
ことを特徴とする請求項1に記載の検索装置。
【請求項3】
マイクによって取得された音声データをテキストに変換し、該テキストを所定時間以上の無音区間毎に区分したレコードを生成し、該レコードを前記レコード蓄積手段に記憶する音声認識手段を更に有することを特徴とする請求項1又は2に記載の検索装置。
【請求項4】
前記マイク及び前記音声認識手段は、常時起動されたものであって、ユーザの日常的な会話におけるログとしての音声データを常時収集し、前記レコード蓄積手段に蓄積する
ことを特徴とする請求項3に記載の検索装置。
【請求項5】
前記カテゴリ分類手段は、教師無し分類アルゴリズムを用いて、複数のレコードを各カテゴリに属するように分類することを特徴とする請求項1から4のいずれか1項に記載の検索装置。
【請求項6】
前記カテゴリ分類手段は、新規レコードとして新規テキストが取得される毎に、当該新規テキストと各カテゴリに属するレコードのテキストとを比較し、当該新規テキストをいずれか1つのカテゴリに属するように分類する
ことを特徴とする請求項1から5のいずれか1項に記載の検索装置。
【請求項7】
前記レコード蓄積手段に対して、曖昧度が所定値以上又は以下となるレコードを削除する
ことを特徴とする請求項1から6のいずれか1項に記載の検索装置。
【請求項8】
テキストを含む複数のレコードを蓄積したレコード蓄積手段から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索するように、装置に搭載されたコンピュータを機能させる検索プログラムであって、
前記レコードには、記録日時が付与されており、
前記レコード蓄積手段を用いて、複数のレコードを、所定数のカテゴリに分類するカテゴリ分類手段と、
前記レコード蓄積手段を用いて、前記クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する類似レコード検索手段と、
検索された前記レコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する曖昧度算出手段と、
前記クエリテキストに対して、検索結果として、前記曖昧度が高いレコードから順に出力する検索結果出力手段と
してコンピュータを機能させることを特徴とする検索プログラム。
【請求項9】
テキストを含む複数のレコードを蓄積したレコード蓄積部から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索する装置の検索方法であって、
前記レコードには、記録日時が付与されており、
前記レコード蓄積部を用いて、複数のレコードを、所定数のカテゴリに分類する第1のステップと、
前記レコード蓄積部を用いて、前記クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する第2のステップと、
検索された前記レコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する第3のステップと、
前記クエリテキストに対して、検索結果として、前記曖昧度が高いレコードから順に出力する第4のステップと
を有することを特徴とする検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが過去に発声又は記述したレコード(音声データ又はテキスト)を検索する技術に関する。
【背景技術】
【0002】
従来、会話を常時録音する装置について、会話の開始時刻及び終了時刻を検索キーとして、録音済みの音声データから任意の時間の会話を抽出する技術がある(例えば特許文献1参照)。この技術によれば、使用記憶容量を最小限に抑えるものであるが、記憶すべき音声データに基づく会話の開始時刻は、人手で指定する必要があり、音声データが多くなるほど、人手がかかることとなる。
【0003】
また、留守番電話機の録音機能について、音声メッセージからの感情の度合いを認識し、その感情の度合いに基づいて、音声メッセージに重要度(優先度)を割り当てる技術もある(例えば特許文献2参照)。ユーザは、優先度が高い音声メッセージほど、再生順を早くすることができる。この技術によれば、1区切りで録音された音声データに対し、自動的に優先度が割り当てられる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−114898号公報
【特許文献2】特開2007−49657号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の発明者らは、従来に無い新たな課題(サービス)として「ユーザにとって曖昧な記憶を検索することはできないか?」と考えた。例えば、ユーザに提供可能な以下のようなケースを想定した。
(例1)旅行の記憶を思い出すケース
旅行の話が多くなった場合、結果としてどの旅行の思い出だったのか、記憶が曖昧になる。例えば「すごくいい景色の部屋に泊まった旅館の思い出は、どの旅行だったか?」「きれいな富士山が見られたのは何年前の旅行だったか?」のようなケースがある。
(例2)仕事での会話を思い出すケース
受付業務や営業など、連続してほぼ同様の作業をしているために、誰にどのような会話をしたのか、記憶が曖昧になる。例えば「お客様の趣味や仕事内容を数日後にまた聞いてしまう」のようなケースがある。
【0006】
ユーザの記憶が曖昧となるレコードには、以下のような特徴がある。
(1)類似した多くの経験がある
(2)現在日時から見て遠い過去である
【0007】
そこで、本発明は、従来に無い新たなサービスとして、ユーザの記憶が曖昧なレコード(音声データ又はテキスト)を検索することができる検索装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明によれば、テキストを含む複数のレコードを蓄積したレコード蓄積手段から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索する検索装置であって、
レコードには、記録日時が付与されており、
レコード蓄積手段を用いて、複数のレコードを、所定数のカテゴリに分類するカテゴリ分類手段と、
レコード蓄積手段を用いて、クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する類似レコード検索手段と、
検索されたレコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する曖昧度算出手段と、
クエリテキストに対して、検索結果として、曖昧度が高いレコードから順に出力する検索結果出力手段と
を有することを特徴とする。
【0009】
本発明の検索装置における他の実施形態によれば、
レコード蓄積手段は、レコード毎に、曖昧度算出手段を用いて算出された曖昧度を対応付けて蓄積することも好ましい。
【0010】
本発明の検索装置における他の実施形態によれば、
マイクによって取得された音声データをテキストに変換し、該テキストを所定時間以上の無音区間毎に区分したレコードを生成し、該レコードをレコード蓄積手段に記憶する音声認識手段を更に有することも好ましい。
【0011】
本発明の検索装置における他の実施形態によれば、
マイク及び音声認識手段は、常時起動されたものであって、ユーザの日常的な会話におけるログとしての音声データを常時収集し、レコード蓄積手段に蓄積する
ことも好ましい。
【0012】
本発明の検索装置における他の実施形態によれば、
カテゴリ分類手段は、教師無し分類アルゴリズムを用いて、複数のレコードを各カテゴリに属するように分類することも好ましい。
【0013】
本発明の検索装置における他の実施形態によれば、
カテゴリ分類手段は、新規レコードとして新規テキストが取得される毎に、当該新規テキストと各カテゴリに属するレコードのテキストとを比較し、当該新規テキストをいずれか1つのカテゴリに属するように分類することも好ましい。
【0014】
本発明の検索装置における他の実施形態によれば、
レコード蓄積手段に対して、曖昧度が所定値以上又は以下となるレコードを削除することも好ましい。
【0015】
本発明によれば、テキストを含む複数のレコードを蓄積したレコード蓄積手段から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索するように、装置に搭載されたコンピュータを機能させる検索プログラムであって、
レコードには、記録日時が付与されており、
レコード蓄積手段を用いて、複数のレコードを、所定数のカテゴリに分類するカテゴリ分類手段と、
レコード蓄積手段を用いて、クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する類似レコード検索手段と、
検索されたレコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する曖昧度算出手段と、
クエリテキストに対して、検索結果として、曖昧度が高いレコードから順に出力する検索結果出力手段と
してコンピュータを機能させることを特徴とする。
【0016】
本発明によれば、テキストを含む複数のレコードを蓄積したレコード蓄積部から、クエリテキストに対してユーザの記憶が曖昧と推定されるレコードを検索する装置の検索方法であって、
レコードには、記録日時が付与されており、
レコード蓄積部を用いて、複数のレコードを、所定数のカテゴリに分類する第1のステップと、
レコード蓄積部を用いて、クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する第2のステップと、
検索されたレコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する第3のステップと、
クエリテキストに対して、検索結果として、曖昧度が高いレコードから順に出力する第4のステップと
を有することを特徴とする。
【発明の効果】
【0017】
本発明の検索装置、プログラム及び方法によれば、ユーザの記憶が曖昧なレコードを検索することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明における検索装置の機能構成図である。
【
図2】本発明におけるカテゴリ分類及び曖昧度算出を表す説明図である。
【
図3】本発明における類似レコード検索及び検索結果出力を表す説明図である。
【
図4】本発明における端末及び検索サーバからなるシステム構成図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0020】
図1は、本発明における検索装置の機能構成図である。
【0021】
図1の検索装置1は、過去の事象としてのクエリテキストを入力し、ユーザの記憶が曖昧と推定されるレコード(音声データ又はテキスト)を検索するものである。検索対象となるレコードは、ユーザの発声又は記述したログであって、生活全般の中で常時収集されたものである。検索装置1は、ユーザからのログを取得するべく、ユーザによって常時所持されるスマートフォンやウェアラブルデバイスのような端末に実装される。
【0022】
図1によれば、端末1は、ハードウェアとして、マイク部101と、タッチパネルディスプレイ102と、スピーカ部103とを有する。マイク部101は、ユーザの音声を常時収集するためのものであって、例えばピンマイクのようなデバイスである。タッチパネルディスプレイ102は、ユーザからクエリテキストを入力し、検索結果を表示するユーザインタフェースである。スピーカ部103は、検索結果としての音声データを再生する。タッチパネルディスプレイ102に表示されたキャラクタからの声が、スピーカ部103から発声されることによって、ユーザは、検索結果をキャラクタエージェントが回答しているように認識することができる。
【0023】
また、
図1によれば、端末1は、音声蓄積部11と、音声認識部12と、レコード蓄積部13と、カテゴリ分類部14と、曖昧度算出部15と、類似レコード検索部16と、検索結果出力部17とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。
【0024】
[音声蓄積部11]
音声蓄積部11は、マイク部101によって取得された音声データを蓄積する。ここで、音声データの記録単位は、レコード蓄積部13に蓄積されたレコードと対応付けて記憶される。即ち、検索結果としてのレコードと、音声データとが対応付けられている。
【0025】
[音声認識部12]
音声認識部12は、マイク部101によって取得された音声データをテキストに変換する。ここで、テキストとは、所定時間以上の無音区間毎に区分したレコード毎に生成されたものである。例えば、無音区間がn秒(例えば100秒)以上継続した場合に、テキストをレコードとして区切るものであってもよい。また、話者認識技術を用いて、当該端末1を所持するユーザのみの発話が、所定の無音区間継続した場合に、レコードとして区切るものであってもよい。
【0026】
マイク部101及び音声認識部12は、常時起動されたものであって、ユーザの日常的な会話ログとしての音声データを常時収集し、レコード蓄積部13へ出力するものであってもよい。
【0027】
[レコード蓄積部13]
レコード蓄積部13は、テキストを含む複数のレコードを蓄積する。本発明によれば、レコード(テキスト)毎に、「記録日時」及び「曖昧度」がを対応付けて蓄積されている。レコード蓄積部13は、音声認識部12から出力されたテキスト(会話ログ)のみならず、タッチパネルディスプレイ102から入力されたテキスト(筆談ログ)も、蓄積することが好ましい。
【0028】
図2は、本発明におけるカテゴリ分類及び曖昧度算出を表す説明図である。
【0029】
[カテゴリ分類部14]
カテゴリ分類部14は、レコード蓄積部13に蓄積された多数のレコードを、所定数のカテゴリに分類する(
図2のカテゴリ分類部14参照)。この分類には、「教師無し分類アルゴリズム」を用いたものであってもよい。例えば、LDA(Latent Dirichlet allocation)や、SVM(Support Vector Machine)を用いることができる。
【0030】
「LDA」とは、各レコードを、各トピックグループに属する確からしさ(トピック比率)を算出し、トピックグループに分類する技術をいう。トピック分類は、レコード(テキスト)を解析するために、bag-of-wordsで表現された文書生成過程を、確率的にモデル化したものである。LDAは、単語文書行列を次元圧縮する技術(LSI(latent Semantic Indexin))に対して、単語の特徴ベクトルに揺らぎに基づく確率的な枠組みを導入したものである。その圧縮した次元の集合をトピックという。
【0031】
「SVM」とは、パターン認識に適用されるものであって、線形入力素子を用いて2クラスのパターン識別器を構成し、学習サンプルを用いて各特徴値との距離を算出することによって、線形入力素子のパラメータを学習する。サポートベクタマシンの識別エンジンは、抽出された複数の学習特徴量を教師データとして学習する。対象特徴量(新たに入力されたログのテキストの特徴量)が、特定カテゴリの学習特徴量(当該カテゴリの特徴量)に属するか否かを判定する。サポートベクタマシンの識別エンジンによれば、明確なルールを生成せず、外見上ブラックボックスであるが、特定カテゴリ毎の学習特徴量をサポートベクトルとして生成する。
【0032】
カテゴリ分類部14は、例えば以下のタイミングで、レコード蓄積部13に対してカテゴリを分類する。
(1)所定期間毎(例えば1時間毎や2週間毎)
(2)所定数(例えば100件)以上のレコードが、レコード蓄積部13に蓄積される毎
そして、レコード毎に、割り当てられたカテゴリID(IDentifier)が付与される。例えば300個のカテゴリに分類した場合、カテゴリIDは1〜300の数値となる。
【0033】
[曖昧度算出部15]
曖昧度算出部15は、検索されたレコード毎に、当該レコードが分類されるカテゴリに含まれるレコード数と、当該レコードの記録日時から現在日時までの時間差とを乗算した曖昧度を算出する(
図2の曖昧度算出部15参照)。
曖昧度=カテゴリのレコード数×(現在日時―記録日時)
【0034】
曖昧度は、例えば以下のように算出される。
カテゴリのレコード数=100個
現在日時−記録日時=24,000時間
曖昧度=100×24,000=2,400,000
この場合、カテゴリのレコード数が多いほど、曖昧度は高くなり、レコードの記録が過去に遠いほど、曖昧度は高くなる。
【0035】
図3は、本発明における類似レコード検索及び検索結果出力を表す説明図である。
【0036】
[類似レコード検索部16]
類似レコード検索部16は、レコード蓄積部13を用いて、クエリテキストと比較して、テキスト的に所定条件以上で類似するレコードを検索する(
図3の類似レコード検索部16参照)。
【0037】
クエリテキストとレコードテキストとの間の類似度は、例えば両テキストの単語間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度(Bag of wordsベース)を算出するものであってもよい。勿論、出現頻度が高い重要語(名詞)を蓄積した重要語辞書を用いて、重要語のみについて類似度を算出するものであってもよい。コサイン距離は、例えば以下の概念式で算出される。
クエリテキストの単語の特徴ベクトル:D
レコードテキストの単語の特徴ベクトル:E
2つの文の類似度:sim(D,E)
sim(D,E)=cosθ=(D・E)/(|D||E|)
コサイン距離は、同じ単語同士である場合には類似度重みを1とする。
【0038】
[検索結果出力部17]
検索結果出力部17は、クエリテキストに対して、検索結果として、曖昧度が高いレコードから順に出力する(
図3の検索結果出力部17参照)。これによって、ユーザの記憶が曖昧なレコードから順に、ユーザへ提示することができる。
【0039】
検索結果出力部17は、ユーザに対するキャラクタエージェント機能を有するものであってもよい。そのために、検索結果出力部17は、検索結果として出力すべきテキストを、音声データに変換する音声変換機能と、その音声データに連動するキャラクタを表示するキャラクタ表示機能も有する。そして、タッチパネルディスプレイ102に表示されたキャラクタからの声を、スピーカ部103から発声されるように制御する。これによって、ユーザは、検索結果を、キャラクタエージェントが回答しているように認識することができる。
【0040】
<レコード蓄積部13における記憶量の削減>
レコード蓄積部13が、過去にログとして収集された大量のレコードを全て蓄積することは、記憶容量を無駄に使うだけであって、高コストとなる。また、検索する際に、不必要なデータの検索も必要となり、検索の処理効率も低下する。そのために、できる限り、ユーザの記憶が曖昧なレコードのみを蓄積することが好ましい。
【0041】
レコード蓄積部13は、曖昧度が所定値以上又は以下となるレコードを削除する(2次的記憶容量へ移行する)ものであってもよい。
曖昧度が所定値以上:類似した経験が多く、 且つ、現在日時から見て遠い過去
曖昧度が所定値以下:類似した経験が少なく、且つ、現在日時から見て近い過去
曖昧度が所定値以上又は以下で区別しているが、いずれのレコードであっても検索することができる。これによって、レコード蓄積部13に、将来検索対象とならないような無駄なデータを削減し、検索の処理効率の低下を防ぐことができる。
【0042】
図4は、本発明における端末及び検索サーバからなるシステム構成図である。
【0043】
図4は、
図1と比較して、本発明を、端末及び検索サーバからなるシステムとして構成したものである。
図4によれば、端末1は、ユーザインタフェースとしてのマイク部101、タッチパネルディスプレイ102及びスピーカ部103と、音声認識部12とを有すると共に、音声送信部を更に有する。音声送信部は、マイク101部によって取得された音声データを、検索サーバ2へ送信する。
【0044】
また、
図4によば、検索サーバ2は、更に、音声受信部と、レコード受信部と、クエリテキスト入力部とを有する。音声受信部は、端末1から音声データ自体を受信し、音声蓄積部11に記憶させる。レコード受信部は、端末1によって音声認識されたレコードテキストを受信し、レコード蓄積部13へ出力する。クエリテキスト入力部は、端末1から、ユーザによって入力されたクエリテキストを受信し、類似レコード検索部16へ出力する。尚、検索結果出力部17は、検索結果としての音声データ及び/又はテキストを端末1へ送信する。
【0045】
以上、詳細に説明したように、本発明の検索装置、プログラム及び方法によれば、ユーザの記憶が曖昧なレコード(音声データやテキスト)を検索することができる。
【0046】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0047】
1 検索装置、端末、スマートフォン
101 マイク部
102 タッチパネルディスプレイ
103 スピーカ部
11 音声蓄積部
12 音声認識部
13 レコード蓄積部
14 カテゴリ分類部
15 曖昧度算出部
16 類似レコード検索部
17 検索結果出力部
2 検索サーバ