(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5705274
(24)【登録日】2015年3月6日
(45)【発行日】2015年4月22日
(54)【発明の名称】情報処理装置及び方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20150402BHJP
G10L 15/10 20060101ALI20150402BHJP
【FI】
G10L15/00 200A
G10L15/00 200T
G10L15/10 200W
G10L15/10 400R
【請求項の数】5
【全頁数】9
(21)【出願番号】特願2013-146553(P2013-146553)
(22)【出願日】2013年7月12日
(65)【公開番号】特開2015-18174(P2015-18174A)
(43)【公開日】2015年1月29日
【審査請求日】2014年3月17日
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(72)【発明者】
【氏名】木下 淳太
(72)【発明者】
【氏名】藤田 満里子
(72)【発明者】
【氏名】辻田 智史
【審査官】
山下 剛史
(56)【参考文献】
【文献】
特開2006−277676(JP,A)
【文献】
特開2004−96171(JP,A)
【文献】
特開2007−57844(JP,A)
【文献】
特開2005−286886(JP,A)
【文献】
角薫,西田豊明,"個人の背景知識と話題の文脈に適応したコミュニケーション支援",電子情報通信学会論文誌,2001年 8月,Vol.J84-D-I,No.8,pp.1211-1221
【文献】
角康之,間瀬健二,"エージェントサロン:パーソナルエージェント同士のおしゃべりを利用した出会いと対話の促進",電子情報通信学会論文誌,2001年 8月,Vol.J84-D-I,No.8,pp.1231-1243
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/26,25/54
G06F 3/16
CiNii
(57)【特許請求の範囲】
【請求項1】
会話の音声を取得する音声取得手段と、
取得された前記音声から会話の相手の発話を抽出する抽出手段と、
抽出された前記発話から語を音声認識する認識手段と、
音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得手段と、
取得された前記関連情報を出力する出力手段と、
を備え、
前記出力手段は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする情報処理装置。
【請求項2】
マイクロホンと、
ヘッドホンと、
人の身体に装着する手段と、
を備えたウェアラブルデバイスであることを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記認識手段により音声認識された前記語の品詞を逐次判断する品詞判断手段と、
相前後して判断された語の前記品詞に基づいて前記関連情報の基礎とする語を選択する選択手段と、
を備えたことを特徴とする請求項1又は2記載の情報処理装置。
【請求項4】
前記関連情報取得手段は、音声認識された前記語と、環境を表す情報と、に基づいて前記関連情報を取得することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
【請求項5】
会話の音声を取得する音声取得処理と、
取得された前記音声から会話の相手の発話を抽出する抽出処理と、
抽出された前記発話から語を音声認識する認識処理と、
音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得処理と、
取得された前記関連情報を出力する出力処理と、
をコンピュータが実行し、
前記出力処理は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置を用いた情報提供に関する。
【背景技術】
【0002】
今日、スマートデバイス(スマートフォンやタブレットPCなど)を持ち歩くことにより、情報が必要になる都度、容易にインターネット検索の操作が行える。検索のための入力を音声認識で容易化する例も提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2003−517158号
【特許文献2】特開2009−238199号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、情報が必要な都度、検索操作するのでは、進行してゆく会話にリアルタイムに話題を提供して会話を促進する(すなわち、弾ませる)ことはできなかった。
【0005】
会話中の重要語を抽出しテキストとして提示する技術はあるが(例えば、特許文献2参照)、テキスト化は記録にはなるものの会話へ話題を提供するものではない。また重要語の抽出は、基本的に、繰返される語の検出によるため、会話の内容からは遅延が大きくリアルタイムでない。この点でも重要語のテキスト化は、会話への話題提供にはならなかった。
【0006】
より複雑な情報処理で会話からテーマを抽出して情報提供する技術を考えても、遅延が大きい点で重要語の抽出と同じ問題があり、遅延を克服するため議論の展開を予測すれば予測精度の限界で見当外れな情報提供を招きかねない。それ以前に、複雑な情報処理は大きな処理能力を要し携行デバイスとして実装する障害となる。
【0007】
本発明の目的は、会話を促進させる話題をリアルタイムに提供することである。
【課題を解決するための手段】
【0008】
上記の目的をふまえ、本発明の一態様(1)である情報処理装置は、会話の音声を取得する音声取得手段と、取得された前記音声から会話の相手の発話を抽出する抽出手段と、抽出された前記発話から語を音声認識する認識手段と、音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得手段と、取得された前記関連情報を出力する出力手段と、を備えたことを特徴とする。
【0009】
本発明の他の態様(6)である情報処理方法は、上記態様を方法のカテゴリで捉えたもので、会話の音声を取得する音声取得処理と、取得された前記音声から会話の相手の発話を抽出する抽出処理と、抽出された前記発話から語を音声認識する認識処理と、音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得処理と、取得された前記関連情報を出力する出力処理と、をコンピュータが実行することを特徴とする。
【0010】
また、本発明の他の態様(2)は、上記いずれかの態様において、マイクロホンと、ヘッドホンと、人の身体に装着する手段と、を備えたウェアラブルデバイスであることを特徴とする。
【0011】
本発明の他の態様(3)は、上記いずれかの態様において、前記認識手段により音声認識された前記語の品詞を逐次判断する品詞判断手段と、相前後して判断された語の前記品詞に基づいて前記関連情報の基礎とする語を選択する選択手段と、を備えたことを特徴とする。
【0012】
本発明の他の態様(4)は、上記いずれかの態様において、前記関連情報取得手段は、音声認識された前記語と、環境を表す情報と、に基づいて前記関連情報を取得することを特徴とする。
【0013】
本発明の他の態様(5)は、上記いずれかの態様において、前記出力手段は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする。
【発明の効果】
【0014】
本発明によれば、会話を促進させる話題をリアルタイムに提供することができる。
【図面の簡単な説明】
【0015】
【
図1】本発明の実施形態について構成を示す機能ブロック図。
【
図2】本発明の実施形態におけるデータの例を示す図。
【
図3】本発明の実施形態における処理手順を示すフローチャート。
【
図4】本発明の実施形態における一利用例を示す概念図。
【発明を実施するための形態】
【0016】
次に、本発明を実施するための形態(「実施形態」と呼ぶ)について図に沿って例示する。なお、背景技術や課題などで既に述べた内容と共通の前提事項は適宜省略する。
【0017】
〔1.構成〕
図1は、本実施形態の構成を示す。本実施形態は、マイクロホンMと、ヘッドホンH(イヤホンを含む)と、人の身体に装着する手段である図示しないホルダと、を備えたウェアラブルデバイスとして構成された本発明の情報処理装置(以下「本装置1」とも呼ぶ)に関する。また、検索サーバ2は、通信ネットワークN(インターネット、携帯電話網など)を介し、外部からの検索要求に応じて情報を提供するサーバ装置である。
【0018】
本装置1は、コンピュータの構成すなわち、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークNとの通信装置8(通信機器や通信アダプタなど)と、を備える。検索サーバ2も、仕様は異なるが同様にコンピュータの構成を有する(図示省略)。本装置1では、記憶装置7に記憶されている図示しないコンピュータプログラムを演算制御部6が実行することで、
図1に示す各要素を実現する。
【0019】
実現される要素のうち、情報の記憶手段は、本装置1内のいわゆるローカル記憶に限らず、ネットワーク・コンピューティング(クラウド)などによるリモート記憶でもよい。また、本出願に示す記憶手段は、説明の便宜に合わせた単位、かつ主なものである。実際の記憶手段は、情報の記憶に付随する入出力や管理などの機能を含んでもよいし、構成の単位を分割または一体化してもよいし、ワークエリアなど他の記憶手段を適宜用いてもよい。
【0020】
記憶手段のうち、認識辞書記憶手段35は、音声認識用の認識辞書(例えば、語ごとや音の要素などごとの特徴を表すデータ)を記憶している。一時記憶手段45は、認識された語をその品詞と共に記憶する手段である。検索条件記憶手段55は、語や品詞に応じ、関連情報を取得する際の検索条件を記憶している。
図2は、一時記憶手段45と検索条件記憶手段55の例を一体に示すが、データ項目は適宜省略している。他の記憶手段の記憶内容は図示を省略する。
【0021】
音声合成データ記憶手段66は、音声合成用に語ごと及び音の要素ごとの音声データを記憶している。品詞辞書記憶手段75は、語の品詞を判断するための品詞辞書を記憶している。
【0022】
なお、図中(例えば
図1)の矢印は、データや制御などの流れの主な方向を例示するもので、他の流れの否定や方向の限定を意味するものではない。また、記憶手段以外の各手段は、以下に説明するような情報処理の機能又は作用を実現又は実行する処理手段であるが、これら機能又は作用は、専ら説明のための単位で、実際のハードウェア及びソフトウェアの要素との一致は問わない。
【0023】
〔2.作用〕
図3は、本装置1の動作を示すフローチャートである。
図4は、本実施形態を活用する一例を示す概念図である。
〔2−1.概要〕
まず、
図3のフローチャートに沿って、一部のステップを省略して、動作の概要を説明する。本装置1は、本装置1をウェアラブルデバイスとして身につけているユーザ(
図4における「自分」)と相手との会話の音声と、音声取得手段20がマイクロホンMでA/D変換などで取得する(ステップS11)。例えば、
図4の例において、本装置1を装着している自分の発話T1と会話相手の発話T2は、いずれも取得の対象になる。
【0024】
抽出手段30は、取得された音声から会話の相手の発話を、マイクロホンMまでの距離の違いに基づく入力音量の違いや音声周波数の違いなどで抽出する(ステップS12)。会話の相手の発話を抽出するには、周波数推定、隠れマルコフモデル、パターンマッチング、ニューラルネットワーク、決定木その他、公知の技術を用いる。相手の発話T2は抽出されるが、自分の発話T1は抽出されない。
【0025】
認識手段43は、抽出された発話T2から、認識辞書記憶手段35内の認識辞書との比較照合などにより、語を音声認識する(ステップS13)。音声認識は、統計的手法、動的時間伸縮法、隠れマルコフモデルなど、公知の技術を用いる。例えば、発話T2から、「この辺」「イタリアン」「△△」など、いくつかの語が認識される(
図4において波線で囲む)。
【0026】
その後、関連情報取得手段54は、音声認識された語に基づく関連情報(例えば、用語解説や飲食店情報など)を、通信ネットワークを介し検索APIなどを用いて検索サーバ2から取得する(ステップS18)。出力手段65は、取得された関連情報を、音声合成データ記憶手段66に記憶されている音声データを用いた合成音声によりヘッドホンHから出力する(ステップS22)。
【0027】
図4の例では、相手の発話T2から認識された語に基づく関連情報として、認識された語に該当する近隣のイタリア料理店の情報が、合成音声Vにより出力されている。本装置1を装着している自分は、この関連情報のおかげで会話が弾み、行動の判断と提案を直ちに行うことができた(例えば発話T2)。以下、他のステップを含め、具体的に説明する。
【0028】
〔2−2.品詞による語の選択〕
会話での発話は多くの語を含むが、関連情報の基礎とする語を選択する基準の例は、語の品詞である。すなわち、品詞判断手段73は、認識手段43により音声認識された語の品詞を、品詞辞書記憶手段75に記憶されている品詞辞書を用いて、逐次判断する(ステップS14)。一時記憶手段45は、認識された語と、その後について判断された品詞のペアを最新20組記憶する(ステップS15)。
【0029】
品詞は、一般に用いられる品詞(例えば「普通名詞」「固有名詞」など)に限らず、関連情報を取得するための特化した分類や予約語、例えば、場所を表す予約語(「この辺」「ここらで」「近くで」など)や業種名を表す予約語(「イタリアン」「ファミレス」「郵便局」「銀行」など)でもよい(例えば
図2)。
【0030】
特定の品詞には、特定の検索条件を対応付けることができる。例えば、関連情報取得手段54は、場所を表す予約語を、本装置1においてGPSなどで測位する現在位置(例えば「港区赤坂」)の情報に置き換えたうえ、検索クエリとして検索サーバ2に送信する。
【0031】
業種名を表す予約語のうち、飲食店を表すものと予め定められているもの(例えば「イタリアン」「ファミレス」)には、関連情報の取得に用いる検索サービスの種別として、特定の種別(例えば飲食店検索)を選択するという検索条件を対応付けることもできる。品詞と検索条件を対応付ける情報は、検索条件記憶手段55に予め記憶しておく。
【0032】
選択手段83は、一時記憶手段45に記憶されている語の品詞、すなわち相前後して判断された語の品詞に基づいて関連情報の基礎とする語を選択する(ステップS17)。例えば、一時記憶手段45に記憶されている最新20組の語から、固有名詞>普通名詞>その他、といった優先順位で優先順位が高いものを選択する。
【0033】
〔2−3.環境に基づく関連情報の取得〕
また、関連情報の取得には、本装置1が用いられている環境を表す情報(例えば、時刻、場所、行動内容など。「環境情報」とも呼ぶこととする)を反映できる。すなわち、関連情報取得手段54は、環境情報を逐次更新し(ステップS16)、選択手段83により選択された語と、環境情報と、に基づいて関連情報を取得する(ステップS18)。
【0034】
例えば、飲食店を紹介するテレビ番組の番組名が音声認識され選択された場合でも、昼食時に飲食店街を歩きながらの発話では、近くの飲食店情報が関連情報となるが、深夜の自宅における発話ではその番組のテレビ番組情報が関連情報となる。
【0035】
〔2−4.出力スタイルの使い分け〕
関連情報の出力スタイルは、発話速度による。すなわち、出力手段65は、発話の速度が所定値未満のときは(ステップS19:「NO」)取得された関連情報の候補を提示して出力対象の選択を求める(ステップS20)。関連情報の候補は、例えば、ある語に基づくウェブ検索結果に含まれるトップ数件(3件や5件など)などである。
【0036】
一方、出力手段65は、発話の速度が所定以上のときは(ステップS19:「YES」)、選択を求めることなく、取得された関連情報の候補のうち所定の優先順位に基づいて出力対象を決定する(ステップS21)。所定の優先順位は、例えば、ウェブ検索結果では1件目、飲食店検索の結果では本装置1で測位する現在位置から近い順又は予めユーザが設定した順、その他の順などである。
【0037】
〔3.効果〕
(1)以上のように、本実施形態では(例えば
図4)、会話相手の発話を抽出し音声認識した言葉を基にネット経由で関連情報を取得して出力する簡易な処理により、相手が言った語に関し自分が知らない情報など、会話を促進させる話題をリアルタイムに提供することができる。
【0038】
(2)また、本実施形態では、本発明の情報処理装置を、ウェアラブルデバイスとして構成することにより(例えば
図1)、いつでも容易に利用できるので、どこでも誰との会話でも促進させる話題をリアルタイムに提供できる。
【0039】
(3)また、本実施形態では、次々音声認識される語から品詞に基づいて関連情報の基礎とする語を選択することにより(例えば
図3のステップS14及びS17)、基礎とする語が多くなり過ぎず適切な語に基づく関連情報を提供できる。
【0040】
(4)また、本実施形態では、音声認識された語と、環境を表す情報とに基づいて関連情報を取得することにより(例えば
図3のステップS18)、TPO(時、場所、場面など)に応じた適切な関連情報を提供できる。
【0041】
(5)また、本実施形態では、発話が速くなければ(例えば
図3のステップS19:「NO」)関連情報の候補から出力対象の選択を求め(ステップS20)、発話が急速な時は(ステップS19:「YES」)、急いでいたり、せっかちな相手と想定されるので、選択を求めず関連情報の候補から所定の優先順位で出力対象を決定することにより(ステップS21)、状況に応じ適切な情報を提供できる。
【0042】
〔4.他の実施形態〕
なお、上記実施形態や図の内容は例示に過ぎず、各要素の有無や配置、処理の順序や内容などは適宜変更可能である。このため、本発明は、以下に例示する変形例やそれ以外の他の実施形態も含むものである。
【0043】
例えば、本発明の情報処理装置は、ウェアラブルデバイスにも、ヘッドホンから関連情報を音声出力するものにも限られない。本発明の情報処理装置は、例えば、ポケットに入れたり首から下げるスマートフォンと、メガネ型のヘッドマウントディスプレイユニットから視覚情報として関連情報を出力するもの、その他の形態でもよい。
【0044】
また、本発明の各態様は、明記しない他のカテゴリ(方法、プログラム、端末を含むシステムなど)としても把握できる。方法やプログラムのカテゴリでは、装置のカテゴリで示した「手段」を「処理」や「ステップ」のように適宜読み替えるものとする。また、「手段」の全部又は任意の一部を「部」(ユニット、セクション、モジュール等)と読み替えることができる。
【0045】
また、実施形態に示した処理やステップについても、順序を変更したり、いくつかをまとめて実行しもしくは一部分ずつ分けて実行するなど変更可能である。また、個々の手段、処理やステップを実現、実行するハードウェア要素などは共通でもよいし、手段、処理やステップごとにもしくはタイミングごとに異なってもよい。
【0046】
また、本出願で示す個々の手段は、外部のサーバが提供している機能をAPI(アプリケーションプログラムインタフェース)やネットワーク・コンピューティング(いわゆるクラウドなど)で呼び出して実現してもよい。さらに、手段などの要素は、コンピュータに限らず、現在のまたは将来登場する他の情報処理機構で実現してもよい。
【符号の説明】
【0047】
1 情報処理装置(本装置)
2 検索サーバ
6 演算制御部
7 記憶装置
8 通信装置
20 音声取得手段
30 抽出手段
35 認識辞書記憶手段
43 認識手段
45 一時記憶手段
54 関連情報取得手段
55 検索条件記憶手段
65 出力手段
66 音声合成データ記憶手段
73 品詞判断手段
75 品詞辞書記憶手段
83 選択手段
H ヘッドホン
M マイクロホン
N 通信ネットワーク
T1、T2、T3 発話
V 関連情報