特許5705274 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許5705274情報処理装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5705274

(24)【登録日】2015年3月6日

(45)【発行日】2015年4月22日

(54)【発明の名称】情報処理装置及び方法

(51)【国際特許分類】

G10L 15/00 20130101AFI20150402BHJP

G10L 15/10 20060101ALI20150402BHJP

【ＦＩ】

G10L15/00 200A

G10L15/00 200T

G10L15/10 200W

G10L15/10 400R

【請求項の数】5

【全頁数】9

(21)【出願番号】特願2013-146553(P2013-146553)

(22)【出願日】2013年7月12日

(65)【公開番号】特開2015-18174(P2015-18174A)

(43)【公開日】2015年1月29日

【審査請求日】2014年3月17日

(73)【特許権者】

【識別番号】500257300

【氏名又は名称】ヤフー株式会社

(72)【発明者】

【氏名】木下淳太

(72)【発明者】

【氏名】藤田満里子

(72)【発明者】

【氏名】辻田智史

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００６−２７７６７６（ＪＰ，Ａ）

【文献】特開２００４−９６１７１（ＪＰ，Ａ）

【文献】特開２００７−５７８４４（ＪＰ，Ａ）

【文献】特開２００５−２８６８８６（ＪＰ，Ａ）

【文献】角薫，西田豊明，"個人の背景知識と話題の文脈に適応したコミュニケーション支援"，電子情報通信学会論文誌，２００１年８月，Vol.J84-D-I，No.8，pp.1211-1221

【文献】角康之，間瀬健二，"エージェントサロン：パーソナルエージェント同士のおしゃべりを利用した出会いと対話の促進"，電子情報通信学会論文誌，２００１年８月，Vol.J84-D-I，No.8，pp.1231-1243

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１７／２６，２５／５４

Ｇ０６Ｆ３／１６

ＣｉＮｉｉ

(57)【特許請求の範囲】

【請求項1】

会話の音声を取得する音声取得手段と、
取得された前記音声から会話の相手の発話を抽出する抽出手段と、
抽出された前記発話から語を音声認識する認識手段と、
音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得手段と、
取得された前記関連情報を出力する出力手段と、
を備え、
前記出力手段は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする情報処理装置。

【請求項2】

マイクロホンと、
ヘッドホンと、
人の身体に装着する手段と、
を備えたウェアラブルデバイスであることを特徴とする請求項１記載の情報処理装置。

【請求項3】

前記認識手段により音声認識された前記語の品詞を逐次判断する品詞判断手段と、
相前後して判断された語の前記品詞に基づいて前記関連情報の基礎とする語を選択する選択手段と、
を備えたことを特徴とする請求項１又は２記載の情報処理装置。

【請求項4】

前記関連情報取得手段は、音声認識された前記語と、環境を表す情報と、に基づいて前記関連情報を取得することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。

【請求項5】

会話の音声を取得する音声取得処理と、
取得された前記音声から会話の相手の発話を抽出する抽出処理と、
抽出された前記発話から語を音声認識する認識処理と、
音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得処理と、
取得された前記関連情報を出力する出力処理と、
をコンピュータが実行し、
前記出力処理は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置を用いた情報提供に関する。

【背景技術】

【0002】

今日、スマートデバイス（スマートフォンやタブレットＰＣなど）を持ち歩くことにより、情報が必要になる都度、容易にインターネット検索の操作が行える。検索のための入力を音声認識で容易化する例も提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２００３−５１７１５８号

【特許文献2】特開２００９−２３８１９９号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、情報が必要な都度、検索操作するのでは、進行してゆく会話にリアルタイムに話題を提供して会話を促進する（すなわち、弾ませる）ことはできなかった。

【0005】

会話中の重要語を抽出しテキストとして提示する技術はあるが（例えば、特許文献２参照）、テキスト化は記録にはなるものの会話へ話題を提供するものではない。また重要語の抽出は、基本的に、繰返される語の検出によるため、会話の内容からは遅延が大きくリアルタイムでない。この点でも重要語のテキスト化は、会話への話題提供にはならなかった。

【0006】

より複雑な情報処理で会話からテーマを抽出して情報提供する技術を考えても、遅延が大きい点で重要語の抽出と同じ問題があり、遅延を克服するため議論の展開を予測すれば予測精度の限界で見当外れな情報提供を招きかねない。それ以前に、複雑な情報処理は大きな処理能力を要し携行デバイスとして実装する障害となる。

【0007】

本発明の目的は、会話を促進させる話題をリアルタイムに提供することである。

【課題を解決するための手段】

【0008】

上記の目的をふまえ、本発明の一態様（１）である情報処理装置は、会話の音声を取得する音声取得手段と、取得された前記音声から会話の相手の発話を抽出する抽出手段と、抽出された前記発話から語を音声認識する認識手段と、音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得手段と、取得された前記関連情報を出力する出力手段と、を備えたことを特徴とする。

【0009】

本発明の他の態様（６）である情報処理方法は、上記態様を方法のカテゴリで捉えたもので、会話の音声を取得する音声取得処理と、取得された前記音声から会話の相手の発話を抽出する抽出処理と、抽出された前記発話から語を音声認識する認識処理と、音声認識された前記語に基づく関連情報を通信ネットワークを介してサーバから取得する関連情報取得処理と、取得された前記関連情報を出力する出力処理と、をコンピュータが実行することを特徴とする。

【0010】

また、本発明の他の態様（２）は、上記いずれかの態様において、マイクロホンと、ヘッドホンと、人の身体に装着する手段と、を備えたウェアラブルデバイスであることを特徴とする。

【0011】

本発明の他の態様（３）は、上記いずれかの態様において、前記認識手段により音声認識された前記語の品詞を逐次判断する品詞判断手段と、相前後して判断された語の前記品詞に基づいて前記関連情報の基礎とする語を選択する選択手段と、を備えたことを特徴とする。

【0012】

本発明の他の態様（４）は、上記いずれかの態様において、前記関連情報取得手段は、音声認識された前記語と、環境を表す情報と、に基づいて前記関連情報を取得することを特徴とする。

【0013】

本発明の他の態様（５）は、上記いずれかの態様において、前記出力手段は、前記発話の速度が所定値未満のときは取得された前記関連情報の候補を提示して出力対象の選択を求め、前記発話の速度が所定以上のときは、前記選択を求めることなく、取得された前記関連情報の候補のうち予め定められた優先順位に基づいて出力対象を決定することを特徴とする。

【発明の効果】

【0014】

本発明によれば、会話を促進させる話題をリアルタイムに提供することができる。

【図面の簡単な説明】

【0015】

【図1】本発明の実施形態について構成を示す機能ブロック図。

【図2】本発明の実施形態におけるデータの例を示す図。

【図3】本発明の実施形態における処理手順を示すフローチャート。

【図4】本発明の実施形態における一利用例を示す概念図。

【発明を実施するための形態】

【0016】

次に、本発明を実施するための形態（「実施形態」と呼ぶ）について図に沿って例示する。なお、背景技術や課題などで既に述べた内容と共通の前提事項は適宜省略する。

【0017】

〔１．構成〕
図１は、本実施形態の構成を示す。本実施形態は、マイクロホンＭと、ヘッドホンＨ（イヤホンを含む）と、人の身体に装着する手段である図示しないホルダと、を備えたウェアラブルデバイスとして構成された本発明の情報処理装置（以下「本装置１」とも呼ぶ）に関する。また、検索サーバ２は、通信ネットワークＮ（インターネット、携帯電話網など）を介し、外部からの検索要求に応じて情報を提供するサーバ装置である。

【0018】

本装置１は、コンピュータの構成すなわち、ＣＰＵなどの演算制御部６と、主メモリや補助記憶装置等の記憶装置７と、通信ネットワークＮとの通信装置８（通信機器や通信アダプタなど）と、を備える。検索サーバ２も、仕様は異なるが同様にコンピュータの構成を有する（図示省略）。本装置１では、記憶装置７に記憶されている図示しないコンピュータプログラムを演算制御部６が実行することで、図１に示す各要素を実現する。

【0019】

実現される要素のうち、情報の記憶手段は、本装置１内のいわゆるローカル記憶に限らず、ネットワーク・コンピューティング（クラウド）などによるリモート記憶でもよい。また、本出願に示す記憶手段は、説明の便宜に合わせた単位、かつ主なものである。実際の記憶手段は、情報の記憶に付随する入出力や管理などの機能を含んでもよいし、構成の単位を分割または一体化してもよいし、ワークエリアなど他の記憶手段を適宜用いてもよい。

【0020】

記憶手段のうち、認識辞書記憶手段３５は、音声認識用の認識辞書（例えば、語ごとや音の要素などごとの特徴を表すデータ）を記憶している。一時記憶手段４５は、認識された語をその品詞と共に記憶する手段である。検索条件記憶手段５５は、語や品詞に応じ、関連情報を取得する際の検索条件を記憶している。図２は、一時記憶手段４５と検索条件記憶手段５５の例を一体に示すが、データ項目は適宜省略している。他の記憶手段の記憶内容は図示を省略する。

【0021】

音声合成データ記憶手段６６は、音声合成用に語ごと及び音の要素ごとの音声データを記憶している。品詞辞書記憶手段７５は、語の品詞を判断するための品詞辞書を記憶している。

【0022】

なお、図中（例えば図１）の矢印は、データや制御などの流れの主な方向を例示するもので、他の流れの否定や方向の限定を意味するものではない。また、記憶手段以外の各手段は、以下に説明するような情報処理の機能又は作用を実現又は実行する処理手段であるが、これら機能又は作用は、専ら説明のための単位で、実際のハードウェア及びソフトウェアの要素との一致は問わない。

【0023】

〔２．作用〕
図３は、本装置１の動作を示すフローチャートである。図４は、本実施形態を活用する一例を示す概念図である。
〔２−１．概要〕
まず、図３のフローチャートに沿って、一部のステップを省略して、動作の概要を説明する。本装置１は、本装置１をウェアラブルデバイスとして身につけているユーザ（図４における「自分」）と相手との会話の音声と、音声取得手段２０がマイクロホンＭでＡ／Ｄ変換などで取得する（ステップＳ１１）。例えば、図４の例において、本装置１を装着している自分の発話Ｔ１と会話相手の発話Ｔ２は、いずれも取得の対象になる。

【0024】

抽出手段３０は、取得された音声から会話の相手の発話を、マイクロホンＭまでの距離の違いに基づく入力音量の違いや音声周波数の違いなどで抽出する（ステップＳ１２）。会話の相手の発話を抽出するには、周波数推定、隠れマルコフモデル、パターンマッチング、ニューラルネットワーク、決定木その他、公知の技術を用いる。相手の発話Ｔ２は抽出されるが、自分の発話Ｔ１は抽出されない。

【0025】

認識手段４３は、抽出された発話Ｔ２から、認識辞書記憶手段３５内の認識辞書との比較照合などにより、語を音声認識する（ステップＳ１３）。音声認識は、統計的手法、動的時間伸縮法、隠れマルコフモデルなど、公知の技術を用いる。例えば、発話Ｔ２から、「この辺」「イタリアン」「△△」など、いくつかの語が認識される（図４において波線で囲む）。

【0026】

その後、関連情報取得手段５４は、音声認識された語に基づく関連情報（例えば、用語解説や飲食店情報など）を、通信ネットワークを介し検索ＡＰＩなどを用いて検索サーバ２から取得する（ステップＳ１８）。出力手段６５は、取得された関連情報を、音声合成データ記憶手段６６に記憶されている音声データを用いた合成音声によりヘッドホンＨから出力する（ステップＳ２２）。

【0027】

図４の例では、相手の発話Ｔ２から認識された語に基づく関連情報として、認識された語に該当する近隣のイタリア料理店の情報が、合成音声Ｖにより出力されている。本装置１を装着している自分は、この関連情報のおかげで会話が弾み、行動の判断と提案を直ちに行うことができた（例えば発話Ｔ２）。以下、他のステップを含め、具体的に説明する。

【0028】

〔２−２．品詞による語の選択〕
会話での発話は多くの語を含むが、関連情報の基礎とする語を選択する基準の例は、語の品詞である。すなわち、品詞判断手段７３は、認識手段４３により音声認識された語の品詞を、品詞辞書記憶手段７５に記憶されている品詞辞書を用いて、逐次判断する（ステップＳ１４）。一時記憶手段４５は、認識された語と、その後について判断された品詞のペアを最新２０組記憶する（ステップＳ１５）。

【0029】

品詞は、一般に用いられる品詞（例えば「普通名詞」「固有名詞」など）に限らず、関連情報を取得するための特化した分類や予約語、例えば、場所を表す予約語（「この辺」「ここらで」「近くで」など）や業種名を表す予約語（「イタリアン」「ファミレス」「郵便局」「銀行」など）でもよい（例えば図２）。

【0030】

特定の品詞には、特定の検索条件を対応付けることができる。例えば、関連情報取得手段５４は、場所を表す予約語を、本装置１においてＧＰＳなどで測位する現在位置（例えば「港区赤坂」）の情報に置き換えたうえ、検索クエリとして検索サーバ２に送信する。

【0031】

業種名を表す予約語のうち、飲食店を表すものと予め定められているもの（例えば「イタリアン」「ファミレス」）には、関連情報の取得に用いる検索サービスの種別として、特定の種別（例えば飲食店検索）を選択するという検索条件を対応付けることもできる。品詞と検索条件を対応付ける情報は、検索条件記憶手段５５に予め記憶しておく。

【0032】

選択手段８３は、一時記憶手段４５に記憶されている語の品詞、すなわち相前後して判断された語の品詞に基づいて関連情報の基礎とする語を選択する（ステップＳ１７）。例えば、一時記憶手段４５に記憶されている最新２０組の語から、固有名詞＞普通名詞＞その他、といった優先順位で優先順位が高いものを選択する。

【0033】

〔２−３．環境に基づく関連情報の取得〕
また、関連情報の取得には、本装置１が用いられている環境を表す情報（例えば、時刻、場所、行動内容など。「環境情報」とも呼ぶこととする）を反映できる。すなわち、関連情報取得手段５４は、環境情報を逐次更新し（ステップＳ１６）、選択手段８３により選択された語と、環境情報と、に基づいて関連情報を取得する（ステップＳ１８）。

【0034】

例えば、飲食店を紹介するテレビ番組の番組名が音声認識され選択された場合でも、昼食時に飲食店街を歩きながらの発話では、近くの飲食店情報が関連情報となるが、深夜の自宅における発話ではその番組のテレビ番組情報が関連情報となる。

【0035】

〔２−４．出力スタイルの使い分け〕
関連情報の出力スタイルは、発話速度による。すなわち、出力手段６５は、発話の速度が所定値未満のときは（ステップＳ１９：「ＮＯ」）取得された関連情報の候補を提示して出力対象の選択を求める（ステップＳ２０）。関連情報の候補は、例えば、ある語に基づくウェブ検索結果に含まれるトップ数件（３件や５件など）などである。

【0036】

一方、出力手段６５は、発話の速度が所定以上のときは（ステップＳ１９：「ＹＥＳ」）、選択を求めることなく、取得された関連情報の候補のうち所定の優先順位に基づいて出力対象を決定する（ステップＳ２１）。所定の優先順位は、例えば、ウェブ検索結果では１件目、飲食店検索の結果では本装置１で測位する現在位置から近い順又は予めユーザが設定した順、その他の順などである。

【0037】

〔３．効果〕
（１）以上のように、本実施形態では（例えば図４）、会話相手の発話を抽出し音声認識した言葉を基にネット経由で関連情報を取得して出力する簡易な処理により、相手が言った語に関し自分が知らない情報など、会話を促進させる話題をリアルタイムに提供することができる。

【0038】

（２）また、本実施形態では、本発明の情報処理装置を、ウェアラブルデバイスとして構成することにより（例えば図１）、いつでも容易に利用できるので、どこでも誰との会話でも促進させる話題をリアルタイムに提供できる。

【0039】

（３）また、本実施形態では、次々音声認識される語から品詞に基づいて関連情報の基礎とする語を選択することにより（例えば図３のステップＳ１４及びＳ１７）、基礎とする語が多くなり過ぎず適切な語に基づく関連情報を提供できる。

【0040】

（４）また、本実施形態では、音声認識された語と、環境を表す情報とに基づいて関連情報を取得することにより（例えば図３のステップＳ１８）、ＴＰＯ（時、場所、場面など）に応じた適切な関連情報を提供できる。

【0041】

（５）また、本実施形態では、発話が速くなければ（例えば図３のステップＳ１９：「ＮＯ」）関連情報の候補から出力対象の選択を求め（ステップＳ２０）、発話が急速な時は（ステップＳ１９：「ＹＥＳ」）、急いでいたり、せっかちな相手と想定されるので、選択を求めず関連情報の候補から所定の優先順位で出力対象を決定することにより（ステップＳ２１）、状況に応じ適切な情報を提供できる。

【0042】

〔４．他の実施形態〕
なお、上記実施形態や図の内容は例示に過ぎず、各要素の有無や配置、処理の順序や内容などは適宜変更可能である。このため、本発明は、以下に例示する変形例やそれ以外の他の実施形態も含むものである。

【0043】

例えば、本発明の情報処理装置は、ウェアラブルデバイスにも、ヘッドホンから関連情報を音声出力するものにも限られない。本発明の情報処理装置は、例えば、ポケットに入れたり首から下げるスマートフォンと、メガネ型のヘッドマウントディスプレイユニットから視覚情報として関連情報を出力するもの、その他の形態でもよい。

【0044】

また、本発明の各態様は、明記しない他のカテゴリ（方法、プログラム、端末を含むシステムなど）としても把握できる。方法やプログラムのカテゴリでは、装置のカテゴリで示した「手段」を「処理」や「ステップ」のように適宜読み替えるものとする。また、「手段」の全部又は任意の一部を「部」（ユニット、セクション、モジュール等）と読み替えることができる。

【0045】

また、実施形態に示した処理やステップについても、順序を変更したり、いくつかをまとめて実行しもしくは一部分ずつ分けて実行するなど変更可能である。また、個々の手段、処理やステップを実現、実行するハードウェア要素などは共通でもよいし、手段、処理やステップごとにもしくはタイミングごとに異なってもよい。

【0046】

また、本出願で示す個々の手段は、外部のサーバが提供している機能をＡＰＩ（アプリケーションプログラムインタフェース）やネットワーク・コンピューティング（いわゆるクラウドなど）で呼び出して実現してもよい。さらに、手段などの要素は、コンピュータに限らず、現在のまたは将来登場する他の情報処理機構で実現してもよい。

【符号の説明】

【0047】

１情報処理装置（本装置）
２検索サーバ
６演算制御部
７記憶装置
８通信装置
２０音声取得手段
３０抽出手段
３５認識辞書記憶手段
４３認識手段
４５一時記憶手段
５４関連情報取得手段
５５検索条件記憶手段
６５出力手段
６６音声合成データ記憶手段
７３品詞判断手段
７５品詞辞書記憶手段
８３選択手段
Ｈヘッドホン
Ｍマイクロホン
Ｎ通信ネットワーク
Ｔ１、Ｔ２、Ｔ３発話
Ｖ関連情報

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第5705274号(P5705274)IP Force 特許公報掲載プロジェクト 2022.1.31 β版