特許第6502249号(P6502249)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

<>
  • 特許6502249-音声認識方法及び音声認識装置 図000002
  • 特許6502249-音声認識方法及び音声認識装置 図000003
  • 特許6502249-音声認識方法及び音声認識装置 図000004
  • 特許6502249-音声認識方法及び音声認識装置 図000005
  • 特許6502249-音声認識方法及び音声認識装置 図000006
  • 特許6502249-音声認識方法及び音声認識装置 図000007
  • 特許6502249-音声認識方法及び音声認識装置 図000008
  • 特許6502249-音声認識方法及び音声認識装置 図000009
  • 特許6502249-音声認識方法及び音声認識装置 図000010
  • 特許6502249-音声認識方法及び音声認識装置 図000011
  • 特許6502249-音声認識方法及び音声認識装置 図000012
  • 特許6502249-音声認識方法及び音声認識装置 図000013
  • 特許6502249-音声認識方法及び音声認識装置 図000014
  • 特許6502249-音声認識方法及び音声認識装置 図000015
  • 特許6502249-音声認識方法及び音声認識装置 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6502249
(24)【登録日】2019年3月29日
(45)【発行日】2019年4月17日
(54)【発明の名称】音声認識方法及び音声認識装置
(51)【国際特許分類】
   G10L 15/10 20060101AFI20190408BHJP
   G10L 15/24 20130101ALI20190408BHJP
   G10L 15/00 20130101ALI20190408BHJP
【FI】
   G10L15/10 500T
   G10L15/10 200W
   G10L15/24 Z
   G10L15/00 200N
   G10L15/00 200Z
【請求項の数】19
【全頁数】29
(21)【出願番号】特願2015-511537(P2015-511537)
(86)(22)【出願日】2014年7月8日
(86)【国際出願番号】JP2014003608
(87)【国際公開番号】WO2015029304
(87)【国際公開日】20150305
【審査請求日】2017年4月11日
(31)【優先権主張番号】61/871,625
(32)【優先日】2013年8月29日
(33)【優先権主張国】US
(31)【優先権主張番号】61/973,411
(32)【優先日】2014年4月1日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100067828
【弁理士】
【氏名又は名称】小谷 悦司
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100109438
【弁理士】
【氏名又は名称】大月 伸介
(72)【発明者】
【氏名】野村 和也
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2008−309864(JP,A)
【文献】 特開2006−048218(JP,A)
【文献】 特開2009−109535(JP,A)
【文献】 特開2001−207499(JP,A)
【文献】 特開2006−058479(JP,A)
【文献】 特開2004−303251(JP,A)
【文献】 特開2012−181374(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、
前記音声認識ステップにおいて認識された前記文字情報の文型を解析し、前記文型が疑問文又は命令文であるか否かを判断し、前記文型が前記疑問文又は前記命令文である場合、前記音声が前記機器に対する発話である判断する発話判断ステップと、
を含む音声認識方法。
【請求項2】
前記発話判断ステップにおいて前記機器に対する発話であると判断された場合、前記機器に対する動作指示を生成する動作指示生成ステップをさらに含む請求項1記載の音声認識方法。
【請求項3】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
前記音声情報の取得が終了してからの時間を無音時間として計測する計時ステップと、
前記音声情報が取得された場合、前記計時ステップにおいて計測された前記無音時間が所定時間以上であるか否かを判断する時間判断ステップと
測された前記無音時間が所定時間以上であると判断された場合、前記音声が前記機器に対する発話であると判断する発話判断ステップと、
を含む音声認識方法。
【請求項4】
前記機器の動作に関する所定のキーワードを予め記憶するキーワード記憶ステップをさらに含み、
前記発話判断ステップは、予め記憶されている前記キーワードが前記文字情報に含まれているか否かを判断し、前記キーワードが前記文字情報に含まれている場合、前記音声が前記機器に対する発話であると判断する請求項1又は2記載の音声認識方法。
【請求項5】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、
人名を予め記憶する人名記憶ステップと、
め記憶されている前記人名が前記文字情報に含まれているか否かを判断し、前記人名が前記文字情報に含まれている場合、前記音声が前記機器に対する発話ではないと判断する発話判断ステップと、
を含む音声認識方法。
【請求項6】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
記機器が配置されている空間内の人物を検知する検知ステップと、
記検知ステップにおいて複数の人物が検知された場合、前記音声が前記機器に対する発話ではないと判断し、前記検知ステップにおいて一人の人物が検知された場合、前記音声が前記機器に対する発話であると判断する発話判断ステップと、
を含む音声認識方法。
【請求項7】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、
前記音声認識ステップにおいて認識された前記文字情報に含まれる用言の活用形が命令形であるか否かを判断し、前記活用形が前記命令形である場合、前記音声が前記機器に対する発話であると判断する発話判断ステップと、
を含む音声認識方法。
【請求項8】
一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、
前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、
前記音声認識ステップにおいて認識された前記文字情報に対する所定の判断結果に応じて付与される重み値を合計する重み値算出ステップと、
記重み値算出ステップにおいて合計された前記重み値が所定の値以上であるか否かを判断し、合計した前記重み値が所定の値以上である場合、前記音声が前記機器に対する発話であると判断する発話判断ステップと、
を含む音声認識方法。
【請求項9】
前記重み値算出ステップは、前記文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、前記音声情報の取得が終了してから次の前記音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている前記機器の動作に関する所定のキーワードが前記文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が前記文字情報に含まれているか否かに応じて付与される重み値と、前記機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、前記文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とを合計する請求項記載の音声認識方法。
【請求項10】
前記機器は、携帯端末を含み、
前記動作指示は、前記ユーザによって指定された日の天気予報を取得し、取得した前記天気予報を出力する動作指示を含み、
前記動作指示生成ステップは、生成した前記動作指示を前記携帯端末へ出力する請求項2記載の音声認識方法。
【請求項11】
前記機器は、照明機器を含み、
前記動作指示は、前記照明機器を点灯させる動作指示と、前記照明機器を消灯させる動作指示とを含み、
前記動作指示生成ステップは、生成した前記動作指示を前記照明機器へ出力する請求項2記載の音声認識方法。
【請求項12】
前記機器は、自動的に蛇口から水を出す水栓機器を含み、
前記動作指示は、前記水栓機器から水を出す動作指示と、前記水栓機器から出ている水を止める動作指示とを含み、
前記動作指示生成ステップは、生成した前記動作指示を前記水栓機器へ出力する請求項2記載の音声認識方法。
【請求項13】
前記機器は、テレビを含み、
前記動作指示は、前記テレビのチャンネルを変更する動作指示を含み、
前記動作指示生成ステップは、生成した前記動作指示を前記テレビへ出力する請求項2記載の音声認識方法。
【請求項14】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、
前記音声認識部で認識された前記文字情報の文型を解析し、前記文型が疑問文又は命令文であるか否かを判断し、前記文型が前記疑問文又は前記命令文である場合、前記音声が前記機器に対する発話である判断する判断部と、
を備える音声認識装置。
【請求項15】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記音声情報の取得が終了してからの時間を無音時間として計測する計時部と、
前記音声情報が取得された場合、前記計時部によって計測された前記無音時間が所定時間以上であるか否かを判断する時間判断部と、
計測された前記無音時間が所定時間以上であると判断された場合、前記音声が前記機器に対する発話であると判断する発話判断部と、
を備える音声認識装置。
【請求項16】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、
人名を予め記憶する人名記憶部と、
予め記憶されている前記人名が前記文字情報に含まれているか否かを判断し、前記人名が前記文字情報に含まれている場合、前記音声が前記機器に対する発話ではないと判断する判断部と、
を備える音声認識装置。
【請求項17】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記機器が配置されている空間内の人物を検知する検知部と、
前記検知部で複数の人物が検知された場合、前記音声が前記機器に対する発話ではないと判断し、前記検知部で一人の人物が検知された場合、前記音声が前記機器に対する発話であると判断する判断部と、
を備える音声認識装置。
【請求項18】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、
前記音声認識部で認識された前記文字情報に含まれる用言の活用形が命令形であるか否かを判断し、前記活用形が前記命令形である場合、前記音声が前記機器に対する発話であると判断する判断部と、
を備える音声認識装置。
【請求項19】
一または複数の機器を音声認識によって制御する音声認識装置であって、
ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、
前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、
前記音声認識部で認識された前記文字情報に対する所定の判断結果に応じて付与される重み値を合計する重み値算出部と、
前記重み値算出部で合計された前記重み値が所定の値以上であるか否かを判断し、合計した前記重み値が所定の値以上である場合、前記音声が前記機器に対する発話であると判断する判断部と、
を備える音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、入力された音声を認識し、認識結果に基づいて機器を制御する音声認識方法及び音声認識装置に関するものである。
【背景技術】
【0002】
従来の音声認識装置では、発話者が音声認識装置に向かって発話する際に、音声認識を開始するためのトリガーを音声認識装置へ与える必要があった。従来の音声認識装置における音声認識のトリガーとしては、押ボタンスイッチの押下、及び予め登録された特定キーワードの検出が挙げられる(例えば、特許文献1及び特許文献2参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−154694号公報
【特許文献2】特開2006−215499号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記、従来の音声認識装置では更なる改善が必要とされていた。
【課題を解決するための手段】
【0005】
本開示の一局面に係る音声認識方法は、一または複数の機器を音声認識によって制御するシステムにおける音声認識方法であって、ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、前記音声認識ステップにおいて認識された前記文字情報に基づいて、前記音声が前記機器に対する発話であるか否かを判断する発話判断ステップと、を含む。
【0006】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0007】
本開示によれば、音声認識の更なる改善を実現できる。
【図面の簡単な説明】
【0008】
図1】本開示の実施の形態1における音声認識システムの構成を示すブロック図である。
図2】本開示の実施の形態1における機器の構成を示すブロック図である。
図3】本開示の実施の形態1における音声認識装置の構成を示すブロック図である。
図4】本開示の実施の形態1における音声認識システムの動作を説明するためのフローチャートである。
図5】(A)は、文型が平叙文である文字情報の一例を示す図であり、(B)は、文型が疑問文である文字情報の一例を示す図であり、(C)は、文型が命令文である文字情報の一例を示す図であり、(D)は、文型が命令文である文字情報の一例を示す図である。(E)は、文型が体言止めである文字情報の一例を示す図である。
図6】本実施の形態1における動作テーブルの一例を示す図である。
図7】本実施の形態1における天気に関するデータベースの一例を示す図である。
図8】本開示の実施の形態2における音声認識装置の構成を示すブロック図である。
図9】本開示の実施の形態3における音声認識装置の構成を示すブロック図である。
図10】本開示の実施の形態4における音声認識装置の構成を示すブロック図である。
図11】本開示の実施の形態5における音声認識装置の構成を示すブロック図である。
図12】本開示の実施の形態6における音声認識装置の構成を示すブロック図である。
図13】本開示の実施の形態7における音声認識装置の構成を示すブロック図である。
図14】特許文献1に記載された従来の音声認識装置の構成を示すブロック図である。
図15】特許文献2に記載された従来の音声認識装置の構成を示すブロック図である。
【発明を実施するための形態】
【0009】
(本開示の基礎となった知見)
図14は、特許文献1に記載された従来の音声認識装置の構成を示すブロック図であり、図15は、特許文献2に記載された従来の音声認識装置の構成を示すブロック図である。
【0010】
図14において、従来の音声認識装置201は、音声を入力するための音声入力部210と、音声入力部210によって入力された音声からコマンドを検出し、検出したコマンドに基づいて機器を制御する制御部220と、音声入力部210によって入力された音声から所定のキーワードを検出し、キーワードを検出した後所定のコマンド入力期間だけ、制御部220による機器の制御を有効にする許可部230とを備える。
【0011】
上記のように、特許文献1によれば、キーワードが音声で入力されるため、機器を制御する度にボタンなどを操作する必要がない。そのため、ユーザは、ボタンを押下することができない状態であっても、機器を制御することができる。
【0012】
図15において、従来の音声認識装置301は、音声入力部303から入力された音が音声及び非音声のいずれであるかを判別する音声/非音声判別部305と、キーワード辞書310と、音声認識用辞書313と、音声認識用辞書313を基に音声認識を行う音声認識部308と、音声/非音声判別部305で音声であると判断された音が、予めキーワード辞書310に登録された単語であるか否かを検知する音声キーワード検知部311と、音声入力部303から入力された音がキーワード辞書310に登録された単語を含むと検知された時点で入力された音を音声認識する指示を音声認識部308に出力する認識指示部309とを備える。これにより、利用者によって目的のコマンド語が発声された後に特定のキーワードが発声されることをトリガーとして音声認識が行われる。特許文献2の音声認識装置301は、特許文献1とは異なり、コマンド語が発話される前に予め登録してある特定のキーワードが発話されることなく、音声認識を開始するためのトリガーを与えることができる。
【0013】
しかしながら、従来の特許文献1の音声認識装置の構成では、目的のコマンド語の前に、音声認識を開始するための特定のキーワードを発話する必要があるという課題を有している。また、従来の特許文献2の音声認識装置の構成では、目的のコマンド語の後に、音声認識を開始するための特定のキーワードを発話する必要があるという課題を有している。つまり、特許文献1及び特許文献2の音声認識装置のいずれも、ユーザが特定のキーワードを発話しなければ、音声認識が開始されない。
【0014】
音声認識を開始するためのキーワードとコマンド語とを兼ねて、キーワードらしさを隠すことも考えられる。しかしながら、この場合、発話内容に必ずキーワードを含める必要があることに変わりはなく、発話者はキーワードを意識して発話する必要があることに変わりはない。
【0015】
以上の考察により、本発明者らは本開示の各態様を想到するに至った。
【0016】
以下本開示の実施の形態について、図面を参照しながら説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
【0017】
(実施の形態1)
図1は、本開示の実施の形態1における音声認識システムの構成を示すブロック図である。図1に示す音声認識システムは、機器1及びサーバ2を備える。
【0018】
機器1は、例えば家庭内に配置される家電機器を含む。機器1は、ネットワーク3を介してサーバ2と通信可能に接続される。ネットワーク3は、例えばインターネットである。
【0019】
なお、機器1には、ネットワーク3と接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ又はテレビ等)もあれば、それ自身ではネットワーク3と接続不可能な機器(例えば、照明機器、洗濯機又は冷蔵庫等)も存在する。それ自身ではネットワーク3と接続不可能な機器であっても、ホームゲートウェイを介してネットワーク3と接続可能となる機器が存在してもよい。ネットワーク3と接続可能な機器は、ホームゲートウェイを介さず、直接サーバ2と接続してもよい。
【0020】
サーバ2は、公知のサーバコンピュータ等から構成され、ネットワーク3を介して機器1と通信可能に接続されている。
【0021】
図2は、本開示の実施の形態1における機器1の構成を示すブロック図である。本実施の形態1における機器1は、通信部11、制御部12、メモリ13、マイクロフォン14、スピーカ15、表示部16及び音声認識装置100を備える。なお、機器1は、これらの構成のうち一部の構成を備えていなくてもよいし、他の構成を備えていてもよい。
【0022】
通信部11は、ネットワーク3を介してサーバ2へ情報を送信するとともに、ネットワーク3を介してサーバ2から情報を受信する。制御部12は、例えばCPU(中央演算処理装置)で構成され、機器1の全体を制御する。
【0023】
メモリ13は、例えばROM(リードオンリメモリ)又はRAM(ランダムアクセスメモリ)で構成され、情報を記憶する。マイクロフォン14は、音声を電気信号に変換し、音声情報として出力する。マイクロフォン14は、少なくとも3つのマイクロフォンを含むマイクロフォンアレイで構成され、機器1が配置されている空間内の音声を集音する。スピーカ15は、音声を出力する。表示部16は、例えば液晶表示装置で構成され、種々の情報を表示する。
【0024】
音声認識装置100は、ユーザの音声を認識し、機器1を動作させる動作指示を生成する。制御部12は、音声認識装置100によって認識された音声に応じた動作指示に基づいて機器1を動作させる。
【0025】
図3は、本開示の実施の形態1における音声認識装置の構成を示すブロック図である。
【0026】
図3に示すように、本実施の形態1における音声認識装置100は、音声取得部101、音声認識処理部102、認識結果判断部103及び動作指示生成部104を備える。
【0027】
音声取得部101は、ユーザによって発話された音声を表す音声情報を取得する。音声取得部101は、マイクロフォン14から音声情報を取得する。具体的には、マイクロフォン14は、アナログ信号である音声をデジタル信号である音声情報に変換し、音声取得部101は、デジタル信号に変換された音声情報をマイクロフォン14から取得する。音声取得部101は、取得した音声情報を音声認識処理部102へ出力する。
【0028】
音声認識処理部102は、音声取得部101によって取得された音声情報を文字情報として認識する。音声認識処理部102は、音声取得部101から音声情報を受け取り、音声認識用の辞書を用いて音声認識を行い、文字情報を音声認識結果として出力する。
【0029】
認識結果判断部103は、音声認識処理部102によって認識された文字情報に基づいて、音声が機器1に対する発話であるか否かを判断する。認識結果判断部103は、音声認識処理部102から受け取った音声認識結果を解析し、音声認識結果に対応した認識結果解析木を生成する。認識結果判断部103は、生成した認識結果解析木を解析し、音声認識処理部102によって認識された文字情報の文型を推定する。
【0030】
認識結果判断部103は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器1に対する発話であると判断する。一方、認識結果判断部103は、文型が疑問文又は命令文ではない場合、すなわち、文型が平叙文又は感嘆文である場合、音声が機器1に対する発話ではないと判断する。
【0031】
動作指示生成部104は、認識結果判断部103によって機器1に対する発話であると判断された場合、機器1に対する動作指示を生成する。動作指示生成部104は、認識結果判断部103から受け取った判断結果に基づき、動作指示を送るべき機器と動作内容とを決定し、決定した機器に対し、決定した動作内容を含む動作指示を生成する。
【0032】
ここで、本開示の実施の形態1における音声認識システムの動作について説明する。図4は、本開示の実施の形態1における音声認識システムの動作を説明するためのフローチャートである。
【0033】
まず、ステップS1において、音声取得部101は、機器1に設けられたマイクロフォン14から音声情報を取得する。
【0034】
次に、ステップS2において、音声認識処理部102は、音声取得部101によって取得された音声情報を文字情報として認識する。
【0035】
次に、ステップS3において、認識結果判断部103は、音声認識処理部102によって認識された文字情報に基づいて、音声が機器1に対する発話であるか否かを判断する。
【0036】
より具体的に、認識結果判断部103は、音声認識処理部102によって認識された文字情報の構文を、既知の構文解析技術を用いて解析する。構文解析技術としては、例えば、URL:http://nlp.ist.i.kyoto−u.ac.jp/index.php?KNPに示される解析システムを利用することが可能である。認識結果判断部103は、文字情報の文章を複数の文節に区切り、各文節の品詞を解析し、各品詞(用言)の活用形を解析する。文型には、所定のパターンがあるので、認識結果判断部103は、文字情報の文型を解析し、文型が平叙文、疑問文、感嘆文及び命令文のいずれであるかを判断する。そして、認識結果判断部103は、文型が疑問文及び命令文のいずれかである場合、音声が機器1に対する発話であると判断する。認識結果判断部103は、例えば、文章中に疑問詞が含まれている場合、文字情報の文型が疑問文であると判断することが可能である。また、認識結果判断部103は、例えば、文末の単語の活用形が命令形である場合、文字情報の文型が命令文であると判断することが可能である。
【0037】
ステップS3で音声が機器1に対する発話ではないと判断された場合(ステップS3でNO)、ステップS1の処理に戻る。
【0038】
一方、ステップS3で音声が機器1に対する発話であると判断された場合(ステップS3でYES)、ステップS4において、動作指示生成部104は、機器1に対する動作指示を生成する。動作指示生成部104は、複数の単語の組み合わせと機器の動作とを対応付けた動作テーブルを予め記憶している。なお、動作テーブルについては、後述する。動作指示生成部104は、ステップS3で音声が機器1に対する発話であると判断された場合、動作テーブルを参照し、認識結果判断部103によって解析された文字情報に含まれる単語の組み合わせに対応する機器の動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。
【0039】
上記の構成の音声認識装置を用いて天気予報を問い合わせる例について説明する。
【0040】
図5(A)は、文型が平叙文である文字情報の一例を示す図であり、図5(B)は、文型が疑問文である文字情報の一例を示す図であり、図5(C)は、文型が命令文である文字情報の一例を示す図であり、図5(D)は、文型が命令文である文字情報の一例を示す図である。図5(E)は、文型が体言止めである文字情報の一例を示す図である。
【0041】
図5(A)において、音声認識処理部102は、音声取得部101によって「明日の天気は晴れだ」という音声情報が取得されると、当該音声情報を「明日の天気は晴れだ」という文字情報に変換する。音声認識処理部102は、認識された文字情報を音声認識結果として認識結果判断部103へ出力する。
【0042】
認識結果判断部103は、音声認識処理部102によって認識された文字情報を「明日の」、「天気は」及び「晴れだ」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図5(A)では、文末の文節が判定詞であることから、認識結果判断部103は、当該文字情報の文型は平叙文であると判断する。認識結果判断部103は、文型が平叙文であると判断した場合、音声が機器1に対する発話ではないと判断する。
【0043】
また、図5(B)において、音声認識処理部102は、音声取得部101によって「明日の天気はどうですか」という音声情報が取得されると、当該音声情報を「明日の天気はどうですか」という文字情報に変換する。音声認識処理部102は、認識された文字情報を音声認識結果として認識結果判断部103へ出力する。
【0044】
認識結果判断部103は、音声認識処理部102によって認識された文字情報を「明日の」、「天気は」及び「どうですか」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図5(B)では、文末の文節に疑問詞が含まれていることから、認識結果判断部103は、当該文字情報の文型は疑問文であると判断する。認識結果判断部103は、文型が疑問文であると判断した場合、音声が機器1に対する発話であると判断する。
【0045】
音声が機器1に対する発話であると判断された場合、動作指示生成部104は、動作テーブルを参照して機器1に対する動作指示を生成する。図6は、本実施の形態1における動作テーブルの一例を示す図である。動作テーブル1401には、例えば図6に示すように、日時を判断するための単語列である単語1と、動作の目的又は検索の対象を判断するための単語列である単語2と、システムに対する発話であるか否かを判断するための単語列である単語3と、が紐付けられている。
【0046】
図5(B)の例では、動作指示生成部104は、動作テーブル1401を用いて、日時を表す「明日」という単語1と、検索の対象を表す「天気」という単語2と、システムに対する発話であることを表す「どう」という単語3とから、動作「出力:天気[1日後]」を決定する。
【0047】
そして、動作指示生成部104は、機器1の制御部12に対し、天気予報を提供するサーバから翌日の天気予報を取得する動作指示を出力する。制御部12は、動作指示生成部104からの動作指示に基づいて、天気予報を提供するサーバにアクセスし、当該サーバの天気に関するデータベースから翌日の天気予報を取得し、取得した天気予報を表示部16又はスピーカ15から出力する。図7は、本実施の形態1における天気に関するデータベースの一例を示す図である。天気に関するデータベース1402には、例えば図7に示すように、日付と、天気とが紐付けられている。なお、この際、制御部12は、機器1の現在位置を特定する位置情報を天気予報を提供するサーバへ送信することにより、現在位置における天気予報を取得することが可能となる。
【0048】
続いて、図5(C)において、音声認識処理部102は、音声取得部101によって「明日の天気を教えて」という音声情報が取得されると、当該音声情報を「明日の天気を教えて」という文字情報に変換する。音声認識処理部102は、認識された文字情報を音声認識結果として認識結果判断部103へ出力する。
【0049】
認識結果判断部103は、音声認識処理部102によって認識された文字情報を「明日の」、「天気を」及び「教えて」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図5(C)では、文末の単語の活用形が命令形であることから、認識結果判断部103は、当該文字情報の文型は命令文であると判断する。認識結果判断部103は、文型が命令文であると判断した場合、音声が機器1に対する発話であると判断する。
【0050】
音声が機器1に対する発話であると判断された場合、動作指示生成部104は、機器1に対する動作指示を生成する。図5(C)の例では、動作指示生成部104は、動作テーブル1401を用いて、日時を表す「明日」という単語1と、検索の対象を表す「天気」という単語2と、システムに対する発話であることを表す「教える」という単語3とから、動作「出力:天気[1日後]」を決定する。
【0051】
動作指示生成部104は、機器1の制御部12に対し、天気予報を提供するサーバの天気に関するデータベース1402から翌日の天気予報を取得する動作指示を出力する。以降の制御部12の動作は、上記と同じである。
【0052】
続いて、図5(D)において、音声認識処理部102は、音声取得部101によって「明後日の天気を調べて」という音声情報が取得されると、当該音声情報を「明後日の天気を調べて」という文字情報に変換する。音声認識処理部102は、認識された文字情報を音声認識結果として認識結果判断部103へ出力する。
【0053】
認識結果判断部103は、音声認識処理部102によって認識された文字情報を「明後日の」、「天気を」及び「調べて」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図5(D)では、文末の単語の活用形が命令形であることから、認識結果判断部103は、当該文字情報の文型は命令文であると判断する。認識結果判断部103は、文型が命令文であると判断した場合、音声が機器1に対する発話であると判断する。
【0054】
音声が機器1に対する発話であると判断された場合、動作指示生成部104は、機器1に対する動作指示を生成する。図5(D)の例では、動作指示生成部104は、動作テーブル1401を用いて、日時を表す「明後日」という単語1と、検索の対象を表す「天気」という単語2と、システムに対する発話であることを表す「調べて」という単語3から、動作「出力:天気[2日後]」を決定する。
【0055】
動作指示生成部104は、機器1の制御部12に対し、天気予報を提供するサーバの天気に関するデータベース1402から翌日の天気予報を取得する動作指示を出力する。以降の制御部12の動作は、上記と同じである。
【0056】
続いて、図5(E)において、音声認識処理部102は、音声取得部101によって「明日の天気」という音声情報が取得されると、当該音声情報を「明日の天気」という文字情報に変換する。音声認識処理部102は、認識された文字情報を音声認識結果として認識結果判断部103へ出力する。
【0057】
認識結果判断部103は、音声認識処理部102によって認識された文字情報を「明日の」及び「天気」という文節に区切り、各文節が体言であるか用言であるかを解析し、用言であれば当該文節に含まれる単語の品詞を解析する。図5(E)では、文末の単語が体言であることから、認識結果判断部103は、当該文字情報の文型は体言止めの文であると判断する。認識結果判断部103は、文型が体言止めの文であると判断した場合、音声が機器1に対する発話であると判断する。
【0058】
音声が機器1に対する発話であると判断された場合、動作指示生成部104は、機器1に対する動作指示を生成する。例えば、動作テーブルには、「明日」及び「天気」という単語の組み合わせと、天気予報を取得するという動作とが対応付けられている。そのため、動作指示生成部104は、動作テーブルを参照し、認識結果判断部103によって解析された文字情報に含まれる「明日」及び「天気」という単語の組み合わせに対応する機器の天気予報を取得するという動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。
【0059】
動作指示生成部104は、機器1の制御部12に対し、天気予報を提供するサーバから翌日の天気予報を取得する動作指示を出力する。以降の制御部12の動作は、上記と同じである。
【0060】
かかる構成によれば、認識結果判断部103によって音声が機器1に対する発話であると判断された場合、動作指示生成部104によって機器1に対する動作指示が生成され、認識結果判断部103によって音声が機器1に対する発話ではないと判断された場合、機器1に対する動作指示が生成されないので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。そのため、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0061】
なお、本実施の形態において、機器1が音声認識装置100を備えているが、本開示は特にこれに限定されず、サーバ2が音声認識装置100を備えてもよい。この場合、機器1のマイクロフォン14で取得された音声情報が、ネットワーク3を介してサーバ2へ送信され、サーバ2の音声認識装置100が図4のステップS1〜S4の処理を実行する。そして、サーバ2は、音声が機器に対する発話であると判断された場合、音声認識処理結果に基づく機器1の動作指示を機器1へ送信し、機器1は、サーバ2からの動作指示に応じて動作する。このことは、他の実施の形態でも適用可能である。
【0062】
また、本実施の形態における音声認識装置100の各機能ブロックは、マイクロプロセッサがコンピュータプログラムに従って動作することにより、実現されてもよい。また、音声認識装置100の各機能ブロックは、典型的には集積回路であるLSI(Large Scale Integration)として実現されてもよい。音声認識装置100の各機能ブロックは、個別に1チップ化されてもよいし、1以上の機能ブロック又は一部の機能ブロックを含むように1チップ化されてもよい。さらに、音声認識装置100の各機能ブロックは、ソフトウェアで実現されてもよいし、LSIとソフトウェアとの組み合わせで実現されてもよい。
【0063】
(実施の形態2)
続いて、本実施の形態2における音声認識装置について説明する。本実施の形態2における音声認識装置は、無音であった時間を計測し、計測した無音であった時間の長さに応じて、音声が機器1に対する発話であるか否かを判断する。
【0064】
すなわち、無音状態が所定時間以上続いた後、ユーザの発話が検出された場合、ユーザは、機器に対して発話(動作命令)している可能性が高い。そこで、本実施の形態2では、音声認識装置は、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間を計測し、計測した無音時間が所定時間以上である場合、音声が機器1に対する発話であると判断する。
【0065】
図8は、本開示の実施の形態2における音声認識装置の構成を示すブロック図である。なお、本実施の形態2における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態2における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0066】
本実施の形態2における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104、無音時間計測部105、無音時間判断部106及び認識結果判断部107を備える。なお、実施の形態2の音声認識装置において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
【0067】
無音時間計測部105は、音声取得部101による音声情報の取得が終了してからの時間を無音時間として計測する。
【0068】
無音時間判断部106は、音声取得部101によって音声情報が取得された場合、無音時間計測部105によって計測された無音時間が所定時間以上であるか否かを判断する。
【0069】
認識結果判断部107は、計測された無音時間が所定時間以上であると判断された場合、音声が機器1に対する発話であると判断する。
【0070】
例えば、無音時間判断部106は、音声取得部101によって音声情報が取得された場合、無音時間計測部105によって計測された無音時間が、ユーザが発話していた時間以上であるか否かを判断する。また、例えば、認識結果判断部107は、計測された無音時間が予め決められている所定時間以上であると判断された場合、音声が機器1に対する発話であると判断してもよい。ここで、予め決められている所定時間は、例えば30秒であり、ユーザが他の人物と会話していないと判断可能な時間である。
【0071】
かかる構成によれば、音声情報の取得が終了してからの時間が無音時間として計測され、次に音声情報が取得された際に、計測された無音時間が所定時間以上であると判断された場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0072】
なお、無音時間が所定時間以上続いた後、ユーザが発話し、ユーザの発話が終了した後、無音時間が所定時間より短い場合、ユーザは他の人物と会話している可能性が高い。そのため、認識結果判断部107は、無音時間が所定時間以上続いた後、音声情報が取得され、当該音声情報の取得が終了した後、無音時間が所定時間以上続いた場合、音声が機器1に対する発話であると判断してもよい。
【0073】
(実施の形態3)
続いて、本実施の形態3における音声認識装置について説明する。本実施の形態3における音声認識装置は、機器1の動作に関する所定のキーワードが文字情報に含まれているか否かを判断し、所定のキーワードが文字情報に含まれている場合、音声が機器1に対する発話であると判断する。
【0074】
図9は、本開示の実施の形態3における音声認識装置の構成を示すブロック図である。なお、本実施の形態3における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態3における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0075】
本実施の形態3における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104、キーワード記憶部108及び認識結果判断部109を備える。なお、実施の形態3の音声認識装置において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
【0076】
キーワード記憶部108は、機器の動作に関する所定のキーワードを予め記憶する。
【0077】
認識結果判断部109は、予め記憶されているキーワードが文字情報に含まれているか否かを判断し、キーワードが文字情報に含まれている場合、音声が機器1に対する発話であると判断する。
【0078】
例えば、機器1がテレビである場合、キーワード記憶部108は、「チャンネル」及び「変える」というキーワードを予め記憶する。認識結果判断部109は、キーワード記憶部108を参照し、文字情報に含まれる単語に、「チャンネル」及び「変える」というキーワードが含まれている場合、音声が機器1に対する発話であると判断する。
【0079】
この場合、例えば、動作テーブルには、「チャンネル」及び「変える」という単語の組み合わせと、テレビのチャンネルを変えるという動作とが対応付けられている。そのため、動作指示生成部104は、動作テーブルを参照し、認識結果判断部103によって解析された文字情報に含まれる「チャンネル」及び「変える」という単語の組み合わせに対応するテレビのチャンネルを変えるという動作を特定し、特定した動作で機器を動作させるための動作指示を生成する。
【0080】
かかる構成によれば、機器の動作に関する所定のキーワードが文字情報に含まれているか否かが判断され、所定のキーワードが文字情報に含まれている場合、音声が機器1に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0081】
(実施の形態4)
続いて、本実施の形態4における音声認識装置について説明する。本実施の形態4における音声認識装置は、予め記憶されている人名が文字情報に含まれているか否かを判断し、人名が文字情報に含まれている場合、音声が機器1に対する発話ではないと判断する。
【0082】
すなわち、ユーザが発話した音声の中に、家族の名前などの人名が含まれている場合、ユーザは、当該人名の人物に対して発話している可能性が高く、機器に対して発話していない可能性が高い。そこで、本実施の形態4では、音声認識装置は、家族の名前などの人名を予め記憶しておき、予め記憶されている人名が文字情報に含まれている場合、音声が機器1に対する発話ではないと判断する。
【0083】
図10は、本開示の実施の形態4における音声認識装置の構成を示すブロック図である。なお、本実施の形態4における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態4における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0084】
本実施の形態4における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104、人名記憶部110及び認識結果判断部111を備える。なお、実施の形態4の音声認識装置において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
【0085】
人名記憶部110は、人名を予め記憶する。ここで、人名記憶部110は、機器1が設置されている家に住んでいる家族の名前又は機器1を所有するユーザの家族の名前を予め記憶する。また、人名記憶部110は、お父さん、お母さん及びお兄ちゃんなどの家族の呼称を予め記憶してもよい。なお、人名は、機器1が備える入力受付部(不図示)を用いてユーザによって入力され、人名記憶部110に記憶される。
【0086】
認識結果判断部111は、人名記憶部110に予め記憶されている人名又は呼称が文字情報に含まれているか否かを判断し、人名又は呼称が文字情報に含まれている場合、音声が機器1に対する発話ではないと判断する。なお、家族の名前がユーザ情報としてサーバ2に記憶されている場合、認識結果判断部111は、サーバ2に記憶されているユーザ情報を用いて判断してもよい。
【0087】
また、実施の形態1と同様に、認識結果判断部111は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器1に対する発話であると判断する。この際、認識結果判断部111は、文型が疑問文又は命令文であると判断した場合であっても、人名記憶部110に予め記憶されている人名又は呼称が文字情報に含まれている場合は、音声が機器1に対する発話ではないと判断する。すなわち、認識結果判断部111は、文型が疑問文又は命令文であり、かつ人名記憶部110に予め記憶されている人名又は呼称が文字情報に含まれていない場合、音声が機器1に対する発話であると判断する。
【0088】
かかる構成によれば、予め記憶されている人名又は呼称が文字情報に含まれているか否かが判断され、人名又は呼称が文字情報に含まれている場合、音声が機器1に対する発話ではないと判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0089】
(実施の形態5)
続いて、本実施の形態5における音声認識装置について説明する。本実施の形態5における音声認識装置は、機器1が配置されている空間内の人物を検知し、複数の人物が検知された場合、音声が機器1に対する発話ではないと判断し、一人の人物が検知された場合、音声が機器1に対する発話であると判断する。
【0090】
すなわち、機器1が配置されている空間内に複数の人物がいる場合、ユーザは、他の人物に対して発話している可能性が高く、機器1に対して発話していない可能性が高い。一方、機器1が配置されている空間内に一人の人物のみがいる場合、ユーザは、機器1に対して発話している可能性が高い。そこで、本実施の形態5では、音声認識装置は、機器1が配置されている空間内に複数の人物が検知された場合、音声が機器1に対する発話ではないと判断する。また、音声認識装置は、機器1が配置されている空間内に一人の人物が検知された場合、音声が機器1に対する発話であると判断する。
【0091】
図11は、本開示の実施の形態5における音声認識装置の構成を示すブロック図である。なお、本実施の形態5における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態5における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0092】
本実施の形態5における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104、人物検知部112及び認識結果判断部113を備える。なお、実施の形態5の音声認識装置において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
【0093】
人物検知部112は、機器が配置されている空間内の人物を検知する。なお、人物検知部112は、機器1が備えるカメラから取得した画像を解析することにより、人物を検知してもよい。また、人物検知部112は、人感センサ又は熱感知センサなどにより、人物を検知してもよい。
【0094】
認識結果判断部113は、人物検知部112によって複数の人物が検知された場合、音声が機器1に対する発話ではないと判断し、人物検知部112によって一人の人物が検知された場合、音声が機器1に対する発話であると判断する。
【0095】
また、実施の形態1と同様に、認識結果判断部113は、文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、音声が機器1に対する発話であると判断する。この際、認識結果判断部113は、文型が疑問文又は命令文であると判断した場合であっても、人物検知部112によって複数の人物が検知された場合は、音声が機器1に対する発話ではないと判断する。すなわち、認識結果判断部111は、文型が疑問文又は命令文であり、かつ人物検知部112によって複数の人物が検知されない場合(一人の人物が検知された場合)、音声が機器1に対する発話であると判断する。
【0096】
かかる構成によれば、複数の人物が検知された場合、音声が機器に対する発話ではないと判断され、一人の人物が検知された場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0097】
(実施の形態6)
続いて、本実施の形態6における音声認識装置について説明する。本実施の形態6における音声認識装置は、文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、音声が機器1に対する発話であると判断する。
【0098】
すなわち、文字情報に含まれる用言の活用形が命令形である場合、ユーザは、機器1に対して発話している可能性が高い。そこで、本実施の形態6では、音声認識装置は、文字情報に含まれる用言の活用形を判断し、活用形が命令形である場合、音声が機器1に対する発話であると判断する。
【0099】
図12は、本開示の実施の形態6における音声認識装置の構成を示すブロック図である。なお、本実施の形態6における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態6における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0100】
本実施の形態6における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104及び認識結果判断部114を備える。なお、実施の形態6の音声認識装置において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
【0101】
認識結果判断部114は、文字情報に含まれる用言の活用形が未然形、連用形、終止形、連体形、仮定形及び命令形のいずれであるかを解析する。認識結果判断部114は、文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、音声が機器1に対する発話であると判断する。認識結果判断部114は、文字情報の文章を複数の文節に区切り、各文節の品詞を解析し、各品詞(用言)の活用形を解析する。そして、認識結果判断部114は、活用形が命令形である文節が文字情報に含まれている場合、音声が機器1に対する発話であると判断する。
【0102】
また、認識結果判断部114は、活用形が命令形ではない場合、すなわち、活用形が未然形、連用形、終止形、連体形又は仮定形である場合、音声が機器1に対する発話ではないと判断する。
【0103】
かかる構成によれば、文字情報に含まれる用言の活用形が命令形であるか否かが判断され、活用形が命令形である場合、音声が機器1に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0104】
なお、認識結果判断部114は、文字情報に含まれる用言の活用形が終止形又は命令形であるか否かを判断し、活用形が終止形又は命令形である場合、音声が機器1に対する発話であると判断してもよい。
【0105】
また、本開示に係る音声認識装置は、上記の実施の形態1〜6における音声認識装置を複数組み合わせてもよい。
【0106】
(実施の形態7)
続いて、本実施の形態7における音声認識装置について説明する。本実施の形態7における音声認識装置は、文字情報に対する所定の判断結果に応じて付与される重み値を合計し、合計した重み値が所定の値以上であるか否かを判断し、合計した重み値が所定の値以上である場合、音声が機器1に対する発話であると判断する。
【0107】
図13は、本開示の実施の形態7における音声認識装置の構成を示すブロック図である。なお、本実施の形態7における音声認識システムの構成は実施の形態1における音声認識システムの構成と同じであるので説明を省略する。また、本実施の形態7における機器の構成は実施の形態1における機器の構成と同じであるので説明を省略する。
【0108】
本実施の形態7における音声認識装置100は、音声取得部101、音声認識処理部102、動作指示生成部104、無音時間計測部105、無音時間判断部106、キーワード記憶部108、人名記憶部110、人物検知部112、重み値テーブル記憶部115、重み値算出部116、認識結果判断部117、ピッチ抽出部118、ピッチ記憶部119及び話者認識部120を備える。なお、実施の形態7の音声認識装置において、実施の形態1〜6と同一の構成については同一の符号を付し、説明を省略する。
【0109】
重み値テーブル記憶部115は、文字情報に対する所定の判断結果と、重み値とを対応付けた重み値テーブルを記憶する。重み値テーブルは、文字情報の文型が疑問文又は命令文であるという判断結果と第1の重み値とを対応付けている。また、重み値テーブルは、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上であるという判断結果と第2の重み値とを対応付けている。また、重み値テーブルは、予め記憶されているキーワードが文字情報に含まれているという判断結果と第3の重み値とを対応付けている。また、重み値テーブルは、予め記憶されている人名又は呼称が文字情報に含まれているという判断結果と第4の重み値とを対応付けている。また、重み値テーブルは、複数の人物が検知されたという判断結果と第5の重み値とを対応付けている。また、重み値テーブルは、一人の人物が検知されたという判断結果と第6の重み値とを対応付けている。また、重み値テーブルは、文字情報に含まれる用言の活用形が命令形であるという判断結果と第7の重み値とを対応付けている。また、重み値テーブルは、音声情報のピッチ周波数と第8の重み値とを対応付けている。
【0110】
重み値算出部116は、文字情報に対する所定の判断結果に応じて付与される重み値を合計する。重み値算出部116は、文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている機器の動作に関する所定のキーワードが文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が文字情報に含まれているか否かに応じて付与される重み値と、機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値と、音声情報のピッチ周波数が所定の閾値以上か否かに応じて付与される重み値と、を合計する。
【0111】
重み値算出部116は、音声認識処理部102によって認識された文字情報の文型を解析し、文型が疑問文又は命令文であるか否かを判断し、文型が疑問文又は命令文である場合、対応する第1の重み値を重み値テーブル記憶部115から読み出す。
【0112】
また、重み値算出部116は、無音時間判断部106によって、音声取得部101による音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上であると判断された場合、対応する第2の重み値を重み値テーブル記憶部115から読み出す。
【0113】
また、重み値算出部116は、キーワード記憶部108に予め記憶されているキーワードが、音声認識処理部102によって認識された文字情報に含まれているか否かを判断し、キーワードが文字情報に含まれている場合、対応する第3の重み値を重み値テーブル記憶部115から読み出す。
【0114】
また、重み値算出部116は、人名記憶部110に予め記憶されている人名又は呼称が、音声認識処理部102によって認識された文字情報に含まれているか否かを判断し、人名又は呼称が文字情報に含まれている場合、対応する第4の重み値を重み値テーブル記憶部115から読み出す。
【0115】
また、重み値算出部116は、人物検知部112によって複数の人物が検知された場合、対応する第5の重み値を重み値テーブル記憶部115から読み出す。
【0116】
また、重み値算出部116は、人物検知部112によって一人の人物が検知された場合、対応する第6の重み値を重み値テーブル記憶部115から読み出す。
【0117】
また、重み値算出部116は、音声認識処理部102によって認識された文字情報に含まれる用言の活用形が命令形であるか否かを判断し、活用形が命令形である場合、対応する第7の重み値を重み値テーブル記憶部115から読み出す。
【0118】
また重み値算出部116は、音声情報のピッチ周波数が所定の閾値以上である場合に、対応する第8の重み値を重み値テーブル記憶部115から読み出す。具体的には、重み値算出部116は、発話ごとに、入力音声情報からピッチ抽出部118によって抽出されたピッチ周波数と、話者認識部120によって認識された話者情報とを、一つの組としてピッチ記憶部119へ格納する。新たな発話が入力されると、入力音声情報からピッチ抽出部118によって抽出されたピッチ周波数と、話者認識部120によって認識された話者情報とを一つの組として、ピッチ記憶部119へ格納すると同時に、同じ話者の前回の発話のピッチ周波数と、今回の発話のピッチ周波数とを比較して、予め設定した閾値を超えて今回の発話のピッチ周波数が高い場合は、対応する第8の重み値を重み値テーブル記憶部115から読み出す。なお、話者認識部120による話者認識を用いずに、話者に限らず固定の閾値を利用することで第8の重み値を読み出してもよい。
【0119】
また、重み値算出部116は、読み出した各重み値を合計する。
【0120】
なお、重み値算出部116は、文字情報の文型が疑問文又は命令文ではないと判断された場合、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上ではないと判断された場合、予め記憶されているキーワードが文字情報に含まれていないと判断された場合、予め記憶されている人名又は呼称が文字情報に含まれていないと判断された場合、又は文字情報に含まれる用言の活用形が命令形ではないと判断された場合、重み値を加算しない。
【0121】
認識結果判断部117は、重み値算出部116によって合計された重み値が所定の値以上であるか否かを判断し、合計した重み値が所定の値以上である場合、音声が機器1に対する発話であると判断する。
【0122】
なお、第1の重み値、第2の重み値、第3の重み値、第6の重み値及び第7の重み値は、第4の重み値及び第5の重み値より高いことが好ましい。第1の重み値、第2の重み値、第3の重み値、第6の重み値及び第7の重み値は、例えば“5”であり、第4の重み値は、例えば“−5”であり、第5の重み値は、例えば“0”である。認識結果判断部117は、合計した重み値が例えば“10”以上である場合、音声が機器1に対する発話であると判断する。
【0123】
なお、第1〜第7の重み値は、上記の値に限定されず、他の値であってもよい。また、合計した重み値と比較される所定の値は、上記の値に限定されず、他の値であってもよい。また、重み値算出部116は第1〜第7の重み値をすべて用いず、第1〜第7の重み値のうち一部を用いて、認識結果判断部117が機器1に対する発話か否かを判断するための重み値を算出してもよい。
【0124】
また、重み値テーブルは、文字情報の文型が疑問文又は命令文ではないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、音声情報の取得が終了してから次に音声情報の取得が開始されるまでの無音時間が所定時間以上ではないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、予め記憶されているキーワードが文字情報に含まれていないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、予め記憶されている人名又は呼称が文字情報に含まれていないという判断結果と所定の重み値とを対応付けてもよい。また、重み値テーブルは、文字情報に含まれる用言の活用形が命令形ではないという判断結果と所定の重み値とを対応付けてもよい。
【0125】
また、重み値テーブルは、無音時間が所定時間以上続いた後、音声情報が取得され、当該音声情報の取得が終了した後、無音時間が所定時間以上続いたという判断結果と所定の重み値とを対応付けてもよい。
【0126】
かかる構成によれば、文字情報に対する所定の判断結果に応じて付与される重み値が合計され、合計された重み値が所定の値以上である場合、音声が機器に対する発話であると判断されるので、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0127】
なお、第5の重み値算出において、2名以上でなされる会話の中から機器に対する発話であることを判断するために、直前の発話の終端から今回の発話の始端までの時間が、予め設定した時間の閾値以内か否か、という条件を設定してもよい。
【0128】
なお、実施の形態1〜7において、機器1は、スマートフォン、タブレット型コンピュータ及び携帯電話機などの情報端末を含むことが好ましい。この場合、動作指示は、ユーザによって指定された日の天気予報を取得し、取得した天気予報を出力する動作指示を含む。例えば、音声取得部101は、“明日の天気を教えて”という音声情報を取得すると、動作指示生成部104は、翌日の天気予報を取得する動作指示を生成する。動作指示生成部104は、生成した動作指示を携帯端末へ出力する。
【0129】
また、実施の形態1〜7において、機器1は、照明機器を含むことが好ましい。この場合、動作指示は、照明機器を点灯させる動作指示と、照明機器を消灯させる動作指示とを含む。例えば、音声取得部101は、“電気を点けて”という音声情報を取得すると、動作指示生成部104は、照明機器を点灯させる動作指示を生成する。動作指示生成部104は、生成した動作指示を照明機器へ出力する。
【0130】
また、実施の形態1〜7において、機器1は、自動的に蛇口から水を出す水栓機器を含むことが好ましい。この場合、動作指示は、水栓機器から水を出す動作指示と、水栓機器から出ている水を止める動作指示とを含む。例えば、音声取得部101は、“水を400cc出して”という音声情報を取得すると、動作指示生成部104は、水栓機器から水を400cc出す動作指示を生成する。動作指示生成部104は、生成した動作指示を水栓機器へ出力する。
【0131】
また、実施の形態1〜7において、機器1は、テレビを含むことが好ましい。この場合、動作指示は、テレビのチャンネルを変更する動作指示を含む。例えば、音声取得部101は、“4チャンネルに変えて”という音声情報を取得すると、動作指示生成部104は、テレビのチャンネルを4チャンネルに変更する動作指示を生成する。動作指示生成部104は、生成した動作指示をテレビへ出力する。
【0132】
また、実施の形態1〜7において、機器1は、空調機器を含むことが好ましい。この場合、動作指示は、空調機器の運転を開始させる動作指示、空調機器の運転を停止させる動作指示及び空調機器の設定温度を変更する動作指示を含む。例えば、音声取得部101は、“空調機器の温度を上げて”という音声情報を取得すると、動作指示生成部104は、空調機器の設定温度を上げる動作指示を生成する。動作指示生成部104は、生成した動作指示を空調機器へ出力する。
【0133】
なお、上述した具体的実施形態には以下の構成を有する開示が主に含まれている。
【0134】
本開示の一局面に係る音声認識方法は、ユーザによって発話された音声を表す音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報を文字情報として認識する音声認識ステップと、前記音声認識ステップにおいて認識された前記文字情報に基づいて、前記音声が機器に対する発話であるか否かを判断する発話判断ステップと、を含む。
【0135】
この構成によれば、ユーザによって発話された音声を表す音声情報が取得される。取得された音声情報が文字情報として認識される。認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断される。
【0136】
したがって、認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断されるので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。そのため、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0137】
また、上記の音声認識方法において、前記発話判断ステップにおいて機器に対する発話であると判断された場合、前記機器に対する動作指示を生成する動作指示生成ステップをさらに含むことが好ましい。
【0138】
この構成によれば、機器に対する発話であると判断された場合、機器に対する動作指示が生成される。したがって、音声が機器に対する発話であると判断された場合、機器に対する動作指示が生成され、音声が機器に対する発話ではないと判断された場合、機器に対する動作指示が生成されないので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。
【0139】
また、上記の音声認識方法において、前記発話判断ステップは、前記文字情報の文型を解析し、前記文型が疑問文又は命令文であるか否かを判断し、前記文型が前記疑問文又は前記命令文である場合、前記音声が前記機器に対する発話であると判断することが好ましい。
【0140】
この構成によれば、文字情報の文型が解析され、文型が疑問文又は命令文であるか否かが判断され、文型が疑問文又は命令文である場合、音声が機器に対する発話であると判断される。
【0141】
文型が疑問文又は命令文である場合、音声は、機器に対する発話である可能性が高い。したがって、文型が疑問文又は命令文であるか否かを判断することにより、音声が機器に対する発話であることを容易に判断することができる。
【0142】
また、上記の音声認識方法において、前記音声情報の取得が終了してからの時間を無音時間として計測する計時ステップと、前記音声情報が取得された場合、前記計時ステップにおいて計測された前記無音時間が所定時間以上であるか否かを判断する時間判断ステップとをさらに含み、前記発話判断ステップは、計測された前記無音時間が所定時間以上であると判断された場合、前記音声が前記機器に対する発話であると判断することが好ましい。
【0143】
この構成によれば、音声情報の取得が終了してからの時間が無音時間として計測され、音声情報が取得された場合、計測された無音時間が所定時間以上であるか否かが判断される。計測された無音時間が所定時間以上であると判断された場合、音声が機器に対する発話であると判断される。
【0144】
音声情報が取得されない無音状態が所定時間続いた後、音声情報が取得された場合、音声は、機器に対する発話である可能性が高い。したがって、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かを判断することにより、音声が機器に対する発話であることを容易に判断することができる。
【0145】
また、上記の音声認識方法において、前記機器の動作に関する所定のキーワードを予め記憶するキーワード記憶ステップをさらに含み、前記発話判断ステップは、予め記憶されている前記キーワードが前記文字情報に含まれているか否かを判断し、前記キーワードが前記文字情報に含まれている場合、前記音声が前記機器に対する発話であると判断することが好ましい。
【0146】
この構成によれば、機器の動作に関する所定のキーワードが予め記憶されている。予め記憶されているキーワードが文字情報に含まれているか否かが判断され、キーワードが文字情報に含まれている場合、音声が機器に対する発話であると判断される。
【0147】
したがって、機器の動作に関する所定のキーワードを予め記憶しておき、キーワードが文字情報に含まれているか否かを判断することにより、音声が機器に対する発話であるか否かを容易に判断することができる。
【0148】
また、上記の音声認識方法において、人名を予め記憶する人名記憶ステップをさらに含み、前記発話判断ステップは、予め記憶されている前記人名が前記文字情報に含まれているか否かを判断し、前記人名が前記文字情報に含まれている場合、前記音声が前記機器に対する発話ではないと判断することが好ましい。
【0149】
この構成によれば、人名が予め記憶される。予め記憶されている人名が文字情報に含まれているか否かが判断され、人名が文字情報に含まれている場合、音声が機器に対する発話ではないと判断される。
【0150】
人名が文字情報に含まれている場合、音声は、機器に対する発話ではなく、人名の人物に対する発話である可能性が高い。したがって、人名を予め記憶しておき、人名が前記文字情報に含まれているか否かを判断することにより、音声が機器に対する発話であるか否かを容易に判断することができる。
【0151】
また、上記の音声認識方法において、前記機器が配置されている空間内の人物を検知する検知ステップをさらに含み、前記発話判断ステップは、前記検知ステップにおいて複数の人物が検知された場合、前記音声が前記機器に対する発話ではないと判断し、前記検知ステップにおいて一人の人物が検知された場合、前記音声が機器に対する発話であると判断することが好ましい。
【0152】
この構成によれば、機器が配置されている空間内の人物が検知される。複数の人物が検知された場合、音声が機器に対する発話ではないと判断され、一人の人物が検知された場合、音声が機器に対する発話であると判断される。
【0153】
機器が配置されている空間内に複数の人物がいる場合、ユーザの発話は、他の人物に向けた発話である可能性が高い。また、機器が配置されている空間内に一人の人物のみがいる場合、ユーザの発話は、機器に向けた発話である可能性が高い。したがって、機器が配置されている空間内の人物の数を検知することにより、音声が機器に対する発話であるか否かを容易に判断することができる。
【0154】
また、上記の音声認識方法において、前記発話判断ステップは、前記文字情報に含まれる用言の活用形が命令形であるか否かを判断し、前記活用形が前記命令形である場合、前記音声が前記機器に対する発話であると判断することが好ましい。
【0155】
この構成によれば、文字情報に含まれる用言の活用形が命令形であるか否かが判断され、活用形が命令形である場合、音声が機器に対する発話であると判断される。
【0156】
文字情報に含まれる用言の活用形が命令形である場合、音声は、機器に対する発話である可能性が高い。したがって、文字情報に含まれる用言の活用形が命令形であることを判断することにより、音声が機器に対する発話であることを容易に判断することができる。
【0157】
また、上記の音声認識方法において、前記文字情報に対する所定の判断結果に応じて付与される重み値を合計する重み値算出ステップをさらに含み、前記発話判断ステップは、前記重み値算出ステップにおいて合計された前記重み値が所定の値以上であるか否かを判断し、合計した前記重み値が所定の値以上である場合、前記音声が前記機器に対する発話であると判断することが好ましい。
【0158】
この構成によれば、文字情報に対する所定の判断結果に応じて付与される重み値が合計される。合計された重み値が所定の値以上であるか否かが判断され、合計された重み値が所定の値以上である場合、音声が機器に対する発話であると判断される。
【0159】
したがって、文字情報に対する所定の判断結果に応じて付与される重み値が合計され、合計された重み値に応じて音声が機器に対する発話であるか否かが判断されるので、文字情報に対する所定の判断結果に応じて重み値の大きさを変更することにより、音声が機器に対する発話であることを正確に判断することができる。
【0160】
また、上記の音声認識方法において、前記重み値算出ステップは、前記文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、前記音声情報の取得が終了してからの時間を無音時間として計測し、前記音声情報が取得された場合、計測された前記無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている前記機器の動作に関する所定のキーワードが前記文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が前記文字情報に含まれているか否かに応じて付与される重み値と、前記機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、前記文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とを合計することが好ましい。
【0161】
この構成によれば、文字情報の文型が疑問文又は命令文であるか否かに応じて付与される重み値と、音声情報の取得が終了してから次の音声情報が取得されるまでの無音時間が所定時間以上であるか否かに応じて付与される重み値と、予め記憶されている機器の動作に関する所定のキーワードが文字情報に含まれているか否かに応じて付与される重み値と、予め記憶されている人名が文字情報に含まれているか否かに応じて付与される重み値と、機器が配置されている空間内で複数の人物が検知されたか否かに応じて付与される重み値と、文字情報に含まれる用言の活用形が命令形であるか否かに応じて付与される重み値とが合計される。
【0162】
したがって、これらの重み値重み値が合計され、合計された重み値に応じて音声が機器に対する発話であるか否かが判断されるので、音声が機器に対する発話であることをより正確に判断することができる。
【0163】
また、上記の音声認識方法において、前記機器は、携帯端末を含み、前記動作指示は、前記ユーザによって指定された日の天気予報を取得し、取得した前記天気予報を出力する動作指示を含み、前記動作指示生成ステップは、生成した前記動作指示を前記携帯端末へ出力することが好ましい。
【0164】
この構成によれば、ユーザによって指定された日の天気予報を取得し、取得した天気予報を携帯端末から出力することができる。
【0165】
また、上記の音声認識方法において、前記機器は、照明機器を含み、前記動作指示は、前記照明機器を点灯させる動作指示と、前記照明機器を消灯させる動作指示とを含み、前記動作指示生成ステップは、生成した前記動作指示を前記照明機器へ出力することが好ましい。
【0166】
この構成によれば、音声により、照明機器を点灯させたり、照明機器を消灯させたりすることができる。
【0167】
また、上記の音声認識方法において、前記機器は、自動的に蛇口から水を出す水栓機器を含み、前記動作指示は、前記水栓機器から水を出す動作指示と、前記水栓機器から出ている水を止める動作指示とを含み、前記動作指示生成ステップは、生成した前記動作指示を前記水栓機器へ出力することが好ましい。
【0168】
この構成によれば、音声により、水栓機器から水を出したり、水栓機器から出ている水を止めたりすることができる。
【0169】
また、上記の音声認識方法において、前記機器は、テレビを含み、前記動作指示は、前記テレビのチャンネルを変更する動作指示を含み、前記動作指示生成ステップは、生成した前記動作指示を前記テレビへ出力することが好ましい。
【0170】
この構成によれば、音声により、テレビのチャンネルを変更することができる。
【0171】
本開示の他の局面に係る音声認識装置は、ユーザによって発話された音声を表す音声情報を取得する音声情報取得部と、前記音声情報取得部によって取得された前記音声情報を文字情報として認識する音声認識部と、前記音声認識部で認識された前記文字情報に基づいて、前記音声が機器に対する発話であるか否かを判断する判断部と、を備える。
【0172】
この構成によれば、ユーザによって発話された音声を表す音声情報が取得される。取得された音声情報が文字情報として認識される。認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断される。
【0173】
したがって、認識された文字情報に基づいて、音声が機器に対する発話であるか否かが判断されるので、音声認識を開始するためのトリガーである特定のキーワードの発話を不要にすることができる。そのため、ユーザは、音声認識を開始するためのトリガーである特定のキーワードを意識することなく発話することができ、日常会話から機器を動作させることができる。
【0174】
なお、開示を実施するための形態の項においてなされた具体的な実施態様または実施例は、あくまでも、本開示の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本開示の精神と特許請求事項との範囲内で、種々変更して実施することができるものである。
【産業上の利用可能性】
【0175】
本開示に係る音声認識方法及び音声認識装置は、音声認識を開始するための特定のキーワードの発話を不要にすることができ、入力された音声を認識し、認識結果に基づいて機器を制御する音声認識方法及び音声認識装置として有用である。
【符号の説明】
【0176】
1 機器
11 通信部
12 制御部
13 メモリ
14 マイクロフォン
15 スピーカ
16 表示部
100 音声認識装置
101 音声取得部
102 音声認識処理部
103 認識結果判断部
104 動作指示生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15