IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7151606コマンド解析装置、コマンド解析方法、プログラム
<>
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図1
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図2
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図3
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図4
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図5
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図6
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図7
  • 特許-コマンド解析装置、コマンド解析方法、プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-03
(45)【発行日】2022-10-12
(54)【発明の名称】コマンド解析装置、コマンド解析方法、プログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20221004BHJP
   G10L 15/00 20130101ALI20221004BHJP
   G10L 15/22 20060101ALI20221004BHJP
   G10L 15/32 20130101ALI20221004BHJP
【FI】
G10L15/28 500
G10L15/00 200F
G10L15/22 200V
G10L15/32 210Z
【請求項の数】 5
(21)【出願番号】P 2019078762
(22)【出願日】2019-04-17
(65)【公開番号】P2020177108
(43)【公開日】2020-10-29
【審査請求日】2021-07-12
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小林 和則
(72)【発明者】
【氏名】齊藤 翔一郎
(72)【発明者】
【氏名】伊藤 弘章
【審査官】菊池 智紀
(56)【参考文献】
【文献】米国特許出願公開第2016/0351196(US,A1)
【文献】国際公開第2019/030810(WO,A1)
【文献】畑崎香一郎 他,”発話同時理解による音声対話インタフェースの検討",日本音響学会研究発表会議講演論文集 -春I-,1993年03月17日,pp.75-76
【文献】松永悟 他,"Sync/Mail:話し言葉の漸進的変換に基づく即時応答インタフェース",電子情報通信学会技術研究報告,1998年12月10日,Vol.98, No.462,pp.33-40
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、
前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、前記音声信号の入力の最中に解析結果を出力するコマンド解析部を含む
コマンド解析装置。
【請求項2】
請求項1に記載のコマンド解析装置であって、
前記音声認識部は、
前記部分的な音声認識結果が文末であるか否かを判定して、文末である場合に前記音声認識結果(以下、最終結果)と文末信号を出力し、
前記文末信号を受信した場合に、前記途中結果用認識ルールを所定の最終結果用認識ルールに切り替えるルール切替部を含み、
前記コマンド解析部は、
前記途中結果用認識ルールが前記最終結果用認識ルールに切り替えられた場合に、前記最終結果を前記最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する
コマンド解析装置。
【請求項3】
請求項2に記載のコマンド解析装置であって、
前記音声認識部は、
前記部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていないかを判定して、前記無音区間が所定時間以上継続している場合、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力し、
前記ルール切替部は、
前記無音信号を受信した場合に、前記途中結果用認識ルールを、第2の途中結果用認識ルールに切り替え、
前記コマンド解析部は、
前記途中結果用認識ルールが前記第2の途中結果用認識ルールに切り替えられた場合に、前記途中結果を前記第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する
コマンド解析装置。
【請求項4】
コマンド解析装置が実行するコマンド解析方法であって、
所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得するステップと、
前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、前記音声信号の入力の最中に解析結果を出力するステップを含む
コマンド解析方法。
【請求項5】
コンピュータを請求項1から3の何れかに記載のコマンド解析装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識結果からどのようなコマンドが発せられたかを解析するコマンド解析装置、コマンド解析方法、プログラムに関する。
【背景技術】
【0002】
非特許文献1に示すような、自動車のインフォテイメントシステムなどの操作を音声認識を使って行うシステムでは、音声認識結果の文字列を解析して、どのようなコマンドが発せられたかを判定する。このシステムでは、定型文のコマンドの判定や、言い回しの違うコマンドの解析も行うことができる。コマンドの解析は、あらかじめ用意されたルールに従って行われる。例えば、“エアコン”、“温度”、“上げる”の組み合わせが含まれる際に、エアコンの温度を上昇させるコマンドであると判定するなどである。図1に、従来技術のコマンド解析装置の構成例を示す。同図に示すように、従来例のコマンド解析装置9は、認識ルール記憶部90aと、音声認識部91と、コマンド解析部92を含む。図2に、従来技術のコマンド解析装置の動作例を示す。音声認識部91は、音声信号を取得して、音声認識を実行し、認識結果を得る(S91)。コマンド解析部92は、認識ルール記憶部90aに記憶された認識ルールに基づいて認識結果からコマンドを解析して出力する(S92)。
【先行技術文献】
【非特許文献】
【0003】
【文献】西村雅史、倉田岳人、「音声インタフェースの現状とイノベーションの可能性」、情報処理、一般社団法人情報処理学会、平成22年11月、第51巻、第11号、p.1434-1439
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来のコマンド解析は音声認識結果が確定してから行われるため、発話を行ってから、実際にコマンドが実行されるまでにタイムラグが生じることがあった。
【0005】
そこで本発明では、コマンド実行までの時間を短縮することができるコマンド解析装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のコマンド解析装置は、音声認識部と、コマンド解析部を含む。
【0007】
音声認識部は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する。コマンド解析部は、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する。
【発明の効果】
【0008】
本発明のコマンド解析装置は、コマンド実行までの時間を短縮することができる。
【図面の簡単な説明】
【0009】
図1】従来技術のコマンド解析装置の構成例を示すブロック図。
図2】従来技術のコマンド解析装置の動作例を示すフローチャート。
図3】実施例1のコマンド解析装置に入力される発話音声の例1を示す図。
図4】実施例1のコマンド解析装置に入力される発話音声の例2を示す図。
図5】実施例1のコマンド解析装置の構成を示すブロック図。
図6】実施例1のコマンド解析装置の動作を示すフローチャート。
図7】実施例2のコマンド解析装置の構成を示すブロック図。
図8】実施例2のコマンド解析装置の動作を示すフローチャート。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0011】
以下、図3を参照して、実施例1のコマンド解析装置に入力される発話音声、その認識結果(途中結果、最終結果)、コマンドの解析例について説明する。
【0012】
実施例1のコマンド解析装置は音声信号を入力とし、音声信号から音声認識結果を取得し、事前に設定されたルールに基づいて、コマンドを解析する。本実施例では、コマンド解析のためのルールを2種類、事前に準備する。1つは最終結果用認識ルール、もう1つは途中結果用認識ルールである。
【0013】
途中結果用認識ルールは部分的な音声認識結果(以下、途中結果という)に対するコマンド解析に利用され、最終結果用認識ルールは、文末を含む音声認識結果(以下、最終結果という)に対してのみ利用される。
【0014】
途中結果用認識ルールは、音声信号が文末まで未だ達していない(入力されていない)段階、すなわち、音声認識の途中であっても、コマンドを解析(特定)可能なルールであり、最終結果用認識ルールは音声認識の途中ではコマンドを解析(特定)できないルールであるものとする。
【0015】
図3に例示するように、発話音声「エアコンの温度を22度に設定して」であれば、「えあこんのおんどをにじゅう」まで発話した段階であれば、「エアコンの温度を20…」または「エアコンの温度を2●…」と、二つの可能性が考えられる。また、「えあこんのおんどをにじゅうに」まで発話した段階であれば、「エアコンの温度を20に…」または「エアコンの温度を22…」と、二つの可能性が考えられる。
【0016】
一方、「えあこんのおんどをにじゅうにど」まで発話した段階では、「エアコンの温度を22度」と確定することができるので、例えば、コマンドの実行主体である“エアコン”、コマンドの実行内容である“温度”、“*度”(ただし*は、エアコン温度の設定範囲の任意の数字とする)が含まれるルールを、途中結果用認識ルールとすることができる。
【0017】
エアコンの例では、上述の例の他に「エアコンの温度を3度上げて」などの発話音声も考えられる。このような発話音声に対しコマンド解析の誤りを防ぐために、*をエアコン温度の設定範囲(例えば18~30)に制限したルールとすれば好適である。
【0018】
一方、図4に例示した発話音声「音楽のボリュームを22にして」に関しては、コマンドの実行主体である“音楽”(“音楽”と発話があった時点において楽音再生中のハードウェア)、コマンドの実行内容である“ボリューム”、“#”(#はボリュームの設定範囲の数字)が含まれるというルールとした場合、「おんがくのぼりゅーむをにじゅう」の段階で「音楽のボリュームを20」という誤ったコマンド解析が行われる可能性がある。
【0019】
従って、途中結果用認識ルールを“音楽”、“ボリューム”、“#に”とするか、あるいは“音楽”、“ボリューム”、“#”を最終結果用のルールとしなければならない。
【0020】
なお、上述ではコマンドの実行内容にパラメータ(“#”)が含まれる例を説明したが、これ以外の例も考えられる。例えば、音声信号が「窓をあけて」である場合、コマンドの実行主体は“窓”、コマンドの実行内容は“あけて”であるため、上述したパラメータ“#”を含まない。
【0021】
以下、図5を参照して実施例1のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置1は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、音声認識部11と、コマンド解析部12と、ルール切替部13を含む。
【0022】
図6を参照して本実施例のコマンド解析装置1の動作を説明する。フローチャートF1に示すように、音声認識部11は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する(S11a)。コマンド解析部12は、途中結果を、途中結果用認識ルール記憶部10bに記憶された、所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する(S12a)。
【0023】
なお、音声認識部11は、部分的な音声認識結果が文末であるか否かを判定して、文末である場合に(F2スタート)、音声認識結果(以下、最終結果)をコマンド解析部12に、文末信号をルール切替部13に出力するものとする(S11b)。ルール切替部13は、文末信号を受信した場合に、途中結果用認識ルールを最終結果用認識ルール記憶部10aに予め記憶された最終結果用認識ルールに切り替える(S13)。コマンド解析部12は、途中結果用認識ルールが最終結果用認識ルールに切り替えられた場合に、最終結果を最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S12b)。
【0024】
本実施例のコマンド解析装置1によれば、部分的な音声認識結果を途中結果用認識ルールと照合してコマンド解析を実行するため、音声信号の入力の最中に解析結果を出力することができ、コマンド実行までの時間を短縮することができる。
【実施例2】
【0025】
実施例2では、コマンド解析のためのルールを3種類、事前に準備する。最終結果用認識ルール、途中結果用認識ルール、第2の途中結果用認識ルールの3つであり、最終結果用認識ルール、途中結果用認識ルールについては実施例1と同じである。第2の途中結果用認識ルールは、無音区間が検出された場合や、音声認識結果が所定時間に渡り取得されない場合に有効となるルールである。
【0026】
以下、図7を参照して実施例2のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置2は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、第2の途中結果用認識ルール記憶部20cと、音声認識部21と、コマンド解析部22と、ルール切替部23を含み、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bについては実施例1と同じである。
【0027】
図8を参照して本実施例のコマンド解析装置2の動作を説明する。フローチャートF3に示すように、音声認識部21は、部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな音声認識結果が所定時間以上に渡り取得されていないかを判定して、無音区間が所定時間以上継続している場合、あるいは新たな音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力する(S21)。例えば、音声認識部21は、無音区間が継続している時間をカウントして、当該時間が予め設定した閾値(例えば1~3秒)を超えた場合に、無音信号を出力してもよい。同様に、音声認識部21は、音声認識結果が取得されていない時間をカウントして、当該時間が予め設定した閾値(例えば1~3秒)を超えた場合に、無音信号を出力してもよい。
【0028】
人がコマンド文を発話する場合、何も発音をしないポーズの時間は、それほど長くないことが想定される。よって一定時間のポーズがあった場合は、コマンドが確定できる場合がある。
【0029】
例えば、「音楽のボリュームを20」という文があった場合に、本実施例では、数字の発音の後に長いポーズが入らないということを利用して、“音楽”、“ボリューム”、“#”(#はボリュームの設定範囲の数字)を第2の途中結果用認識ルールとすることで、実施例1の方法よりも早い段階でコマンドを確定できる場合がある。
【0030】
ルール切替部23は、無音信号を受信した場合に、途中結果用認識ルールを、第2の途中結果用認識ルール記憶部20cに予め記憶された第2の途中結果用認識ルールに切り替える(S23)。コマンド解析部22は、途中結果用認識ルールが第2の途中結果用認識ルールに切り替えられた場合に、途中結果を第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S22)。
【0031】
なお、音声認識部21は、前述のステップS11a,S11bを、コマンド解析部22は、前述のステップS12a,S12bを、ルール切替部23は、前述のステップS13を場合に応じて実行するものとし、場合に応じて実施例1と同様の動作(フローチャートF1,F2)を実行するものとする。
【0032】
本実施例のコマンド解析装置2によれば、実施例1の効果に加え、文末以外の状況で音声信号が途切れた場合であっても、部分的な音声認識結果を第2の途中結果用認識ルールと照合してコマンド解析を実行するため、コマンド実行までの時間を短縮することができる。
【0033】
実施例1、2のコマンド解析装置1、2によれば、単語、もしくはフレーム単位で条件を充たしたか否かが判定され、コマンドが解析されるため、文章単位での構文解析を行わずに、コマンドを解析、出力することができる。
【0034】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0035】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0036】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0037】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0038】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0039】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0040】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0041】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0042】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8