(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-20
(45)【発行日】2023-03-29
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230322BHJP
G10L 15/28 20130101ALI20230322BHJP
G10L 15/10 20060101ALI20230322BHJP
【FI】
G10L15/22 460Z
G10L15/28 230K
G10L15/10 200W
G10L15/22 200H
(21)【出願番号】P 2019220035
(22)【出願日】2019-12-05
【審査請求日】2021-11-12
(73)【特許権者】
【識別番号】000214984
【氏名又は名称】TVS REGZA株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】千葉 俊一
【審査官】大野 弘
(56)【参考文献】
【文献】特開2019-091472(JP,A)
【文献】特開2001-005480(JP,A)
【文献】国際公開第2018/047421(WO,A1)
【文献】特開平05-158493(JP,A)
【文献】特表2019-518985(JP,A)
【文献】米国特許出願公開第2014/0012586(US,A1)
【文献】特開2006-011641(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/28
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、
前記スコアを表示部に表示させる表示制御部と、を備え
、
前記スコア算出部は、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出し、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Xnについて、それぞれ、前記一致度Xnが取り得る最大値An及び前記一致度Xnが満たすべき閾値Tnが設定されている場合において、前記一致度Xnが前記閾値Tn未満である場合には式(1)を適用し、前記一致度Xnが前記閾値Tn超である場合には式(2)を適用して行われる、
【数1】
【数2】
情報処理装置。
【請求項2】
前記音声信号から前記トリガワードを検出するトリガワード検出部を備え、
前記トリガワード検出部は、
前記音声データと前記音声信号とを
前記複数の要素に分解し、前記複数の要素について
算出された前記一致
度に基づいて前記音声信号から前記トリガワードを検出する、
請求項
1に記載の情報処理装置。
【請求項3】
前記スコア算出部は、
前記複数の要素ごとの前記一致度のそれぞれに対して前記スコアを算出する、
請求項
1または請求項2に記載の情報処理装置。
【請求項4】
前記表示制御部は、
前記スコアのうち、最小のスコアを前記表示部に表示させる、
請求項
3に記載の情報処理装置。
【請求項5】
前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアを前記表示部に表示させる、
請求項
3に記載の情報処理装置。
【請求項6】
前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアの平均値を前記表示部に表示させる、
請求項
3に記載の情報処理装置。
【請求項7】
前記複数の要素は、
前記トリガワードに含まれる音素である、
請求項
2乃至請求項
6のいずれか1項に記載の情報処理装置。
【請求項8】
前記スコア算出部は、
複数の前記トリガワードについて前記スコアを算出する、
請求項1乃至請求項
7のいずれか1項に記載の情報処理装置。
【請求項9】
前記表示制御部は、
複数の前記トリガワードについて算出された前記スコアを前記表示部に表示させる、
請求項
8に記載の情報処理装置。
【請求項10】
前記表示制御部は、
前記スコアを高めるためのアドバイスを前記表示部に表示させる、
請求項1乃至請求項
9のいずれか1項に記載の情報処理装置。
【請求項11】
前記取得部は、
前記表示部に前記スコアを表示させる指示の入力を受け付ける、
請求項1乃至請求項
10のいずれか1項に記載の情報処理装置。
【請求項12】
前記音声信号から前記トリガワードが検出されると前記音声認識サービスを開始させるアプリケーション実行部を備える、
請求項1乃至請求項
11のいずれか1項に記載の情報処理装置。
【請求項13】
前記音声認識サービスは、
ネットワークにより接続される音声認識サーバにより提供される、
請求項1乃至請求項
12のいずれか1項に記載の情報処理装置。
【請求項14】
コンピュータに、
音声入力部に入力されたユーザの音声を音声信号として取得させ、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出させ、
前記スコアを表示部に表示させ
、
前記スコアを算出させるときは、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出させ、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Xnについて、それぞれ、前記一致度Xnが取り得る最大値An及び前記一致度Xnが満たすべき閾値Tnが設定されている場合において、前記一致度Xnが前記閾値Tn未満である場合には式(1)を適用させ、前記一致度Xnが前記閾値Tn超である場合には式(2)を適用させて行わせる、
【数1】
【数2】
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
音声認識機能を備えるテレビジョン装置等の機器では、例えばユーザが音声によって機器の操作をすることができる。このような機器は、ユーザが発したトリガワードを検出すると音声認識サービスを起動する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ユーザの発話の仕方および周囲の環境等によっては、トリガワードの検出精度が低くなってしまう。検出精度の低下には種々の要因が考えられるため、トリガワードが検出されない原因が何であるのかユーザが判断できない場合がある。
【0005】
本発明が解決しようとする課題は、トリガワードを検出させるために試行するユーザの判断を支援することができる情報処理装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
実施形態の情報処理装置は、音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、前記スコアを表示部に表示させる表示制御部と、を備え
、前記スコア算出部は、前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出し、前記出現確率についての正規化は、前記複数の要素の前記出現率の一致度Xnについて、それぞれ、前記一致度Xnが取り得る最大値An及び前記一致度Xnが満たすべき閾値Tnが設定されている場合において、前記一致度Xnが前記閾値Tn未満である場合には式(1)を適用し、前記一致度Xnが前記閾値Tn超である場合には式(2)を適用して行われる。
【数1】
【数2】
【図面の簡単な説明】
【0007】
【
図1】
図1は、実施形態にかかる音声認識システムの構成の一例を示す図である。
【
図2】
図2は、実施形態にかかるテレビジョン装置のハードウェア構成の一例を示す図である。
【
図3】
図3は、実施形態にかかるテレビジョン装置の機能構成の一例を示す図である。
【
図4】
図4は、実施形態にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。
【
図5】
図5は、実施形態にかかるテレビジョン装置によるスコア算出方法の幾つかの例を示す図である。
【
図6】
図6は、実施形態にかかるテレビジョン装置におけるトリガワード検出処理の手順の一例を示すフロー図である。
【
図7】
図7は、実施形態の変形例1にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。
【
図8】
図8は、実施形態の変形例2のテレビジョン装置の機能構成の一例を示す図である。
【
図9】
図9は、実施形態の変形例2にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。
【
図10】
図10は、実施形態の変形例2にかかるテレビジョン装置が表示するスコア表示画面の他の例を示す図である。
【
図11】
図11は、実施形態の変形例3にかかるテレビジョン装置が表示するスコア表示画面の一例を示す図である。
【発明を実施するための形態】
【0008】
(音声認識システムの構成)
図1は、実施形態にかかる音声認識システム1の構成の一例を示す図である。
図1に示すように、音声認識システム1は、テレビジョン装置10及び音声認識サーバ20を備え、例えばテレビジョン装置10のユーザに音声認識サービスを提供する。音声認識サービスによって、ユーザは、例えば音声によりテレビジョン装置10の操作をすることができる。
【0009】
テレビジョン装置10と音声認識サーバ20とは、例えばインターネット等のネットワーク40を介して、無線または有線にて相互に接続されている。ネットワーク40は、例えばDLNA(Digital Living Network Alliance)(登録商標)に基づくホームネットワークや家庭内LAN(Local Area Network)等であってもよい。
【0010】
情報処理装置としてのテレビジョン装置10は、例えば放送局からの放送信号を受信して各種の番組を受信することができる。また、テレビジョン装置10は、音声認識機能を有し、ユーザが発したトリガワードを検出すると音声認識サービスを開始する。トリガワードは、音声認識サービス開始のトリガとなる所定の音声コマンドである。テレビジョン装置10の音声認識機能は、専ら、このトリガワードを検出するために用いられる。音声認識サービス開始後は、テレビジョン装置10は、例えば音声認識サーバ20の音声認識機能を利用して、音声認識サービスをユーザに提供する。このように、テレビジョン装置10は、音声認識サーバ20との通信を行う通信装置としても機能する。
【0011】
音声認識サーバ20は、例えばクラウド上に置かれたクラウドサーバ等として構成されている。ただし、音声認識サーバ20は、CPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等の物理的な構成を備える1つ以上のコンピュータとして構成されていてもよい。クラウドサーバ若しくはコンピュータを構成するCPUが、例えばROM等に記憶されているプログラムを実行することにより、音声認識サーバ20の音声認識機能等の機能が実現される。
【0012】
音声認識サーバ20は、音声認識機能等を実現するための機能部として、音声認識部21、処理部22、通信部23、及び記憶部24を備える。
【0013】
音声認識部21は、テレビジョン装置10から通信部23を介して送信されてきたユーザの発話による音声信号等を解析して認識する。その際、音声認識部21は、記憶部24の音声辞書24aを参照する。
【0014】
処理部22は、音声信号の認識結果に基づいて各種処理を行う。例えば、音声信号が、テレビジョン装置10の操作を指示するものであった場合には、処理部22は、通信部23を介して指示内容をテレビジョン装置10に送信する。また例えば、音声信号が、インターネットからの情報取得を指示するものであった場合には、処理部22は、インターネット上において情報を検索し、通信部23を介して検索結果をテレビジョン装置10に送信する。また例えば、音声信号が、対話を求めるものであった場合には、処理部22は、通信部23を介して返答の内容をテレビジョン装置10に送信してもよい。
【0015】
通信部23は、テレビジョン装置10との通信を行う。例えば、通信部23は、テレビジョン装置10から、ユーザの音声信号を受信する。また例えば、通信部23は、処理部22による処理結果をテレビジョン装置10に送信する。
【0016】
記憶部24は、音声認識サーバ20の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部24は、ユーザからの音声信号の解析に用いるデータが格納された音声辞書24aを備える。後述のように、テレビジョン装置10もまた、音声認識に用いる音声辞書を有する。しかし、音声認識サーバ20の記憶部24は大容量記憶装置として構成されており、記憶部24が有する音声辞書24aには、より詳細かつ多岐に亘るデータが格納されている。
【0017】
このように、音声認識サービスに関わる機能の主要な部分を、処理能力の高い音声認識サーバ20に担わせることで、ユーザからの音声信号の認識精度および認識速度を高め、また、より充実した内容の音声認識サービスを提供することができる。
【0018】
(テレビジョン装置のハードウェア構成)
図2は、実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。
【0019】
図2に示すように、テレビジョン装置10は、アンテナ101、入力端子102a~102c、チューナ103、デモジュレータ104、デマルチプレクサ105、A/D(アナログ/デジタル)変換器106、セレクタ107、信号処理部108、スピーカ109、表示パネル110、操作部111、受光部112、IP通信部113、CPU114、メモリ115、ストレージ116、マイクロフォン117、及びオーディオI/F(インターフェース)118を備える。
【0020】
アンテナ101は、デジタル放送の放送信号を受信し、受信した放送信号を、入力端子102aを介してチューナ103に供給する。
【0021】
チューナ103は、アンテナ101から供給された放送信号から所望のチャンネルの放送信号を選局し、選局した放送信号をデモジュレータ104に供給する。
【0022】
デモジュレータ104は、チューナ103から供給された放送信号を復調し、復調した放送信号をデマルチプレクサ105に供給する。
【0023】
デマルチプレクサ105は、デモジュレータ104から供給された放送信号を分離して映像信号および音声信号を生成し、生成した映像信号および音声信号をセレクタ107に供給する。
【0024】
セレクタ107は、デマルチプレクサ105、A/D変換器106、及び入力端子102cから供給される複数の信号から1つを選択し、選択した1つの信号を信号処理部108に供給する。
【0025】
信号処理部108は、セレクタ107から供給された映像信号に所定の信号処理を施し、処理後の映像信号を表示パネル110に供給する。また、信号処理部108は、セレクタ107から供給された音声信号に所定の信号処理を施し、処理後の音声信号をスピーカ109に供給する。
【0026】
スピーカ109は、信号処理部108から供給された音声信号に基づいて音声、または各種の音を出力する。また、スピーカ109は、CPU114による制御に基づいて、出力する音声または各種の音の音量を変更する。
【0027】
表示部としての表示パネル110は、信号処理部108から供給された映像信号またはCPU114による制御に基づいて、静止画および動画などの映像、その他の画像、並びに文字情報等を表示する。
【0028】
入力端子102bは、外部から入力される映像信号および音声信号等のアナログ信号を受け付ける。また、入力端子102cは、外部から入力される映像信号および音声信号等のデジタル信号を受け付ける。例えば、入力端子102cは、BD(Blu-ray Disc)(登録商標)などの録画再生用の記録媒体を駆動して録画および再生するドライブ装置を搭載したレコーダ等から、デジタル信号の入力が可能である。
【0029】
A/D変換器106は、入力端子102bから供給されたアナログ信号にA/D変換を施すことにより生成したデジタル信号をセレクタ107に供給する。
【0030】
操作部111は、ユーザの操作入力を受け付ける。
【0031】
受光部112は、リモートコントローラ119からの赤外線を受光する。
【0032】
IP通信部113は、ネットワーク40を介したIP(インターネットプロトコル)通信を行うための通信インターフェースである。
【0033】
制御部としてのCPU114は、テレビジョン装置10全体を制御する。
【0034】
メモリ115は、CPU114が実行する各種コンピュータプログラムを格納するROM、及びCPU114に作業エリアを提供するRAM等である。例えば、ROMには、テレビジョン装置10がトリガワードを検出するための音声認識プログラム、及び音声認識サービスを提供するためのアプリケーションプログラム等が格納されている。
【0035】
ストレージ116は、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等である。ストレージ116は、例えば、セレクタ107により選択された信号を録画データとして記録する。
【0036】
音声入力部としてのマイクロフォン117は、ユーザが発話した音声を取得して、オーディオI/F118に送出する。
【0037】
オーディオI/F118は、マイクロフォン117が取得した音声をアナログ/デジタル変換して、音声信号としてCPU114に送出する。なお、このように、オーディオI/F118によって変換されたデジタルな「音声信号」を、以下、単に「音声」とも称する場合がある。
【0038】
(テレビジョン装置の機能構成)
次に、
図3を用いて、実施形態のテレビジョン装置10の機能構成例について説明する。
図3は、実施形態にかかるテレビジョン装置10の機能構成の一例を示す図である。
【0039】
テレビジョン装置10では、上述のCPU114が、例えばROM等に記憶されているプログラムを実行することにより、テレビジョン装置10の音声認識機能等が実現される。テレビジョン装置10で実行されるプログラムは、以下に述べる各機能部を含むモジュール構成となっている。
【0040】
図3に示すように、テレビジョン装置10は、テレビジョン装置10の機能を実現するための機能部として、入力受付部11、テスト機能設定部12、トリガワード検出部13、スコア算出部14、表示制御部15、アプリケーション実行部16、機器制御部17、通信部18、及び記憶部19を備える。
【0041】
取得部としての入力受付部11は、ユーザからの各種入力を受け付ける。例えば、入力受付部11は、マイクロフォン117に入力されたユーザの音声を、オーディオI/F118を介して取得する。また例えば、入力受付部11は、操作部111またはリモートコントローラ119からの操作入力による各種指示を取得する。
【0042】
テスト機能設定部12は、操作部111またはリモートコントローラ119からの操作入力によりテスト機能の開始が指示されると、テスト機能が有効となるよう設定する。テスト機能が有効となった状態では、後述するように、ユーザからの音声信号に対するスコアが算出され、そのスコアがテレビジョン装置10の表示パネル110に表示される。
【0043】
トリガワード検出部13は、得られたユーザの音声信号に対してノイズキャンセル処理等の音響処理を施す。そして、トリガワード検出部13は、記憶部19の音声辞書19aを参照し、音響処理を施された音声信号からトリガワードを検出する。このとき、トリガワード検出部13は、音声辞書19aに格納された、トリガワード検出の基準となる音声データと、ユーザの音声信号との一致度を算出する。そして、トリガワード検出部13は、音声データと音声信号との一致度が所定値以上であった場合、音声信号がトリガワードを含んでいると認識し、トリガワードが検出されたものと判断する。トリガワード検出部13は、音声データと音声信号との一致度が所定値未満であった場合、取得された音声信号はトリガワードではないと認識し、トリガワードは検出されなかったものと判断する。
【0044】
スコア算出部14は、テスト機能が有効となっている場合、トリガワード検出の基準となる音声データに対するユーザの音声信号のスコアを算出する。より具体的には、スコア算出部14は、算出された音声データと音声信号との一致度を正規化してスコアを算出する。したがって、スコアが高ければ音声データと音声信号との一致度が高く、また、スコアが所定値以上となることで、トリガワード検出部13によって、その音声信号がトリガワードを示していると認識されることを意味する。
【0045】
表示制御部15は、表示パネル110への各種の表示を制御する。例えば、入力受付部11がリモートコントローラ119等に入力されたユーザの操作を取得した場合に、その操作に応じた操作画面を表示パネル110に表示する。また例えば、表示制御部15は、テスト機能が有効となっている場合、算出されたスコアを表示パネル110に表示させる。また例えば、表示制御部15は、トリガワードの検出により音声認識サービスが開始されると、音声に対して応答するメッセージまたはアイコン等を、表示パネル110に表示させる。音声に対して応答するメッセージまたはアイコン等は、例えば、ユーザの発話を促す内容でもよいし、ユーザの音声の認識結果を文字データとして表示するものでもよい。
【0046】
アプリケーション実行部16は、音声信号からトリガワードが検出されると音声認識サービスを開始させる。より具体的には、アプリケーション実行部16は、音声信号からトリガワードが検出されると、音声認識サービス提供アプリケーションを起動する。音声認識サービス提供アプリケーションは、音声認識サーバ20とユーザとの情報交換のためのユーザインターフェースである。つまり、音声認識サービス提供アプリケーションは、通信部18を介して、テレビジョン装置10と音声認識サーバ20との通信を可能にする。そして、音声認識サービス提供アプリケーションは、ユーザの音声信号を音声認識サーバ20へと送信し、その音声信号が示す内容についての応答を音声認識サーバ20から受信する。
【0047】
機器制御部17は、テレビジョン装置10の各部を制御する。例えば、機器制御部17は、トリガワードの検出後、スピーカ109を制御して音量を下げる。これは、ユーザがトリガワードの後に発話する音声の入力が、コンテンツの音に干渉されることを低減するためである。また例えば、機器制御部17は、音声認識サービスの提供中、ユーザの音声に含まれる命令に基づいて、テレビジョン装置10の各部を制御する。
【0048】
通信部18は、ネットワーク40を介した外部機器等との通信を制御する。例えば、通信部18は、音声認識サービス提供アプリケーションにしたがって、音声認識サーバ20とテレビジョン装置10との通信を制御する。
【0049】
記憶部19は、テレビジョン装置10の上記のような機能の実現に必要な各種パラメータ及び情報等を記憶する。一例として、記憶部19は、ユーザからの音声信号からトリガワードを検出するための基準となる音声データが格納された音声辞書19aを備える。音声データは、例えばトリガワードに含まれる音素および特徴等の各種要素についての情報を有し、トリガワード検出部13が、この音声データとユーザからの音声信号とを比較することで、音声信号がトリガワードを含んでいるか否かを認識するための指標となる。ただし、音声辞書19aに格納される音声データは複数あってもよい。例えば、複数の音声データには、男性用、女性用、及び子供用等の、性別および年齢に依存した各種音声データが含まれていてよい。
【0050】
(テレビジョン装置の詳細機能)
次に、
図4及び
図5を用いて、実施形態のテレビジョン装置10の機能の詳細について説明する。
図4は、実施形態にかかるテレビジョン装置10が表示するスコア表示画面110aの一例を示す図である。スコア表示画面110aは、ユーザがテスト機能を有効にすると表示パネル110に表示される。
【0051】
ユーザは、例えばリモートコントローラ119等を操作して、テスト機能を開始する指示を入力することができる。テスト機能を開始する指示を入力受付部11が受け付けると、テスト機能設定部12がテスト機能を有効にする設定を行う。テスト機能が有効にされると、表示制御部15はスコア表示画面110aを表示パネル110に表示させる。
【0052】
図4に示すように、スコア表示画面110aには、まず、ユーザによるトリガワードの発話を促すメッセージが表示される。例えば、トリガワードが「ねえ、テレビ」である場合には、“「ねえ、テレビ」と 発話してください。”等のメッセージが表示される。
【0053】
また、スコア表示画面110aには、ユーザによる音声がトリガワードとして検出されるためのスコアの閾値を示すメッセージが表示されてもよい。閾値が例えば50である場合には、“スコア50以上で、音声認識サービスがスタートします。”等のメッセージが表示される。
【0054】
さらに、スコア表示画面110aには、そのときのテレビジョン装置10の音量設定等が表示されてもよい。テレビジョン装置10の発する音量は、トリガワード検出の障害となり得るため、音量設定を表示することで、ユーザの注意を喚起することができる。
【0055】
スコア表示画面110aのメッセージにしたがって、ユーザが「ねえ、テレビ」などと発話すると、その音声がマイクロフォン117によって取得され、オーディオI/F118によって音声信号に変換されて、入力受付部11がそれを受け付ける。そして、トリガワード検出部13が、記憶部19の音声辞書19aに格納された音声データと、入力受付部11の受け付け後に音響処理が施された音声信号との一致度を算出すると、スコア算出部14は、その一致度を例えば0~100の数値に正規化することでスコアを算出する。表示制御部15は、算出されたスコアを、例えば0~100のバー形式でスコア表示画面110aに表示する。
【0056】
音声データと音声信号との一致度が充分でなくスコアが閾値未満であった場合、より高いスコアを得るためには、例えば滑舌を良くすることが有効であるかもしれないし、ゆっくり発話することが有効であるかもしれないし、声を大きくすることが有効であるかもしれない。ユーザは、スコア表示画面110aに表示されたスコアを参照しながら、より高いスコアを得るために様々な発話方法を試すことができる。リモートコントローラ119等を操作して、テレビジョン装置10の音量を下げてみてもよい。このとき、表示制御部15は、ユーザの音声の現在のスコアのほか、例えば過去に取得されたスコアの最大値をスコア表示画面110aに表示してもよい。
【0057】
ところで、トリガワード検出部13は、音声データと音声信号との一致度を算出する際、音声データと音声信号とを、トリガワードが有する複数の要素に分解したうえで、それらの要素ごとに一致度を求める。スコア算出部14は、これらの複数の一致度からスコア表示画面110aに表示するためのスコアを算出する。スコアの算出には種々の方法が考えられる。
【0058】
図5は、実施形態にかかるテレビジョン装置10によるスコア算出方法の幾つかの例を示す図である。
図5の例では、説明を単純化するため、音声データと音声信号とが複数の音素1~音素5に分解されて、一致度およびスコアが算出される場合を示す。ただし、音声データと音声信号とは、音素1~音素5だけでなく、特徴および抑揚等の他の要素に関する情報を含んでいてもよく、これらの要素についても一致度およびスコアが算出されてもよい。
【0059】
図5(a)(b)の左図に示すように、トリガワード検出部13は、例えば複数の音素1~音素5の音声信号における出現確率Xを求める。これらの出現確率Xは、音声信号を音声データと比較することにより得られた数値であり、上述の音声信号と音声データとの一致度に相当する。
図5(a)(b)の左図の例では、出現確率Xは例えば0~1.00までの数値で表されている。
【0060】
図5(a)(b)の右図に示すように、スコア算出部14は、これらの出現確率Xについて正規化したスコアである計算結果Yを算出する。このとき、スコア算出部14は、例えば以下の式(1)(2)を用いて出現確率Xを正規化する。
【0061】
以下の式(1)は、例えば出現確率X等の一致度Xnが閾値Tn未満である場合に適用される。
【数1】
【0062】
以下の式(2)は、例えば出現確率X等の一致度Xnが閾値Tn超である場合に適用される。
【数2】
【0063】
上記の式(1)(2)によれば、一致度Xnを正規化した計算結果Ynとして0~100までの範囲内の数値が求まる。なお、一致度Xnが閾値Tnと同値である場合には、式(1)(2)のいずれを用いても計算結果Ynは同じになる。
【0064】
ここで、音声信号と音声データとはL個の要素を含み、L個の一致度Xnについて、それぞれ、一致度Xnが取り得る最大値An及び一致度Xnが満たすべき閾値Tnが設定されているものとする。つまり、或る要素の一致度Xnが閾値Tn以上であれば、その要素については、音声信号が音声データと一致していると判定される。そして、上記の式(1)または式(2)に、適宜、1~Lまでの要素の一致度Xn及び閾値Tnが代入されて、L個の計算結果Ynが求められる。
【0065】
図5(a)(b)の右図の例は、全ての出現確率Xについての閾値Tが0.90であるものとし、全ての出現確率Xが取り得る最大値Aが1.00であるものとして得られた計算結果Yである。スコア算出部14は、これらの計算結果Yに基づき、スコア表示画面110aに表示させるスコアを得る。上述のように、それには幾つかの方法がある。
【0066】
図5(a)の例では、スコア算出部14は、音素1~音素5について得られた計算結果Yのうちの最小値である音素5の計算結果30を、スコア表示画面110aに表示させるスコアとして採用する。
【0067】
図5(b)の例では、スコア算出部14は、音素1~音素5について得られた計算結果Yのうち50超となった、音素1の計算結果75と音素3の計算結果60とについて、
図5(b)右下に示すように、50を超える部分を端数として切り捨てて計算結果50とする。そのうえで、音素1~音素5についての計算結果Yの平均値44を、スコア表示画面110aに表示させるスコアとして採用する。
【0068】
なお、スコア算出部14によるスコアの求め方は、
図5(a)(b)の例に限られない。ユーザが、トリガワードの検出に必要なスコアと自身のスコアとの差を直感的に把握でき、より高いスコアを得るための指標とすることが可能なスコアであれば、どのような方法を用いて算出されてもよい。
【0069】
(テレビジョン装置のトリガワード検出処理)
次に、
図6を用いて、実施形態のテレビジョン装置10におけるトリガワード検出処理の例について説明する。
図6は、実施形態にかかるテレビジョン装置10におけるトリガワード検出処理の手順の一例を示すフロー図である。
【0070】
図6に示すように、入力受付部11は、ユーザによるテスト機能の使用指示を受け付ける(ステップS101)。すなわち、ユーザが操作部111またはリモートコントローラ119を操作してテスト機能の開始を指示すると、入力部11がその指示を受け付けて(ステップS101:Yes)、テスト機能設定部12がテスト機能の設定を有効とし、表示制御部15が表示パネル110にスコア表示画面110aを表示する(ステップS102)。ユーザによるテスト機能の開始指示がなかった場合には(ステップS101:No)、ステップS102の処理を行うことなくステップS103の処理へと進む。
【0071】
入力受付部11は、ユーザの発話による音声信号を受け付ける(ステップS103)。ユーザにより何らかの発話がなされるまで、入力受付部11は待機する(ステップS103:No)。ユーザがテレビジョン装置10のマイクロフォン117に向かって発話すると、マイクロフォン117から取得された音声がオーディオI/F118により音声信号に変換される。入力受付部11がその音声信号を取得すると(ステップS103:Yes)、トリガワード検出部13は、音声辞書19aを参照して、音声辞書19aに格納される音声データと、ユーザの発話による音声信号との一致度を算出する(ステップS104)。
【0072】
スコア算出部14は、テスト機能の設定が有効になっているか否かを確認する(ステップS105)。テスト機能の設定が有効であれば(ステップS105:Yes)、スコア算出部14は算出された一致度に基づきスコアを算出する(ステップS106)。また、表示制御部15は、算出されたスコアを表示パネル110のスコア表示画面110aに表示する(ステップS107)。テスト機能の設定が有効になっていなければ(ステップS105:No)、ステップS106~S107の処理が行われることなくステップS108の処理へと進む。
【0073】
トリガワード検出部13は、音声データと音声信号とについての全ての要素の一致度が閾値以上であるか否かを判定する(ステップS108)。音声データと音声信号とについて一致度が閾値未満の要素があるときは(ステップS108:No)、トリガワード検出部13は、音声信号はトリガワードではないものとしてトリガワードの検出処理を行わず、ステップS103からの処理が繰り返される。
【0074】
音声データと音声信号とについての全ての一致度が閾値以上である場合には(ステップS108:Yes)、トリガワード検出部13は、音声信号がトリガワードを含むものであるとしてトリガワードの検出を行う(ステップS109)。アプリケーション実行部17は、音声認識サービス提供アプリケーションを起動して音声認識サービスを開始する(ステップS110)。
【0075】
以上により、実施形態のテレビジョン装置10におけるトリガワード検出処理が終了する。
【0076】
近年、音声認識機能を備えるテレビジョン装置等が知られている。トリガワードを検出すると、テレビジョン装置は音声認識サービスの提供を開始する。ユーザの発話の仕方および周囲の環境等によって、このトリガワードの検出精度が低下する場合がある。
【0077】
このような場合、ユーザは、テレビジョン装置にトリガワードを検出させようと、声を大きくしたり、ゆっくり発話したりと種々の試行錯誤を繰り返すこととなる。しかしながら、ユーザは、このような試行錯誤のうち何が有効であるかを、音声認識サービスの提供開始によってしか判断することができない。
【0078】
実施形態のテレビジョン装置10によれば、音声データに対する音声信号のスコアを算出し、そのスコアを表示パネル110に表示させる。これにより、ユーザは、スコアの変動の様子を参照しつつ試行を重ねることで、自身の音声がトリガワードとして検出されやすくなる方向性を容易に見極めることができる。このように、実施形態のテレビジョン装置10は、トリガワードを検出させるために試行するユーザの判断を支援することができる。
【0079】
実施形態のテレビジョン装置10によれば、音声データと音声信号との一致度を正規化してスコアを算出する。トリガワードを検出するため、例えばトリガワード検出部13は、音声データと音声信号との一致度を算出する。しかしながら、このような一致度は多岐の内容に亘る様々な要素について算出される。このため、例えば算出された一致度をそのままユーザに提示しても、ユーザが容易にその内容を理解し、自身の試みがトリガワードの検出に近付いているのか否か把握することが困難である。テレビジョン装置10は、このような一致度を正規化してユーザに提示するので、ユーザが直感的にその内容を理解し、より高いスコアを得るための指標とすることができる。
【0080】
(変形例1)
次に、
図7を用いて、実施形態の変形例1のテレビジョン装置について説明する。変形例1のテレビジョン装置は、算出したスコアを音素ごとに表示する点が、上述の実施形態とは異なる。
【0081】
図7は、実施形態の変形例1にかかるテレビジョン装置が表示するスコア表示画面110bの一例を示す図である。
図7に示すように、変形例1のテレビジョン装置が備える表示制御部は、スコア算出部が音声データに含まれる音素ごとに算出した音声信号のスコアをスコア表示画面110bに表示する。
【0082】
これにより、ユーザは、自身の発話のウィークポイントを見極めることができる。例えば、
図7に示す例では、ユーザの音声中、「え」及び「び」の音素のスコアが低いことが判る。このユーザは、例えば1語1語の語尾に留意することで、スコアを高めて自身の音声をトリガワードとして検出させることができるかもしれない。
【0083】
(変形例2)
次に、
図8~
図10を用いて、実施形態の変形例2のテレビジョン装置30について説明する。変形例2のテレビジョン装置30は、算出したスコアとともに、ユーザに対するアドバイスを表示する点が、上述の実施形態とは異なる。
【0084】
図8は、実施形態の変形例2のテレビジョン装置30の機能構成の一例を示す図である。
図8に示すように、変形例2のテレビジョン装置30は、上述の実施形態のテレビジョン装置10の構成に替えて表示制御部35を備え、更に音量判定部31を備える。
【0085】
例えばテスト機能の設定が有効である場合、音量判定部31はテレビジョン装置30のスピーカの音量設定が所定値を超えているか否かを判定する。表示制御部35は、音量設定が所定値を超えていた場合には、算出したスコアとともに、音量設定を下げることをユーザに促すメッセージを表示する。
【0086】
図9は、実施形態の変形例2にかかるテレビジョン装置30が表示するスコア表示画面110cの一例を示す図である。
図9に示すように、スコア表示画面110cには、“テレビの音が大きすぎるようです。音量設定を10以下にしてみましょう。”などとのメッセージが表示される。
【0087】
トリガワードが検出され難くなることの最も明確で大きな要因の1つは、テレビジョン装置のスピーカが発する音である。音量設定を下げることを促すメッセージを表示させることで、ユーザが、テレビジョン装置30の音量が検出精度を低下させている可能性に気づくことができ、トリガワードが検出されやすくなる。
【0088】
また、変形例2のテレビジョン装置30が備える表示制御部35は、スコアを高めてトリガワードを検出させやすくするためのアドバイスを、ランダムに、あるいは、所定の順番で表示させてもよい。
【0089】
図10は、実施形態の変形例2にかかるテレビジョン装置30が表示するスコア表示画面110dの他の例を示す図である。
図10に示すように、スコア表示画面110dには、“はっきりと発話してみましょう。”“ゆっくり発話してみましょう。”“大きな声で発話してみましょう。”などの、トリガワードが検出されない一般的な要因を解消するようなメッセージが、例えば次々に流動表示される。
【0090】
これにより、例えばユーザが思いつかなかった試みを提示して、ユーザの音声がトリガワードとして検出されるための一助とすることができる。
【0091】
(変形例3)
次に、
図11を用いて、実施形態の変形例3のテレビジョン装置について説明する。変形例3のテレビジョン装置は、複数のトリガワードについてスコアを表示する点が、上述の実施形態とは異なる。
【0092】
図11は、実施形態の変形例3にかかるテレビジョン装置が表示するスコア表示画面110eの一例を示す図である。
図11に示すように、変形例3のテレビジョン装置には、「ねえ、テレビ」「もしもし、テレビ」「ハロー、テレビ」などの複数のトリガワードが設定されている。そして、変形例3のテレビジョン装置のスコア算出部は、これらのトリガワードについて、それぞれスコアを算出する。表示制御部は、複数のトリガワードについてのスコアをスコア表示画面110eに表示する。
【0093】
ユーザは、“「ねえ、テレビ」と 発話してください。”等の所定のトリガワードの発話を促すスコア表示画面110e上のメッセージにしたがって、例えばそれぞれのトリガワードを発話し、それらに対するスコアを参照することができる。
図11に示す例では、複数のトリガワード中、ユーザは、「もしもし、テレビ」というトリガワードにおいて最も高いスコアを獲得している。そこで、このユーザが複数のトリガワードの中から「もしもし、テレビ」というトリガワードの使用を選択することで、自身の音声をトリガワードとして検出させることが容易になるかもしれない。
【0094】
なお、上述の実施形態および変形例1~3では、テレビジョン装置10等の外部機器である音声認識サーバ20が、主要な音声認識サービスを提供することとしたが、実施形態の構成はこれに限られない。テレビジョン装置10等が、自身で音声認識サービスの全般に関わる機能を有しており、独立して、音声認識サービスを提供してもよい。
【0095】
また、上述の実施形態および変形例1~3では、音声認識機能を備える情報処理装置がテレビジョン装置10等であることとしたが、実施形態の構成はこれに限られない。例えば、音声認識機能を備える情報処理装置または通信装置が、スマートスピーカ等のような他の機器であってもよい。情報処理装置がスマートスピーカである場合、音声データに対する音声信号のスコアを表示させる表示部は、スマートスピーカに取り付けた別体のモニタ等であってもよい。
【0096】
なお、テレビジョン装置10等に上述の各種機能を実現させるプログラムは、インストール可能な形式または実行可能な形式のコンピュータプログラムプロダクトとして提供される。すなわち、上記プログラムは、CD-ROM、フレキシブルディスク(FD)、CD-R、DVDなどの、非一時的で、コンピュータで読み取り可能な記録媒体を有するコンピュータプログラムプロダクトに含まれた状態で提供される。
【0097】
また、上記プログラムは、インターネットなどのネットワークに接続されたコンピュータに格納された状態で、ネットワーク経由で提供または配布されてもよい。上記プログラムは、ROMなどに予め組み込まれた状態で提供されてもよい。
【0098】
このようなプログラムをテレビジョン装置10等にインストールすることにより、テレビジョン装置10等のCPUがROMからプログラムを読み出して、RAM上に上記の各機能構成が展開される。
【0099】
ただし、上記プログラムはクラウドサーバ等に格納されたウェブアプリケーションとして提供されてもよく、この場合、プログラムはテレビジョン装置10等にインストールされることなく実行される。
【0100】
本発明の実施形態について説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0101】
1…音声認識システム、10,30…テレビジョン装置、11…入力受付部、12…テスト機能設定部、13…トリガワード検出部、14…スコア算出部、15,35…表示制御部、16…アプリケーション実行部、17…機器制御部、18…通信部、19…記憶部、19a…音声辞書、20…音声認識サーバ、31…音量判定部、40…ネットワーク。