(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-20
(45)【発行日】2025-01-06
(54)【発明の名称】音声認識装置
(51)【国際特許分類】
G10L 15/20 20060101AFI20241223BHJP
G10L 15/10 20060101ALI20241223BHJP
G10L 15/22 20060101ALI20241223BHJP
G10L 15/32 20130101ALI20241223BHJP
【FI】
G10L15/20 200Q
G10L15/10 500Z
G10L15/22 460Z
G10L15/32 220Z
G10L15/32 200Z
(21)【出願番号】P 2023525439
(86)(22)【出願日】2022-03-25
(86)【国際出願番号】 JP2022014683
(87)【国際公開番号】W WO2022254912
(87)【国際公開日】2022-12-08
【審査請求日】2023-07-20
(31)【優先権主張番号】P 2021092493
(32)【優先日】2021-06-01
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】中島 悠輔
(72)【発明者】
【氏名】加藤 拓
(72)【発明者】
【氏名】片山 太一
(72)【発明者】
【氏名】菊入 圭
【審査官】大野 弘
(56)【参考文献】
【文献】特開平10-171488(JP,A)
【文献】国際公開第2004/075168(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/20
G10L 15/10
G10L 15/22
G10L 15/32
(57)【特許請求の範囲】
【請求項1】
所定単位で音情報を取得する音情報取得部と、
前記音情報が言語音である場合には、音声認識処理に基づいた結果を出力し、前記音情報が非言語音である場合には、音声認識処理に基づいた結果を出力しないための処理を行う音情報処理部と、
を備え
、
前記音情報処理部は、
前記音情報を言語音として認識する音声認識部と、
前記音情報を非言語音として認識する非言語音認識部と、
前記音声認識部および前記非言語音認識部のそれぞれの認識結果を判定する判定部と、
前記判定部の判定に従って前記音声認識部による認識結果を加工して出力する結果出力部と、
を有し、
前記音声認識部は、前記音情報が言語音であることに対する言語音信頼度を算出し、
前記非言語音認識部は、前記音情報が非言語音に対する非言語音信頼度を算出し、
前記判定部は、前記言語音信頼度および前記非言語音信頼度に基づいて、前記音声認識部および前記非言語音認識部による認識結果を判定し、
前記非言語音信頼度は、前記音情報が非言語音であることの信頼度、および前記音情報が非言語音でないことの信頼度を示す、
音声認識装置。
【請求項2】
前記音情報処理部は、
前記音情報が非言語音である場合には、前記非言語音のための非言語音認識処理に基づいた結果を出力する、請求項1に記載の音声認識装置。
【請求項3】
前記判定部は、前記音情報が非言語音であることの信頼度、および前記音情報が非言語音でないことの信頼度の少なくとも一方に対して重み付け処理を行い、認識結果に対する判定を行う、
請求項
1または2に記載の音声認識装置。
【請求項4】
前記音声認識部は、所定の音声認識単位で音声認識を行い、
前記非言語音認識部は、前記所定の音声認識単位に応じた時間単位で非言語音声認識を行う、
請求項1から3のいずれか一項に記載の音声認識装置。
【請求項5】
前記音声認識部は、所定の音声認識単位で音声認識を行い、
前記非言語音認識部は、前記所定の音声認識単位に応じた時間単位で非言語音声認識を行い、
前記判定部は、前記音声認識単位とは異なる判定単位で、認識結果を判定する、
請求項1~
3のいずれか一項に記載の音声認識装置。
【請求項6】
前記非言語音は、笑い声、相槌音、頷き音、咳、くしゃみ、およびキーボード音の少なくとも一つである、請求項1~
5のいずれか一項に記載の音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識を行う音声認識装置に関する。
【背景技術】
【0002】
特許文献1には、会議などにおける音声データに含まれている音声区間と非音声区間とを識別しながら、音声区間から音声を示すテキストデータを認識する会議支援システムの記載がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記音声認識システムは、テキストしにくい笑い声、頷き、咳、またはキーボード音などの非言語音が入力されると、音声認識辞書に登録されている近しい聞こえ方の単語テキストを出力する、という課題がある。したがって、そのような単語テキストを含んだ文章は、読みづらいものであり、会議等における議事録に利用することは困難となる。
【0005】
そこで、上述の課題を解決するために、本発明は、非言語音の認識結果を出力しない音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の音声認識装置は、所定単位で音情報を取得する音情報取得部と、前記音情報が言語音である場合には、音声認識処理に基づいた結果を出力し、前記音情報が非言語音である場合には、音声認識処理に基づいた結果を出力しないための処理を行う音情報処理部と、を備える。
【発明の効果】
【0007】
本発明によると、非言語音を音声認識した認識結果の出力を防ぐことができる。
【図面の簡単な説明】
【0008】
【
図1】本開示における音声認識装置100の機能構成を示すブロック図である。
【
図2】音声の認識結果の信頼度および認識イベントごとの信頼度を示す説明図である。
【
図3】ある発話に対する処理結果例を示す図である。
【
図4】判定区間を変えたときの判定処理の概要を示す図である。
【
図5】音声認識装置100の動作を示すフローチャートである。
【
図6】発話が英語である場合の処理を示す図である。
【
図7】本開示の一実施の形態に係る音声認識装置100のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
添付図面を参照しながら本開示の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0010】
図1は、本開示における音声認識装置100の機能構成を示すブロック図である。図に示される通り、音声認識装置100は、音声取得部101、音声認識部102、非言語音声認識部103(非言語音認識部)、スコア判定部104、および結果出力部105を含んで構成されている。以下、各構成について説明する。
【0011】
音声取得部101は、会議または講義などにおける音声を取得する部分である。例えば、音声取得部101は、マイクである。なお、これに限らず、有線または無線によって送信された音声信号を取得する部分としてもよい。この音声取得部101は、音声波形信号から、音声区間を検出し、その区間ごとに音声認識部102および非言語音声認識部103に出力する。
【0012】
音声認識部102は、音声取得部101から出力された音声区間における言語音または非言語音を、公知の言語モデルおよび音響モデルを用いて音声認識処理を行い、認識単位ごとの認識結果テキストを取得するとともに、その認識結果テキストの読みおよび信頼度を導出する部分である。音声認識部102は、認識単位として、発話単位、文単位、文節単位、単語単位、カナ若しくは音素単位、または時間単位に、認識結果テキスト、その読みおよび信頼度を出力する。
【0013】
この信頼度は、音声認識処理をした場合における認識結果に対してどれだけ信頼してよいかを示した情報であり、一般的には、0~1の間で示されるが、これに限るものではなく、整数で表してもよいし、0~100の間で表してもよい。また、正規化した数値としてもよい。本開示においては、言語モデルおよび音響モデルに記憶されている信頼度に基づいて音声認識結果に対する信頼度を求めることとするが、これに限らず、例えば、End―to―Endの音声認識など、他の公知の信頼度の導出方法を用いてもよい。
【0014】
非言語音声認識部103は、音声取得部101から出力された音声区間における言語音または非言語音に対して、公知の非言語音のための認識モデルを用いて非言語音に対する認識処理を行う部分である。この非言語音声認識部103は、音声認識部102により音声認識された認識単位に応じた認識時間ごとの非言語音の種別に応じた各イベントに対する信頼度を生成する。例えば、音声認識部102が単語単位で認識した場合、その認識した単語に対する発話時間が、非言語音声認識部103の認識単位となる。
【0015】
イベントとは、非言語音の種別を示し、肯定イベントおよび否定イベントなる。例えば、本開示において、非言語音とは、笑い声、相槌音、頷き音、ため息、くしゃみ、咳などの音声に基づく非言語音のほか、キーボード音およびBGMなどの楽曲音などの音を示す。例えば、肯定イベントは、笑い声であることを示し、否定イベントは、笑い声ではないことを示す。非言語音声認識部103は、これら非言語音を認識して、肯定イベントおよび否定イベントに対する信頼度を生成する。
【0016】
イベントに対する信頼度は、非言語音声認識処理をした場合における認識結果に対してどれだけ信頼してよいかを示した情報である。この信頼度は、一般的には、0~1の間で示されるが、これに限るものではなく、整数で表してもよいし、0~100の間で表してもよい。また、正規化した数値としてもよい。この信頼度は、非言語音を認識するための認識モデルに記憶されている信頼度に基づいて求められるが、これに限らず、他の公知の信頼度の導出方法を用いてもよい。
【0017】
図2は、音声の認識結果テキストの信頼度およびイベントごとの信頼度を示す説明図である。図に示されるとおり、発話内容「あははは」(“ahahaha”と発話されている)があるとする。これは笑い声を示している。
【0018】
音声認識部102は、音声を言語音として認識しようとするため、テキストデータ「あ母派」(日本語の漢字に変換されている)、読み方「アハハハ」(ahahaha)と認識する。音声認識部102は、音響モデルおよび言語モデルを用いて認識された認識結果テキストに対する信頼度を導出する。
【0019】
一方で、非言語音声認識部103は、イベントごとの信頼度を導出する。
図2では、笑い声の有無に応じた信頼度を導出する。すなわち、「あははは」(“ahahaha”と発話されている)が、笑い声ではないことに対する信頼度、笑い声であることに対する信頼度を算出する。
図2では、笑い声なしが、0.3、笑い声ありが、0.7であることを示す信頼度を算出する。
【0020】
そのほか、笑い声としてのテキストデータの信頼度を算出してもよい。また、非言語音として、咳の有無、またはキーボード音の有無など、その他の種別の信頼度を算出してもよい。
【0021】
非言語音声認識部103は、笑い声、咳、またはキーボード音をそれぞれ認識するための認識モデルを有しており、この認識モデルに基づいてそれぞれの信頼度を算出することができる。なお、当然にその他、相槌音、頷き音、くしゃみを認識するための認識モデルを備えてもよい。また、複数のイベントに対する各イベントの信頼度を出力する認識モデルを備えてもよい。
【0022】
スコア判定部104は、音声認識部102により認識された言語音に対する認識結果テキストの信頼度と、非言語音声認識部103により認識されたイベントに対する信頼度とに基づいて、認識結果テキストとイベントとのいずれが妥当であるかを判定する部分である。
【0023】
その詳細処理を、
図2を用いて説明する。なお、
図2では、音声として「あははは」(“ahahaha”)が入力され、それぞれ音声認識部102および非言語音声認識部103において処理がなされたものとする。スコア判定部104は、音声認識部102の認識結果テキスト「あ母派」(“ahahaha”が認識された日本語(ここでは誤変換の例とする))の信頼度と、非言語音声認識部103の肯定イベントおよび否定イベント(笑い声なし/あり)のそれぞれ信頼度とを比較する。
図2では、音声認識部102は、認識結果テキストの信頼度:0.3を出力する。また、非言語音声認識部103は、否定イベント(笑い声なし)の信頼度:0.3、肯定イベント(笑い声あり)の信頼度:0.7を出力する。
【0024】
スコア判定部104は、信頼度の最も高い認識結果テキストまたはイベントを判定する。
図2では、肯定イベント(笑い声あり)の信頼度:0.7が最も高い信頼度であるため、「あははは」(ahahaha)は、笑い声を示すイベントとして判定される。
【0025】
なお、スコア判定部104は、上記の通り、最も大きい信頼度に基づいて認識結果テキストまたはイベントを判定してもよいし、信頼度ごとに重み付けで調整した値を利用してもよい。例えば、スコア判定部104は、肯定イベントまたは否定イベントの信頼度に対して所定の係数を掛けた値に基づいて、発話内容がいずれのイベントであるかを判定してもよい。より具体的には、スコア判定部104は、肯定イベントの信頼度に対して2を掛けた、その値と、否定イベントの信頼度と比較することにより、非言語音を判定してもよい。
【0026】
また、スコア判定部104は、肯定イベントの信頼度に対して0.7を掛けて、そして0.1を減算し、閾値と比較することにより非言語音における肯定イベントの適否を判定してもよい。これら係数および閾値は、固定値をあらかじめメモリ等に記憶しておいてもよいし、外部から入力できるよう入力部を備えてもよい。さらに、与えられた係数および閾値を所定の数式によって変動させてもよい。また、スコア判定部104は、肯定イベントおよび否定イベントのそれぞれの2値の信頼度と比較に限定せず、それ以外を含めてもよく、例えば3値以上の値と比較してもよい。例えば、笑い声あり、咳ありを肯定イベントとし、笑い声なし、咳なしを否定イベントとし、キーボード音ありを雑音イベントとして、3つのイベントの信頼度3値を比較してもよい。
【0027】
このような重み付けによる調整は、例えば、本開示における音声認識装置100を利用するユーザの属性若しくは種別、または会議の内容に応じて決められる。例えば、笑いが起きやすい会議内容の場合には、笑い声を認識しやすいが、そうではない会議内容も存在する。そういった場合には、笑い声が、笑い声として認識しづらい。そういう会議またはユーザに対しては、上記の通り、調整をすることで、正確な認識を可能にする。
【0028】
結果出力部105は、スコア判定部104による判定結果に基づいて、信頼度が高い認識結果テキストを選択し、またはイベントに応じたイベントタグ情報を付加して出力する。出力に際して、結果出力部105は、スコア判定部104により判定されたイベントの情報を入力して、イベントに対応するイベントタグ情報を記憶部等から取得する。この記憶部等は、予めこれらイベントタグ情報を記憶している。イベントタグ情報とは、例えば、非言語音を図形で表した情報であり、笑い声である場合には、笑いを図形化したマークである。イベントタグ情報は、例えば、あらかじめ規定されたテキスト情報であってもよい。
【0029】
図3は、ある発話に対する処理結果例を示す図である。
図3は、処理結果例として、認識結果テキスト、認識結果形態素、認識結果テキスト信頼度、イベント信頼度(笑い)、イベント信頼度(咳)、イベント信頼度(キーボード音)、判定結果、結果出力、および補足出力を示している。また、単語単位における信頼度、結果出力等を示している。
【0030】
以下の発話内容が取得され、音声認識部102による認識結果が得られる。
【0031】
発話内容:私は、あのー、ははは、なんか、(咳:ゴッホ)、(キーボード音:カカカカ)、いい。
上記発話内容は、日本語であり、watashiwa ano- hahaha nanka (gohho) kakakaka iiと発話されている。なお、日本語では、主語の次に来る「は」は、waと発話される。
【0032】
認識結果テキスト:私 は あのー 母派 なんか ゴッホ かかかか いい
上記は、日本語に変換された認識結果テキストである。ここでは咳とキーボード音が混じっている。この認識結果テキストは、ローマ字表記で説明すると、watashi、wa、ano-、hahaha、nanka、gohho、kakakaka、iiに分節されて日本語に変換されたことを示す。
ここでは、発話:「私は」(watashiwa)に対して、認識結果:「私」(watashi)、「は」(wa)が得られている。それぞれ、認識結果テキストの信頼度は、0.95および0.91が導出されている。一方で、「私」(watashi)に対する非言語音声認識部103による各イベントの信頼度は以下のとおりである。
【0033】
笑い声の肯定イベントの信頼度:0.23
笑い声の否定イベントの信頼度:0.90
咳の肯定イベントの信頼度:0.21
咳の否定イベントの信頼度:0.70
キーボード音の肯定イベントの信頼度:0.15
キーボード音の否定イベントの信頼度:0.75
また、「は」(wa)に対する非言語音声認識部103による各フラグの信頼度は以下のとおりである。
【0034】
笑い声の肯定イベントの信頼度:0.35
笑い声の否定イベントの信頼度:0.85
咳の肯定イベントの信頼度:0.05
咳の否定イベントの信頼度:0.81
キーボード音の肯定イベントの信頼度:0.12
キーボード音の否定イベントの信頼度:0.85
スコア判定部104は、これら信頼度に基づいて最も信頼度の高い認識結果テキストである「私」(watashi)と「は」(wa)を選択し、結果出力部105は、「私は」(watashiwa)と出力する。
【0035】
一方で、発話:「あのー」(ano-)、認識結果テキスト:「あのー」(ano-)に対しては、音声認識部102は、音声認識の信頼度:0.9とし、フィラーと認識している。
【0036】
また、発話:「ははは」、認識結果テキスト:「母派」(hahahaが認識されたテキスト)(信頼度:0.1)に対して、非言語音声認識部103は、肯定イベント(笑い声あり):0.7の信頼度を算出している。認識結果テキストの信頼度、そのほかの肯定イベント(咳、キーボード音)に対して、肯定イベント(笑い声あり)の信頼度が高いため、スコア判定部104は、認識結果:「母派」は笑い声であると判定する。結果出力部105は、補足出力として、笑いが起こったことを示すイベントタグ情報を出力する。なお、結果出力部105は、イベントタグ情報を出力しなくてもよい。
【0037】
本開示においては、スコア判定部104は、認識結果形態素に基づいて、フィラーと判定した認識結果テキストについては、認識結果テキストで高い信頼度であったとしても、フィラーと判定する。そして、結果出力部105は、その認識結果テキストを結果出力として出力しない。なお、必要に応じて補足出力として、フィラーであることを示すイベントタグ情報を出力してもよい。
【0038】
ところで、
図3の例では、単語ごとに信頼度を算出し、単語ごとの信頼度により判定を行った例であるが、これに限るものではない。スコア判定部104は、音声認識部102および非言語音声認識部103により出力された認識結果テキストの認識単位から、改めてスコア判定用の判定単位に変更して判定してもよい。例えば、
図3では、音声認識部102および非言語音声認識部103は、単語単位で信頼度を算出したが、スコア判定部104は、文節単位または文単位に信頼度を統合して、文節単位または文単位に統合された信頼度に基づいて判定してもよい。このようにスコアの判定範囲を変えることで、例えば、非言語音を示すイベントタグ情報の付加位置を変えることができ、文章として読みやすいものとなる。例えば、文単位でスコア判定した場合には、文末にイベントタグ情報が付加される。
【0039】
図4は、スコア判定単位を文単位に変えたときの処理内容の概要を示す図である。なお、説明の便宜上、
図3と比較してイベント信頼度等の記載を簡略化している。以下の発話内容が入力され、認識結果テキストが得られたとする。
【0040】
発話内容: わたしは、あのー、(笑い:ははは)、なんか、(咳:ゴッホ)、(キーボード音:カカカカ)、いい
上記発話内容は、日本語であり、watashiwa ano- hahaha nanka (gohho) kakakaka iiと発話されている。なお、日本語では、主語の次に来る「は」は、waと発話される。
認識結果テキスト:私は、あのー、母派、なんか、ゴッホ、かかかか、いい
上記は、日本語に変換された認識結果テキストである。咳とキーボード音が混じっている。この認識結果テキストは、ローマ字表記で説明すると、watashi、wa、ano-、hahaha、nanka、gohho、kakakaka、iiに分節されて日本語に変換されたことを示す。
ここで、スコア判定部104は、文単位でスコア判定をする。すなわち、スコア判定部104は、一文の認識結果テキストにおける音声認識信頼度および非言語音声認識信頼度をそれぞれ合算する。例えば
図4を例にとると、スコア判定部104は、その1文における認識結果テキストの信頼度の合計値およびイベントの信頼度(肯定イベントおよび否定イベントそれぞれの信頼度)の合計値を算出する。この合計値に基づいて、認識結果テキストの適否およびイベントの有無を判定する。
図4の例では、スコア判定部104は、認識結果テキストおよび肯定イベントの信頼度の合計値が所定値以上であることから、この認識結果テキストは、発話、笑い、咳、またはキーボード音を含むと判定する。
【0041】
そして、スコア判定部104は、結果出力部105に、認識結果テキストの信頼度が所定値以上である各認識結果テキスト「私」「は」「あのー」「なんか」「いい」を出力するとともに、イベントの情報を(笑い、咳、キーボード音)を出力する。結果出力部105は、イベントの情報からイベントタグ情報を取得して、信頼度が所定値以上の認識結果テキストとともに出力する。
【0042】
これにより、文単位でイベントタグ情報を出力することができ、認識結果テキストの末尾にイベントタグ情報を付加でき、読みやすい文章となる。
【0043】
つぎに、本開示の音声認識装置100の動作について説明する。
図5は、音声認識装置100の動作を示すフローチャートである。音声取得部101は、音声波形信号を取得し(S101)、音声波形信号から、音声区間検出を行って、音声区間の音声(またはその他の音)を音声信号として、音声認識部102および非言語音声認識部103に出力する(S102)。
【0044】
音声認識部102は、音声信号を音声認識処理して認識結果テキスト、読み、信頼度を出力する(S103)。また、非言語音声認識部103は、音声信号を非言語音声認識処理して、認識対象時間ごとの各イベントの信頼度を出力する(S104)。
【0045】
スコア判定部104は、音声認識処理による認識結果テキストの信頼度と、非言語音声認識に認識された各イベントの信頼度とに基づいて、認識対象ごとの認識結果テキストまたはイベントの妥当性を判定する(S105)。
【0046】
結果出力部105は、判定結果に基づいて認識結果テキストから妥当な認識結果テキストを選択し、またはイベントタグ情報を取得して出力する(S106)。
【0047】
このような処理により、会議中などにおける言語音および非言語音を認識することができる。
【0048】
つぎに、他の言語の適用例について説明する。上記発話事例は、日本語を対象にしたものであるが、当然に他の言語でも同様の処理が可能である。
図6は、発話が英語である場合の処理を示す図である。なお、説明の便宜上、その記載を簡略化している。
図6では、以下の発話がなされている。
【0049】
発話内容:I go (笑い:hahaha) to (咳:off coff cough) (キーボード音:clatter) school.
認識結果テキスト:I go ah the her head to Costoco caca grata.
ここで、音声認識部102により認識された認識結果テキスト「I」「go」「to」「school」について、その音声認識信頼度は高い。
【0050】
一方で、音声認識部102により認識された認識結果テキスト「the her head」「Costoco」「caca gratta」は、その認識結果テキスト信頼度は低いが、イベント信頼度は高い。例えば、認識結果テキスト「the her head」について、笑いのイベント信頼度が高い。これは、笑いの「hahaha」を、言語音として認識しようとしたためである。
【0051】
認識結果テキスト「costoco」「caca grata」についても同様で、それぞれ、咳またはキーボード音を、言語音として認識しようとした結果、その音声信頼度が低く導出されている。一方で、これら発話は咳であり、またキーボード音であることから、これに対する認識結果テキストを出力しないようにする必要がある。
【0052】
図6の例では、認識結果テキスト信頼度およびイベント信頼度に基づいて以下の結果出力がなされる。
【0053】
結果出力:I go to school.
このようにして、英語の音声認識に対しても非言語音を出力しないようにすることができる。
【0054】
つぎに、本開示の音声認識装置100の作用効果について説明する。この音声認識装置100は、音声区間検出により得られた所定単位で音声波形信号(音情報)を取得する音声取得部101(音情報取得部)と、音情報である音声波形信号が音声である場合には、音声認識処理に基づいた結果を出力し、音情報が非言語である場合には、音声認識処理に基づいた結果を出力しないための処理を行う音情報処理部と、を備える。本開示において、この音情報処理部は、音声認識部102、非言語音声認識部103、スコア判定部104、および結果出力部105から構成されている。
【0055】
この構成により、言語である音声の認識結果を出力する一方で、非言語音の認識結果を出力することを防止することができる。
【0056】
なお、音声情報処理部は、必ずしも音声認識部102、非言語音声認識部103、スコア判定部104、および結果出力部105から構成される必要はない。音声認識部102および非言語音声認識部103による認識結果の信頼度をその認識結果とともに出力する構成としてもよい。この場合、出力先は、信頼度に応じた判定処理を行う。
【0057】
また、本開示において、音情報処理部の一構成要素である結果出力部105は、音声波形信号(音情報)が非言語である場合には、非言語のための非言語音認識処理に基づいた結果を出力する。
【0058】
この構成により、非言語を音声認識処理すると、意味が不明な認識結果を得ることになるが、非言語音声認識処理の結果を出力することで、わかりやすい認識結果を得ることができる。一般に、非言語音には、フリガナを付けにくく、また単語にしにくい発音がされる場合が多い。したがって、音声認識処理のための辞書に笑い声等の単語および/またはフリガナを登録すると、そのパターン数からコストがかかるという新たな課題があるが、非言語音声認識処理を別途用意しておくことでこのような課題を解決できる。
【0059】
また、本開示の音声認識装置100において、音情報処理部は、音声波形信号(音情報)を音声として認識する音声認識部102と、音声波形信号(音情報)を非言語音として認識する非言語音声認識部103と、を備える。そして、音情報処理部は、認識したそれぞれの結果に基づいた情報、例えば信頼度を外部端末へ出力する。
【0060】
上記実施形態においては、音声認識装置100内で、信頼度の判定およびそれに応じた結果出力を行っていたが、それら処理を外部端末に依頼してもよい。すなわち、音声認識処理に基づいた結果を出力しないための処理として、音声認識装置100は、音声認識処理による認識結果テキストおよびその信頼度、並びに、非言語音声認識処理による認識結果(イベント等)およびその信頼度を、外部端末に出力する。外部端末は、それら情報に基づいて認識結果テキスト等を得ることができる。
【0061】
また、本開示の音声認識装置100において、音情報処理部は、音声認識部102および非言語音声認識部103のそれぞれの認識結果を判定するスコア判定部104と、その判定に従って音声認識部102による認識結果テキストを加工して出力する結果出力部105と、をさらに有する。すなわち、結果出力部105は、スコア判定部104による判定結果に基づいて、認識結果テキストのうち、非言語音の部分を出力しないようにし、言語の部分のみを出力する。
【0062】
これにより非言語音部分の認識結果テキストを出力しないことから読みやすい認識結果テキストを得ることができる。
【0063】
また、本開示の音声認識装置100において、音声認識部102は、音情報が言語であることに対する言語音信頼度、すなわち認識結果テキストに対する信頼度を導出し、非言語音声認識部103は、音情報が非言語であることに対する非言語音信頼度、すなわちイベントに対する信頼度を導出する。そして、スコア判定部104は、これら信頼度(言語音信頼度および非言語音信頼度)に基づいて、音声認識部102および非言語音声認識部103による認識結果(認識結果テキストおよび各イベント)を判定する。
【0064】
ここで、非言語音信頼度を示すイベントの信頼度は、音声波形信号(音情報)が非言語音であることの信頼度、および音声波形信号(音情報)が非言語音でないことの信頼度を示す。すなわち、肯定イベントおよび否定イベントのそれぞれを示す。
【0065】
そして、スコア判定部104は、肯定イベントおよび否定イベントのそれぞれの信頼度の少なくとも一方に対して重み付け処理を行って、判定処理を行う。
【0066】
このような重み付け処理を行うことで、ユーザの属性若しくは種別、会議の内容に応じた判定を行うことができる。
【0067】
上記において非言語言は、笑い声、頷き、相槌、咳、くしゃみ、およびキーボード音の少なくとも一つである。これらに限られるものではない。
【0068】
また、本開示において、音声認識部102は、所定の音声認識単位(文単位、文節単位、単語単位など)で音声認識を行い、非言語音声認識部103は、所定の音声認識単位に応じた時間単位で非言語音声認識を行う。
【0069】
これにより、音声認識の単位に合わせた非言語音の認識を可能にする。
【0070】
スコア判定部104は、音声認識単位とは異なる判定単位で、認識結果を判定してもよい。例えば、単語単位で音声認識および非言語音声認識をして、スコア判定に際しては、文単位としてもよい。
【0071】
上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェアおよびソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的または論理的に結合した1つの装置を用いて実現されてもよいし、物理的または論理的に分離した2つ以上の装置を直接的または間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置または上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0072】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0073】
例えば、本開示の一実施の形態における音声認識装置100は、本開示の音声認識方法の処理を行うコンピュータとして機能してもよい。
図7は、本開示の一実施の形態に係る音声認識装置100のハードウェア構成の一例を示す図である。上述の音声認識装置100は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0074】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声認識装置100のハードウェア構成は、図に示した各装置を1つまたは複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0075】
音声認識装置100における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002およびストレージ1003におけるデータの読み出しおよび書き込みの少なくとも一方を制御したりすることによって実現される。
【0076】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述の音声認識部102および非言語音声認識部103などは、プロセッサ1001によって実現されてもよい。
【0077】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003および通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声認識部102は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時または逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0078】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る音声認識方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0079】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002およびストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
【0080】
通信装置1004は、有線ネットワークおよび無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)および時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の音声取得部101などは、通信装置1004によって実現されてもよい。音声取得部101は、送信部と受信部とで、物理的に、または論理的に分離された実装がなされてもよい。
【0081】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005および出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0082】
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
【0083】
また、音声認識装置100は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部または全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
【0084】
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号またはこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。
【0085】
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0086】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0087】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0088】
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0089】
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨および範囲を逸脱することなく修正および変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
【0090】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0091】
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)および無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、または他のリモートソースから送信される場合、これらの有線技術および無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
【0092】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、またはこれらの任意の組み合わせによって表されてもよい。
【0093】
なお、本開示において説明した用語および本開示の理解に必要な用語については、同一のまたは類似する意味を有する用語と置き換えてもよい。例えば、チャネルおよびシンボルの少なくとも一方は信号(シグナリング)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC:Component Carrier)は、キャリア周波数、セル、周波数キャリアなどと呼ばれてもよい。
【0094】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0095】
「接続された(connected)」、「結合された(coupled)」という用語、またはこれらのあらゆる変形は、2またはそれ以上の要素間の直接的または間接的なあらゆる接続または結合を意味し、互いに「接続」または「結合」された2つの要素間に1またはそれ以上の中間要素が存在することを含むことができる。要素間の結合または接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1またはそれ以上の電線、ケーブルおよびプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域および光(可視および不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」または「結合」されると考えることができる。
【0096】
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0097】
しなければならないことを意味しない。
【0098】
本開示において、「含む(include)」、「含んでいる(including)」およびそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0099】
本開示において、例えば、英語でのa, anおよびtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
【0100】
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
【符号の説明】
【0101】
100…音声認識装置、101…音声取得部、102…音声認識部、103…非言語音声認識部、104…スコア判定部、105…結果出力部。