IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック株式会社の特許一覧

特許7330066音声認識装置、音声認識方法及びそのプログラム
<>
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図1A
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図1B
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図2
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図3
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図4
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図5
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図6
  • 特許-音声認識装置、音声認識方法及びそのプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-10
(45)【発行日】2023-08-21
(54)【発明の名称】音声認識装置、音声認識方法及びそのプログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20230814BHJP
   G10L 15/04 20130101ALI20230814BHJP
   G06F 3/16 20060101ALI20230814BHJP
【FI】
G10L15/28 230K
G10L15/04 300Z
G06F3/16 610
【請求項の数】 11
(21)【出願番号】P 2019197289
(22)【出願日】2019-10-30
(65)【公開番号】P2020160431
(43)【公開日】2020-10-01
【審査請求日】2022-08-30
(31)【優先権主張番号】62/824,641
(32)【優先日】2019-03-27
(33)【優先権主張国・地域又は機関】US
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、総務省、多言語音声翻訳技術の研究開発に係る委託業務、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000005821
【氏名又は名称】パナソニックホールディングス株式会社
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【弁理士】
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【弁理士】
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】西川 剛樹
(72)【発明者】
【氏名】古川 博基
(72)【発明者】
【氏名】坂口 敦
【審査官】中村 天真
(56)【参考文献】
【文献】特開2007-264473(JP,A)
【文献】特開2005-043628(JP,A)
【文献】特開2003-295892(JP,A)
【文献】国際公開第2018/034059(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G06F 3/16
G06F 40/58
(57)【特許請求の範囲】
【請求項1】
第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識装置であって、
前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得する取得部と、
前記取得部が取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶する記憶部と、
少なくとも前記第1話者からの操作入力を受付ける入力部と、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、
音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別する発話者区別部とを備え、
前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される
音声認識装置。
【請求項2】
前記発話者区別部は、
前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声ごとに設定された前記第1時点と前記第2時点とを比較し、
前記第1時点の方が前記第2時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第1話者を区別し、
前記第2時点の方が前記第1時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第2話者を区別する
請求項1に記載の音声認識装置。
【請求項3】
前記第1話者及び前記1以上の第2話者のうちから前記第1話者が区別された場合、前記音声認識部は、前記第1話者が発話した音声を音声認識し、
前記第1話者及び前記1以上の第2話者のうちから第2話者が区別された場合、前記音声認識部は、前記第2話者が発話した音声を音声認識する
請求項1又は2に記載の音声認識装置。
【請求項4】
前記発話者区別部は、前記入力部が操作入力を受付けた前記第1時点から前後の期間である規定期間における前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声から、前記第1話者か前記第2話者かを区別する
請求項1~3のいずれか1項に記載の音声認識装置。
【請求項5】
前記入力部への操作入力を行った前記第1話者が発話した音声の音声認識をした後、前記記憶部は、前記第2話者の音声を記憶するために、前記取得部が取得した前記それぞれの音声の記憶を開始する
請求項1~4のいずれか1項に記載の音声認識装置。
【請求項6】
前記音声認識部を有するクラウドサーバと通信可能な通信部を備え、
前記通信部は、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声を前記クラウドサーバに送信し、前記クラウドサーバの前記音声認識部が前記それぞれの音声の開始位置以降の音声を音声認識した結果を受信する
請求項1~5のいずれか1項に記載の音声認識装置。
【請求項7】
前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声を音声認識する前記音声認識部を備える
請求項1~5のいずれか1項に記載の音声認識装置。
【請求項8】
前記入力部は、前記音声認識装置に設けられた1つの操作ボタンである
請求項1~7のいずれか1項に記載の音声認識装置。
【請求項9】
前記入力部は、前記第1話者及び前記1以上の第2話者のそれぞれが発話する度に、前記第1話者からの操作入力を受付ける
請求項1~8のいずれか1項に記載の音声認識装置。
【請求項10】
第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識方法であって、
前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得することと、
取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶部に記憶することと、
少なくとも前記第1話者からの入力部への操作入力を受付けることと、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出することと、
音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別することと、
前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識することとを含む
音声認識方法。
【請求項11】
請求項10に記載の音声認識方法をコンピュータに実行させるための
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識装置、音声認識方法及び音声認識方法を用いたプログラムに関する。
【背景技術】
【0002】
例えば特許文献1には、ユーザによる発話タイミングの指示を取得する発話タイミング指示取得手段と、入力される音声信号を保持し、発話タイミング指示取得手段により発話開始の指示が取得された場合、保持している音声信号及びそれ以降に入力される音声信号を出力する音声信号保持手段と、音声信号保持手段により出力された音声信号から発話区間を検出する発話区間検出手段と、発話区間の時刻情報と、発話タイミングの指示の有無及び時刻情報とを比較し、ユーザの誤操作として検知する誤操作検知手段とを備える音声認識装置が開示されている。
【0003】
この音声認識装置では、ユーザの誤操作を検知することで、検知した誤操作をユーザに通知することができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第5375423号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示される技術において、例えば第1話者が音声認識装置の保有者である場合、第1話者は、自身が所有している音声認識装置の使用方法を理解しているため、自身の発話を音声認識装置に認識させるために、正しい操作を行うことができる。このため、第1話者は、自身が発話する音声の話し始めから終わりまで、音声認識装置に認識させることができる。しかし、第1話者の会話相手の第2話者は音声認識装置の使用方法を知らず、第1話者は第2話者が発話するタイミングを認識することができない。このため、第1話者は、第2話者が発話する音声の話し始めから終わりまでを、音声認識装置に認識させることは困難である。これにより、第2話者が発話した音声の音声認識を十分に行うことができないため、第1話者は、再度、第2話者に対して発話をして貰うように促す必要がある。
【0006】
そこで、本開示は、上述の事情を鑑みてなされたもので、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様に係る音声認識装置は、第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識装置であって、前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得する取得部と、前記取得部が取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶する記憶部と、少なくとも前記第1話者からの操作入力を受付ける入力部と、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別する発話者区別部とを備え、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される。
【0008】
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。
【発明の効果】
【0009】
本開示の音声認識装置等によれば、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる。
【図面の簡単な説明】
【0010】
図1A図1Aは、実施の形態1における音声認識装置を搭載した音声翻訳装置の外観と、第1話者と第2話者との音声翻訳装置の使用場面の一例を示す図である。
図1B図1Bは、実施の形態1における別の音声翻訳装置の外観の一例を示す図である。
図2図2は、実施の形態1における音声翻訳装置を示すブロック図である。
図3図3は、第1話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。
図4図4は、第1話者と第2話者とが会話する際の、第1時点と第2時点との時系列を例示した図である。
図5図5は、第2話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。
図6図6は、実施の形態1における音声翻訳装置の発話者区別部における動作を示すフローチャートである。
図7図7は、実施の形態2における音声翻訳装置を示すブロック図である。
【発明を実施するための形態】
【0011】
本開示の一態様に係る音声認識装置は、第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識装置であって、前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得する取得部と、前記取得部が取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶する記憶部と、少なくとも前記第1話者からの操作入力を受付ける入力部と、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別する発話者区別部とを備え、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される。
【0012】
そこで、本開示では、第1話者及び1以上の第2話者の会話によるそれぞれ音声が記憶部に記憶されるため、記憶された音声から第1話者か第2話者かを区別することができる。これにより、音声認識部は、区別の処理が行われた第1話者及び第2話者のそれぞれの音声を、記憶部から読み出して音声認識することができる。つまり、第1話者が入力部への操作入力をした後に第1話者が発話すれば、音声認識部は、第1話者が発話した音声を音声認識することができる。また、通常は第1話者の発話が終了した後に第2話者が発話を開始するため、第2話者の発話に応じて第1話者が入力部への操作入力をすることで、音声認識部は、第2話者が発話した音声を音声認識することができる。
【0013】
したがって、この音声認識装置では、確実に会話相手の音声を取得することで、会話相手の音声を音声認識することができる。
【0014】
また、本開示の他の態様に係る音声認識方法は、第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識方法であって、前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得することと、取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶部に記憶することと、少なくとも前記第1話者からの入力部への操作入力を受付けることと、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出することと、音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別することと、前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識することとを含む。
【0015】
この音声認識方法においても、上述の音声認識装置と同様の作用効果を奏する。
【0016】
また、本開示の他の態様に係るプログラムは、音声認識方法をコンピュータに実行させるためのプログラムである。
【0017】
このプログラムにおいても、上述の音声認識装置と同様の作用効果を奏する。
【0018】
また、本開示の他の態様に係る音声認識装置において、前記発話者区別部は、前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声ごとに設定された前記第1時点と前記第2時点とを比較し、前記第1時点の方が前記第2時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第1話者を区別し、前記第2時点の方が前記第1時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第2話者を区別する。
【0019】
これによれば、例えば第1話者が音声認識装置の保有者である場合、第1話者は、所有している音声認識装置の使用方法を理解しているものであるため、入力部に操作入力した後に発話を開始する。つまり、第1話者によって入力部への操作入力を受付けた第1時点は、第1話者が発話を開始した第2時点よりも時間が早くなるため、発話者区別部は、第1話者及び1以上の第2話者のうちから第1話者を区別することができる。また、第1話者は、第2話者が発話するタイミングを認識することができないため、第2話者が発話を開始してから、入力部に操作入力することとなる。つまり、第1話者によって入力部への操作入力を受付けた第1時点は、第1話者が発話を開始した第2時点よりも時間が遅くなるため、発話者区別部は、第1話者及び1以上の第2話者のうちから第2話者を区別することができる。
【0020】
このように、発話者区別部は、第1時点に直近の発話した話者が第1話者か第2話者かを正確に区別することができる。このため、この音声認識装置では、より確実に第2話者の音声を取得することができるため、第2話者の音声を音声認識することができる。
【0021】
また、本開示の他の態様に係る音声認識装置において、前記第1話者及び前記1以上の第2話者のうちから前記第1話者が区別された場合、前記音声認識部は、前記第1話者が発話した音声を音声認識し、前記第1話者及び前記1以上の第2話者のうちから第2話者が区別された場合、前記音声認識部は、前記第2話者が発話した音声を音声認識する。
【0022】
これによれば、発話した話者が第1話者か第2話者かを発話者区別部が区別することで、音声認識部は、第1話者及び第2話者が発話したそれぞれの音声を、より確実に音声認識することができる。
【0023】
また、本開示の他の態様に係る音声認識装置において、前記発話者区別部は、前記入力部が操作入力を受付けた前記第1時点から前後の期間である規定期間における前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声から、前記第1話者か前記第2話者かを区別する。
【0024】
これによれば、第1話者か第2話者かを区別するために、第1時点を基点とする規定期間を設けることができる。このため、第1話者が操作入力した第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間に話者が発話した直近の音声が、第1話者か第2話者かを区別することができる。これにより、第1話者及び第2話者のそれぞれの音声を個別に認識することができる。このため、この音声認識装置では、第1話者か第2話者かを正確に区別することができる。
【0025】
また、本開示の他の態様に係る音声認識装置において、前記入力部への操作入力を行った前記第1話者が発話した音声の音声認識をした後、前記記憶部は、前記第2話者の音声を記憶するために、前記取得部が取得した前記それぞれの音声の記憶を開始する。
【0026】
通常、第1話者の発話が終了して第1話者の音声の内容を理解した後に、第2話者が発話を開始する。第1話者が発話した音声を音声認識した後、第2話者が発話する前に録音を開始するため、記憶部は、第2話者が発話した音声を確実に記憶することができる。また、少なくとも第1話者が発話を終了した時点から記憶部が録音を開始するまでの間、音声認識装置は、音声の記憶を中断することができる。このため、記憶部に記憶させるための音声認識装置の電力消費を抑制することができる。
【0027】
また、本開示の他の態様に係る音声認識装置は、前記音声認識部を有するクラウドサーバと通信可能な通信部を備え、前記通信部は、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声を前記クラウドサーバに送信し、前記クラウドサーバの前記音声認識部が前記それぞれの音声の開始位置以降の音声を音声認識した結果を受信する。
【0028】
これによれば、第1話者及び1以上の第2話者が発話したそれぞれの音声を、クラウドサーバが音声認識するため、音声認識装置の処理負担を軽減することができる。
【0029】
また、本開示の他の態様に係る音声認識装置は、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声を音声認識する前記音声認識部を備える。
【0030】
これによれば、音声認識装置が音声認識するため、外部のクラウドサーバに音声を送信する必要もないため、音声認識装置とクラウドサーバとの間の通信量の増加を抑制することができる。
【0031】
また、本開示の他の態様に係る音声認識装置において、前記入力部は、前記音声認識装置に設けられた1つの操作ボタンである。
【0032】
これによれば、第1話者は、音声認識装置の操作を簡易に行うことができる。
【0033】
また、本開示の他の態様に係る音声認識装置において、前記入力部は、前記第1話者及び前記1以上の第2話者のそれぞれが発話する度に、前記第1話者からの操作入力を受付ける。
【0034】
これによれば、第2話者に対して操作入力を委ねることを極力避け、第1話者が音声認識装置への操作入力を積極的に行うことで、第1話者及び第2話者のうちから一方の話者を確実に区別することができる。
【0035】
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。
【0036】
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
【0037】
以下、本開示の一態様に係る音声認識装置、音声認識方法及びそのプログラムについて、図面を参照しながら具体的に説明する。
【0038】
(実施の形態1)
<構成:音声翻訳装置1>
図1Aは、実施の形態1における音声認識装置10を搭載した音声翻訳装置1の外観と、第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。
【0039】
図1Aに示すように、音声翻訳装置1は、第1言語で発話する第1話者と、第2言語で発話する1以上の第2話者との間の会話を認識し、認識した会話を双方向に翻訳する装置である。つまり、音声翻訳装置1は、第1話者と1以上の第2話者との異なる2つの言語間において、第1話者と1以上の第2話者とが発話したそれぞれの音声を認識し、認識した発話内容を相手の言語に翻訳する。第1言語は、第2言語と異なる言語である。第1言語及び第2言語は、日本語、英語、フランス語、ドイツ語、中国語等である。本実施の形態では、1名の第1話者と、1名の第2話者とが対面しながら会話する様子を例示する。
【0040】
本実施の形態では、第1話者を音声翻訳装置1の所有者とし、音声翻訳装置1への操作入力は、主に第1話者によって行われる。つまり、第1話者は、音声翻訳装置1の操作方法を理解している、音声翻訳装置1の使用者である。
【0041】
本実施の形態では、第1話者が発話する前に、第1話者が音声翻訳装置1に操作入力を行うことで、音声翻訳装置1は、第1話者が第1言語で発話した音声を認識する。音声翻訳装置1は、第1話者が第1言語で発話した音声を認識すると、認識した当該音声を第1言語である第1テキスト文(文字)で表示し、かつ、第1言語の当該音声を第2言語に翻訳した第2言語である第2テキスト文(文字)を表示するとともに、翻訳した第2言語である第2テキスト文を音声で出力する。このように、音声翻訳装置1は、音声認識された第1テキスト文と、翻訳された第2テキスト文と、翻訳された第2テキスト文の音声とを同時に出力する。
【0042】
また、本実施の形態では、第2話者が発話した後に、第1話者が音声翻訳装置1に操作入力を行うことで、音声翻訳装置1は、第2話者が第2言語で発話した音声を認識する。音声翻訳装置1は、第2話者が第2言語で発話した音声を認識すると、認識した当該音声を第2言語である第2テキスト文で表示し、かつ、第2言語の当該音声を第1言語に翻訳した第1テキスト文を表示するとともに、翻訳された第1テキスト文を音声で出力する。このように、音声翻訳装置1は、音声認識された第2テキスト文と、翻訳された第1テキスト文と、翻訳された第1テキスト文の音声とを同時に出力する。
【0043】
第1話者と第2話者は、音声翻訳装置1を用いて対面しながら会話したり、左右に並んで会話したりする。このため、音声翻訳装置1は、表示態様を変更してもよい。
【0044】
音声翻訳装置1は、スマートホン及びタブレット端末等の、第1話者が携帯可能な携帯端末である。
【0045】
次に、音声翻訳装置1の具体的な構成について説明する。
【0046】
図2は、実施の形態1における音声翻訳装置1を示すブロック図である。
【0047】
図2に示すように、音声翻訳装置1は、音声認識装置10と、翻訳処理部32と、表示部33と、音声出力部34と、電源部35とを有する。
【0048】
[音声認識装置10]
音声認識装置10は、第1話者と、第1話者の会話相手である1以上の第2話者とが会話を行うための装置であり、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話つまり音声を音声認識する装置である。
【0049】
音声認識装置10は、入力部24と、取得部21と、記憶部22と、発話開始検出部23と、発話者区別部25と、音声認識部26とを備える。
【0050】
入力部24は、少なくとも第1話者からの操作入力を受付ける操作入力部である。具体的には、入力部24は、第1話者が発話をする際に、発話直前に第1話者からの操作入力を受付けたり、第2話者が発話をする際に、発話直後に第1話者からの操作入力を受付けたりする。つまり、入力部24は、第1話者及び1以上の第2話者のそれぞれが発話する度に、第1話者からの操作入力を受付ける。入力部24への操作入力は、第1話者及び1以上の第2話者の会話のそれぞれの音声の音声認識をするかどうかのトリガーとなる。
【0051】
また、入力部24は、第1話者からの操作入力によって、記憶部22への音声の録音を開始するトリガーとなってもよく、記憶部22への音声の録音を中止又は停止するトリガーとなってもよい。
【0052】
入力部24は、操作入力に応じた入力信号を生成し、生成した入力信号を発話開始検出部23に出力する。また、入力部24は、第1話者からの操作入力を受付けた第1時点を含む入力信号を生成し、生成した入力信号を発話者区別部25に出力する。入力信号には、第1時点を示す情報(タイムスタンプ)が含まれる。
【0053】
例えば、入力部24は、音声認識装置10に設けられた1つの操作ボタンである。入力部24は、音声認識装置10に2つ以上が設けられていてもよい。なお、本実施の形態では、入力部24は、音声翻訳装置1の表示部33と一体的に設けられるタッチセンサである。この場合、図1Bに示すように、音声翻訳装置1の表示部33には、第1話者による操作入力を受付ける操作ボタンである入力部24が複数表示されていてもよい。図1Bは、実施の形態1における別の音声翻訳装置の外観の一例を示す図である。
【0054】
図1Aに示すように、取得部21は、第1話者及び1以上の第2話者の会話のそれぞれの音声を取得する。具体的に、取得部21は、第1話者及び1以上の第2話者の会話のそれぞれが発話した音声を取得し、取得した話者が発話した音声を含む音を音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0055】
取得部21は、音声を含む音声信号に変換することで、音声信号を取得するマイクロホン部である。なお、取得部21は、マイクロホンと電気的に接続される入力インターフェイスであってもよい。つまり、取得部21は、マイクロホンから、音声信号を取得してもよい。複数のマイクロホンから構成されるマイクロホンアレイ部であってもよい。取得部21は、音声認識装置10の周囲に存在する話者の音声を収音することができればよいため、話者認識装置1における取得部21の配置については特に限定されない。
【0056】
記憶部22は、取得部21が取得した第1話者及び1以上の第2話者の会話のそれぞれの音声を記憶する。具体的には、記憶部22は、取得部21から取得した音声信号に含まれる音声の音声情報を記憶する。つまり、記憶部22には、第1話者及び1以上の第2話者の会話のそれぞれが発話した音声を含む音声情報が、自動的に記憶される。
【0057】
記憶部22は、音声認識装置10が起動したとき、つまり音声翻訳装置1が起動したときに、録音を再開する。また、記憶部22は、音声翻訳装置1の起動後に、最初に第1話者が入力部24に操作入力をした時点から録音を開始してもよい。つまり、入力部24への操作入力によって、記憶部22は音声の録音を開始してもよい。また、記憶部22は、入力部24への操作入力によって、音声の録音を中止又は停止してもよい。
【0058】
また、記憶部22は、例えば入力部24への操作入力を行った第1話者が発話した音声についての音声認識をした後に、第2話者の音声を記憶するために、取得部21が取得した音声の記憶を開始する。つまり、記憶部22は、少なくとも、第1話者が発話した音声の音声情報の記憶後から当該音声の音声認識後までの間、取得部21が取得した音を記憶しない。
【0059】
なお、記憶部22に記憶される容量には限りがあるため、記憶部22に記憶された音声情報は、規定容量に達すると、自動的に古い音声データから削除してもよい。つまり、音声情報には、話者の音声と、日時を示す情報(タイムスタンプ)が付加されていてもよい。
【0060】
また、記憶部22は、HDD(Hard Disk Drive)又は半導体メモリ等で構成される。
【0061】
発話開始検出部23は、第1話者による入力部24への操作入力後、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部への操作入力に応じて音声ごとに検出する検出装置である。具体的には、発話開始検出部23は、記憶部22に記憶されるそれぞれの音声において、第1話者による入力部24への操作入力をした第1時点から規定期間が経過するまでの間に第1話者が発話した音声であって、第1話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部23は、入力部24への操作入力完了時の第1時点から規定期間が経過するまでの間に、第1話者が発話した音声の発話開始の第2時点である開始位置を検出する。
【0062】
また、発話開始検出部23は、記憶部22に記憶されるそれぞれの音声において、第1話者による入力部24への操作入力をした第1時点から第1時点よりも規定期間前までの間に第2話者が発話を開始した音声であって、第2話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部23は、入力部24への操作入力完了時の第1時点から第1時点よりも規定期間前までの間に、第2話者が発話した音声の発話開始の第2時点である開始位置を検出する。
【0063】
発話開始検出部23は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を、発話者区別部25及び音声認識部26に出力する。開始位置情報は、第1話者が発話した音声の発話開始時点である開始位置を示す情報(タイムスタンプ)であり、第2話者が発話した音声の発話開始時点である開始位置を示す情報(タイムスタンプ)である。
【0064】
発話者区別部25は、入力部24から入力信号を取得すると、音声ごとに設定される、第1話者による入力部24への操作入力を受付けた第1時点と発話開始検出部23がそれぞれの音声から検出した発話の開始位置の第2時点とに基づいて、入力部24への操作入力を行った第1話者か、入力部24への操作入力を行っていない第2話者かを区別する。
【0065】
具体的には、発話者区別部25は、第1話者及び1以上の第2話者の会話のそれぞれの音声ごとに設定された第1時点と第2時点とを比較する。より具体的には、発話者区別部25は、入力部24から取得した入力信号に含まれる第1時点と、当該第1時点から前後の期間である規定期間内の音声の発話開始位置である第2時点とを比較する。これにより、発話者区別部25は、第1話者か第2話者かを区別する。
【0066】
例を挙げれば、発話者区別部25は、第1時点の方が第2時点よりも時間が早い時点の場合、第1話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第1話者を区別する。また、発話者区別部25は、第2時点の方が第1時点よりも時間が早い時点の場合、第2話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第2話者を区別する。
【0067】
また、発話者区別部25は、入力部24が第1話者からの操作入力を受付けた第1時点から前後の期間である規定期間における第1話者及び1以上の第2話者が発話したそれぞれの音声から、第1話者か第2話者かを区別する。具体的には、1以上の第1話者と1以上の第2話者とが会話する中で、発話者区別部25は、入力部24が操作入力を受付けた第1時点を基点として、第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間において、話者が発話した直近の音声を、記憶部22に記憶されているそれぞれの音声の中から選択する。発話者区別部25は、選択した音声によって、第1話者か第2話者かを区別する。ここで規定期間は、例えば、1秒、2秒等の数秒間であり、例えば10秒間であってもよい。これにより、発話者区別部25は、第1話者及び1以上の第2話者のそれぞれが直近に発話したそれぞれの音声ごとの第1時点と第2時点とに基づいて、第1話者か第2話者かを区別する。これは、古すぎる音声に基づいて、発話者区別部25が第1話者か第2話者かを区別しても、直近に発話した話者が第1話者か第2話者かを正確に区別することができなくなる不具合を避けるためである。
【0068】
発話者区別部25は、話者を区別した結果を含む結果情報を、音声認識部26に出力する。結果情報は、第1話者の発話によって記憶された音声情報が、区別された第1話者であることを示す情報、又は、第2話者の発話によって記憶された音声情報が、区別された第2話者であることを示す情報を含む。
【0069】
音声認識部26は、発話者区別部25から結果情報と、発話開始検出部23から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部25によって区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声における開始位置以降の音声を、音声認識する。具体的には、音声認識部26は、第1話者及び1以上の第2話者のうちから第1話者が区別された場合、区別された第1話者が直近に発話した音声の音声情報に示される当該音声を第1言語で音声認識する。また、音声認識部26は、第1話者及び1以上の第2話者のうちから第2話者が区別された場合、区別された第2話者が直近に発話した音声の音声情報に示される当該音声を第2言語で音声認識する。音声認識は音声認識部26が話者の発話した音声の内容を第1言語及び第2言語で認識することである。認識した当該音声の内容を示す第1テキスト文及び第2テキスト文は、音声認識部26によって生成される。音声認識部26は、生成した第1テキスト文及び第2テキスト文を翻訳処理部32に出力する。
【0070】
[翻訳処理部32]
翻訳処理部32は、音声認識部26から取得したテキスト文に基づいて、テキスト文に示される認識された言語(認識言語)を別の言語に翻訳し、翻訳した別の言語である翻訳言語で示されたテキスト文を生成する。
【0071】
具体的には、翻訳処理部32は、音声認識部26から第1テキスト文を取得すると、第1テキスト文に示される第1言語から第2言語に翻訳し、第2言語に翻訳された第2テキスト文を生成する。翻訳処理部32は、第2テキスト文の内容を認識し、認識した第2テキスト文の内容を示す第2言語の翻訳音声を生成する。翻訳処理部32は、生成した第1テキスト文及び第2テキスト文を表示部33に出力するとともに、生成した第2言語の翻訳音声を示す情報を音声出力部34に出力する。
【0072】
また、翻訳処理部32は、音声認識部26から第2テキスト文を取得すると、第2テキスト文に示される第2言語から第1言語に翻訳し、第1言語に翻訳された第1テキスト文を生成する。翻訳処理部32は、第1テキスト文の内容を認識し、認識した第1テキスト文の内容を示す第1言語の翻訳音声を生成する。翻訳処理部32は、生成した第2テキスト文及び第1テキスト文を表示部33に出力するとともに、生成した第1言語の翻訳音声を示す情報を音声出力部34に出力する。
【0073】
なお、音声翻訳装置1は翻訳処理部32を有していなくてもよく、クラウドサーバが翻訳処理部32を有していてもよい。この場合、音声翻訳装置1はネットワークを介してクラウドサーバと通信可能に接続され、音声認識装置10が音声認識した第1テキスト文又は第2テキスト文をクラウドサーバに送信してもよい。また、音声翻訳装置1は、翻訳された第2テキスト文又は第1テキスト文と、翻訳音声とを受信し、受信した第2テキスト文又は第1テキスト文を表示部33に出力し、受信した翻訳音声を音声出力部34に出力してもよい。
【0074】
[表示部33]
表示部33は、例えば、液晶パネル、又は、有機ELパネル等のモニタである。表示部33は、翻訳処理部32から取得した第1テキスト文及び第2テキスト文を表示する。
【0075】
表示部33は、音声認識装置10に対する第1話者と第2話者との位置関係に応じて、第1テキスト文及び第2テキスト文を表示する画面レイアウトを変更する。例えば、表示部33は、第1話者が発話すると、第1話者側に位置する表示部33の領域に音声認識された第1テキスト文を表示し、第2話者側に位置する表示部33の領域に翻訳された第2テキスト文を表示する。また、表示部33は、第2話者が発話すると、第2話者側に位置する表示部33の領域に音声認識された第2テキスト文を表示し、第1話者側に位置する表示部33の領域に翻訳された第1テキスト文を表示する。これらの場合、表示部33は、第1テキスト文と第2テキスト文との文字の向きが逆さまとなって表示する。なお、表示部33は、第1話者と第2話者とが左右に並んで会話する場合、第1テキスト文と第2テキスト文との文字の向きが同一となるように表示する。
【0076】
[音声出力部34]
音声出力部34は、翻訳処理部32から取得した翻訳音声を示す情報に示される翻訳音声を出力するスピーカである。つまり、音声出力部34は、第1話者が発話した場合、表示部33に表示される第2テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部34は、第2話者が発話した場合、表示部33に表示される第1テキスト文と同様の内容の翻訳音声を再生して出力する。
【0077】
[電源部35]
電源部35は、例えば一次電池又は二次電池等であり、配線を介して音声認識装置10、翻訳処理部32、表示部33及び音声出力部34等と電気的に接続される。電源部35は、音声認識装置10、翻訳処理部32、表示部33及び音声出力部34等に電力を供給する。なお、本実施の形態では、電源部35は、音声翻訳装置1に設けられているが、音声認識装置10に設けられていてもよい。
【0078】
<動作>
以上のように構成される音声翻訳装置1が行う動作について説明する。
【0079】
図3は、実施の形態1における音声翻訳装置1の動作を示すフローチャートである。図4は、第1話者と第2話者とが会話する際の、第1時点と第2時点との時系列を例示した図である。図3及び図4では、第1話者と第2話者とが一対一で会話する場合を想定する。また、音声翻訳装置1の所有者を第1話者とし、第1話者が主体的に音声翻訳装置1の操作を行う場合を想定する。また、音声翻訳装置1には、第1話者が第1言語による発話を行うことを予め設定し、第2話者が第2言語による発話を行うことを予め設定する。
【0080】
図1A図3及び図4に示すように、まず、第1話者と第2話者とが会話を行う際に、第1話者は、音声を発する前に、入力部24に対して操作入力する。つまり、入力部24は、第1話者からの操作入力を受付ける(S11)。具体的には、入力部24は、受付けた操作入力に応じた入力信号を生成し、生成した入力信号を発話開始検出部23に出力する。また、入力部24は、第1話者からの操作入力を受付けた第1時点を含む入力信号を生成し、生成した入力信号を発話者区別部25に出力する。
【0081】
次に、第1話者は、音声認識装置10の所有者であり、自身が発話するタイミングを当然に理解しているものであるため、入力部24に対して操作入力した後に発話を開始する。音声認識装置10は、第1話者と第2話者とが会話を行う際に、一方の話者が発話した音声を取得する(S12)。つまり、一方の話者が発話すると、取得部21は、一方の話者が発話した音声を取得する。取得部21は、取得した一方の話者が発話した音声を含む音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0082】
次に、記憶部22は、ステップS12で取得部21から取得した音声信号に含まれる音声の音声情報を記憶する(S13)。つまり、記憶部22には、一方の話者が発話した直近の音声の音声情報が自動的に記憶される。
【0083】
次に、発話開始検出部23は、入力部24から入力信号を取得すると、ステップS13で記憶部22に記憶された音声において、発話を開始した開始位置(第2時点)を検出する(S14)。具体的には、発話開始検出部23は、第1話者による入力部24への操作入力した直後に一方の話者が発話した音声であって、一方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。
【0084】
発話開始検出部23は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を発話者区別部25及び音声認識部26に出力する。
【0085】
次に、発話者区別部25は、入力部24から入力信号を取得すると、音声ごとに設定される、第1時点と第2時点とに基づいて、一方の話者が、入力部24への操作入力を行った第1話者か、入力部24への操作入力を行っていない第2話者かを区別する(S15a)。具体的には、発話者区別部25は、第1時点と第2時点とを比較する。つまり、発話者区別部25は、第1時点が第2時点よりも時間が早い時点かどうかを判定する。
【0086】
例えば、発話者区別部25は、第1時点の方が第2時点よりも時間が早い時点の場合、一方の話者である第1話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第1話者を区別する。また、発話者区別部25は、第2時点の方が第1時点よりも時間が早い時点の場合、他方の話者である第2話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第2話者を区別する。
【0087】
ここでは、第1時点の方が第2時点よりも時間が早い時点であるため、発話者区別部25は、第1話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第1話者を区別する。発話者区別部25は、話者を区別した結果を含む結果情報を、音声認識部26に出力する。結果情報は、ステップS12の音声情報が、区別された第1話者であることを示す情報を含む。
【0088】
次に、音声認識部26は、発話者区別部25から結果情報と、発話開始検出部23から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部25によって区別の処理が行われた第1話者の音声を音声認識する(S16)。
【0089】
具体的には、音声認識部26は、第1話者が直近に発話したステップS12の音声の音声情報を、発話開始検出部23を介して記憶部22から取得する。音声認識部26は、発話開始検出部23を介して記憶部22から取得した音声情報に示される第1話者が発話した当該音声を、音声認識する。
【0090】
より具体的には、音声認識部26は、第1話者が発話した音声の内容を第1言語で認識し、認識した当該音声の内容を示す第1テキスト文を生成する。つまり、この第1テキスト文の内容は、第1話者が発話した音声の内容と一致し、第1言語で示される。音声認識部26は、生成した第1テキスト文を翻訳処理部32に出力する。
【0091】
翻訳処理部32は、音声認識部26から第1テキスト文を取得すると、第1言語から第2言語に翻訳し、第2言語に翻訳された第2テキスト文を生成する。つまり、第2言語で示された第2テキスト文の内容は、第1言語で示された第1テキスト文の内容と一致する。
【0092】
翻訳処理部32は、第2テキスト文の内容を認識し、認識した第2テキスト文の内容を示す第2言語の翻訳音声を生成する。
【0093】
翻訳処理部32は、生成した第1テキスト文及び第2テキスト文を表示部33に出力するとともに、生成した第2言語の翻訳音声を示す情報を音声出力部34に出力する。
【0094】
表示部33は、翻訳処理部32から取得した第1テキスト文及び第2テキスト文を表示する。具体的には、表示部33は、第1話者側に位置する画面に第1テキスト文を表示し、第2話者側に位置する画面に第2テキスト文を表示する。表示部33は、第1話者が第1テキスト文を読めるように、第1話者に対して第1テキスト文の文字の向きを正向きで表示し、第2話者が第2テキスト文を読めるように、第2話者に対して第2テキスト文の文字の向きを正向きで表示する。つまり、第1テキスト文の文字の向きは、第2テキスト文の文字の向きに対して逆さまになっている。
【0095】
また、音声出力部34は、翻訳処理部32から取得した、第2言語の翻訳音声を示す情報に示される第2言語の翻訳音声を出力する。つまり、音声出力部34は、第1言語から第2言語に翻訳された翻訳音声を出力する。これにより、第2言語の翻訳音声を聞いた第2話者は、第1話者が発話した音声を理解することができる。また、表示部33には、第2テキスト文で表示されるため、第2話者は、確実に第1話者が発話した音声を文字でも理解することができる。
【0096】
次に、第2話者が発話する場合について、図5を用いて説明する。図5は、第2話者が発話した場合の音声翻訳装置の動作を示すフローチャートである。図3と同様の処理については適宜説明を省略する。
【0097】
図1A図4及び図5に示すように、まず、第1話者は、話者である第2話者が発話するタイミングを認識できないものであるため、第2話者が発話した後に、入力部24に対して操作入力する。
【0098】
まず、音声認識装置10は、第1話者と第2話者とが会話を行う際に、他方の話者が発話した音声を取得する(S21)。つまり、他方の話者が発話すると、取得部21は、他方の話者が発話した音声を取得する。取得部21は、取得した他方の話者が発話した音声を含む音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0099】
次に、他方の話者は、第2言語による音声で発話する。第1話者は、第1話者と第2話者とが会話を行う際において、他方の話者が音声を発した後に、入力部24に対して操作入力する。つまり、入力部24は、第1話者からの操作入力を受付ける(S22)。具体的には、入力部24は、受付けた操作入力に応じた入力信号を発話開始検出部23に出力し、操作入力を受付けた時点(第1時点)を含む入力信号を発話者区別部25に出力する。
【0100】
次に、記憶部22は、ステップS21で取得部21から取得した音声信号に含まれる音声の音声情報を記憶する(S13)。つまり、記憶部22には、他方の話者が発話した直近の音声の音声情報が自動的に記憶される。
【0101】
次に、発話開始検出部23は、第1話者による入力部24への操作入力した直前に他方の話者が発話した音声であって、他方の話者の発話によって記憶された音声情報に示される音声の開始位置(第2時点)を検出する(S14)。
【0102】
発話開始検出部23は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を発話者区別部25及び音声認識部26に出力する。
【0103】
次に、発話者区別部25は、第1時点と第2時点とを比較し、第1時点が第2時点よりも時間が早い時点かどうかを判定することで、他方の話者が第1話者か第2話者かを区別する(S15b)。
【0104】
ここでは、第2時点の方が第1時点よりも時間が早い時点であるため、発話者区別部25は、他方の話者である第2話者が発話した音声が音声認識装置10に入力(記憶部22に記憶)されたと判定し、第1話者及び第2話者のうちから第2話者を区別する。発話者区別部25は、話者を区別した結果を含む結果情報を、音声認識部26に出力する。結果情報は、ステップS21の音声情報が、区別された第2話者であることを示す情報を含む。
【0105】
次に、音声認識部26は、発話者区別部25から結果情報と、発話開始検出部23から開始位置情報とを取得すると、結果情報と開始位置情報とに基づいて、発話者区別部25によって区別の処理が行われた第2話者の音声を音声認識する(S16)。
【0106】
具体的には、音声認識部26は、第2話者が直近に発話したステップS21の音声の音声情報を、発話開始検出部23を介して記憶部22から取得する。音声認識部26は、発話開始検出部23を介して記憶部22から取得した音声情報に示される第2話者が発話した当該音声を、音声認識する。
【0107】
より具体的には、音声認識部26は、第2話者が発話した音声の内容を第2言語で認識し、認識した当該音声の内容を示す第2テキスト文を生成する。つまり、この第2テキスト文の内容は、第2話者が発話した音声の内容と一致し、第2言語で示される。音声認識部26は、生成した第2テキスト文を翻訳処理部32に出力する。
【0108】
翻訳処理部32は、音声認識部26から第2テキスト文を取得すると、第2言語から第1言語に翻訳し、第1言語に翻訳された第1テキスト文を生成する。つまり、第1言語で示された第1テキスト文の内容は、第2言語で示された第2テキスト文の内容と一致する。
【0109】
翻訳処理部32は、第1テキスト文の内容を認識し、認識した第1テキスト文の内容を示す第1言語の翻訳音声を生成する。
【0110】
翻訳処理部32は、生成した第2テキスト文及び第1テキスト文を表示部33に出力するとともに、生成した第1言語の翻訳音声を示す情報を音声出力部34に出力する。
【0111】
表示部33は、翻訳処理部32から取得した第2テキスト文及び第1テキスト文を表示する(S17)。具体的には、表示部33は、第1話者側に位置する画面に第1テキスト文を表示し、第2話者側に位置する画面に第2テキスト文を表示する。表示部33には、第1話者が第1テキスト文を読めるように、第1話者に対して第1テキスト文の文字の向きを正向きで表示し、第2話者が第2テキスト文を読めるように、第2話者に対して第2テキスト文の文字の向きを正向きで表示する。つまり、第1テキスト文の文字の向きは、第2テキスト文の文字の向きに対して逆さまになっている。
【0112】
また、音声出力部34は、翻訳処理部32から取得した、第1言語の翻訳音声を示す情報に示される、第1言語の翻訳音声を出力する(S18)。つまり、音声出力部34は、第2言語から第1言語に翻訳された翻訳音声を出力する。これにより、第1言語の翻訳音声を聞いた第1話者は、第2話者が発話した音声を理解することができる。また、表示部33には、第1テキスト文で表示されるため、第1話者は、確実に第2話者が発話した音声を文字でも理解することができる。
【0113】
そして、音声翻訳装置1は、処理を終了する。
【0114】
図6は、実施の形態1における音声翻訳装置1の発話者区別部25における動作を示すフローチャートである。図6は、図3のステップS15a及び図5のステップS15bの処理について、具体的に説明するためのフローチャートである。
【0115】
図3図5及び図6に示すように、まず、発話者区別部25は、入力部24が第1話者からの操作入力を受付けた第1時点を基点とし、第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間において、話者が発話した直近の音声を、記憶部22に記憶されているそれぞれの音声の中から選択する(S31)。
【0116】
次に、発話者区別部25は、第1話者と第2話者とがそれぞれ発話する度に設定される、第1時点と第2時点とを比較し、第1時点が第2時点よりも時間が早い時点かどうかを判定する(S32)。
【0117】
発話者区別部25は、第1時点の方が第2時点よりも時間が早い時点であると判定した場合(S32でYES)、第1話者及び第2話者のうちから第1話者を区別する(S33)。つまり、第1時点の方が第2時点よりも時間が早い時点の場合とは、第1話者は、自身が発話するタイミングを理解しているため、第1時点の方が第2時点よりも早い時点となる。これにより、発話者区別部25は、第1時点と第2時点とに基づいて、第1話者及び第2話者のうちから第1話者を区別できる。
【0118】
発話者区別部25は、第1話者及び第2話者のうちから第1話者を区別した結果を含む結果情報を、音声認識部26に出力する。そして、発話者区別部25は、処理を終了する。
【0119】
また、発話者区別部25は、第2時点の方が第1時点よりも時間が早い時点であると判定した場合(S32でNO)、第1話者及び第2話者のうちから第2話者を区別する(S34)。つまり、第2時点の方が第1時点よりも時間が早い時点の場合とは、第1話者は、第2話者が発話するタイミングを理解できないため、第2話者が発話した後に入力部24への操作入力を行うこととなるため、第2時点の方が第1時点よりも早い時点となる。これにより、発話者区別部25は、第1時点と第2時点とに基づいて、第1話者及び第2話者のうちから第2話者を区別できる。
【0120】
発話者区別部25は、第1話者及び第2話者のうちから第2話者を区別した結果を含む結果情報を、音声認識部26に出力する。そして、発話者区別部25は、処理を終了する。
【0121】
<作用効果>
次に、本実施の形態における音声認識装置10の作用効果について説明する。
【0122】
以上のように、本実施の形態における音声認識装置10は、第1話者と、第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識装置10であって、第1話者及び1以上の第2話者の会話のそれぞれの音声を取得する取得部21と、取得部21が取得した第1話者及び1以上の第2話者の会話のそれぞれの音声を記憶する記憶部22と、少なくとも第1話者からの操作入力を受付ける入力部24と、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部24への操作入力に応じて音声ごとに検出する発話開始検出部23と、音声ごとに設定される、入力部24への操作入力を受付けた第1時点と発話開始検出部23がそれぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、第1話者及び1以上の第2話者のうちから、入力部24への操作入力を行った第1話者か入力部24への操作入力を行っていない1以上の第2話者かを区別する発話者区別部25とを備える。そして、発話者区別部25によって区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声における開始位置以降の音声は、音声認識部26によって音声認識される。
【0123】
そこで、本実施の形態では、第1話者及び1以上の第2話者の会話によるそれぞれの音声が記憶部22に記憶されるため、記憶された音声から第1話者か第2話者かを区別することができる。これにより、音声認識部26は、区別の処理が行われた第1話者及び第2話者の会話のそれぞれの音声を、記憶部22から読み出して音声認識することができる。つまり、第1話者が入力部24への操作入力をした後に第1話者が発話すれば、音声認識部26は、第1話者が発話した音声を音声認識することができる。また、通常は第1話者の発話が終了した後に第2話者が発話を開始するため、第2話者の発話に応じて第1話者が入力部24への操作入力をすることで、音声認識部26は、第2話者が発話した音声を音声認識することができる。
【0124】
したがって、この音声認識装置10では、確実に第2話者(会話相手)の音声を取得することで、第2話者(会話相手)の音声を音声認識することができる。
【0125】
また、本実施の形態における音声認識方法は、第1話者と、第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識方法であって、第1話者及び1以上の第2話者の会話のそれぞれの音声を取得することと、取得した第1話者及び1以上の第2話者の会話のそれぞれの音声を記憶部22に記憶することと、少なくとも第1話者からの入力部24への操作入力を受付けることと、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を、入力部24への操作入力に応じて音声ごとに検出することと、音声ごとに設定される、入力部24への操作入力を受付けた第1時点とそれぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、第1話者及び1以上の第2話者のうちから、入力部24への操作入力を行った第1話者か入力部24への操作入力を行っていない1以上の第2話者かを区別することと、区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声における開始位置以降の音声は、音声認識することとを含む。
【0126】
この音声認識方法においても、上述の音声認識装置10と同様の作用効果を奏する。
【0127】
また、本実施の形態におけるプログラムは、音声認識方法をコンピュータに実行させるためのプログラムである。
【0128】
このプログラムにおいても、上述の音声認識装置10と同様の作用効果を奏する。
【0129】
また、本実施の形態における音声認識装置10において、発話者区別部25は、第1話者及び1以上の第2話者の会話のそれぞれの音声ごとに設定された第1時点と第2時点とを比較し、第1時点の方が第2時点よりも時間が早い時点の場合、第1話者及び1以上の第2話者のうちから第1話者を区別し、第2時点の方が第1時点よりも時間が早い時点の場合、第1話者及び1以上の第2話者のうちから第2話者を区別する。
【0130】
これによれば、例えば第1話者が音声認識装置10の保有者である場合、第1話者は、所有している音声認識装置10の使用方法を理解しているものであるため、入力部24に操作入力した後に発話を開始する。つまり、第1話者によって入力部24への操作入力を受付けた第1時点は、第1話者が発話を開始した第2時点よりも時間が早くなるため、発話者区別部25は、第1話者及び1以上の第2話者のうちから第1話者を区別することができる。また、第1話者は、第2話者が発話するタイミングを認識することができないため、第2話者が発話を開始してから、入力部24に操作入力することとなる。つまり、第1話者によって入力部24への操作入力を受付けた第1時点は、第1話者が発話を開始した第2時点よりも時間が遅くなるため、発話者区別部25は、第1話者及び1以上の第2話者のうちから第2話者を区別することができる。
【0131】
このように、発話者区別部25は、第1時点に直近の発話した話者が第1話者か第2話者かを正確に区別することができる。このため、この音声認識装置10では、より確実に第2話者の音声を取得することができるため、第2話者の音声を音声認識することができる。
【0132】
また、本実施の形態における音声認識装置10において、第1話者及び1以上の第2話者のうちから第1話者が区別された場合、音声認識部26は、第1話者が発話した音声を音声認識し、第1話者及び1以上の第2話者のうちから第2話者が区別された場合、音声認識部26は、第2話者が発話した音声を音声認識する。
【0133】
これによれば、発話した話者が第1話者か第2話者かを発話者区別部25が区別することで、音声認識部26は、第1話者及び第2話者が発話したそれぞれの音声を、より確実に音声認識することができる。
【0134】
また、本実施の形態における音声認識装置10において、発話者区別部25は、入力部24が操作入力を受付けた第1時点から前後の期間である規定期間における第1話者及び1以上の第2話者の会話のそれぞれの音声から、第1話者か第2話者かを区別する。
【0135】
これによれば、第1話者か第2話者かを区別するために、第1時点を基点とする規定期間を設けることができる。このため、第1話者が操作入力した第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間に話者が発話した直近の音声が、第1話者か第2話者かを区別することができる。これにより、第1話者及び第2話者のそれぞれの音声を個別に認識することができる。このため、この音声認識装置10では、第1話者か第2話者かを正確に区別することができる。
【0136】
また、本実施の形態における音声認識装置10において、入力部24への操作入力を行った第1話者が発話した音声の音声認識をした後、記憶部22は、前記第2話者の音声を記憶するために、取得部21が取得したそれぞれの音声の記憶を開始する。
【0137】
通常、第1話者の発話が終了して第1話者の音声の内容を理解した後に、第2話者が発話を開始する。第1話者が発話した音声を音声認識した後、第2話者が発話する前に録音を開始するため、記憶部22は、第2話者が発話した音声を確実に記憶することができる。また、少なくとも第1話者が発話を終了した時点から記憶部22が録音を開始するまでの間、音声認識装置10は、音声の記憶を中断することができる。このため、記憶部22に記憶させるための音声認識装置10の電力消費を抑制することができる。
【0138】
また、本実施の形態における音声認識装置10は、発話者区別部25によって区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声における開始位置以降の音声を音声認識する音声認識部26を備える。
【0139】
これによれば、音声認識装置10が音声認識するため、外部のクラウドサーバに音声を送信する必要もないため、音声認識装置10とクラウドサーバとの間の通信量の増加を抑制することができる。
【0140】
また、本実施の形態における音声認識装置10において、入力部24は、音声認識装置10に設けられた1つの操作ボタンである。
【0141】
これによれば、第1話者は、音声認識装置10の操作を簡易に行うことができる。
【0142】
また、本実施の形態における音声認識装置10において、入力部24は、第1話者及び1以上の第2話者のそれぞれが発話する度に、第1話者からの操作入力を受付ける。
【0143】
これによれば、第2話者に対して操作入力を委ねることを極力避け、第1話者が音声認識装置10への操作入力を積極的に行うことで、第1話者及び第2話者のうちから一方の話者を確実に区別することができる。
【0144】
(実施の形態2)
<構成>
本実施の形態の音声翻訳装置1の構成を、図7を用いて説明する。
【0145】
図7は、実施の形態2における音声翻訳装置1を示すブロック図である。
【0146】
実施の形態1では、音声認識装置10が音声認識部26を有するが、本実施の形態では、音声認識部51がクラウドサーバ50に設けられている点で、実施の形態1と相違する。
【0147】
本実施の形態における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
【0148】
図7に示すように、音声認識装置10aは、入力部24、取得部21、記憶部22、発話開始検出部23及び発話者区別部25の他に、通信部29を備える。
【0149】
発話者区別部25は、第1話者及び第2話者のうちから一方の話者を区別すると、話者を区別した結果を含む結果情報を、記憶部22に出力する。
【0150】
記憶部22は、この結果情報を取得すると、区別された話者が直近に発話した音声の音声情報を通信部29に出力する。
【0151】
通信部29は、音声認識部51を有するクラウドサーバ50と、ネットワークを介して無線又は有線通信可能な通信モジュールである。
【0152】
通信部29は、発話者区別部25によって区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声をクラウドサーバ50に送信する。具体的には、通信部29は、発話者区別部25が区別した話者が第1時点の直近に発話した音声の音声情報を、発話開始検出部23を介して記憶部22から取得し、取得した音声情報を、ネットワークを介してクラウドサーバ50に送信する。
【0153】
また、通信部29は、クラウドサーバ50の音声認識部51がそれぞれの音声の開始位置以降の音声を音声認識した結果を受信する。具体的には、通信部29は、クラウドサーバ50から、第1話者及び1以上の第2話者のそれぞれの音声を音声認識した結果である、当該音声の内容を示す第1テキスト文及び第2テキスト文を受信し、受信した第1テキスト文及び第2テキスト文を翻訳処理部32に出力する。
【0154】
なお、音声翻訳装置1は翻訳処理部32を有していなくてもよく、クラウドサーバ50がさらに翻訳処理部32を有していてもよい。この場合、音声翻訳装置1の音声認識装置10aは、ネットワークを介してクラウドサーバ50と通信可能に接続され、音声認識装置10aが第1話者及び1以上の第2話者のそれぞれの音声をクラウドサーバ50に送信してもよい。また、音声翻訳装置1は、当該音声の内容を示す第1テキスト文、第2テキスト文及び翻訳音声を受信し、受信した第1テキスト文及び第2テキスト文を表示部33に出力し、受信した翻訳音声を音声出力部34に出力してもよい。
【0155】
<作用効果>
次に、本実施の形態における音声認識装置10aの作用効果について説明する。
【0156】
以上のように、本実施の形態における音声認識装置10aは、音声認識部51を有するクラウドサーバ50と通信可能な通信部29を備え、通信部29は、発話者区別部25によって区別の処理が行われた第1話者及び1以上の第2話者のそれぞれの音声をクラウドサーバ50に送信し、クラウドサーバ50の音声認識部51がそれぞれの音声の開始位置以降の音声を音声認識した結果を受信する。
【0157】
これによれば、第1話者及び1以上の第2話者が発話したそれぞれの音声を、クラウドサーバ50が音声認識するため、音声認識装置10aの処理負担を軽減することができる。
【0158】
また、本実施の形態において、実施の形態1と同様の作用効果を奏する。
【0159】
(その他変形例等)
以上、本開示について、実施の形態1、2に基づいて説明したが、本開示は、これら実施の形態1、2等に限定されるものではない。
【0160】
例えば、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、翻訳開始時に入力部を1度の押下で、第1話者と第2話者との発話に応じた音声認識と、音声認識した言語の翻訳とを自動で行ってもよい。
【0161】
また、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムにおいて、取得部が取得した音声に基づいて、音声翻訳装置に対する第1話者及び1以上の第2話者の方向を推定してもよい。この場合、マイクロホンアレイ部の取得部を用いて、第1話者及び1以上の第2話者のそれぞれが発話した音声から、音声翻訳装置に対する音源方向を推定してもよい。具体的には、音声認識装置は、取得部におけるそれぞれのマイクロホンに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定してもよい。
【0162】
また、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、音声翻訳装置に搭載されていなくてもよい。例えば、音声認識装置と、音声翻訳装置とは別々の独立した装置であってもよい。この場合、音声認識装置は、電源部を有していてもよく、音声翻訳装置は、翻訳処理部、表示部、音声出力部及び電源部を有していてもよい。
【0163】
また、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムでは、記憶部が記憶した第1話者及び1以上の第2話者のそれぞれの音声を、ネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよく、当該それぞれの音声を認識した第1テキスト文及び第2テキスト文だけをネットワークを介してクラウドサーバに送信することとで、クラウドサーバに保存してもよい。この場合、当該それぞれの音声、第1テキスト文及び第2テキスト文等を記憶部から削除してもよい。
【0164】
また、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムにおいて、音声認識装置は、取得部が取得する話者の音声の区間を検出することで、取得部が取得する話者の音声を取得できない期間が所定期間以上検出されれば、自動的に録音を中止又は停止してもよい。
【0165】
また、上記各実施の形態1、2に係る音声認識方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。
【0166】
また、上記各実施の形態1、2に係る音声認識装置、音声認識方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
【0167】
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0168】
なお、上記各実施の形態1、2において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0169】
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態1、2は例示された数字に制限されない。
【0170】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
【0171】
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
【0172】
その他、実施の形態1、2に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態1、2における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
【産業上の利用可能性】
【0173】
本開示は、異なる言語を話す複数の話者が会話によって意思の疎通を図るために用いられる音声認識装置、音声認識方法及びそのプログラムに適用することができる。
【符号の説明】
【0174】
10、10a 音声認識装置
21 取得部
22 記憶部
23 発話開始検出部
24 入力部
25 発話者区別部
26、51 音声認識部
29 通信部
図1A
図1B
図2
図3
図4
図5
図6
図7