(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-05
(45)【発行日】2024-03-13
(54)【発明の名称】音声入力装置、音声入力方法及びそのプログラム
(51)【国際特許分類】
G10L 17/06 20130101AFI20240306BHJP
【FI】
G10L17/06
(21)【出願番号】P 2019197231
(22)【出願日】2019-10-30
【審査請求日】2022-08-30
(32)【優先日】2019-03-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】西川 剛樹
【審査官】中村 天真
(56)【参考文献】
【文献】特開2006-313261(JP,A)
【文献】特開2004-094077(JP,A)
【文献】特開2014-096153(JP,A)
【文献】特開2001-222295(JP,A)
【文献】特開平11-249683(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
1以上の話者が発話する際のそれぞれの音声を取得する取得部と、
前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、
トリガが入力されるトリガ入力部と、
前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、
少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部と
、
前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部とを備え、
前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する
音声入力装置。
【請求項2】
前記発話時機登録部は、前記1以上の話者のそれぞれの発話の時機を登録する際に、
前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が後の時間であることを示す第1時間情報と、前記1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録し、
前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が前の時間であることを示す第2時間情報と、前記1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する
請求項
1に記載の音声入力装置。
【請求項3】
前記話者識別部は、
前記第1時点に対する前記第2時点の時機を算出し、
算出した時機を示す結果と前記複数の登録情報とを照らし合わせて、前記第1時点よりも前記第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、前記第1時点よりも前記第2時点の方が前の時間である場合は、発話した話者が前記第1話者と別の第2話者であると判定する
請求項
1又は2に記載の音声入力装置。
【請求項4】
前記トリガ入力部は、予め設定された音声の入力を受付ける音声入力インターフェイスであり、
前記トリガ入力部には、予め設定された音声が前記トリガとして入力される
請求項1~
3のいずれか1項に記載の音声入力装置。
【請求項5】
前記トリガ入力部は、前記音声入力装置に設けられた操作ボタンであり、
前記トリガ入力部には、受付けた操作入力が前記トリガとして入力される
請求項1~
3のいずれか1項に記載の音声入力装置。
【請求項6】
1以上の話者が発話する際のそれぞれの音声を取得することと、
取得した前記1以上の話者の発話による前記それぞれの音声を記憶部に記憶することと、
トリガが入力されることと、
前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出することと、
少なくとも、前記トリガが入力される第1時点と、前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することと
、
前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録することと、
前記第1時点と前記第2時点と前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することとを含む
音声入力方法。
【請求項7】
請求項
6に記載の音声入力方法をコンピュータに実行させるための
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声入力装置、音声入力方法及び音声入力方法を用いたプログラムに関する。
【背景技術】
【0002】
例えば特許文献1には、ユーザの操作により、音声入力操作を可能にする音声入力開始操作手段と、ユーザの音声を取得する音声入力手段と、音声入力開始操作手段でユーザが操作を行なった時刻からユーザが実際に発話を開始するまでの時間を学習した発話開始学習時間を保持する発話開始時間学習データ保持手段と、計測時間と発話開始時間学習データ保持手段からの発話開始学習時間とを比較し、時間計測した音声がユーザの入力音声か否かを判定し、ユーザの入力音声である時は音声認識する音声認識手段とを備える音声認識装置が開示されている。
【0003】
この音声認識装置では、ユーザごとに学習し、学習した発話開始時間を使用することで、音声がユーザか否かを認識することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示される技術では、ユーザが音声入力装置の操作を行った時刻からユーザが実際に発話を開始するまでの期間を予め学習する必要がある。このため、従来の音声認識装置では、学習による計算量が増大する恐れがある。
【0006】
そこで、本開示は、簡易な処理で話者を識別することで計算量の増大を抑制することができる音声入力装置、音声入力方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様に係る音声入力装置は、1以上の話者が発話する際のそれぞれの音声を取得する取得部と、前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、トリガが入力されるトリガ入力部と、前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部と、前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部とを備え、前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する。
【0008】
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。
【発明の効果】
【0009】
本開示の音声入力装置等によれば、簡易な処理で話者を識別することで計算量の増大を抑制することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施の形態における話者認識装置の外観と、話者の発話による話者認識装置の使用場面の一例を示す図である。
【
図2A】
図2Aは、実施の形態における話者認識装置の一例を示すブロック図である。
【
図2B】
図2Bは、実施の形態における別の話者認識装置の一例を示すブロック図である。
【
図3】
図3は、第1話者が発話した場合の話者認識装置の動作を示すフローチャートである。
【
図4】
図4は、第1話者が発話する場合と第2話者が発話する場合との、発話による音声ごとの第1時点と第2時点との時系列を例示した図である。
【
図5】
図5は、第2話者が発話した場合の話者認識装置の動作を示すフローチャートである。
【
図6】
図6は、実施の形態における話者認識装置の話者識別部における動作を示すフローチャートである。
【発明を実施するための形態】
【0011】
本開示の一態様に係る音声入力装置は、1以上の話者が発話する際のそれぞれの音声を取得する取得部と、前記取得部が取得した前記1以上の話者の発話による前記それぞれの音声を記憶する記憶部と、トリガが入力されるトリガ入力部と、前記トリガ入力部に前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出する発話開始検出部と、少なくとも、前記トリガ入力部に前記トリガが入力される第1時点と、前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する話者識別部とを備える。
【0012】
これによれば、例えば、1以上の話者のうちの話者によるトリガを検知した第1時点と、話者が発話した音声の第2時点との時間的な前後関係によって、1以上の話者のうちからいずれかの話者を識別することができる。つまり、第1時点から第2時点までの期間を学習しなくても、取得部が取得した音声の話者が、1以上の話者のうちのいずれの話者であるかを識別することができる。
【0013】
したがって、この音声入力装置では、簡易な処理で話者を識別することで計算量の増大を抑制することができる。
【0014】
特に、話者は、第1時点に対する発話の時機に基づいて、音声の話者を識別することができる。このため、音声入力装置では、簡単な操作で音声の話者を識別することができる。また、音声入力装置の操作が簡単となるため、音声入力装置に複数のボタンを配置する等の、音声入力装置の複雑化を抑制することができる。このため、この音声入力装置では、例えばトリガ入力部がボタンである場合、1つのボタンでも1以上の話者のうちのいずれの話者であるかを識別することができるため、音声入力装置の構成をより簡易にすることができる。
【0015】
本開示の他の態様に係る音声入力方法は、1以上の話者が発話する際のそれぞれの音声を取得することと、取得した前記1以上の話者の発話による前記それぞれの音声を記憶部に記憶することと、トリガが入力されることと、前記トリガが入力されるごとに、前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を検出することと、少なくとも、前記トリガが入力される第1時点と、前記それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、前記1以上の話者のうちからいずれかの話者を識別することとを含む。
【0016】
この音声入力方法においても、上述の音声入力装置と同様の作用効果を奏する。
【0017】
また、本開示の他の態様に係るプログラムは、音声入力方法をコンピュータに実行させるためのプログラムである。
【0018】
このプログラムにおいても、上述の音声入力装置と同様の作用効果を奏する。
【0019】
本開示の他の態様に係る音声入力装置は、前記第1時点と前記第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部を備え、前記話者識別部は、前記第1時点と前記第2時点と前記発話時機登録部が前記第1時点に対する前記第2時点の時機を示す複数の登録情報とに基づいて、前記1以上の話者のうちからいずれかの話者を識別する。
【0020】
これによれば、1以上の話者が所望する条件として、第1時点と第2時点との時間的な前後関係を予め登録することができる。このため、話者識別部は、第1時点及び第2時点の時間的な前後関係が、登録情報に示されているかどうかを判定するだけで、1以上の話者のうちからいずれかの話者を識別することができる。その結果、この音声入力装置では、簡易な処理で、より確実に話者を識別することができる。
【0021】
本開示の他の態様に係る音声入力装置において、前記発話時機登録部は、前記1以上の話者のそれぞれの発話の時機を登録する際に、前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が後の時間であることを示す第1時間情報と、前記1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録し、前記トリガ入力部に前記トリガが入力される前記第1時点よりも、発話を開始した開始位置の前記第2時点の方が前の時間であることを示す第2時間情報と、前記1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。
【0022】
これによれば、話者は、発話を開始する前に取得部にトリガを入力するという条件を登録したり、発話を開始した後に取得部にトリガを入力するという条件を登録したりすることができる。このように、予め話者が条件を登録しておけば、音声入力装置は、学習することなく、話者を簡易かつ確実に識別することができる。
【0023】
本開示の他の態様に係る音声入力装置において、前記話者識別部は、前記第1時点に対する前記第2時点の時機を算出し、算出した時機を示す結果と前記複数の登録情報とを照らし合わせて、前記第1時点よりも前記第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、前記第1時点よりも前記第2時点の方が前の時間である場合は、発話した話者が前記第1話者と別の第2話者であると判定する。
【0024】
これによれば、話者識別部は、トリガ入力部に入力された第1時点と、発話開始検出部が検出した第2時点とから、第1時点に対する第2時点の時機を算出することができる。これにより、発話開始検出部は、第1時点が第2時点よりも先の時間であるか、後の時間であるかという、時機を示す結果を算出することができる。この結果、発話開始検出部は、算出した時機を示す結果と複数の登録情報とを比較することで、1以上の話者のうちのいずれの話者であるかを、より確実に識別することができる。
【0025】
また、話者が複数存在する場合、例えば第1時点から第2時点までの期間を登録することで、複数の話者が存在しても、いずれの話者であるかを識別することができる。
【0026】
本開示の他の態様に係る音声入力装置において、前記トリガ入力部は、予め設定された音声の入力を受付ける音声入力インターフェイスであり、前記トリガ入力部には、予め設定された音声が前記トリガとして入力される。
【0027】
これによれば、話者がウエイクアップワード等のような予め設定された音声による発話をするだけで、音声入力装置は、マジックワード認識を行い、話者の識別を実行することができる。このため、音声入力装置は、操作性に優れている。
【0028】
本開示の他の態様に係る音声入力装置において、前記トリガ入力部は、前記音声入力装置に設けられた操作ボタンであり、前記トリガ入力部には、受付けた操作入力が前記トリガとして入力される。
【0029】
これによれば、話者がトリガ入力部を操作することで、トリガ入力部にトリガを確実に入力することができる。
【0030】
なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なCD-ROM等の記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせを用いて実現されてもよい。
【0031】
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
【0032】
以下、本開示の一態様に係る音声入力装置、音声入力方法及びそのプログラムについて、図面を参照しながら具体的に説明する。
【0033】
(実施の形態)
<構成:話者認識装置1>
図1は、実施の形態における話者認識装置1の外観と、話者の発話による話者認識装置1の使用場面の一例を示す図である。
図1では、複数の話者が話者認識装置1をシェアし、発話する際に話者認識装置1を使用している様子を例示している。
【0034】
図1に示すように、話者認識装置1は、1以上の話者が発話した音声を取得し、取得した音声に基づいて、1以上の話者のうちのいずれの話者であるかを識別する装置である。つまり、話者認識装置1は、1以上の話者のそれぞれが発話したそれぞれの音声を取得し、取得したそれぞれの音声ごとに話者を識別する。話者認識装置1は、音声入力装置の一例である。
【0035】
なお、話者認識装置1は、発話者と会話相手との間の会話を取得し、取得した会話に基づいて、発話者と会話相手とのうちのいずれの話者であるかを識別してもよい。
【0036】
本実施の形態では、話者認識装置1は、1以上の話者のそれぞれが発話したそれぞれの音声を取得し、取得したそれぞれの音声と、入力されたトリガとのそれぞれの時機(タイミング)に基づいて、話者を識別する。
【0037】
本実施の形態の
図1では、複数の話者である第1話者と第2話者が個別に話者認識装置1を使用し、それぞれの話者が発話する様子を例示する。例えば、第1話者の音声認識が終了した後に第2話者が、二点鎖線で示す話者認識装置1を使用してもよい。つまり、話者認識装置1は、それぞれの話者が別々のタイミング及びイベントで使用してもよく、第1話者と第2話者とが会話する際には同時に使用してもよい。第1話者及び第2話者は、話者の一例である。なお、第2話者は、第1話者の会話相手であってもよい。
【0038】
ここで、第1話者と第2話者とは、同一の言語で発話してもよいが、異なる2つの言語間で発話してもよい。この場合、話者認識装置1は、第1話者が発話する第1言語と、第2話者が発話する第2言語との同一の又は異なる2つの言語間において、第1話者と第2話者とが発話したそれぞれの音声ごとに、第1話者か第2話者かを識別する。例えば、第1言語及び第2言語は、日本語、英語、フランス語、ドイツ語、中国語等である。
【0039】
本実施の形態では、第1話者を話者認識装置1の所有者とし、話者認識装置1へのトリガとなる入力と、入力されるトリガに対する話者が発話との時機に関する登録は、主に第1話者によって行われる。つまり、第1話者は、話者認識装置1の操作方法を理解している、話者認識装置1の使用者である。
【0040】
本実施の形態では、話者が話者認識装置1にトリガを入力した後に発話することで、話者認識装置1は、例えば第1話者が発話したことを認識する。また、別の話者が発話した後に、話者認識装置1にトリガが入力されることで、話者認識装置1は、例えば第2話者が発話したことを認識する。
【0041】
話者認識装置1は、スマートホン及びタブレット端末等の、第1話者が携帯可能な携帯端末である。
【0042】
図2Aは、実施の形態における話者認識装置1を示すブロック図である。
【0043】
図2Aに示すように、話者認識装置1は、発話時機登録部25と、取得部21と、記憶部22と、トリガ入力部23と、発話開始検出部24と、話者識別部26と、出力部31と、電源部35とを有する。
【0044】
[発話時機登録部25]
発話時機登録部25は、第1時点と第2時点とのいずれの時点が前の時間であるかを少なくとも登録する。具体的には、発話時機登録部25は、トリガの入力に対する1以上の話者のそれぞれの発話の時機を登録する登録装置である。
【0045】
発話時機登録部25は、1以上の話者の操作によって所望の条件を設定し、設定した条件を登録することができる。具体的には、発話時機登録部25は、1以上の話者のそれぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が後の時間であることを示す第1時間情報と、1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録する。具体例を示すと、トリガ入力部23にトリガを入力した後に、第1話者が発話を開始するという条件を設定し、発話時機登録部25は、設定した条件を示す第1時間情報と、ラベルAとを紐付けた第1登録情報を登録する。発話時機登録部25には、メモリが格納され、設定した第1登録情報を記憶する。なお、発話時機登録部25が設定した第1登録情報は、記憶部22に記憶されてもよい。
【0046】
また、発話時機登録部25は、それぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が前の時間であることを示す第2時間情報と、1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。具体例を示すと、トリガ入力部23にトリガを入力する前に、第2話者が発話を開始するという条件を設定し、発話時機登録部25は、設定した条件を示す第2時間情報と、ラベルBとを紐付けた第2登録情報を登録する。発話時機登録部25には、メモリが格納され、設定した第2登録情報を記憶する。なお、発話時機登録部25が設定した第2登録情報は、記憶部22に記憶されてもよい。
【0047】
例えば、第1話者がラベルAで設定した第1登録情報の条件で発話する場合、第1話者が第2話者に対してラベルBで設定した第2登録情報の条件で発話するように促せば(第1話者と第2話者との間で使用する条件を決定しておく)、異なる話者が異なる条件で発話することができる。このため、発話時機登録部25によって発話の条件を個別に登録すれば、話者識別部26が話者識別を行う判断材料となる。
【0048】
発話時機登録部25は、登録した第1登録情報及び第2登録情報等の複数の登録情報を話者識別部26に出力する。
【0049】
なお、発話時機登録部25は、トリガ入力部23へトリガを入力する第1時点から話者による発話の第2時点までの期間を設定できる。つまり、発話時機登録部25は、トリガ入力部23にトリガを入力した第1時点から○○秒後又は○○秒以降に話者が発話を開始するという条件を登録情報として登録してもよい。また、発話時機登録部25は、話者が発話を開始してから○○秒後又は○○秒以降にトリガ入力部23にトリガを入力するという条件を登録情報として登録してもよい。言い換えれば、発話時機登録部25は、第1時点から○○秒後又は○○秒以降に第2時点を設定、第2時点から○○秒後又は○○秒以降に第1時点を設定し、設定した情報を登録情報として登録してもよい。ここでいう「○○」は、任意の数字であり、必ずしも同一の時間を示しているわけではない。
【0050】
なお、発話時機登録部25は、トリガ入力部23へのトリガの連続入力時間の長さを、登録情報として登録してもよい。例えば、トリガ入力部23が操作ボタンである場合、話者の発話のタイミングに応じて操作ボタンを長押しする(トリガ入力部23への連続入力する)時間の長さも発話時機登録部25が登録しておけば、登録した長押しの時間を、話者識別部26が話者を識別する判断材料として用いることもできる。
【0051】
例えば、発話時機登録部25は、トリガ入力部23にトリガを入力した第1時点から○○秒後又は○○秒以降にトリガ入力部23にトリガを〇〇秒間、トリガを入力し続けるという条件を登録情報として登録してもよい。また、発話時機登録部25は、話者が発話を開始してから○○秒後又は○○秒以降にトリガ入力部23にトリガを〇〇秒間、トリガを入力し続けるという条件を登録情報として登録してもよい。
【0052】
[取得部21]
取得部21は、1以上の話者が発話する際の音声を取得する。つまり、取得部21は、1以上の話者のそれぞれが発話した音声を取得し、取得した話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0053】
取得部21は、音声を音声信号に変換することで、音声信号を取得するマイクロホン部である。なお、取得部21は、マイクロホンと電気的に接続される入力インターフェイスであってもよい。つまり、取得部21は、マイクロホンから、音声信号を取得してもよい。また、取得部21は、複数のマイクロホンから構成されるマイクロホンアレイ部であってもよい。取得部21は話者認識装置1の周囲に存在する話者の音声を収音することができればよいため、話者認識装置1における取得部21の配置については特に限定されない。
【0054】
[記憶部22]
記憶部22は、取得部21が取得した1以上の話者のそれぞれの音声の音声情報を記憶する。具体的には、記憶部22は、取得部21から取得した音声信号が示す音声の音声情報を記憶する。つまり、記憶部22には、1以上の話者のそれぞれが発話した音声の音声情報が、自動的に記憶される。
【0055】
また、記憶部22は、話者認識装置1が起動したときに、録音を再開する。また、記憶部22は、話者認識装置1の起動後に、最初に話者がトリガ入力部23にトリガを入力した時点から録音を開始してもよい。つまり、最初に話者によるトリガ入力部23へのトリガの入力によって、記憶部22は音声の録音を開始してもよい。また、記憶部22は、トリガ入力部23へのトリガの入力によって、音声の録音を中止又は停止してもよい。
【0056】
なお、記憶部22に記憶される容量には限りがあるため、記憶部22に記憶された音声情報は、規定容量に達すると、自動的に古い音声データから削除してもよい。つまり、音声情報には、話者の音声と、日時を示す情報(タイムスタンプ)とが付加されていてもよい。記憶部22は、日時を示す情報に基づいて、古い音声情報を削除する。
【0057】
また、記憶部22は、HDD(Hard Disk Drive)又は半導体メモリ等で構成される。
【0058】
[トリガ入力部23]
トリガ入力部23には、話者によって、トリガが入力される。具体例を示すと、トリガ入力部23は、例えば第1話者が発話する前に予め設定されたトリガの入力を話者から受付ける。また、トリガ入力部23は、例えば第2話者が発話した後に、予め設定されたトリガの入力を話者から受付ける。つまり、トリガ入力部23は、第1話者では第1話者が発話する前にトリガの入力を受付け、第2話者では第2話者が発話した後にトリガの入力を受付ける。トリガ入力部23は、1以上の話者のそれぞれが発話する度に、話者からのトリガの入力を受付ける。
【0059】
なお、トリガ入力部23は、話者からの操作入力によって、記憶部22への音声の録音を開始してもよく、記憶部22への音声の録音を中止又は停止してもよい。
【0060】
トリガ入力部23は、入力されたトリガを検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。入力信号には、第1時点を示す情報(タイムスタンプ)が含まれる。
【0061】
本実施の形態では、トリガ入力部23は、話者認識装置1に設けられた1つの操作ボタンである。この場合、トリガ入力部23には、話者による操作ボタンの押下を受付けた操作入力が、トリガとして入力される。つまり、本実施の形態では、トリガは、話者がトリガ入力部23に操作入力した入力信号である。なお、トリガ入力部23は、話者認識装置1に2つ以上設けられていてもよい。
【0062】
なお、トリガ入力部23は、話者認識装置1の表示部33と一体的に設けられるタッチセンサであってもよい。この場合、話者認識装置1の表示部33には、話者による操作入力を受付ける操作ボタンであるトリガ入力部23が表示されていてもよい。
【0063】
図2Bは、実施の形態における別の話者認識装置1の一例を示すブロック図である。
【0064】
図2Bに示すように、トリガ入力部23aは、予め設定された音声の入力を受付ける音声入力インターフェイスであってもよい。この場合、トリガ入力部23aには、取得部21aを介して予め設定された音声がトリガとして入力される。つまり、この場合では、トリガは、トリガ入力部23aに入力された話者の発話した音声が入力信号となる。ここで、予め設定された音声は、ウエイクアップワード等である。話者認識装置1は、ウエイクアップワードが例えば「OK!○○、××」であれば第1話者及び「○○、OK!××」であれば第2話者と設定されていれば、話者が「OK!○○、××」と発話すると第1話者と識別し、「○○、OK!××」と発話すると第2話者と識別する。なお、トリガ入力部23aが音声入力インターフェイスであれば、音声の内容ごとに話者を設定することで、第1話者と第2話者とからそれぞれの話者を確実に識別することができる。
【0065】
[発話開始検出部24]
図1及び
図2Aに示すように、発話開始検出部24は、トリガ入力部23にトリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出する検出装置である。
【0066】
具体的には、発話開始検出部24は、記憶部22に記憶されるそれぞれの音声情報の音声において、話者によるトリガ入力部23へのトリガの入力をした第1時点から規定期間が経過するまでの間に第1話者が発話した音声であって、第1話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部24は、トリガ入力部23がトリガの入力を検知した第1時点から規定期間が経過するまでの間に、第1話者が発話した音声の発話開始の第2時点である開始位置を検出する。
【0067】
また、発話開始検出部24は、記憶部22に記憶されるそれぞれの音声情報の音声において、話者によるトリガ入力部23へのトリガを入力した第1時点から第1時点よりも規定期間前までの間に第2話者が発話を開始した音声であって、第2話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。つまり、発話開始検出部24は、第1時点から第1時点よりも規定期間前までの間に、第2話者が発話した音声の発話開始の第2時点である開始位置を検出する。
【0068】
発話開始検出部24は、それぞれの音声ごとに、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を、話者識別部26に出力する。開始位置情報は、話者が発話した音声の発話開始時点である開始位置を示す情報(タイムスタンプ)である。
【0069】
[話者識別部26]
話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、1以上の話者のうちからいずれかの話者を識別する装置である。
【0070】
具体的には、話者識別部26は、トリガ入力部23から第1時点が示される入力信号を取得し、発話開始検出部24から開始位置情報を取得すると、第1時点に対する第2時点の時機を算出する。つまり、話者識別部26は、入力信号に示される第1時点に対する、開始位置情報に示される第2時点の時間的な前後関係を比較し算出する。話者識別部26が算出した結果が、第1時点に対する第2時点の時機を示す結果となる。
【0071】
また、話者識別部26は、発話時機登録部25から登録情報を取得すると、算出した第1時点に対する第2時点の時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、話者を特定する。また、話者識別部26は、この時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が前の時間である場合は、発話した話者が第2話者であると判定し、話者を特定する。
【0072】
より具体的には、話者識別部26は、トリガ入力部23からのトリガの入力を受付けた第1時点から前後の期間である規定期間における1以上の話者が発話したそれぞれの音声から、いずれの話者かを判定する。話者識別部26は、第1時点を基点として、第1時点から第1時点よりも規定期間前までの間、又は、当該第1時点から規定期間が経過するまでの間において、話者が発話した直近(最新)の音声を、記憶部22に記憶されているそれぞれの音声の中から選択する。話者識別部26は、選択した音声によって、いずれかの話者を識別する。
【0073】
ここで規定期間は、例えば、1秒、2秒等の数秒間であり、例えば10秒間であってもよい。これにより、話者識別部26は、1以上の話者のそれぞれが直近に発話したそれぞれの音声ごとの第1時点と第2時点とに基づいて、話者を識別する。これは、古すぎる音声に基づいて、話者識別部26が話者を識別しても、直近に発話した話者を正確に識別することができなくなる不具合を避けるためである。
【0074】
話者識別部26は、話者を識別した結果を含む結果情報を、出力部31に出力する。結果情報は、1以上の話者のうちから、識別されたいずれかの話者を示す情報を含む。例えば、結果情報は、話者の発話によって記憶された音声情報が、識別された第1話者であることを示す情報、又は、話者の発話によって記憶された音声情報が、識別された第2話者であることを示す情報を含む。
【0075】
[表示部33]
表示部33は、例えば、液晶パネル、又は、有機ELパネル等のモニタである。表示部33は、話者識別部26から取得した結果情報に示される話者をテキスト文として表示する。例えば、表示部33は、話者が発話すると、発話した話者が第1話者であることを示す表示をする。また、表示部33は、話者が発話すると、発話した話者が第2話者であることを示す表示をする。表示部33は、出力部31の一例である。
【0076】
なお、話者認識装置1は、音声出力部を有していてもよい。この場合、音声出力部は、話者識別部26から取得した結果情報に示される話者を音声として出力するスピーカであってもよい。つまり、音声出力部は、話者が発話した場合、結果情報に示される話者が第1話者であることを示す音声を出力する。また、音声出力部は、話者が発話した場合、結果情報に示される話者が第2話者であることを示す音声を出力する。音声出力部は、出力部31の一例となる。
【0077】
[電源部35]
電源部35は、例えば一次電池又は二次電池等であり、配線を介して発話時機登録部25、取得部21、記憶部22、トリガ入力部23、発話開始検出部24、話者識別部26及び出力部31等と電気的に接続される。電源部35は、発話時機登録部25、取得部21、記憶部22、トリガ入力部23、発話開始検出部24、話者識別部26及び出力部31等に電力を供給する。
【0078】
<動作>
以上のように構成される話者認識装置1が行う動作について説明する。
【0079】
図3は、第1話者が発話した場合の話者認識装置1の動作を示すフローチャートである。
図4は、第1話者が発話する場合と第2話者が発話する場合との、発話による音声ごとの第1時点と第2時点との時系列を例示した図である。
【0080】
図3及び
図4では、発話時機登録部25には、話者がトリガ入力部23にトリガを入力した後に、第1話者が発話を開始するという条件を示す第1時間情報とラベルAとを紐付けた第1登録情報が、発話時機登録部25のメモリに登録されているものとする。また、発話時機登録部25は、話者がトリガ入力部23にトリガを入力する前に、第2話者が発話を開始するという条件を示す第2時間情報とラベルBとを紐付けた第2登録情報が、発話時機登録部25のメモリに登録されているものとする。
【0081】
図2A、
図3及び
図4に示すように、まず、トリガ入力部23には、取得部21によるそれぞれの音声の取得を開始するためのトリガが入力される。つまり、トリガ入力部23は、一方の話者が発話する前に、話者によって予め設定されたトリガの入力を受付ける。これにより、トリガ入力部23は、話者から入力されたトリガを検知する(S11)。トリガ入力部23は、トリガの入力を検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。
【0082】
次に、取得部21は、一方の話者が発話した音声を取得する(S12)。取得部21は、取得した一方の話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0083】
次に、記憶部22は、取得部21が取得した音声信号が示す音声の音声情報を記憶する(S13)。つまり、記憶部22には、一方の話者が発話した直近の音声の音声情報が自動的に記憶される。
【0084】
次に、発話開始検出部24は、トリガ入力部23から入力信号を取得すると、記憶部22に記憶された音声情報の音声において、発話を開始した開始位置(第2時点)を検出する(S14)。具体的には、発話開始検出部24は、話者によるトリガ入力部23にトリガを入力した直後に一方の話者が発話した音声であって、一方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。発話開始検出部24は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を話者識別部26に出力する。
【0085】
次に、話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、第1話者及び第2話者のうちからいずれかの話者を識別する(S15)。
図3では、話者識別部26は、第1時点の方が第2時点よりも時間的に早い時点であるため、開始位置情報の音声(発話した音声)は第1話者であると識別する。つまり、話者識別部26は、一方の話者を第1話者であると識別する。
【0086】
次に、話者識別部26は、第1話者を識別した結果を含む結果情報を、出力部31に出力する(S16)。
【0087】
そして、話者認識装置1は、処理を終了する。
【0088】
図5は、第2話者が発話した場合の話者認識装置1の動作を示すフローチャートである。
図3と同様の処理については適宜説明を省略する。
【0089】
図2A、
図4及び
図5に示すように、まず、取得部21は、他方の話者が発話した音声を取得する(S21)。取得部21は、取得した他方の話者が発話した音声を音声信号に変換し、変換した音声信号を記憶部22に出力する。
【0090】
次に、トリガ入力部23には、取得部21によるそれぞれの音声の取得を開始するためのトリガが入力される。つまり、トリガ入力部23は、他方の話者が発話した後に、話者によって予め設定されたトリガの入力を受付ける。これにより、トリガ入力部23は、話者から入力されたトリガを検知する(S22)。トリガ入力部23は、トリガの入力を検知すると、入力信号を生成し、生成した入力信号を発話開始検出部24及び話者識別部26に出力する。
【0091】
次に、記憶部22は、取得部21が取得した音声信号が示す音声の音声情報を記憶する(S13)。つまり、記憶部22には、他方の話者が発話した直近の音声の音声情報が自動的に記憶される。
【0092】
次に、発話開始検出部24は、トリガ入力部23から入力信号を取得すると、記憶部22に記憶された音声情報の音声において、発話を開始した開始位置(第2時点)を検出する(S14)。具体的には、発話開始検出部24は、話者によるトリガ入力部23にトリガを入力した直後に他方の話者が発話した音声であって、他方の話者の発話によって記憶された音声情報に示される音声の開始位置を検出する。発話開始検出部24は、音声の開始位置を示す開始位置情報を生成し、生成した開始位置情報を話者識別部26に出力する。
【0093】
次に、話者識別部26は、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点と、発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、第1話者及び第2話者のうちからいずれかの話者を識別する(S15)。
図5では、話者識別部26は、第2時点の方が第1時点よりも時間的に早い時点であるため、開始位置情報の音声は第2話者であると識別する。つまり、話者識別部26は、他方の話者を第2話者であると識別する。
【0094】
次に、話者識別部26は、第2話者を識別した結果を含む結果情報を、出力部31に出力する(S16)。
【0095】
そして、話者認識装置1は、処理を終了する。
【0096】
図6は、実施の形態における話者認識装置1の話者識別部26における動作を示すフローチャートである。
【0097】
図3、
図5及び
図6に示すように、まず、話者識別部26は、トリガ入力部23から第1時点が示される入力信号を取得し、発話開始検出部24から第2時点が示される開始位置情報を取得すると、第1時点に対する第2時点の時機を算出する(S31)。つまり、話者識別部26は、第1時点に対する第2時点の時間的な前後関係を比較し算出する。
【0098】
話者識別部26は、算出した第1時点に対する第2時点の時機を示す結果と登録情報とを照らし合わせ、第1時点の方が第2時点よりも前の時間であるかどうかを判定する(S32)。
【0099】
第1時点の方が第2時点よりも前の時間である場合、話者識別部26は、登録情報における第1登録情報に示される内容と同様であると判定し(S32でYES)、発話した話者が第1話者であると判定する(S33)。
【0100】
話者識別部26は、第1話者及び第2話者のうちから第1話者を識別した結果を含む結果情報を、表示部に出力する。そして、話者識別部26は、処理を終了する。
【0101】
第1時点の方が第2時点よりも後の時間である場合、話者識別部26は、登録情報における第2登録情報に示される内容と同様であると判定し(S32でNO)、発話した話者が第2話者であると判定する(S34)。
【0102】
話者識別部26は、第1話者及び第2話者のうちから第2話者を識別した結果を含む結果情報を、表示部に出力する。そして、話者識別部26は、処理を終了する。
【0103】
<作用効果>
次に、本実施の形態における話者認識装置1の作用効果について説明する。
【0104】
以上のように、本実施の形態における話者認識装置1は、1以上の話者が発話する際のそれぞれの音声を取得する取得部21と、取得部21が取得した1以上の話者の発話によるそれぞれの音声を記憶する記憶部22と、トリガが入力されるトリガ入力部23と、トリガ入力部23にトリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出する発話開始検出部24と、少なくとも、トリガ入力部23にトリガが入力される第1時点と、発話開始検出部24がそれぞれの音声から検出した発話の開始位置の第2時点とに基づいて、1以上の話者のうちからいずれかの話者を識別する話者識別部26とを備える。
【0105】
これによれば、例えば、1以上の話者のうちの話者によるトリガを検知した第1時点と、話者が発話した音声の第2時点との時間的な前後関係によって、1以上の話者のうちからいずれかの話者を識別することができる。つまり、第1時点から第2時点までの期間を学習しなくても、取得部21が取得した音声の話者が、1以上の話者のうちのいずれの話者であるかを識別することができる。
【0106】
したがって、この話者認識装置1では、簡易な処理で話者を識別することで計算量の増大を抑制することができる。
【0107】
特に、話者は、第1時点に対する発話の時機に基づいて、音声の話者を識別することができる。このため、話者認識装置1では、簡単な操作で音声の話者を識別することができる。また、話者認識装置1の操作が簡単となるため、話者認識装置1に複数のボタンを配置する等の、話者認識装置1の複雑化を抑制することができる。このため、この音声入力装置1では、例えばトリガ入力部23がボタンである場合、1つのボタンでも1以上の話者のうちのいずれの話者であるかを識別することができるため、音声入力装置1の構成をより簡易にすることができる。
【0108】
また、本実施の形態における音声入力方法は、1以上の話者が発話する際のそれぞれの音声を取得することと、取得した1以上の話者の発話によるそれぞれの音声を記憶部22に記憶することと、トリガが入力されることと、トリガが入力されるごとに、記憶部22に記憶されるそれぞれの音声から発話を開始した開始位置を検出することと、少なくとも、トリガが入力される第1時点と、それぞれの音声から検出した発話の開始位置の第2時点とに基づいて、1以上の話者のうちからいずれかの話者を識別することとを含む。
【0109】
この音声入力方法においても、上述の話者認識装置1と同様の作用効果を奏する。
【0110】
また、本実施の形態におけるプログラムは、音声入力方法をコンピュータに実行させるためのプログラムである。
【0111】
このプログラムにおいても、上述の話者認識装置1と同様の作用効果を奏する。
【0112】
また、本実施の形態における話者認識装置1は、第1時点と第2時点とのいずれの時点が前の時間であるかを少なくとも登録する発話時機登録部25を備える。そして、話者識別部26は、第1時点と第2時点と発話時機登録部25が第1時点に対する第2時点の時機を示す複数の登録情報とに基づいて、1以上の話者のうちからいずれかの話者を識別する。
【0113】
これによれば、1以上の話者が所望する条件として、第1時点と第2時点との時間的な前後関係を予め登録することができる。このため、話者識別部26は、第1時点及び第2時点の時間的な前後関係が、登録情報に示されているかどうかを判定するだけで、1以上の話者のうちからいずれかの話者を識別することができる。その結果、この話者認識装置1では、簡易な処理で、より確実に話者を識別することができる。
【0114】
また、本実施の形態における話者認識装置1において、発話時機登録部25は、1以上の話者のそれぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が後の時間であることを示す第1時間情報と、1以上の話者のうちからいずれかの話者とを紐付けた登録情報である第1登録情報を登録する。そして、発話時機登録部25は、それぞれの発話の時機を登録する際に、トリガ入力部23にトリガが入力される第1時点よりも、発話を開始した開始位置の第2時点の方が前の時間であることを示す第2時間情報と、1以上の話者のうちから別のいずれかの話者とを紐付けた登録情報である第2登録情報を登録する。
【0115】
これによれば、話者は、発話を開始する前に取得部21にトリガを入力するという条件を登録したり、発話を開始した後に取得部21にトリガを入力するという条件を登録したりすることができる。このように、予め話者が条件を登録しておけば、話者認識装置1は、学習することなく、話者を簡易かつ確実に識別することができる。
【0116】
また、本実施の形態における話者認識装置1において、話者識別部26は、第1時点に対する第2時点の時機を算出し、算出した時機を示す結果と複数の登録情報とを照らし合わせて、第1時点よりも第2時点の方が後の時間である場合は、発話した話者が第1話者であると判定し、第1時点よりも第2時点の方が前の時間である場合は、発話した話者が第1話者と別の第2話者であると判定する。
【0117】
これによれば、話者識別部26は、トリガ入力部23に入力された第1時点と、発話開始検出部24が検出した第2時点とから、第1時点に対する第2時点の時機を算出することができる。これにより、発話開始検出部24は、第1時点が第2時点よりも先の時間であるか、後の時間であるかという、時機を示す結果を算出することができる。この結果、発話開始検出部24は、算出した時機を示す結果と複数の登録情報とを比較することで、1以上の話者のうちのいずれの話者であるかを、より確実に識別することができる。
【0118】
また、話者が複数存在する場合、例えば第1時点から第2時点までの期間を登録することで、複数の話者が存在しても、いずれの話者であるかを識別することができる。
【0119】
また、本実施の形態における話者認識装置1において、トリガ入力部23は、予め設定された音声の入力を受付ける音声入力インターフェイスである。そして、トリガ入力部23には、予め設定された音声がトリガとして入力される。
【0120】
これによれば、話者がウエイクアップワード等のような予め設定された音声による発話をするだけで、話者認識装置1は、マジックワード認識を行い、話者の識別を実行することができる。このため、話者認識装置1は、操作性に優れている。
【0121】
また、本実施の形態における話者認識装置1において、トリガ入力部23は、話者認識装置1に設けられた操作ボタンである。そして、トリガ入力部23には、受付けた操作入力がトリガとして入力される。
【0122】
これによれば、話者がトリガ入力部23を操作することで、トリガ入力部23にトリガを確実に入力することができる。
【0123】
(その他変形例等)
以上、本開示について、実施の形態に基づいて説明したが、本開示は、これら実施の形態等に限定されるものではない。
【0124】
例えば、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムにおいて、取得部が取得した音声に基づいて、音声入力装置に対する話者の方向を推定してもよい。この場合、マイクロホンアレイ部の取得部を用いて、話者のそれぞれが発話した、音声入力装置に対する音源方向を推定してもよい。具体的には、音声入力装置は、取得部におけるそれぞれのマイクロホンに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定してもよい。
【0125】
また、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムにおいて、音声入力装置は、取得部が取得する話者の音声の区間を検出することで、取得部が取得する話者の音声を取得できない期間が所定期間以上検出されれば、自動的に録音を中止又は停止してもよい。
【0126】
また、上記各実施の形態に係る音声入力方法は、コンピュータを用いたプログラムによって実現され、このようなプログラムは、記憶装置に記憶されてもよい。
【0127】
また、上記各実施の形態に係る音声入力装置、音声入力方法及びそのプログラムに含まれる各処理部は、典型的に集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
【0128】
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0129】
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0130】
また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示の実施の形態は例示された数字に制限されない。
【0131】
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
【0132】
また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
【0133】
その他、実施の形態に対して当業者が思いつく各種変形を施して得られる形態、本開示の趣旨を逸脱しない範囲で実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
【産業上の利用可能性】
【0134】
本開示は、複数の話者のそれぞれの発話がどの話者であるかを特定するために用いられる音声入力装置、音声入力方法及びそのプログラムに適用することができる。
【符号の説明】
【0135】
1 話者認識装置(音声入力装置)
21 取得部
22 記憶部
23 トリガ入力部
24 発話開始検出部
25 発話時機登録部
26 話者識別部