(58)【調査した分野】(Int.Cl.,DB名)
前記入力部は、前記骨導音声を入力し、且つ、ユーザの外耳道内に配置可能に構成された骨導マイクと、前記気道音声を入力し、前記骨導マイクの外側壁に設けられた気道マイクと、を含む、
請求項1乃至3の何れか1項に記載の発声・発話学習装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術で作成されたユーザ音声を、音声を発声したユーザ自身が聞いた場合、ユーザは、自分がいつも聞いている自分の音声とは違うと感じて違和感を覚えてしまう。ユーザが違和感を覚えると、日本語や英語等の言語の学習に支障をきたし、言語学習効率が低下する恐れがある。
【0006】
本発明はこのような課題に鑑みてなされたものであり、その目的は、ユーザの言語学習効率を向上することができる発声・発話学習装置及びマイクロホンを提供することにある。
【課題を解決するための手段】
【0007】
まず、本発明者は、ユーザ音声を聞いた場合に、ユーザ自身が違和感を覚える理由について検討した。ユーザの口から出た音は、空中を伝搬し、両耳に到達する。この空気が伝わった音は「気道音声」という。一方で声を出した時の声帯の振動が頭蓋骨を通じて直接的に伝えられる「骨導音声」という音も同時に自分の耳に伝えられる。ユーザ以外の人はこの骨導音声が届かず気道音声だけを聞いている。録音された音も同じく気道音声である。これに対してユーザ自身は、気道音声と骨導音声の両方を聞いているため、結果として、他人が聞く音や録音された音とは異なる認識となり、気道音声をユーザが聞いた場合、違和感を覚えることが分かった。そこで、本発明者は、気道音声だけでなく骨導音声も言語学習に利用することを考えた。
【0008】
本発明の第一態様に係る発声・発話学習装置は、ユーザに言語音声の発声を学習させる発声・発話学習装置であって、第1音声を構成する気道音声及び骨導音声をそれぞれ入力する入力部と、前記第1音声の音質を維持しつつ、入力された前記気道音声及び前記骨導音声を、前記ユーザが聞いている音声を構成する比率で混合して、第2音声を作成する作成部と、を備える発声・発話学習装置。
【0009】
この構成によれば、第1音声を発声したユーザが、作成された第2音声を聞いた場合、第2音声の音質が、自分がいつも聞いている自分の音声の音質と同等と感じるようになり、違和感を覚えることを抑制することができる。違和感を減少することができれば、言語学習効率を向上することができる。
【0010】
本発明の第二態様に係る発声・発話学習装置は、前記作成部は、伝送特性を修正し、前記第2音声として話者が聞いている音声により近い音声を作成する。
【0011】
本発明の第三態様に係る発声・発話学習装置は、前記入力部は更に、合成音声を作成するための決められた原稿がユーザにより朗読された際に入力された前記気道音声及び前記骨導音声に基づき、話者の聞いている音声に対応する音素及び音素列を作成し、前記第2音声として、学習のために入力されているテキストデータに沿った合成音声を作成する。
【0012】
本発明の第四態様に係る発声・発話学習装置は、前記入力部は更に、前記気道音声及び前記骨導音声の混合比率のうち一の混合比率の決定操作を入力し、前記作成部は、前記一の混合比率に基づいて、入力された前記気道音声及び前記骨導音声を混合する。
【0013】
本発明の第五態様に係る発声・発話学習装置は、前記入力部は、前記骨導音声を入力し、且つ、ユーザの外耳道内に配置可能に構成された骨導マイクと、前記気道音声を入力し、前記骨導マイクの外部に設置した気道マイクと、を含む。
【0014】
本発明の第六態様に係るマイクロホンは、ユーザの骨導音声を入力し、ユーザの外耳道内に配置可能に構成された骨導マイクと、ユーザの気道音声を入力し、前記骨導マイクの外側壁に設けられた気道マイクと、を含む、ユーザ自身が聞いている音声を収集する。
【発明の効果】
【0015】
本発明によれば、ユーザの言語学習効率を向上することができる。
【発明を実施するための形態】
【0017】
以下、添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0018】
―――第1実施形態―――
まず、第1実施形態に係る発声・発話学習装置について説明する。第1実施形態では、発声・発話学習装置の一例として、言語学習装置、特に日本語学習装置について説明する。
【0019】
<ハードウェア構成>
図1は、第1実施形態に係る発声・発話学習装置の一例としての日本語学習装置10のハードウェア構成の一例を示す図である。図示のように、日本語学習装置10は、CPU(Central Processing Unit)102と、RAM(Random Access Memory)104と、ROM(Read only Memory)106と、ドライブ装置108と、ネットワークI/F(Interface)110と、入力装置112と、表示装置114と、気道マイク116と、骨導マイク118と、スピーカー120と、を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
【0020】
CPU102は、当該CPU102に接続される各構成の制御やデータの演算、加工を行う制御部である。また、CPU102は、RAM104又はROM106に記憶された、日本語学習処理(音声作成処理を含む)や当該日本語学習処理のための準備処理を行うアプリケーションプログラムを実行する演算装置である。CPU102は、入力装置112やネットワークI/F110等からデータを受け取り、演算、加工した上で、演算結果を表示装置114や記憶装置などに出力する。
【0021】
RAM104は、例えば主記憶部などである。RAM104は、CPU102が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
【0022】
ROM106は、例えばアプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
【0023】
ドライブ装置108は、記録媒体108A、例えばCD−ROMやSDカードなどからプログラムやデータを読み出し、記憶装置にインストールしたりダウンロードしたりする。
【0024】
また、記録媒体108Aに、所定のプログラムを格納し、この記録媒体108Aに格納されたプログラムはドライブ装置108を介して日本語学習装置10にインストールされる。インストールされた所定のプログラムは、日本語学習装置10により実行可能となる。
【0025】
ネットワークI/F110は、通信機能を有する周辺機器と日本語学習装置10とのインターフェースである。また、ネットワークI/F110は、例えば、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続される。
【0026】
入力装置112は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示装置114の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力装置112は、日本語の学習者(ユーザ)がCPU102に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
【0027】
表示装置114は、LCD(Liquid Crystal Display)等により構成され、CPU102から入力される表示データに応じた表示が行われる。
【0028】
気道マイク116は、ユーザが発声する音声の気道音声を収音して電気信号に変換し、日本語学習装置10の内部に入力する音入力装置である。
【0029】
骨導マイク118は、ユーザが発声する音声の骨導音声を収音して電気信号に変換し、日本語学習装置10の内部に入力する音入力装置である。骨導音声を収音する際に、骨導マイク118を配置する場所としては、ユーザの外耳道内、頭頂、おでこ、側頭骨周辺等が挙げられる。これらの中でも、骨導マイク118を配置する場所としては、ユーザの聴器に近く、安定的に配置でき、且つ、聴器で聞いている骨導音声に最も近い音声を収音できる外耳道内であることが好ましい。言い換えれば、
図2に示すように、骨導マイク118は、ユーザの外耳道内に挿入され配置可能なように、形状やサイズ等が構成されていることが好ましい。
図2では、気道マイク116と骨導マイク118とがセットになって構成されたマイク119を示している。このマイク119には、外耳道に嵌る円盤状の固定部117が設けられている。この固定部117の内部には、気道マイク116が設けられている。一方で、固定部117からその厚さ方向に延びる骨導マイク118が設けられている。骨導マイク118は、外耳道内に配置され、気道マイク116は外耳道内よりも外側に配置される。
すなわち、気道マイク116は、骨導マイク118の外側壁に設けられている。なお、骨導マイク118は、骨導音声を収音可能なピエゾ素子を内部に含んでいる。このような外耳道内に配置する骨導マイク118は、頭部全体でも聴覚への伝達を考えると本人(ユーザ)が聞いている骨導音に近い音が収集できる。また、この骨導マイク118の外側壁に気道マイク116を設置すると、口腔から放出した音声が実際に自分の耳に到達する音に一番近い気道音をとらえることができる。
【0030】
スピーカー120は、電気信号に基づく音声を、日本語学習装置10の外部に出力する音出力装置である。
【0031】
<機能構成>
図3は、第1実施形態に係る日本語学習装置10の機能構成(機能部)の一例を示すブロック図である。図示のように、日本語学習装置10は、記憶部130と、入力部132と、作成部134と、出力部136と、評価部138と、を備える。
【0032】
記憶部130は、例えばRAM104やROM106、記録媒体108A等で実現される。記憶部130には、例えば日本語を母国語とするモデルが発声した音声に基づいて作成されたモデル音素130Aが複数記憶されている。また、記憶部130には、気道音声と骨導音声を混合するための混合比率130Bが記憶されている。なお、混合比率130Bは、ユーザ毎に対応付けられ、互いに異なる値が設定されている。
【0033】
入力部132は、例えば気道マイク116や骨導マイク118で実現される。入力部132は、ユーザが発声した音声(第1音声)の気道音声及び骨導音声をそれぞれ入力する。
【0034】
作成部134は、例えばRAM104又はROM106に記憶されたアプリケーションプログラムをCPU102が実行することにより実現される。作成部134は、第1音声の音質を維持しつつ、入力部132により入力された気道音声及び骨導音声を、ユーザが聞いている音声を構成する比率で混合して、第2音声を作成する。左記「ユーザが聞いている音声を構成する比率」とは、例えば、ユーザが予め指定又は選択した比率である。さらに本実施形態では、作成部134は、第2音声を作成する際、第1音声の韻律を予め定められた韻律に変換する。左記「予め定められた韻律」としては、例えば、日本語を母国語とするモデルが発声した音声の韻律や、そのモデルの音声に基づいた韻律等が挙げられる。韻律は、ピッチ、話速、抑揚等を含む。
なお、作成部134は、第1音声の伝送特性を修正し、第2音声としてユーザが聞いている音声により近い音声を作成してもよい。
【0035】
出力部136は、例えばスピーカー120で実現される。出力部136は、モデル音素130Aに基づいたモデル音声や、第2音声等を出力する。
【0036】
評価部138は、例えばRAM104又はROM106に記憶されたアプリケーションプログラムをCPU102が実行することにより実現される。評価部138は、入力部132により入力された音声を、予め定められた評価基準に基づき評価する。
【0037】
<準備処理>
図4は、第1実施形態に係る日本語学習装置10が実行する準備処理の流れの一例を示すフローチャートである。この準備処理は、例えば、日本語学習装置10の起動時や、予め定められた時期、ユーザの指示時等に開始される。
【0038】
(ステップSP10)
入力部132は、ユーザが発声した音声の気道音声と骨導音声をそれぞれ入力する。そして、処理は、ステップSP12の処理に移行する。
【0039】
(ステップSP12)
作成部134は、気道音声と骨導音声を混合する際の混合比率を仮決定する。この際、作成部134は、仮決定する混合比率を選択するための選択画面や混合比率を入力するための入力画面を表示装置114に表示してもよい。また、混合比率を最適な値等に自動的に仮決定してもよい。第1実施形態では、作成部134は、ステップSP12が繰り返される度に、異なる混合比率を自動的に決定する。そして、処理は、ステップSP14の処理に移行する。
【0040】
(ステップSP14)
作成部134は、仮決定した混合比率で(に基づき)、入力された気道音声と骨導音声を混合して、混合音声を作成する。そして、処理は、ステップSP16の処理に移行する。
【0041】
(ステップSP16)
出力部136は、作成された混合音声を出力する。そして、処理は、ステップSP18の処理に移行する。
【0042】
(ステップSP18)
作成部134は、ユーザによる一の混合比率(仮決定した混合比率)の決定操作があるか否かを判定する。そして、肯定判定された場合には処理はステップSP20の処理に移行し、否定判定された場合には処理はステップSP12の処理に戻る。
【0043】
(ステップSP20)
作成部134は、決定操作された一の混合比率を、混合比率130Bとして本決定し、記憶部130に記憶する。
【0044】
<日本語学習処理>
図5は、第1実施形態に係る日本語学習装置10が実行する日本語学習処理の流れの一例を示すフローチャートである。この日本語学習処理は、例えば、ユーザの指示に応答して開始される。
【0045】
(ステップSP30)
入力部132は、ユーザが作成したテキスト又は予め日本語学習用に用意されたテキストを入力する。ユーザが作成したテキストを入力する場合、入力部132は、ユーザの操作に応じて入力する。また、日本語学習用に用意されたテキストを入力する場合、入力部132は、記憶部130やインターネット等から取得して入力する。そして、処理は、ステップSP32の処理に移行する。
【0046】
(ステップSP32)
作成部134は、入力されたテキストとモデル音素130Aに基づき、当該テキストに沿ったモデル音声を作成する。そして、出力部136は、作成されたモデル音声を出力する。そして、処理は、ステップSP34の処理に移行する。
【0047】
(ステップSP34)
入力部132は、ユーザがモデル音声に沿って発声した第1音声の気道音声と骨導音声をそれぞれ入力する。そして、処理は、ステップSP36の処理に移行する。なお、ステップSP34において、評価部138が、入力された気道音声と骨導音声に基づき、第1音声を評価し、評価が所定値以上であれば、
図5に示す日本語学習処理が終了してもよい。
【0048】
(ステップSP36)
作成部134は、入力された第1音声の気道音声及び骨導音声に基づき、第1音声の音質を維持しつつ、第1音声の韻律を予め定められた韻律に変換し、第2音声を作成する。第1実施形態では、作成部134は、入力された気道音声及び骨導音声を混合比率130Bに基づいて混合し、第2音声を作成する。また、第1実施形態では、作成部134は、第1音声の韻律をモデル音声の韻律に変換する。そして、処理は、ステップSP38の処理に移行する。
【0049】
(ステップSP38)
出力部136は、作成された第2音声を出力する。そして、処理は、ステップSP40の処理に移行する。なお、出力部136は、第2音声を出力する前に、例えば「あなたが話すならこのように話すとわかりやすいですよ」という音声も出力してもよい。
【0050】
(ステップSP40)
入力部132は、ユーザが第2音声に沿って発声した第3音声を入力する。この際、入力部132は、第3音声の気道音声のみ入力してもよい。そして、処理は、ステップSP42の処理に移行する。
【0051】
(ステップSP42)
評価部138は、入力された第3音声を認識して、入力されているテキストと照合し、正しく音声認識できているか、言い換えれば、正しく発声できているか評価する。また、評価部138は、第3音声の韻律(音響)を分析して、伝わりやすさ(はっきり度)」の度合いを評価する。そして、評価部138は、評価結果を記憶部130に記憶する。また、評価部138は、評価結果を表示装置114等に表示してもよい。表示装置114に表示する場合は、評価部138は、評価結果に基づき、「抑揚を強調しよう!」や、「言葉を切り、音声の区切りを明確化して話そう!」などのアドバイスを表示してもよい。そして、処理は、ステップSP44の処理に移行する。
【0052】
(ステップSP44)
評価部138は、評価が所定値以上か否かを判定する。そして、肯定判定された場合は、処理は終了し、否定判定された場合は、ステップSP38の処理に戻る。なお、否定判定された場合は、ステップSP38に戻って第2音声を出力する代わりに、ステップSP40で入力された第3音声に、抑揚強調や発声の区切りを明確する加工を行ったモデル音声を出力してもよい。
【0053】
以上、第1実施形態によれば、第1音声を発声したユーザが、作成された第2音声を聞いた場合、第2音声の音質が、自分がいつも聞いている自分の音質と同等と感じるようになり、違和感を覚えることを抑制することができる。この違和感を減少することができれば、ユーザは、スムーズに言語学習ができる他、自分の音声の韻律を第2音声の韻律に従って変えるだけで、自分の音声が第2音声に近づくという安心感や第2音声に近づいたという達成感を感じ、日本語の発声練習に励むようになり、言語学習効率を向上することができる。
【0054】
また、第1実施形態によれば、入力された気道音声及び骨導音声を混合して、第2音声を作成するので、ユーザが、作成された第2音声を聞いた場合、第2音声の音質が、自分がいつも聞いている自分の音質とより同等と感じるようになり、違和感を覚えることをより抑制することができる。
【0055】
また、第1実施形態によれば、ユーザは、気道音声及び骨導音声の混合比率のうち実際に混合するための一の混合比率を決定操作できるので、混合比率を変えながら混合音声を聞き、混合音声が自分の音声と同じと思う時点で、適切な一の混合比率を決定操作することができる。これにより、ユーザが、作成された第2音声を聞いた場合、第2音声の音質が、自分がいつも聞いている自分の音質とより一層同等と感じるようになり、違和感を覚えることをより一層抑制することができる。
【0056】
<第2実施形態>
次に、第2実施形態に係る発声・発話学習装置について説明する。第2実施形態は、第2音声として合成音声を作成する点が、第1実施形態と異なる。第2実施形態は、第1実施形態と同様、記憶部130と、入力部132と、作成部134と、出力部136と、評価部138と、を備える。
【0057】
図6は、
図4に示す準備処理に加えて、第2実施形態に係る発声・発話学習装置が実行する他の準備処理の流れの一例を示すフローチャートである。他の準備処理は、例えば、日本語学習装置10の起動時や、予め定められた時期、ユーザの指示時等に開始される。
【0058】
(ステップSP50)
入力部132は、ユーザが、例えば約60分〜90分の間、合成音声を作成するための決められた原稿を発声(朗読)した音声の気道音声声と骨導音声声をそれぞれ入力する。そして、処理は、ステップSP52の処理に移行する。
【0059】
(ステップSP52)
作成部134は、入力された気道音声及び骨導音声をそれぞれ分析する。そして、処理は、ステップSP54の処理に移行する。
【0060】
(ステップSP54)
作成部134は、分析結果に基づき、入力された気道音声及び骨導音声を混合比率130Bに基づき混合し、ユーザの聞いている音声に対応する複数のユーザ音素(及び音素列)を作成する。
【0061】
図7は、第2実施形態に係る発声・発話学習装置が実行する言語学習処理の流れの一例を示すフローチャートである。この言語学習処理は、例えば、ユーザの指示に応答して開始される。
【0062】
(ステップSP60)
入力部132は、ユーザが作成した学習のためのテキスト又は予め日本語学習用に用意されたテキストを入力する。ユーザが作成したテキストを入力する場合、入力部132は、ユーザの操作に応じて入力する。また、日本語学習用に用意されたテキストを入力する場合、入力部132は、記憶部130やインターネット等から取得して入力する。そして、処理は、ステップSP62の処理に移行する。
【0063】
(ステップSP62)
作成部134は、入力されたテキストとユーザ音素に基づき、当該テキストに沿った、第2音声としての合成音声を作成する。そして、処理は、ステップSP64の処理に移行する。なお、作成部134は、作成した合成音声を、入力された気道音声とともに積算フーリエ分析を行い、逆差特性を算出し、当該逆差特性を作成した合成音声に与えることで、ユーザがいつも聞いている合成音声に調整してもよい。
【0064】
(ステップSP64)
出力部136は、作成された合成音声を出力する。そして、処理は、ステップSP66の処理に移行する。
【0065】
(ステップSP66)
入力部132は、学習者が合成音声に沿って発声した第3音声を入力する。この際、入力部132は、第3音声の気道音声のみ入力してもよい。そして、処理は、ステップSP68の処理に移行する。
【0066】
(ステップSP68)
評価部138は、入力された第3音声を認識して評価し、評価結果を記憶部130に記憶する。また、評価部138は、認識結果や評価結果を表示装置114に表示してもよい。そして、処理は、ステップSP70の処理に移行する。
【0067】
(ステップSP70)
評価部138は、評価が所定値以上か否かを判定する。そして、肯定判定された場合は、処理は終了し、否定判定された場合は、ステップSP64の処理に戻る。
【0068】
以上、第2実施形態によれば、第1実施形態と同様の効果を奏する他、
図5のステップSP32に示すような、モデル音声を出力する処理を省略することができる。
【0069】
<変形例>
なお、本発明は上記実施形態に限定されるものではない。すなわち、上記実施形態に、当業者が適宜設計調整を加えたものも、本発明の特徴を備えている限り、本発明の範囲に包含される。また、前述した実施形態が備える各要素は、技術的に可能な限りにおいて組み合わせることができ、これらを組み合わせたものも本発明の特徴を含む限り本発明の範囲に包含される。
【0070】
例えば、第1実施形態では、日本語学習装置10が気道マイク116と骨導マイク118とを備える場合を説明したが、これらの代わりに、骨導・気道一体型マイクロフォンを備えてもよい。
【0071】
また、第1実施形態では、出力部136や評価部138は、日本語学習装置10に設ける場合を説明したが、日本語学習装置10の外部の装置に設けられてもよい。この場合、日本語学習装置10は、第2音声を外部の装置に送信する。