特許7143579 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7143579音声入力装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-09-20

(45)【発行日】2022-09-29

(54)【発明の名称】音声入力装置

(51)【国際特許分類】

H04R 1/00 20060101AFI20220921BHJP

H04R 3/00 20060101ALI20220921BHJP

G10L 15/00 20130101ALI20220921BHJP

G10L 13/00 20060101ALI20220921BHJP

H04M 1/00 20060101ALI20220921BHJP

【ＦＩ】

H04R1/00 317

H04R3/00 320

G10L15/00 200Z

G10L13/00 100Z

H04M1/00 H

【請求項の数】 6

(21)【出願番号】P 2017212581

(22)【出願日】2017-11-02

(65)【公開番号】P2019087798

(43)【公開日】2019-06-06

【審査請求日】2020-09-18

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100111763

【弁理士】

【氏名又は名称】松本隆

(72)【発明者】

【氏名】増田英之

(72)【発明者】

【氏名】石原健二

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２００９－１６２８７９（ＪＰ，Ａ）

【文献】特開２００３－１５７０９６（ＪＰ，Ａ）

【文献】国際公開第９９／０１２５０１（ＷＯ，Ａ１）

【文献】特開２００４－２８７２０９（ＪＰ，Ａ）

【文献】特開２００５－０５７７３７（ＪＰ，Ａ）

【文献】特開昭６３－２５９６００（ＪＰ，Ａ）

【文献】特開昭５８－１１１９９３（ＪＰ，Ａ）

【文献】米国特許第０４８２１３２６（ＵＳ，Ａ）

【文献】中村圭吾他，"外部音源を用いた発声補助システムにおける統計的声質変換の評価"，電子情報通信学会技術研究報告，2009年10月22日，Vol.109，No.260，pp.49-53

【文献】中村圭吾他，"喉頭摘出者を想定して微弱な音源信号を用いて収録された肉伝導音声の声質変換"，電子情報通信学会技術研究報告，2006年05月12日，Vol.106，No.57，pp.65-70

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ１／００，３／００

Ｇ１０Ｌ１３／００－２１／１８

Ａ６１Ｆ２／２０

Ｈ０４Ｍ１／００

(57)【特許請求の範囲】

【請求項1】

利用者の喉に与えた振動に応じて前記利用者の口から発音される音声を示す音声信号を取得する音声取得手段と、
身体の動きを検出するセンサと、
前記音声信号に音声変換処理を施す音声変換手段と、を具備し、
前記音声変換手段は、少なくとも前記センサにより検出された身体の動きに応じてピッチ制御を行うことを特徴とする音声入力装置。

【請求項2】

前記センサは、頭部の傾きの変化を検出することを特徴とする請求項１に記載の音声入力装置。

【請求項3】

前記利用者の喉に与える振動を生成する駆動制御手段を具備することを特徴とする請求項１または２に記載の音声入力装置。

【請求項4】

前記音声変換手段は、前記音声信号の音声認識処理を行い、前記音声認識処理の結果に基づいて音声信号を合成し、前記合成した音声信号に対して前記ピッチ制御を行うことを特徴とする請求項１～３のいずれか１項に記載の音声入力装置。

【請求項5】

前記音声入力装置は、前記振動の周期を操作する操作子を具備し、
前記音声変換手段は、前記音声信号のピッチ変化に基づいて、前記音声信号を時間軸上において区切り、前記音声認識処理を行うことを特徴とする請求項４に記載の音声入力装置。

【請求項6】

前記音声変換手段は、前記音声認識処理を実行しつつ、現時点までに得られた音声認識結果を参照し、認識が完了していない区間の音声認識を実行することを特徴とする請求項４または５に記載の音声入力装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、携帯電話機等における音声入力に好適な音声入力装置に関する。

【背景技術】

【0002】

声帯のない人に音声を発音させるための技術的手段として、電気式人工喉頭がある（例えば特許文献１参照）。この電気式人工喉頭は、人の喉に振動を与え、声帯が振動することにより生じる空気振動に類似した空気振動を口腔内に作り出す装置である。利用者は、この電気式人工喉頭による振動を喉に与え、口形状を変化させることにより、口から音声を発音することができる。声帯のない人は、この電気式人工喉頭を利用することにより、通常の会話を行う他、電話機を利用した通話を行うことも可能である。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第１９９９／１２５０１号

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、電話機では、マイクロホンにより収音した音声信号をそのまま送信する。従って、収音した音声信号が聴き取り辛い音声信号である場合、通話相手が聴く音声信号も聴き取り辛いものとなる。このような事態が発生する状況の一例として、電車内において周囲の人に聴こえないような小声で携帯電話機による通話を行う場合が挙げられる。ここで、携帯電話機の利用者が小声で発音した場合、携帯電話機のマイクロホンにより得られる音声信号は、レベルが極めて小さく、かつ、その音声信号波形は通常の音量での発音時の音声信号波形に比べて歪んだものとなる。従って、マイクロホンにより得られた音声信号を通話相手に送ったとしても、通話相手は携帯電話機の利用者が何を話しているのか認識するのが困難である。これは、声帯のない人が電気式人工喉頭を利用して小声で通話を行う場合、健常者が小声で通話を行う場合の両方において生じる問題である。

【0005】

この発明は以上のような事情に鑑みてなされたものであり、小声での発音が行われる場合においてもその発音された音声を適切に伝達することを可能にする技術的手段を提供することを目的とする。

【課題を解決するための手段】

【0006】

この発明は、利用者の喉に与えた振動に応じて前記利用者の口から発音される音声を示す音声信号を取得する音声取得手段と、前記音声信号に認識を容易にする音声変換処理を施す音声変換手段とを具備することを特徴とする音声入力装置を提供する。

【0007】

この発明によれば、音声取得手段により取得される音声信号の音量が周囲の人に聴こえない程度の小音量であったとしても、音声変換手段により、その音声信号が認識の容易な情報に変換される。従って、小声での発音が行われる場合においてもその発音された音声を適切に伝達することができる。

【図面の簡単な説明】

【0008】

【図1】この発明の一実施形態である音声入力装置を含む携帯電話機の構成を示すブロック図である。

【図2】同実施形態における音声変換部の構成を示すブロック図である。

【発明を実施するための形態】

【0009】

以下、図面を参照し、この発明の実施形態について説明する。

【0010】

図１は、この発明の一実施形態である音声入力装置１００を含む携帯電話機１０００の構成を示すブロック図である。図１には、音声入力装置１００の他、携帯電話機１０００の送信部２０１および受信部２０２と、携帯電話機１０００の利用者の頭部１０が図示されている。なお、携帯電話機１０００は、アンテナ等、通常の携帯電話機と同様な各種の装置を有しているが、図１では、その図示は省略されている。

【0011】

音声入力装置１００において、遮音フード１３２とその内部に収められたアクチュエータ１３１は、ベルト１３３により利用者の首に固定される。ここで、アクチュエータ１３１は、その振動面を利用者の喉に接触させ、利用者の喉に振動を与える手段として機能する。遮音フード１３２は、アクチュエータ１３１の振動音が周囲に漏れないように遮蔽する手段である。

【0012】

傾きセンサ１５１は、耳掛け式のセンサであり、携帯電話機１０００の利用者の耳に装着され、利用者の頭部の傾きを検出する。

【0013】

発音開始ボタン１３４は、発音の開始を指示する押しボタンである。携帯電話機１０００の利用者は、この発音開始ボタン１３４の設けられた操作子を手に持ち、発音を開始するときに発音開始ボタン１３４をＯＮにする。この発音開始ボタン１３４は、押圧されている期間のみＯＮになるボタンスイッチでもよく、押圧される都度、ＯＦＦからＯＮへ、ＯＮからＯＦＦへ反転するボタンスイッチでもよい。

【0014】

制御部１１０は、音声入力装置１００の制御中枢として機能し、かつ、携帯電話機１０００全体の制御中枢としても機能する。

【0015】

操作表示部１２０は、例えばタッチパネルであり、利用者に各種の情報を表示するとともに、利用者の操作を受け付ける装置である。

【0016】

駆動制御部１３０は、制御部１１０による制御の下、周期的な駆動パルス波形をアクチュエータ１３１に与え、これにより利用者の喉に与える振動を生成する駆動制御手段である。より具体的には、制御部１１０は、発音開始ボタン１３４がＯＮになることにより、駆動制御部１３０に駆動パルス波形の出力を開始させる。

【0017】

アクチュエータ１３１から喉に振動が与えられている間、利用者は、口腔１の形状を変化させつつ口の開閉を行うことにより所望の音声を発音することが可能である。マイクロホン１４０は、通常の携帯電話機に設けられているものと同様、利用者の音声を収音する手段であるが、本実施形態では、これに加えて、利用者の喉に与えた振動に応じて利用者の口から発音される音声を示す音声信号を取得する音声取得手段として機能する。

【0018】

本実施形態では、アクチュエータ１３１を利用した発音において、発音の音量を制御することが可能である。さらに詳述すると、本実施形態において、利用者は、操作表示部１２０の操作により、駆動制御部１３０がアクチュエータ１３１に与える駆動パルス波形のパルス幅を設定することが可能である。ここで、駆動パルス波形のパルス幅を長くすると、利用者の口から発音される音声の音量は大きくなる。また、駆動パルス波形のパルス幅を短くすると、利用者の口から発音される音声の音量は小さくなる。そして、駆動パルス波形のパルス幅を所定長より短くすると、利用者の口から発音される音声の音量を周囲の人に聴こえない小音量に設定することができる。通常、電気式人工喉頭を会話に用いる場合は、発音音声の音量を確保するため、電気式人工喉頭を大振幅で駆動する。しかしながら、電車内において携帯電話機１０００による通話を行う場合には、アクチュエータ１３１を小振幅で駆動し、利用者の口から発音される音声の音量を周囲の人に聴こえない小音量にする。

【0019】

また、本実施形態における音声入力装置１００は、アクチュエータ１３１の振動を利用して発音を行う利用者の口から発音される音声に対し、利用者の頭部の傾きの変化に応じたイントネーション、すなわち、ピッチの変化を与える機能を有している。

【0020】

さらに詳述すると、傾きセンサ１５１の出力信号は制御部１１０に供給される。制御部１１０は、傾きセンサ１５１の出力信号に基づいて、利用者が発音する音声についてのピッチ変換比を示すイントネーション情報を生成する。このピッチ変換比は、ピッチ変換後の音声のピッチのピッチ変換前のピッチに対する比である。

【0021】

ここで、利用者の頭部前面が正面を向いた状態の傾き角を０°とする。そして、頭部前面が上方を向くと傾き角が０°から正方向に変化し、頭部前面が下方を向くと傾き角が０°から負方向に変化するものとする。

【0022】

この場合、傾き角が０°から正方向に変化すると、制御部１１０はイントネーション情報が示すピッチ変換比を１から増加させ、傾き角が０°から負方向に変化すると、制御部１１０はイントネーション情報が示すピッチ変換比を１から減少させる。

【0023】

駆動制御部１３０は、制御部１１０が出力するイントネーション情報に基づいて、アクチュエータ１３１に与える駆動パルス波形の周期を制御する。イントネーション情報が示すピッチ変換比が１である場合、駆動制御部１３０は、標準的な周期の駆動パルス波形をアクチュエータ１３１に与える。これにより利用者の口から標準的なピッチの音声が発音される。イントネーション情報が示すピッチ変換比が１から増加すると、駆動制御部１３０は、そのピッチ変換比の増加に応じてアクチュエータ１３１に与える駆動パルス波形の周期を短くする。これにより利用者の口から発音される音声のピッチが標準的なピッチから上昇する。また、イントネーション情報が示すピッチ変換比が１から減少すると、駆動制御部１３０は、そのピッチ変換比の減少に応じてアクチュエータ１３１に与える駆動パルス波形の周期を長くする。これにより利用者の口から発音される音声のピッチが標準的なピッチから低下する。

【0024】

音声変換部１５０は、マイクロホン１４０から出力された音声信号に認識を容易にする音声変換処理を施す手段である。この音声変換処理に関しては、音声／文字変換モード、音声／音声変換モードおよび音声加工モードの３種類のモードが用意されている。ここで、音声／文字変換モードは、マイクロホン１４０から出力された音声信号について音声認識処理を実行し、文字情報を出力するモードである。また、音声／音声変換モードは、マイクロホン１４０から出力された音声信号について音声認識処理を実行し、この結果得られる文字情報に基づいて音声信号を合成するモードである。また、音声加工モードは、マイクロホン１４０から出力される音声信号について音声認識処理を実行し、この音声認識処理結果に基づいて、マイクロホン１４０から出力された音声信号を認識の容易な音声信号に加工するモードである。本実施形態において、携帯電話機１０００の利用者は、操作表示部１２０を操作することにより、３種類のモードの中から所望のモードを選択し、音声変換部１５０に実行させることができる。

【0025】

図２は音声変換部１５０の構成を示すブロック図である。図２に示すように、音声変換部１５０は、音声認識部１５１と、音声合成部１５２と、音声加工部１５３と、スイッチ１５４とを有する。

【0026】

音声認識部１５１は、マイクロホン１４０から出力される音声信号の音声認識を行い、文字情報を出力する手段である。ここで、アクチュエータ１３１に与えられる駆動パルス波形のパルス幅が短く設定され、利用者の口から発音される音声が周囲の人に聴こえない程度の小音量である場合、マイクロホン１４０から出力される音声信号の母音区間のレベルは非常に小さく、子音区間のレベルはさらに小さい。この場合、音声信号における母音の認識は可能であるが、子音の認識は困難である。

【0027】

そこで、本実施形態における音声認識部１５１は、音声信号のイントネーション（ピッチ変化）に基づいて音声信号における単語の区切りを判定して、音声認識を実行する。具体的には、音声認識部１５１は、会話に使用される各種の単語について測定された音声のピッチ変化パターンのデータベースを記憶している。そして、音声認識部１５１は、マイクロホン１４０から出力される音声信号にデータベース中のいずれかのピッチ変化パターンと合致するピッチ変化パターンが現れた場合に、そのピッチ変化パターンに対応した音声信号の区間を一語として取り扱い、音声認識を実行する。

【0028】

また、本実施形態における音声認識部１５１は、音声認識処理を実行しつつ、現時点までに得られた音声認識結果を参照し、認識が完了していない区間（種類の不明な音韻が存在する区間）の音声認識を実行する。例えば音声認識処理において、音声信号のある区間の子音の種類が不明であったとする。この場合に、音声認識処理では、その区間の前後の区間の音声認識処理結果である文字が示す文脈から当該子音の種類を推定する。具体的には、子音の種類が不明な区間の音声信号に基づいて、幾つかの子音の候補を選択する。そして、子音の候補の中から子音を１つずつ選択して当該区間に当てはめ、当該区間とその前後の区間とからなる区間内の文字が意味のある文を構成するか否かを判定する。そして、意味のある文を構成することとなる子音を音声認識結果として選択するのである。

【0029】

音声合成部１５２は、音声認識部１５１から出力される文字情報に基づいて音声信号を合成する手段である。具体的には、音声合成部１５２は、子音や母音等の各種の音声素片の音声波形のデータベースを記憶しており、文字情報が示す子音や母音の音声素片の音声波形をデータベースから読み出し、時間軸上において繋ぎ合わせることにより音声信号を合成する。

【0030】

好ましい態様では、ハスキーな男性音声、透明感の高い女性音声等、各種の音声に対応した音声素片の音声波形のデータベースが音声合成部１５２に記憶されている。利用者は、操作表示部１２０の操作により、所望の種類のデータベースを選択し、音声合成に使用することができる。

【0031】

本実施形態における音声合成部１５２は、合成した音声信号のピッチをイントネーション情報に基づいて制御する手段を有している。ここで、イントネーション情報は、制御部１１０が傾きセンサ１５１の出力信号に基づいて生成する情報であり、利用者の口から発音される音声のピッチの変化を示している。従って、音声合成部１５２から出力される音声信号は、利用者の口から発音される音声が有するピッチ変化と同様なピッチ変化を有する音声信号となる。

【0032】

音声加工部１５３は、音声認識部１５１の音声認識処理結果に基づいて、マイクロホン１４０から出力された音声信号を認識が容易な音声信号に加工する手段である。上述したように、利用者がアクチュエータ１３１を利用して周囲の人に聴こえない程度の小音量で発音する場合、マイクロホン１４０から出力される音声信号の特に子音区間の音量は極めて小さく認識が困難である。そこで、本実施形態では、各種の子音を表す音声信号波形のデータベースを音声加工部１５３に予め記憶させる。そして、音声加工部１５３は、マイクロホン１４０から出力された音声信号において、音声認識部１５１の音声認識処理により子音と判定された区間の音声信号波形をデータベース中の当該子音に対応した適切な音声信号波形に置き換える。また、音声加工部１５３は、この子音の音声信号波形の置き換え後の音声信号を聴き取りが容易な適切なレベルに増幅して出力する。

【0033】

スイッチ１５４は、音声認識部１５１が出力する文字情報、音声合成部１５２が出力する音声信号、音声加工部１５３が出力する音声信号のいずれかを選択し、図１に示す送信部２０１に出力する手段である。音声変換部１５０が音声／文字変換モードに設定されている場合、音声認識部１５１が起動され、音声認識部１５１が出力する文字情報がスイッチ１５４を介して送信部２０１に供給される。音声変換部１５０が音声／音声変換モードに設定されている場合、音声認識部１５１および音声合成部１５２が起動され、音声合成部１５２が出力する音声信号がスイッチ１５４を介して送信部２０１に供給される。音声変換部１５０が音声加工モードに設定されている場合、音声認識部１５１および音声加工部１５３が起動され、音声加工部１５３が出力する音声信号がスイッチ１５４を介して送信部２０１に供給される。

【0034】

図１において、送信部２０１は、通話相手に対して音声信号または文字情報を送信する手段である。音声変換部１５０が音声／文字変換モードに設定されている場合、送信部２０１は、音声変換部１５０から出力される文字情報を携帯電話機１０００の利用者の通話相手の電話機に送信する。音声変換部１５０が音声／音声変換モードまたは音声加工モードに設定されている場合、送信部２０１は、音声変換部１５０から出力される音声信号を携帯電話機１０００の利用者の通話相手の電話機に送信する。携帯電話機１０００は、通話相手の電話機との通話を開始する際に、通話相手の電話機との間でネゴシエーションを行う。その際、携帯電話機１０００は、送信部２０１から送信するのが文字情報であるか音声信号であるかを示す情報を通話相手の電話機に送信する。これにより通話相手の電話機は、文字情報が送られてきた場合にはその表示を行い、音声信号が送られてきた場合にはその放音を行うという対応が可能になる。

【0035】

受信部２０２は、通話相手の電話機から音声信号を受信する手段である。受信部２０２により受信された音声信号は、加算器１６３を介してスピーカ１７０に送られ、スピーカ１７０によって放音される。

【0036】

本実施形態において、携帯電話機１０００の利用者は、操作表示部１２０の操作を行うことにより、音声変換部１５０の処理結果のモニタリングを行うことができる。例えば音声／文字変換モードが設定されている状態において、利用者は、操作表示部１２０の操作によりスイッチ１６２をＯＮにすることができる。この結果、音声変換部１５０の音声認識部１５１が出力する文字情報がスイッチ１６２を介して操作表示部１２０に送られ、操作表示部１２０に表示される。また、音声／音声変換モードまたは音声加工モードが設定されている状態において、利用者は、操作表示部１２０の操作によりスイッチ１６１をＯＮにすることができる。この結果、音声変換部１５０の音声合成部１５２または音声加工部１５３が出力する音声信号がスイッチ１６１および加算器１６３を介してスピーカ１７０に送られ、スピーカ１７０から放音される。
以上が本実施形態における携帯電話機１０００の詳細である。

【0037】

本実施形態において、携帯電話機１０００の利用者は、例えば電車内において携帯電話機１０００による通話を行う場合、操作表示部１２０の操作により、アクチュエータ１３１に与える駆動パルス波形のパルス幅を最低値に設定する。そして、利用者は、発音開始ボタン１３４をＯＮにして、口腔１の形状を変化させる。これにより利用者の口から周囲の人に聴こえない程度の音量で音声が発音され、この音声を示す音声信号がマイクロホン１４０から出力される。その際、利用者は、頭部を傾けることによりイントネーション情報を変化させ、利用者の口から発音される音声にイントネーション、すなわち、ピッチの変化を与えることができる。

【0038】

音声／文字変換モードが設定されている場合、音声変換部１５０の音声認識部１５１がマイクロホン１４０から出力される音声信号の音声認識を行い、文字情報を出力する。ここで、マイクロホン１４０から出力される音声信号はレベルが小さく、特に子音の認識が困難である。そこで、音声認識部１５１は、音声信号に現れるピッチ変化に基づいて、音声信号における単語の区切りを判定し、かつ、音声認識処理において子音の前後の文字が示す文脈に基づいて子音を推定することにより、音声信号から文字情報を生成する。この音声認識部１５１から出力される文字情報は、送信部２０１により通話相手の電話機に送られ、その電話機により表示される。

【0039】

また、音声／音声変換モードが設定されている場合、音声変換部１５０の音声認識部１５１がマイクロホン１４０から出力される音声信号の音声認識処理を行い、文字情報を出力する。そして、音声合成部１５２がこの文字情報から音声信号を合成し、イントネーション情報に基づいて音声信号のピッチを制御して出力する。そして、この音声合成部１５２から出力される音声信号が送信部２０１により通話相手の電話機に送られ、その電話機のスピーカから放音される。

【0040】

また、音声加工モードが設定されている場合、音声変換部１５０の音声認識部１５１がマイクロホン１４０から出力される音声信号の音声認識処理を行う。そして、音声加工部１５３は、この音声認識処理結果に基づいて、マイクロホン１４０から出力された音声信号における子音期間の音声信号波形を適切な子音の音声信号波形に置き換え、かつ、この置き換え後の音声信号を適切なレベルに増幅して出力する。そして、この音声加工部１５３から出力される音声信号が送信部２０１により通話相手の電話機に送られ、その電話機のスピーカから放音される。

【0041】

以上のように、本実施形態によれば、携帯電話機１０００の利用者は、アクチュエータ１３１の振動を利用して、周囲の人に聴こえない程度の小音量での発音を行い、携帯電話機１０００の音声入力装置１００に音声を入力することができる。そして、このように小声での音声の入力を行った場合でも、音声入力装置１００では、音声変換部１５０が、マイクロホン１４０により得られた音声信号に認識を容易にする音声変換処理を施し、送信部２０１が通話相手に送信する。従って、利用者は、小声での発音を行ったとしても、所望の情報を適切に通話相手に伝達することができる。

【0042】

また、本実施形態では、音声／文字変換モードにおいて、マイクロホン１４０により得られた音声信号を文字情報に変換して通話相手に送信することができる。従って、利用者は所望の情報を正確に通話相手に伝達することができる。

【0043】

また、本実施形態では、音声／音声変換モードにおいて、マイクロホン１４０により得られた音声信号を文字情報に変換し、この文字情報から音声信号を合成して通話相手に送信することができる。従って、利用者は通常の通話に近い形態で所望の情報を通話相手に伝達することができる。

【0044】

また、本実施形態では、音声加工モードにおいて、マイクロホン１４０により得られた音声信号の子音区間の音声信号波形のみを適切な子音の音声信号波形に置き換えて通話相手に送信することができる。従って、利用者は、本人が発音する音声に近い音声を通話相手に伝達することができる。本人の音声を通話相手に届けたい利用者に好適である。

【0045】

また、本実施形態における音声入力装置１００は、声帯のある健常者も利用可能である。従って、声帯のない人と、声帯のある健常者の両方が、音声入力装置１００を備えた携帯電話機１０００を利用し、周囲の人に聴こえない小声での通話を行うこととなる。このように声帯のない人が、声帯のある健常者と同じ形態で通話を行うこととなるので、声帯のない人に対し、携帯電話機１０００による通話を行う意欲を与えることができる。

【0046】

＜他の実施形態＞
以上、この発明の各実施形態について説明したが、この発明には他にも実施形態が考えられる。例えば次の通りである。

【0047】

（１）上記実施形態では、傾きセンサ１５１の出力信号から得られるイントネーション情報によりアクチュエータ１３１に与える駆動パルス波形の周期を制御したが、この周期の制御を行わなくてもよい。この場合、音声認識部１５１では、イントネーション情報が示すピッチ変化に基づいて、マイクロホン１４０から出力される音声信号における単語の区切りを判定すればよい。

【0048】

（２）上記実施形態では、利用者の頭部に装着される傾きセンサ１５１によりイントネーション情報を生成した。しかし、傾きセンサ以外のセンサによりイントネーション情報を生成してもよい。例えば加速度センサ等を利用者の身体の部位に装着し、このセンサによりイントネーション情報を生成してもよい。また、イントネーション情報を生成するためのセンサは、利用者の頭部以外の部位に装着してもよい。また、スライドスイッチ等の操作子を利用者に操作させ、イントネーション情報を生成してもよい。

【0049】

（３）上記実施形態の音声／文字変換モードにおいて、音声認識部１５１が出力する文字情報に同期させてイントネーション情報を通話相手の電話機に送信するようにしてもよい。この場合において、通話相手の電話機では、受信される文字情報から音声信号を合成し、この文字情報から得られる音声信号のピッチを当該文字情報と同期して受信されるイントネーション情報に基づいて制御してもよい。

【0050】

（４）上記実施形態の音声／音声変換モードにおいて、傾きセンサ１５１の出力信号から得られるイントネーション情報を使用する代わりに、マイクロホン１４０から出力される音声信号のピッチの標準的なピッチに対するピッチ比を示すイントネーション情報を生成し、音声合成部１５２により合成された音声信号のピッチをこのイントネーション情報に基づいて制御してもよい。

【0051】

（５）語頭の発音タイミングを指示する操作子を設け、音声認識部１５１が、この操作子の操作に基づいて、音声信号における語頭のタイミングを検知し、音声認識を行うようにしてもよい。あるいは上記実施形態における発音開始ボタン１３４をこの語頭の発音タイミングを指示する操作子として利用してもよい。

【0052】

（６）音声／音声変換モードでは、音声認識処理により得られた文字情報から音声信号を合成したが、音声認識処理の過程において得られる結果、例えばフォルマント情報等から音声信号を合成してもよい。

【0053】

（７）音声加工モードにおいて、音声認識処理を利用しない単なる波形変換処理により音声信号の加工を行ってもよい。例えばマイクロホン１４０から得られる音声信号のレベルや周波数に基づいて音声信号における子音区間を検出し、検出した子音区間だけレベル変換処理や子音強調処理を行う。このような音声加工処理を行うことにより、音声信号を通常の音声の音声信号に近づけることができる。

【0054】

（８）マイクロホン１４０から得られる音声信号を音声入力装置１００がネットワークを介してサーバに送信し、サーバに音声変換部１５０の処理を実行させ、その実行結果である音声信号や文字情報をサーバから受け取り、送信部２０１により通話相手に送信するようにしてもよい。この態様によれば、携帯電話機１０００に音声変換部１５０を設ける必要がないので、携帯電話機１０００のコストの増加を回避することができる。この発明の目的を達成するためには、利用者の喉に与えた振動に応じて前記利用者の口から発音される音声を示す音声信号を取得する音声取得処理と、前記音声信号に認識を容易にする音声変換処理とを何等かの装置が実行すればよい。音声取得処理を実行する装置と、音声変換処理を実行する装置をどのような装置とし、どのように配置するかは任意である。

【0055】

（９）上記実施形態では、この発明による音声入力装置を電話に用いたが、この発明による音声入力装置の用途はこれに限定されるものではない。この発明による音声入力装置は、例えば音声を用いたテキスト入力装置等を含む音声入力装置全般に適用可能である。

【符号の説明】

【0056】

１０００……携帯電話機、２０１……送信部、２０２……受信部、１００……音声入力装置、１１０……制御部、１２０……操作表示部、１３０……駆動制御部、１３１……アクチュエータ、１３２……遮音フード、１３３……ベルト、１４０……マイクロホン、１５０……音声変換部、１６１，１６３，１５４……スイッチ、１６３……加算器、１５１……音声認識部、１５２……音声合成部、１５３……音声加工部、１０……頭部、１……口腔。

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版