IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オトデザイナーズの特許一覧

<>
  • 特許-発話トレーニングシステム 図1
  • 特許-発話トレーニングシステム 図2
  • 特許-発話トレーニングシステム 図3
  • 特許-発話トレーニングシステム 図4
  • 特許-発話トレーニングシステム 図5
  • 特許-発話トレーニングシステム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-08
(45)【発行日】2024-02-19
(54)【発明の名称】発話トレーニングシステム
(51)【国際特許分類】
   G09B 19/04 20060101AFI20240209BHJP
   G10L 21/003 20130101ALI20240209BHJP
   G10L 25/51 20130101ALI20240209BHJP
【FI】
G09B19/04
G10L21/003
G10L25/51
【請求項の数】 2
(21)【出願番号】P 2020128338
(22)【出願日】2020-07-29
(65)【公開番号】P2022025493
(43)【公開日】2022-02-10
【審査請求日】2023-02-16
(73)【特許権者】
【識別番号】506191965
【氏名又は名称】株式会社オトデザイナーズ
(74)【代理人】
【識別番号】100085257
【弁理士】
【氏名又は名称】小山 有
(72)【発明者】
【氏名】坂本 真一
【審査官】相川 俊
(56)【参考文献】
【文献】国際公開第2004/049283(WO,A1)
【文献】特開2001-159865(JP,A)
【文献】特開平03-273280(JP,A)
【文献】"高齢者向け応対をスキルアップする「老人性難聴体感アプリ」を開発",公益財団法人日本電信電話ユーザ協会[online],2015年05月27日,[2023年10月24日検索], <https://www.jtua.or.jp/ict/solution/mobile/report/201506_02/>
(58)【調査した分野】(Int.Cl.,DB名)
G09B 19/00 - 19/26
G09B 21/00 - 21/06
G10L 21/003
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
高齢者およびミドルエイジ世代の人に聞き取りやすい音声を発話するための発話トレーニングシステムであって、ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部と、前記収音されたユーザの音声を高齢者およびミドルエイジ世代の人にどのように聞こえるかを模擬難聴変換する模擬難聴変換部と、この模擬難聴変換部にて変換された音声を聴取するための再生ボタンと、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果に基づきユーザに会話改善のためのアドバイスを提示する比較結果提示部から成る発話トレーニングシステム。
【請求項2】
請求項1に記載の発話トレーニングシステムにおいて、比較結果提示部で提示された特定の音素のみを再生する比較結果再生部を備えたことを特徴とする発話トレーニングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが発話した声(言葉)を分析することによって、当該ユーザの発話音声が高齢者およびミドルエイジ世代の人に聞きやすいかどうかを判定した上で、模擬難聴化した当該音声を提示し、当該ユーザがより聞きやすい発話方法を習得するためのトレーニングシステムに関する。
【背景技術】
【0002】
我が国の高齢化率は極めて高い数値で推移しており、日常生活のみならず、ビジネスの分野においても、高齢者とのコミュニケーションを円滑に行えるようにすることが極めて重要な課題となっている。
【0003】
聴覚の周波数分解能の低下に基づく、言葉の聞き取り能力の低下は、高齢者のみならず、ミドルエイジ世代から始まっていることが知られており、本人に自覚のない「無自覚難聴」による聞き間違いは、社会生活やビジネスの現場において大きな問題となっている。
【0004】
これらの問題を解決するためには、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話する必要がある。特に、言葉の聞き取り能力が低下した高齢者やミドルエイジ世代に対しては、音声に含まれる母音よりも、子音を長く明確に発話する必要があることが聴覚心理学的に知られている。
【0005】
近年は、ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術を用いて、ユーザ本人に、相手にどう聞こえているかを体験させ、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声するための発話トレーニングアプリケーション等が提供されている。また、語学学習などに使われる発話トレーニングアプリケーションを、高齢者に対する発話トレーニングに流用しようという動きもある。
【0006】
特許文献1には、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第1の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段とを備えることを特徴とする音声評価装置が開示されている。
【0007】
特許文献2には、信号処理装置であって、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第1聴者の圧縮特性が反映された第1聴覚フィルタバンクに前記入力信号を通すことで得られた第1聴覚的スペクトログラムと、第2聴者の圧縮特性が反映された第2聴覚フィルタバンクに前記入力信号を通すことで得られた第2聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている信号処理装置が開示されている。
【先行技術文献】
【特許文献】
【0008】
【文献】特願2006-217300
【文献】特願2015-27305
【発明の開示】
【発明が解決しようとする課題】
【0009】
高齢者等へ言葉が伝わらなかった場合には、大声で話すことが一般的な常識になっているが、聴覚の周波数分解能の低下に基づく高齢者やミドルエイジ世代の人の聞き間違いに対しては、大声で話しても聞き間違え改善効果はほとんどなく、むしろ、大声に対する不快感が増大してしまうことが、聴覚心理学的に知られている。
【0010】
また、このような場合、聞き間違いが発生しやすいのは母音ではなく子音であることも聴覚心理学的に知られているが、多くの人は、自分の言葉が伝わっていないと感じた場合に、母音を強く発声してしまう傾向がある。
【0011】
ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術では、自分の声を高齢者がどのように聞いているのかを疑似的に体験できるので、大声を出しても意味が無いことや子音の発声が重要であることをユーザに実感させやすいという特徴がある。
【0012】
しかしながら、模擬難聴化された音声を聴取しただけでは、高齢者が聞き取り難いであろうことは実感できても、自分の発話のどの音素が聞き取り難さの起因となっており、具体的に、発話の仕方をどのように改善させれば良いのかをユーザ自身が知ることが出来ないという問題があった。
【0013】
特許文献1に記載の音声評価装置では、音声を表す第1の音声データを記憶する第1の音声データ記憶手段と、収音した音声を表す第2の音声データを出力する収音手段と、前記第1の音声データ記憶手段に記憶された前記第1の音声データの特徴と前記収音手段から出力される第2の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第1の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第1の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第1の音声データの表す音声を、放音手段に放音させる放音制御手段とを備える。これにより、ユーザは、語学学習等の採点の結果を把握しやすくなる。
【0014】
しかし、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが出来ず、発話トレーニングを行う動機付けとはならない。さらに、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかをユーザに具体的に知らせる必要があるが、その方法に関する示唆も開示も無い。
【0015】
特許文献2に記載の信号処理装置は、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第1聴者の圧縮特性が反映された第1聴覚フィルタバンクに前記入力信号を通すことで得られた第1聴覚的スペクトログラムと、第2聴者の圧縮特性が反映された第2聴覚フィルタバンクに前記入力信号を通すことで得られた第2聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている。これにより、難聴者等の聴覚特性をより適切に反映した模擬難聴音声を生成することが可能となる。
【0016】
しかし、ユーザは、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかを具体的に知ることができず、また、その方法に関する示唆も開示も無い。
【課題を解決するための手段】
【0017】
上記の課題を解決する手段として、本発明の発話トレーニングシステムは、ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部から成る構成とした。
【0018】
これにより、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが可能となり、発話トレーニングを行う高い動機付けを得るとともに、どの音素の発話が悪く、どのように発話を改善すれば良いかを知ることが出来る。
【0019】
また、本発明の発話トレーニングシステムは、前記比較結果提示部で提示された特定の音素のみを再生する比較結果再生部を備える構成とした。これにより、ユーザは、どの音素の発話が悪く、どのように発話を改善すれば良いかを、実際にその音素を聴取しながら、さらに詳細に知ることが出来る。
【発明の効果】
【0020】
本発明による発話トレーニングシステムによれば、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声することができるようになる。
【0021】
ユーザ自身の声を模擬難聴変換した音声を聞きながら、模範的に発話された音声との音素ごとの持続時間の違いを理解することが出来るので、当該トレーニングに対する高いモチベーションを維持しつつ、特に音声に含まれる子音の発話能力の向上を図ることが出来る。
【0022】
さらに、ユーザ自身が発話した音声内の、特に伝わりにくい音素だけを再生して聴取することが出来るので、当該音素の発話に特に注意を払うことが出来るので、発話能力のさらなる向上が可能となる。
【図面の簡単な説明】
【0023】
図1】本発明の第一の実施の形態におけるブロック図
図2】本発明の第二の実施の形態におけるブロック図
図3】第一の実施の形態におけるユーザ用画面の一例
図4】第一の実施の形態における比較結果提示部の画面の一例
図5】第一の実施の形態における模擬難聴変換音声聴取のための画面の一例
図6】第二の実施の形態におけるユーザ用画面の一例
【発明を実施するための形態】
【0024】
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。
【0025】
図1は、本発明の第一の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部2と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部3と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部4と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部5と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部6と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部7から構成されている。
【0026】
ユーザ1は、本システムに向けて、ユーザ用画面等に提示される事前に定められた課題音声内容を発話する。ここで本システムは、専用のハードウェアでも良いし、スマートフォン端末やパーソナルコンピュータなどでも良い。
【0027】
ユーザ1が発話した音声は収音部2にて収音される。前記収音部2は前記専用のハードウェア、スマートフォン端末、パーソナルコンピュータ等に内蔵されたマイクロフォン等であっても良いし、ユーザ1が自ら調達した他の収音装置であっても良い。また、収音部2が録音機能を有し、ユーザ1の声を事前に録音、保存した後に持続時間抽出部3へ当該音声データを送っても良いし、収音部2で収音した声をそのまま持続時間抽出部3へ送る構成であっても良い。
【0028】
持続時間抽出部3は、収音部2にて収音されたユーザ1の音声を分析し、当該音声を、そこに含まれる音素ごとに分割し、各音素の持続時間を抽出する。各音素の持続時間の分析、分割には、DPマッチングやHMM(隠れマルコフモデル)等の音声セグメンテーション技術が用いられる。
【0029】
持続時間保持部4には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の、前記課題音声と同一内容の音声の各音素の持続時間が記録されている。なお、持続時間保持部4は、前記各音素の持続時間を事前に記録するのではなく、前記模範となる発声者の音声データを記録しておき、持続時間抽出部3で、その都度分析を行って、その結果を持続時間保持部4に記録する構成でも良い。
【0030】
持続時間比較部6は、前記持続時間抽出部3で抽出された、ユーザ1が発話した音声に含まれる各音素の持続時間と、前記持続時間保持部4に記録されている模範となる発声者の音声の各音素の持続時間を音素ごとに比較する。比較方法としては、両持続時間の差分に事前に閾値を設けておき、その閾値を超えて長かった音素もしくは短かった音素についての情報を比較結果提示部7へ送るという方法や、両者の持続時間の比率を計算し、その比率に閾値を設ける方法などが考えられる。
【0031】
比較結果提示部7は、持続時間比較部6から出力された、各音素の持続時間の比較結果をユーザ1へ提示する。提示の方法としては、前記課題音声内容に含まれる音素をテキストで表示し、模範となる発声者の音声に比べての、各音素の持続時間の長短を明示する方法でも良いし、ユーザ1と模範となる発声者の音声の波形やサウンドスペクトログラム等を図示した上で、当該波形等の中で各音素が該当する区間を図示して、ビジュアル的に各音素の長短をユーザ1へ明示する方法を用いても良い。
【0032】
一方、模擬難聴変換部5は、前記収音部2にて収音されたユーザ1が発話した音声に模擬難聴変換を施し、高齢者およびミドルエイジ世代の人に聞こえているであろう音声に変換する。模擬難聴変換方法としては、高齢者およびミドルエイジ世代の人の聴覚フィルタの広がり度合いを周波数領域で信号処理的に模擬し、FFTとオーバーラップアド処理で合成する方法や特許文献2に記載の方法などが考えられる。
【0033】
ユーザ1は、ユーザ用画面等にある再生ボタンを押すことによって、前記模擬難聴変換された音声を聴取することが出来る。さらに、模擬難聴変換されていない原音声および模範となる発声者の音声の原音声、模擬難聴変換音声を聴取するための再生ボタンも用意すれば、ユーザ1は様々な音声を聴取可能となり、自身の発話の悪い所を知り、その改善のための具体的なトレーニングを実施することができる。
【0034】
図3図4図5には、本発明の発話トレーニングシステムをスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。
【0035】
ユーザ1は、図3の画面に従って、録音ボタンを押した上で、画面上部に表示されたトレーニング用の課題音声内容(本例では「いつも、ありがとう」)を、スマートフォンに向かって発話する。スマーフォンに内蔵されたマイクは収音部2として機能し、ユーザ1の発話内容を収音する。
【0036】
前記スマートフォンアプリの持続時間抽出部3は、前記収音されたユーザ1の音声にDPマッチング等の分析処理を施し、「いつも、ありがとう」の音素である、”i”, “ts”, “u”, ”m”, “o”, “ ”, ”a”, “r”, “i”, ”g”, “a”, “t”, ”o”, “ ”に分割し、各音素の持続時間を抽出する(音素表記が無い区間は、言葉の間(ま)である)。
【0037】
持続時間保持部4には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の「いつも、ありがとう」の音声の各音素の持続時間が記録されているので、持続時間比較部6で、両者の各音素の持続時間を比較する。
【0038】
図4は、比較結果提示部7の一例である。ここでは、特に持続時間の長短の差が大きかった「いつも」の「つ」の子音“ts”と、「ありがとう」の「あ」”a”についての結果のみを提示し、発話改善のためのアドバイスを表示している。本例では、持続時間比較部6の出力として、特に、ユーザ1が発話した”ts”は模範となる発声者のそれよりも持続時間が短く、”a”は持続時間が長すぎたので、それぞれの音素を、口を大きくあけて丁寧に発話するよう促している。
【0039】
図5は、ユーザ1が、模擬難聴変換された音声を聴取し、発話音声が高齢者およびミドルエイジ世代の人に、どのように聞こえているかを体験するための画面である。ユーザ1が発話した音声および模範となる発声者の、それぞれ模擬難聴変換音声と原音声を聴取することが出来る。ユーザ1は、図4で指摘された音素について、高齢者およびミドルエイジ世代の人に、実際にどのように聞こえているかを体験聴取することができるので、前記アドバイスの内容に従って、高い動機付けと具体性を持って発話改善トレーニングを実施することが出来る。
【0040】
図2は、本発明の第二の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部2と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部3と、事前に収録された模範音声の音素ごとの持続時間を抽出および/または保持する持続時間保持部4と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部5と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部6と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部7と、比較結果提示部7で提示された特定の音素のみを再生する比較結果再生部8から構成されている。
【0041】
比較結果再生部8は、比較結果提示部7で表示された特に持続時間の長短の差が大きかった音素について、その音素だけを再生する機能を有する。
【0042】
図8は、本発明の第二の実施の形態における比較結果再生部8をスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。
【0043】
ここでは一例として、音声波形を図示し、特に持続時間の長短の差が大きかった音素区間を網掛けで明示し、網掛け部をタップすると、その音素区間が再生される。実際に再生する際には、ユーザ1が当該音素区間を容易に聴取できるように、当該音素区間よりも数ミリ秒から数100ミリ秒前から再生を開始し、当該音素区間よりも数ミリ秒から数100ミリ秒後に再生を終了するか、前後の音素をいくつか含めて再生する必要があろう。
【0044】
また、本実施例では、波形と網掛けによって前記当該音素区間を明示しているが、これは波形によって図示する方法に限らず、波形に変わって音声のパワー変動図やサウンドスペクトログラムを用いても良いし、テキストで当該音素を表示し、その区間だけを再生するような構成にすることも可能である。
【0045】
ところで、本実施例では、持続時間比較部6で出力されたユーザ1と模範となる発声者の音声内の各音素の持続時間の長短を、そのまま比較結果提示部7で表示しているが、人間が音声を聴取し、その内容を認識しようとする時は、全ての音素に等分に集中して聞き取っているわけでは無い。
【0046】
聴覚心理学的には、人間が聴取した音声の内容を正確に認識するためには、語頭の子音を正確に聞き取ることが最も重要であるとの知見が報告されている。よって、事前に前記課題音声内容の音素ごとに重み付けを行い、各文節の語頭の子音については、多少の長短の差であっても比較結果提示部7で明示し、ユーザ1へトレーニングを促しつつ、語尾の母音については前記長短の差が大きめであっても比較結果提示部7で表示しないなどの構成とすることも可能である。
【0047】
例えば、ユーザ用画面等に提示される課題音声内容が「こんにちは “k” “o” “n” “n” “i” “ch” “i” “w” “a”」であれば、最も重要な語頭の子音である”k”に関しては、持続時間比較部6で算出されるユーザ1と模範となる発声者の発話音声の持続時間の差分を2倍して閾値と比較し、僅かな差であってもユーザ1へトレーニングを促し、一方で、語尾の”a”の差分は1/2にして閾値と比較し、多少の差があってもトレーニングを促さないという構成とすることも可能である。
【0048】
なお、本発明の発話トレーニングシステムによってトレーニングした発話者の音声は、ミドルエイジおよび高齢者のみならず、難聴者全般(若年の難聴者も含む)に対しても聞きやすくなるので、本発明は、難聴者全般に対して伝わりやすい発話のトレーニングを実施するシステムとして用いることも可能である。
【符号の説明】
【0049】
1…ユーザ、 2…収音部、 3…持続時間抽出部、 4…持続時間保持部、 5…模擬難聴変換部、 6…持続時間比較部、 7…比較結果提示部、 8…
比較結果再生部。
図1
図2
図3
図4
図5
図6