特開2022-25493 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社オトデザイナーズの特許一覧

特開2022-25493発話トレーニングシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022025493

(43)【公開日】2022-02-10

(54)【発明の名称】発話トレーニングシステム

(51)【国際特許分類】

G09B 19/04 20060101AFI20220203BHJP

G10L 21/003 20130101ALI20220203BHJP

G10L 25/51 20130101ALI20220203BHJP

【ＦＩ】

G09B19/04

G10L21/003

G10L25/51

【審査請求】未請求

【請求項の数】2

【出願形態】ＯＬ

(21)【出願番号】P 2020128338

(22)【出願日】2020-07-29

(71)【出願人】

【識別番号】506191965

【氏名又は名称】株式会社オトデザイナーズ

(74)【代理人】

【識別番号】100085257

【弁理士】

【氏名又は名称】小山有

(72)【発明者】

【氏名】坂本真一

(57)【要約】

【課題】ユーザが発話した声（言葉）を分析することによって、当該ユーザの発話音声がミドルエイジおよび高齢者に聞きやすいかどうかを判定した上で、模擬難聴化した当該音声を提示し、当該ユーザがより聞きやすい発話方法を習得するためのトレーニングを行うことができるシステムを提供する。
【解決手段】ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および／または保持する持続時間保持部と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部から成る構成。
【選択図】図１

【特許請求の範囲】

【請求項1】

聞き取りやすい音声を発話するための発話トレーニングシステムであって、ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および／または保持する持続時間保持部と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部から成る発話トレーニングシステム。

【請求項2】

請求項１に記載の発話トレーニングシステムにおいて、比較結果提示部で提示された特定の音素のみを再生する比較結果再生部を備えたことを特徴とする発話トレーニングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザが発話した声（言葉）を分析することによって、当該ユーザの発話音声が高齢者およびミドルエイジ世代の人に聞きやすいかどうかを判定した上で、模擬難聴化した当該音声を提示し、当該ユーザがより聞きやすい発話方法を習得するためのトレーニングシステムに関する。

【背景技術】

【0002】

我が国の高齢化率は極めて高い数値で推移しており、日常生活のみならず、ビジネスの分野においても、高齢者とのコミュニケーションを円滑に行えるようにすることが極めて重要な課題となっている。

【0003】

聴覚の周波数分解能の低下に基づく、言葉の聞き取り能力の低下は、高齢者のみならず、ミドルエイジ世代から始まっていることが知られており、本人に自覚のない「無自覚難聴」による聞き間違いは、社会生活やビジネスの現場において大きな問題となっている。

【0004】

これらの問題を解決するためには、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話する必要がある。特に、言葉の聞き取り能力が低下した高齢者やミドルエイジ世代に対しては、音声に含まれる母音よりも、子音を長く明確に発話する必要があることが聴覚心理学的に知られている。

【0005】

近年は、ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術を用いて、ユーザ本人に、相手にどう聞こえているかを体験させ、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声するための発話トレーニングアプリケーション等が提供されている。また、語学学習などに使われる発話トレーニングアプリケーションを、高齢者に対する発話トレーニングに流用しようという動きもある。

【0006】

特許文献１には、音声を表す第１の音声データを記憶する第１の音声データ記憶手段と、収音した音声を表す第２の音声データを出力する収音手段と、前記第１の音声データ記憶手段に記憶された前記第１の音声データの特徴と前記収音手段から出力される第２の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第１の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第１の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第１の音声データの表す音声を、放音手段に放音させる放音制御手段とを備えることを特徴とする音声評価装置が開示されている。

【0007】

特許文献２には、信号処理装置であって、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第１聴者の圧縮特性が反映された第１聴覚フィルタバンクに前記入力信号を通すことで得られた第１聴覚的スペクトログラムと、第２聴者の圧縮特性が反映された第２聴覚フィルタバンクに前記入力信号を通すことで得られた第２聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている信号処理装置が開示されている。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特願2006-217300

【特許文献2】特願2015-27305

【発明の開示】

【発明が解決しようとする課題】

【0009】

高齢者等へ言葉が伝わらなかった場合には、大声で話すことが一般的な常識になっているが、聴覚の周波数分解能の低下に基づく高齢者やミドルエイジ世代の人の聞き間違いに対しては、大声で話しても聞き間違え改善効果はほとんどなく、むしろ、大声に対する不快感が増大してしまうことが、聴覚心理学的に知られている。

【0010】

また、このような場合、聞き間違いが発生しやすいのは母音ではなく子音であることも聴覚心理学的に知られているが、多くの人は、自分の言葉が伝わっていないと感じた場合に、母音を強く発声してしまう傾向がある。

【0011】

ユーザが発話した音声を、高齢者に聞こえているであろう音声に変換する模擬難聴技術では、自分の声を高齢者がどのように聞いているのかを疑似的に体験できるので、大声を出しても意味が無いことや子音の発声が重要であることをユーザに実感させやすいという特徴がある。

【0012】

しかしながら、模擬難聴化された音声を聴取しただけでは、高齢者が聞き取り難いであろうことは実感できても、自分の発話のどの音素が聞き取り難さの起因となっており、具体的に、発話の仕方をどのように改善させれば良いのかをユーザ自身が知ることが出来ないという問題があった。

【0013】

特許文献１に記載の音声評価装置では、音声を表す第１の音声データを記憶する第１の音声データ記憶手段と、収音した音声を表す第２の音声データを出力する収音手段と、前記第１の音声データ記憶手段に記憶された前記第１の音声データの特徴と前記収音手段から出力される第２の音声データの特徴とを比較し、該比較結果に基づいて指摘区間を特定する指摘区間特定手段と、前記第１の音声データにおいて、前記指摘区間特定手段により特定された指摘区間に対応する音声データの表す音声の態様と該指摘区間以外の区間に対応する音声データの表す音声の態様とが異なるように、該第１の音声データを加工する音声データ加工手段と、前記音声データ加工手段により加工された第１の音声データの表す音声を、放音手段に放音させる放音制御手段とを備える。これにより、ユーザは、語学学習等の採点の結果を把握しやすくなる。

【0014】

しかし、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが出来ず、発話トレーニングを行う動機付けとはならない。さらに、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかをユーザに具体的に知らせる必要があるが、その方法に関する示唆も開示も無い。

【0015】

特許文献２に記載の信号処理装置は、各時点のフィルタ特性が変化する時変フィルタを生成し、生成された時変フィルタを用いて、時間的に変化する音信号である入力信号から出力信号を得る処理部を備え、前記処理部は、第１聴者の圧縮特性が反映された第１聴覚フィルタバンクに前記入力信号を通すことで得られた第１聴覚的スペクトログラムと、第２聴者の圧縮特性が反映された第２聴覚フィルタバンクに前記入力信号を通すことで得られた第２聴覚的スペクトログラムと、の各時点の差分に基づいて、各時点の前記時変フィルタを生成するよう構成されている。これにより、難聴者等の聴覚特性をより適切に反映した模擬難聴音声を生成することが可能となる。

【0016】

しかし、ユーザは、具体的に、自分の発話における、どの音素の発話が悪く、どのように発話を改善すれば良いのかを具体的に知ることができず、また、その方法に関する示唆も開示も無い。

【課題を解決するための手段】

【0017】

上記の課題を解決する手段として、本発明の発話トレーニングシステムは、ユーザの音声を収音するための収音部と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部と、事前に収録された模範音声の音素ごとの持続時間を抽出および／または保持する持続時間保持部と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部から成る構成とした。

【0018】

これにより、ユーザは、自分の声が高齢者にどのように聞こえているかを体験することが可能となり、発話トレーニングを行う高い動機付けを得るとともに、どの音素の発話が悪く、どのように発話を改善すれば良いかを知ることが出来る。

【0019】

また、本発明の発話トレーニングシステムは、前記比較結果提示部で提示された特定の音素のみを再生する比較結果再生部を備える構成とした。これにより、ユーザは、どの音素の発話が悪く、どのように発話を改善すれば良いかを、実際にその音素を聴取しながら、さらに詳細に知ることが出来る。

【発明の効果】

【0020】

本発明による発話トレーニングシステムによれば、会話時の発話の方法を改善し、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発声することができるようになる。

【0021】

ユーザ自身の声を模擬難聴変換した音声を聞きながら、模範的に発話された音声との音素ごとの持続時間の違いを理解することが出来るので、当該トレーニングに対する高いモチベーションを維持しつつ、特に音声に含まれる子音の発話能力の向上を図ることが出来る。

【0022】

さらに、ユーザ自身が発話した音声内の、特に伝わりにくい音素だけを再生して聴取することが出来るので、当該音素の発話に特に注意を払うことが出来るので、発話能力のさらなる向上が可能となる。

【図面の簡単な説明】

【0023】

【図1】本発明の第一の実施の形態におけるブロック図

【図2】本発明の第二の実施の形態におけるブロック図

【図3】第一の実施の形態におけるユーザ用画面の一例

【図4】第一の実施の形態における比較結果提示部の画面の一例

【図5】第一の実施の形態における模擬難聴変換音声聴取のための画面の一例

【図6】第二の実施の形態におけるユーザ用画面の一例

【発明を実施するための形態】

【0024】

以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。

【0025】

図１は、本発明の第一の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部２と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部３と、事前に収録された模範音声の音素ごとの持続時間を抽出および／または保持する持続時間保持部４と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部５と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部６と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部７から構成されている。

【0026】

ユーザ１は、本システムに向けて、ユーザ用画面等に提示される事前に定められた課題音声内容を発話する。ここで本システムは、専用のハードウェアでも良いし、スマートフォン端末やパーソナルコンピュータなどでも良い。

【0027】

ユーザ１が発話した音声は収音部２にて収音される。前記収音部２は前記専用のハードウェア、スマートフォン端末、パーソナルコンピュータ等に内蔵されたマイクロフォン等であっても良いし、ユーザ１が自ら調達した他の収音装置であっても良い。また、収音部２が録音機能を有し、ユーザ１の声を事前に録音、保存した後に持続時間抽出部３へ当該音声データを送っても良いし、収音部２で収音した声をそのまま持続時間抽出部３へ送る構成であっても良い。

【0028】

持続時間抽出部３は、収音部２にて収音されたユーザ１の音声を分析し、当該音声を、そこに含まれる音素ごとに分割し、各音素の持続時間を抽出する。各音素の持続時間の分析、分割には、ＤＰマッチングやＨＭＭ（隠れマルコフモデル）等の音声セグメンテーション技術が用いられる。

【0029】

持続時間保持部４には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の、前記課題音声と同一内容の音声の各音素の持続時間が記録されている。なお、持続時間保持部４は、前記各音素の持続時間を事前に記録するのではなく、前記模範となる発声者の音声データを記録しておき、持続時間抽出部３で、その都度分析を行って、その結果を持続時間保持部４に記録する構成でも良い。

【0030】

持続時間比較部６は、前記持続時間抽出部３で抽出された、ユーザ１が発話した音声に含まれる各音素の持続時間と、前記持続時間保持部４に記録されている模範となる発声者の音声の各音素の持続時間を音素ごとに比較する。比較方法としては、両持続時間の差分に事前に閾値を設けておき、その閾値を超えて長かった音素もしくは短かった音素についての情報を比較結果提示部７へ送るという方法や、両者の持続時間の比率を計算し、その比率に閾値を設ける方法などが考えられる。

【0031】

比較結果提示部７は、持続時間比較部６から出力された、各音素の持続時間の比較結果をユーザ１へ提示する。提示の方法としては、前記課題音声内容に含まれる音素をテキストで表示し、模範となる発声者の音声に比べての、各音素の持続時間の長短を明示する方法でも良いし、ユーザ１と模範となる発声者の音声の波形やサウンドスペクトログラム等を図示した上で、当該波形等の中で各音素が該当する区間を図示して、ビジュアル的に各音素の長短をユーザ１へ明示する方法を用いても良い。

【0032】

一方、模擬難聴変換部５は、前記収音部２にて収音されたユーザ１が発話した音声に模擬難聴変換を施し、高齢者およびミドルエイジ世代の人に聞こえているであろう音声に変換する。模擬難聴変換方法としては、高齢者およびミドルエイジ世代の人の聴覚フィルタの広がり度合いを周波数領域で信号処理的に模擬し、FFTとオーバーラップアド処理で合成する方法や特許文献２に記載の方法などが考えられる。

【0033】

ユーザ１は、ユーザ用画面等にある再生ボタンを押すことによって、前記模擬難聴変換された音声を聴取することが出来る。さらに、模擬難聴変換されていない原音声および模範となる発声者の音声の原音声、模擬難聴変換音声を聴取するための再生ボタンも用意すれば、ユーザ１は様々な音声を聴取可能となり、自身の発話の悪い所を知り、その改善のための具体的なトレーニングを実施することができる。

【0034】

図３、図４、図５には、本発明の発話トレーニングシステムをスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。

【0035】

ユーザ１は、図３の画面に従って、録音ボタンを押した上で、画面上部に表示されたトレーニング用の課題音声内容（本例では「いつも、ありがとう」）を、スマートフォンに向かって発話する。スマーフォンに内蔵されたマイクは収音部２として機能し、ユーザ１の発話内容を収音する。

【0036】

前記スマートフォンアプリの持続時間抽出部３は、前記収音されたユーザ１の音声にDPマッチング等の分析処理を施し、「いつも、ありがとう」の音素である、”i”, “ts”, “u”, ”m”, “o”, “ ”, ”a”, “r”, “i”, ”g”, “a”, “t”, ”o”, “ ”に分割し、各音素の持続時間を抽出する（音素表記が無い区間は、言葉の間（ま）である）。

【0037】

持続時間保持部４には、高齢者およびミドルエイジ世代の人にも聞き取りやすい音声を発話できる模範となる発声者の「いつも、ありがとう」の音声の各音素の持続時間が記録されているので、持続時間比較部６で、両者の各音素の持続時間を比較する。

【0038】

図４は、比較結果提示部７の一例である。ここでは、特に持続時間の長短の差が大きかった「いつも」の「つ」の子音“ts”と、「ありがとう」の「あ」”a”についての結果のみを提示し、発話改善のためのアドバイスを表示している。本例では、持続時間比較部６の出力として、特に、ユーザ１が発話した”ts”は模範となる発声者のそれよりも持続時間が短く、”a”は持続時間が長すぎたので、それぞれの音素を、口を大きくあけて丁寧に発話するよう促している。

【0039】

図５は、ユーザ１が、模擬難聴変換された音声を聴取し、発話音声が高齢者およびミドルエイジ世代の人に、どのように聞こえているかを体験するための画面である。ユーザ１が発話した音声および模範となる発声者の、それぞれ模擬難聴変換音声と原音声を聴取することが出来る。ユーザ１は、図４で指摘された音素について、高齢者およびミドルエイジ世代の人に、実際にどのように聞こえているかを体験聴取することができるので、前記アドバイスの内容に従って、高い動機付けと具体性を持って発話改善トレーニングを実施することが出来る。

【0040】

図２は、本発明の第二の実施の形態におけるシステムのブロック図であり、ユーザが発声した声を収音する収音部２と、前記収音されたユーザの音声の音素ごとの持続時間を抽出する持続時間抽出部３と、事前に収録された模範音声の音素ごとの持続時間を抽出および／または保持する持続時間保持部４と、前記収音されたユーザの音声を模擬難聴変換する模擬難聴変換部５と、前記ユーザの音声の音素ごとの持続時間と前記模範音声の音素ごとの持続時間を比較する持続時間比較部６と、前記持続時間比較部の比較結果をユーザへ提示する比較結果提示部７と、比較結果提示部７で提示された特定の音素のみを再生する比較結果再生部８から構成されている。

【0041】

比較結果再生部８は、比較結果提示部７で表示された特に持続時間の長短の差が大きかった音素について、その音素だけを再生する機能を有する。

【0042】

図８は、本発明の第二の実施の形態における比較結果再生部８をスマートフォンアプリとして実現した場合の、スマートフォン画面に提示される画面の一例を示す。

【0043】

ここでは一例として、音声波形を図示し、特に持続時間の長短の差が大きかった音素区間を網掛けで明示し、網掛け部をタップすると、その音素区間が再生される。実際に再生する際には、ユーザ１が当該音素区間を容易に聴取できるように、当該音素区間よりも数ミリ秒から数100ミリ秒前から再生を開始し、当該音素区間よりも数ミリ秒から数100ミリ秒後に再生を終了するか、前後の音素をいくつか含めて再生する必要があろう。

【0044】

また、本実施例では、波形と網掛けによって前記当該音素区間を明示しているが、これは波形によって図示する方法に限らず、波形に変わって音声のパワー変動図やサウンドスペクトログラムを用いても良いし、テキストで当該音素を表示し、その区間だけを再生するような構成にすることも可能である。

【0045】

ところで、本実施例では、持続時間比較部６で出力されたユーザ１と模範となる発声者の音声内の各音素の持続時間の長短を、そのまま比較結果提示部７で表示しているが、人間が音声を聴取し、その内容を認識しようとする時は、全ての音素に等分に集中して聞き取っているわけでは無い。

【0046】

聴覚心理学的には、人間が聴取した音声の内容を正確に認識するためには、語頭の子音を正確に聞き取ることが最も重要であるとの知見が報告されている。よって、事前に前記課題音声内容の音素ごとに重み付けを行い、各文節の語頭の子音については、多少の長短の差であっても比較結果提示部７で明示し、ユーザ１へトレーニングを促しつつ、語尾の母音については前記長短の差が大きめであっても比較結果提示部７で表示しないなどの構成とすることも可能である。

【0047】

例えば、ユーザ用画面等に提示される課題音声内容が「こんにちは “k” “o” “n” “n” “i” “ch” “i” “w” “a”」であれば、最も重要な語頭の子音である”k”に関しては、持続時間比較部６で算出されるユーザ１と模範となる発声者の発話音声の持続時間の差分を２倍して閾値と比較し、僅かな差であってもユーザ１へトレーニングを促し、一方で、語尾の”a”の差分は1/2にして閾値と比較し、多少の差があってもトレーニングを促さないという構成とすることも可能である。

【0048】

なお、本発明の発話トレーニングシステムによってトレーニングした発話者の音声は、ミドルエイジおよび高齢者のみならず、難聴者全般（若年の難聴者も含む）に対しても聞きやすくなるので、本発明は、難聴者全般に対して伝わりやすい発話のトレーニングを実施するシステムとして用いることも可能である。

【符号の説明】

【0049】

１…ユーザ、２…収音部、３…持続時間抽出部、４…持続時間保持部、５…模擬難聴変換部、６…持続時間比較部、７…比較結果提示部、８…
比較結果再生部。

【図1】