IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

<>
  • 特開-学習装置、学習方法、及びプログラム 図1
  • 特開-学習装置、学習方法、及びプログラム 図2
  • 特開-学習装置、学習方法、及びプログラム 図3
  • 特開-学習装置、学習方法、及びプログラム 図4
  • 特開-学習装置、学習方法、及びプログラム 図5
  • 特開-学習装置、学習方法、及びプログラム 図6
  • 特開-学習装置、学習方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024050171
(43)【公開日】2024-04-10
(54)【発明の名称】学習装置、学習方法、及びプログラム
(51)【国際特許分類】
   G09B 19/04 20060101AFI20240403BHJP
   G09B 19/00 20060101ALI20240403BHJP
   G06Q 50/20 20120101ALI20240403BHJP
【FI】
G09B19/04
G09B19/00 H
G06Q50/20
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022156849
(22)【出願日】2022-09-29
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】宮路 大勇
(72)【発明者】
【氏名】若尾 あすか
(72)【発明者】
【氏名】上田 芳弘
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC34
5L050CC34
(57)【要約】
【課題】相手の反応に対応するスキルを向上させる。
【解決手段】話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価する音声評価部と、前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定する反応推定部と、前記音声評価部による前記対象音声の評価結果、及び前記反応推定部による前記反応の推定結果を用いて、前記話者の話術を評価する話術評価部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価する音声評価部と、
前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定する反応推定部と、
前記音声評価部による前記対象音声の評価結果、及び前記反応推定部による前記反応の推定結果を用いて、前記話者の話術を評価する話術評価部と、
を備える学習装置。
【請求項2】
前記反応推定部は、前記聴者が存在する空間において集音された聴者音を前記反応情報として用いることによって前記反応を推定する、
請求項1に記載の学習装置。
【請求項3】
前記音声評価部は、学習用音声における音声特徴と、前記音声特徴を評価した評価結果とが対応づけられた教師データを用いて、入力された音声における前記音声特徴の良し悪しを推定するように学習された最適化モデルを用いて前記対象音声を評価する、
請求項1に記載の学習装置。
【請求項4】
前記音声評価部は、音声における話の論理展開に対応する特徴を前記音声特徴として、前記最適化モデルを用いて前記対象音声における話の論理展開の良し悪しを評価する、
請求項3に記載の学習装置。
【請求項5】
前記音声評価部は、音声における話すテンポに対応する特徴を前記音声特徴として、前記最適化モデルを用いて前記対象音声における話すテンポの良し悪しを評価する、
請求項3に記載の学習装置。
【請求項6】
前記音声評価部は、音声における話の抑揚に対応する特徴を前記音声特徴として、前記最適化モデルを用いて前記対象音声における抑揚の良し悪しを評価する、
請求項3に記載の学習装置。
【請求項7】
前記反応推定部は、前記聴者音に含まれる音声を音声認識することによって前記聴者が発した文言を抽出し、抽出した文言の内容に基づいて前記反応を推定する、
請求項2に記載の学習装置。
【請求項8】
前記反応推定部は、前記聴者音を周波数解析することによって前記聴者音に含まれる雑音レベルを算出し、算出した雑音レベルに基づいて前記反応を推定する、
請求項2に記載の学習装置。
【請求項9】
コンピュータが行う学習方法であって、
音声評価部が、話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価し、
反応推定部が、前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定し、
話術評価部が、前記音声評価部による前記対象音声の評価結果、及び前記反応推定部による前記反応の推定結果を用いて、前記話者の話術を評価する、
学習方法。
【請求項10】
コンピュータに、
話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価させ、
前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定させ、
前記対象音声の評価結果、及び前記反応の推定結果を用いて、前記話者の話術を評価させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、学習方法、及びプログラムに関する。
【背景技術】
【0002】
学習対象、例えば、絵画、習字、楽器演奏、歌唱、スポーツなどのスキルを向上させるための技術がある。この種の技術として、例えば、ユーザの行動とお手本の行動とを比較し、ユーザの行動がお手本に近づくよう助言する技術が知られている。特許文献1には、ユーザの行動内容に応じて助言内容を変化させる技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2021/251222号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、お手本と一致する行動をしてもスキルが向上するとは限らない。特に、相手がいる場面では、その相手からの反応に対応するスキルが求められる。例えば、講義などにおいては聴者に内容をよく理解させるスキルが求められる。この場合、必ずしもお手本通りでなくとも聴者によって理解しやすい講義のほうがよいことが多い。特許文献1の技術では相手の反応を考慮した助言を行うことは想定されていないため、相手の反応に対応するスキルを向上させることが困難であった。
【0005】
本発明は、このような状況に鑑みてなされたものであり、相手の反応に対応するスキルを向上させることができる学習装置、学習方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の学習装置は、話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価する音声評価部と、前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定する反応推定部と、前記音声評価部による前記対象音声の評価結果、及び前記反応推定部による前記反応の推定結果を用いて、前記話者の話術を評価する話術評価部と、を備える。
【0007】
本発明の学習方法は、コンピュータが行う学習方法であって、音声評価部が、話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価し、反応推定部が、前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定し、話術評価部が、前記音声評価部による前記対象音声の評価結果、及び前記反応推定部による前記反応の推定結果を用いて、前記話者の話術を評価する、学習方法である。
【0008】
本発明のプログラムは、コンピュータに、話者が聴者に対して発した対象音声を、お手本となる理想音声と比較することによって前記対象音声を評価させ、前記話者が話した内容に対する前記聴者の反応を示す反応情報に基づいて前記反応を推定させ、前記対象音声の評価結果、及び前記反応の推定結果を用いて、前記話者の話術を評価させる、プログラムである。
【発明の効果】
【0009】
本発明によれば、相手の反応に対応するスキルを向上させることができる。
【図面の簡単な説明】
【0010】
図1】実施形態における学習システム1の構成例を示すブロック図である。
図2】実施形態の学習装置10の構成例を示すブロック図である。
図3】実施形態の学習装置10が行う処理を説明するための図である。
図4】実施形態の表示端末20に表示される画像の例を示す図である。
図5】実施形態の学習装置10が行う処理を説明するための図である。
図6】実施形態の表示端末20に表示される画像の例を示す図である。
図7】実施形態の学習装置10が行う処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照して説明する。
【0012】
以下の説明では、学習システム1を用いて、講師Tに講義における話し方(話術)を学習させる場合を例に説明する。しかしながらこれに限定されることはない。少なくとも相手に話しかけることによってその相手に内容をよく理解させる側面を有するものであれば、任意の学習対象に学習システム1を適用することが可能である。
【0013】
例えば、コールセンタにおけるオペレータを対象とした電話対応業務の学習、討論会への参加者を対象とした討論のスキルアップ、ビジネススピーキングの習得、アナウンサー養成講座、コンサルタントを対象としたコンサル業務の学習など、様々なシーンに学習システム1を適用することが可能である。
【0014】
(学習システム1の構成について)
学習システム1は、ユーザに学習をさせるためのシステムである。図1は、実施形態による学習システム1の構成例を示すブロック図である。学習システム1は、例えば、学習装置10と、表示端末20と、マイクMCとを備える。
【0015】
この図では、学習システム1が、講師Tが生徒Aに対面にて講義を行う教室等に設けられた場合の例を示しているが、これに限定されることはない。講師Tが、遠隔にて講義を行うオンライン講座等に学習システム1を適用することも可能である。また、生徒Aは、1人であってもよいし、複数人であってもよい。また、講師Tについても同様に、講師Tが1人であってもよいし、複数人であってもよい。
【0016】
学習装置10は、講師Tに話術を学習させるコンピュータである。学習装置10は、講師Tが生徒Aに話した音声の音情報を取得し、取得した音情報に基づいて講師Tの話術の評価を行う。学習装置10は、評価結果を表示端末20に送信する。
【0017】
表示端末20は、ディスプレイなどの表示機能を有するコンピュータである。表示端末20は、学習装置10による評価内容を受信し、受信した内容を表示する。この図では、評価内容として、「声の大きさに注意しましょう…」とのコメントが表示された例が示されている。
【0018】
マイクMCは、音を集音するマイク(マイクロフォン)である。マイクMCは、例えば、講義が行われる教室に設けられ、講師Tが話す音声、及び生徒Aから発せられる質問などの音声を集音する。マイクMCは、音声以外の音、例えば、生徒Aが教科書を取り出したり、ページをめくったり、筆箱を開けたり、席を移動したりするような場合に発生する音を集音してもよい。マイクMCは、集音した音を学習装置10に出力する。
【0019】
ここで、マイクMCは、複数設けられていてもよい。例えば、ピンマイクなど講師Tが身に着けることによって講師Tが話す音声のみを集音するマイクと、生徒Aの音声などを集音するマイクとが設けられてもよい。
【0020】
或いは、オンライン講座等において、講師Tと生徒Aとが物理的に離れた拠点にいる場合においては、それぞれの拠点に設けられたマイクMC、例えば、オンライン講座に用いられるPC(Personal Computer)、タブレット端末などに設けられた集音機能によって音が集音されるように構成されてもよい。
【0021】
(学習装置10の構成について)
ここで、学習装置10の構成について、図2を用いて説明する。図2は、実施形態による学習装置10の構成例を示すブロック図である。学習装置10は、例えば、クラウドサーバ、サーバ装置、PCなどにより実現される。
【0022】
学習装置10は、例えば、通信部11と、記憶部12と、制御部13とを備える。通信部11は、外部装置、ここではマイクMC及び表示端末20と通信を行う。
【0023】
記憶部12は、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、学習装置10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
【0024】
記憶部12は、例えば、音声分析モデル120と、論理分析モデル121と、最適化モデル122と、反応推定モデル123とを備える。音声分析モデル120は、音声を分析するモデルであり、例えば、音声を音声認識によりテキスト化するプログラムである。論理分析モデル121は、文章を分析するモデルである。例えば、論理分析モデル121は、文章を入力とし、その文章を分析した結果を出力するプログラムである。例えば、論理分析モデル121は、形態素解析を行うことにより文章を単語やフレーズに分解し、文章にて用いられている特定の表現の出現頻度やその増減、及び複数の表現の関連性やその時系列の変化などを、文章を分析した結果として出力するプログラムである。
【0025】
最適化モデル122は、お手本と比較することにより評価対象である音声(対象音声)を評価するモデルである。例えば、最適化モデル122は、学習用音声における特徴と、その特徴を評価した評価結果とが対応づけられた教師データを用いて、入力された音声に対する評価を推定するように学習された学習済モデルである。音声における特徴(音声特徴)としては、例えば、声の高さ、声の大きさ、話すテンポ(速度)、抑揚のつけ方、活舌、論理展開、及びこれらの組合せ等のうち少なくとも何れか1つが用いられる。音声における特徴を評価する方法としては、お手本となる理想音声、理想的な音声、例えば、経験が豊かな講師などによる講義がなされた際に集音された音声と比較することによって、音声における特徴の良し悪しが評価される。
【0026】
例えば、音声における特徴として、声の高さを用いる場合、学習用音声における声の高さに対応する特徴と、その学習用音声における声の高さの良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。この場合、最適化モデル122は、音声における声の高さに対応する特徴が入力され、その声の高さに対する良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0027】
例えば、音声における特徴として、声の大きさを用いる場合、学習用音声における声の大きさに対応する特徴と、その学習用音声における声の大きさの良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。この場合、最適化モデル122は、音声における声の大きさに対応する特徴が入力され、その声の大きさに対する良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0028】
例えば、音声における特徴として、話すテンポを用いる場合、学習用音声における話すテンポに対応する特徴と、その学習用音声における話すテンポの良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。この場合、最適化モデル122は、音声における話すテンポに対応する特徴が入力され、その話すテンポに対する良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0029】
例えば、音声における特徴として、抑揚を用いる場合、学習用音声における抑揚に対応する特徴と、その学習用音声における抑揚のつけ方の良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。この場合、最適化モデル122は、音声における話の抑揚に対応する特徴が入力され、その抑揚に対する良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0030】
例えば、音声における特徴として、活舌を用いる場合、学習用音声における活舌に対応する特徴と、その学習用音声における活舌の良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。この場合、最適化モデル122は、音声における活舌に対応する特徴が入力され、その活舌に対する良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0031】
例えば、音声認識から得られる文章の論理展開を用いる場合、学習用音声における論理分析の結果と、その学習用音声における論理展開の良し悪しを評価した評価結果とが対応づけられた教師データを用いて機械学習が行われることによって、最適化モデル122が生成される。論理分析の結果としては、例えば、音声に対して音声分析モデル120を用いた音声認識が行われることによってテキスト化された文章を、論理分析モデル121を用いた論理分析が行われることによって取得することが可能である。この場合、最適化モデル122は、音声における論理分析の結果が入力され、その論理分析の結果に基づく論理展開の良し悪しを推定した結果を出力するように学習された学習済モデルである。
【0032】
反応推定モデル123は、聴者に対して何らかのスピーチが行われた空間において集音された音に基づいて、その聴者の反応を推定するモデルである。反応推定モデル123は、例えば、学習用音声と、その学習用音声が示している反応とが対応づけられた教師データを用いて、入力された音声に対する反応を推定するように学習された学習済モデルである。
【0033】
ここでの教師データでは、例えば、学習用音声に肯定的なフレーズが多数含まれている場合、聴者が肯定的な反応(良い反応)を示していると評価される。一方、学習用音声に否定的なフレーズが多数含まれている場合、聴者が否定的な反応(悪い反応)を示していると評価される。何をもって肯定的であるとするかは任意に決定されてよい。
【0034】
例えば、講師Tが講義を行う場合、聴者である生徒Aが講義の内容をよく理解することができた場合には、肯定的な反応を示すと考えられる。この場合、生徒Aは肯定的なフレーズ、例えば、「わかった」「なるほど」等の肯定的な文言を発する。反応推定モデル123は、集音した音に含まれる音声に、このような肯定的なフレーズが含まれていた場合、生徒Aが肯定的な反応を示していると推定する。
【0035】
一方、生徒Aが講義の内容をよく理解することができなかった場合には、肯定的でない反応、つまり否定的な反応を示すと考えられる。この場合、生徒Aは否定的なフレーズ、例えば、「わからない」、「なになに」等の否定的な文言を発する。反応推定モデル123は、集音した音に含まれる音声に、このような否定的なフレーズが含まれていた場合、生徒Aが否定的な反応を示していると推定する。
【0036】
或いは、反応推定モデル123は、集音された音に含まれる雑音レベルに応じて、聴者が肯定的な反応を示しているか否かを推定するプログラムであってもよい。反応推定モデル123は、例えば、周波数解析をすることによって、集音された音の雑音レベルを算出する。反応推定部132は、算出した雑音レベルが特定の閾値未満である場合、音が肯定的な反応(良い反応)を示していると推定する。一方、反応推定部132は、算出した雑音レベルが特定の閾値以上である場合、音が否定的な反応(悪い反応)を示していると推定する。
【0037】
例えば、講義が行われた場合、生徒Aが講義の内容をよく理解することができた場合には、生徒Aは集中しており教室は静まり返っていると考えられる。この場合、集音された音に含まれる雑音レベルは小さくなる。このような場合、反応推定モデル123は、生徒Aが肯定的な反応を示していると推定する。一方、生徒Aが講義の内容をよく理解することができなかった場合には、生徒Aは集中しておらずザワザワして落ち着きがないと考えられる。この場合、集音された音に含まれる雑音レベルは大きくなる。このような場合、反応推定モデル123は、生徒Aが否定的な反応を示していると推定する。
【0038】
なお、最適化モデル122における学習済モデルは、深層学習モデルを用いて学習されたモデルであっても良い。また、最適化モデル122における学習済モデルは、非深層学習型で非線形の時系列データに対して予測可能なアルゴリズムを使用して学習することで得られるモデルであってもよく、この場合、学習時間を短縮させ、システムの応答のたびに、その時点での最新の情報を使い、AIモデルを作成できる。これにより、リアルタイムで精度の高い予測が可能となる。また、反応推定モデル123における学習済モデルについても同様に、深層学習モデルを用いて学習されたモデルであっても良いし、非深層学習型で非線形の時系列データに対して予測可能なアルゴリズムを使用して学習することで得られるモデルであってもよい。
【0039】
制御部13は、学習装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、例えば、取得部130と、音声評価部131と、反応推定部132と、話術評価部133と、コメント生成部134と、出力部135とを備える。
【0040】
取得部130は、種々の情報を取得する。例えば、取得部130は、マイクMCにより集音された音の音情報を取得する。取得部130は、取得した音情報を、音声評価部131及び反応推定部132に出力する。
【0041】
音声評価部131は、講師Tの音声における特徴を評価する。音声における特徴は、例えば、声の高さ、声の大きさ、話すテンポ、抑揚のつけ方、活舌、論理展開、及びこれらの組合せ等である。音声評価部131は、講師Tの音声を、お手本となる理想音声と比較することによって講師Tの音声における特徴を評価する。お手本となる理想音声とは、例えば、経験が豊かな講師などによる講義がなされた際に集音された音声であり、多くの人間によって良いと評価された音声である。
【0042】
音声評価部131は、まず、取得部130から音情報を取得し、取得した音情報から講師Tが発した音声を抽出する。音声評価部131は、例えば、音を周波数解析することによって講師Tが発した音声を抽出する。
【0043】
例えば、音声における特徴として、声の高さを用いる場合、音声評価部131は、講師Tの音声に周波数解析を行う等して、声の高さに対応する特徴を算出する。音声評価部131は、算出した声の高さに対応する特徴を、最適化モデル122に入力することによって得られる出力を、声の高さの良し悪しを評価した評価結果とする。この場合、最適化モデル122は、声の高さに対応する特徴を入力とし、その声の高さの良し悪しを推定するように学習された学習済モデルである。
【0044】
例えば、音声における特徴として、声の大きさを用いる場合、音声評価部131は、講師Tの音声に対応する電気信号の振幅等に基づいて、声の大きさに対応する特徴を算出する。音声評価部131は、算出した声の大きさに対応する特徴を、最適化モデル122に入力することによって得られる出力を、声の大きさの良し悪しを評価した評価結果とする。この場合、最適化モデル122は、声の大きさに対応する特徴を入力とし、その声の大きさの良し悪しを推定するように学習された学習済モデルである。
【0045】
例えば、音声における特徴として、話すテンポを用いる場合、音声評価部131は、講師Tの音声に基づいて、話すテンポに対応する特徴を算出する。例えば、音声評価部131は、音声分析モデル120を用いて音声を音声認識することによって、講師Tが話した内容をテキスト化する。音声評価部131は、テキスト化した文章を、論理分析モデル121を用いて形態素解析を行い、文章を品詞ごとに分解する。音声評価部131は、文章に含まれる単語やフレーズの数を算出し、算出した数と音声の発声時間とを用いて、話す速度を算出する。音声評価部131は、算出した速度を話すテンポに対応する特徴とする。音声評価部131は、話すテンポに対応する特徴を、最適化モデル122に入力することによって得られる出力を、話すテンポの良し悪しを評価した評価結果とする。この場合、最適化モデル122は、話すテンポに対応する特徴を入力とし、その話すテンポの良し悪しを推定するように学習された学習済モデルである。
【0046】
例えば、音声における特徴として、抑揚を用いる場合、音声評価部131は、講師Tの音声に基づいて、抑揚のつけ方に対応する特徴を算出する。ここでの抑揚は、声の高さ、大きさ、速度、及びこれらの組合せのうち少なくとも1つを含む音声の特性における時系列変化である。
【0047】
例えば、抑揚として、声の高さの時系列変化を用いる場合、音声評価部131は、音声を特定の時間区分(例えば、10分間)に区切り、時間区分ごとに周波数解析を行い、時間区分ごとの声の高さを算出する。音声評価部131は算出した時間区分ごとの声の高さにおける時系列変化を、抑揚のつけ方に対応する特徴とする。音声評価部131は、抑揚のつけ方に対応する特徴を、最適化モデル122に入力することによって得られる出力を、抑揚の良し悪しを評価した評価結果とする。この場合、最適化モデル122は、抑揚のつけ方に対応する特徴を入力とし、その抑揚の良し悪しを推定するように学習された学習済モデルである。抑揚として、他の特性、例えば、声の大きさ、速度等における時系列変化を用いる場合についても同様の方法により評価することが可能である。
【0048】
例えば、音声における特徴として、活舌を用いる場合、音声評価部131は、講師Tの音声に基づいて、活舌に対応する特徴を算出する。例えば、音声評価部131は、音声分析モデル120を用いて音声を音声認識することによって、講師Tが話した内容をテキスト化する。この場合において、音声評価部131は、音声認識において、予測変換を実行する前のテキスト(以下、第1テキスト)と、予測変換を実行した後のテキスト(以下、第2テキスト)の2つのテキストを生成する。ここでの予測変換は、第1テキストの文字列に誤りが含まれる場合などにおいて、辞書などを用いて正しい文字列を予測し、誤りを含む第1テキストを、正しい文字列である第2テキストに変換する処理である。音声評価部131は、第1テキストと第2テキストとを比較した結果を、活舌に対応する特徴として算出する。音声評価部131は、活舌に対応する特徴を、最適化モデル122に入力することによって得られる出力を、活舌の良し悪しを評価した評価結果とする。この場合、最適化モデル122は、活舌に対応する特徴を入力とし、その活舌の良し悪しを推定するように学習された学習済モデルである。
【0049】
例えば、音声認識から得られる文章の論理展開を用いる場合、音声評価部131は、講師Tの音声に基づいて、論理展開に対応する特徴を算出する。例えば、音声評価部131は、音声分析モデル120を用いて音声を音声認識することによって、講師Tが話した内容をテキスト化する。音声評価部131は、論理分析モデル121を用いてテキスト化した文章の論理分析を行う。音声評価部131は、論理分析した結果を、論理展開に対応する特徴とする。音声評価部131は、論理展開に対応する特徴を、最適化モデル122に入力することによって得られる出力を、論理展開の良し悪しを評価した評価結果とする。この場合、最適化モデル122は、論理展開に対応する特徴、つまり論理分析した結果を入力とし、その論理展開の良し悪しを推定するように学習された学習済モデルである。
【0050】
反応推定部132は、生徒Aがいる教室(聴者が存在する空間)において集音された音に基づいて、講師Tが話した内容に対する生徒Aの反応を推定する。反応推定部132は、例えば、取得部130から音情報を取得し、取得した音情報から講師Tが発した音声を除いた音を抽出する。音声評価部131は、例えば、音を周波数解析することによって講師Tが発した音声を抽出し、もとの音の周波数成分から、講師Tの音声として抽出した周波数成分を除算することにより、講師Tが発した音声を除いた音を、聴者音として抽出する。
【0051】
反応推定部132は、このようにして抽出した聴者音に含まれる音声、つまり生徒Aが発した音声に基づいて、生徒Aの反応を推定する。例えば、反応推定部132は、音声を音声認識することによってテキスト化する。反応推定部132は、テキスト化した文章から、論理分析モデル121を用いて単語やフレーズを抽出する。反応推定部132は、抽出した単語やフレーズを、反応推定モデル123に入力することによって得られる出力を、音声から推定される反応とする。この場合、反応推定モデル123は、単語やフレーズと反応とが対応づけられたデータを教師データとして音声に含まれる単語やフレーズに基づいて反応が肯定的なものか否定的なものかを推定するように学習された学習済モデルである。
【0052】
或いは、反応推定部132は、反応推定モデル123は、聴者音に含まれる音声の雑音レベルに基づいて生徒Aの反応を推定するようにしてもよい。この場合、反応推定部132は、音声を、反応推定部132に入力することによって得られる出力を、音声を評価した評価結果とする。この場合、反応推定モデル123は、周波数解析をすることによって、集音された音の雑音レベルを算出し、算出した雑音レベルに応じて反応を推定するモデルである。
【0053】
話術評価部133は、音声評価部131による対象音声における音声を評価した評価結果、及び反応推定部132による対象音声を聴いた生徒Aからの反応を推定した推定結果を用いて、講師Tの話術を評価する。話術評価部133は、例えば、評価結果に基づく点数(以下、第1点数という)、及び推定結果に基づく点数(第2点数という)を算出し、算出した第1点数と第2点数とを合成した総合点数に基づいて講師Tの話術を評価する。話術評価部133は、例えば、話の論理分析、テンポ、抑揚、及び活舌のそれぞれの評価結果に対応する点数に重みづけを行い、重みづけした点数を加算することによって第1点数を決定する。また、話術評価部133は、聴者音に含まれる音声、及び雑音レベルのそれぞれに基づいて推定した反応に対応する点数に重みづけを行い、重みづけした点数を加算することによって第2点数を決定する。話術評価部133は、第1点数と第2点数とを加算した値を講師Tの話術を評価した点数とする。ここで、話術評価部133は、第1点数と第2点数とを加算する際に重みづけ加算を行うようにしてもよい。なお、重みづけを行う場合における重みづけ値は、講師Tが話す内容や、生徒Aの属性などに応じて任意に決定されてよい。
【0054】
コメント生成部134は、講師Tに対するコメントを生成する。コメント生成部134は、音声評価部131による対象音声における音声を評価した評価結果、及び反応推定部132による対象音声を聴いた生徒Aからの反応を推定した推定結果のそれぞれに応じたコメントを生成する。コメント生成部134は、例えば、評価結果に対応するコメントが記憶された音声評価コメントテーブルを用いて、評価結果に応じたコメントを生成する。また、コメント生成部134は、推定結果に対応するコメントが記憶された反応推定コメントテーブルを用いて、推定結果に応じたコメントを生成する。この場合、音声評価コメントテーブル、及び反応推定コメントテーブルは、例えば、記憶部12に記憶されている。また、コメント生成部134は、話術評価部133による講師Tの話術を評価した評価結果に基づくコメントを生成するようにしてもよい。講師Tの話術を評価した評価結果に基づくコメントを生成する方法は、講師Tにおける音声の評価結果等に基づいてコメントを生成する方法と同様の方法を採用することができる。
【0055】
出力部135は、講師Tに対するコメントを、表示端末20に出力する。出力部135は、音声評価部131による音声を評価した評価結果、反応推定部132による反応を推定した推定結果、及び話術評価部133による話術を評価した評価結果を、表示端末20に出力するようにしてもよい。
【0056】
ここで、講師Tの音声を評価する処理について、図3及び図4を用いて説明する。図3は、実施形態の学習装置10が行う処理を説明するための図である。図4は、実施形態の表示端末20に表示される画像の例を示す図である。
【0057】
図3には、講師Tの音声を評価する際に、評価対象とする項目が示されている。図3に示すように、音声評価部131は、講師Tの音声を用いて、話すテンポ、抑揚、活舌、及び論理展開のそれぞれを評価の対象とする。
【0058】
図4には、講師T(Teacher)の音声が評価された評価結果が表示端末20に表示された例が示されている。図4に示すように、表示端末20は、学習装置10から通知された情報に基づく表示を行う。例えば、表示端末20は、講師Tの音声を評価した結果として、講師Tの声の高さ、大きさ、及び話すテンポ等のそれぞれの時系列変化を表示する。また、講師Tの音声評価の結果を、良い(good)から悪い(bad)までを4段階に分けて評価した評価結果を、時系列変化を表示する。また、表示端末20は、「テンポの乱れに注意して授業を進めましょう」とのコメントを表示する。ここで、学習装置10は、講師Tの音声を評価した根拠を、表示端末20に表示させるようにしてもよい。この場合、例えば、学習装置10は、Explainable AI(説明可能なAI)などと称される手法を用いて、モデルに入力したデータが出力に寄与した度合(寄与度)を推定する。例えば、音声評価の結果が良い場合において、その評価にテンポが最も寄与していると推定された場合、学習装置10は、テンポの良さが、評価が良いことの主たる要因である旨を、表示端末20に表示させる。
【0059】
また、表示端末20は、講師Tの音声の特性、ここでは、声の高さ、声の大きさ、及び話すテンポ、における今後の変化を予測した予測結果を表示するようにしてもよい。この場合、学習装置10の音声評価部131は、最適化モデル122を用いて、講師Tの音声の特性における今後の変化を予測する。この場合、最適化モデル122は、学習用音声における特性の時系列変化を学習することによって、入力された音声の時系列変化から今後の特性の変化を推定するように学習された学習済モデルである。
【0060】
ここで、生徒Aの反応を推定する処理について、図5及び図6を用いて説明する。図5は、実施形態の学習装置10が行う処理を説明するための図である。図6は、実施形態の表示端末20に表示される画像の例を示す図である。
【0061】
図5には、生徒Aの反応を推定する際に、反応を推定するための要素とする項目が示されている。図5に示すように、反応推定部132は、聴者音を用いて、雑音レベル、肯定的な内容を発話する音声の回数、及び否定的な内容を発話する音声の回数それぞれを評価の対象とする。
【0062】
また、学習装置10は、生徒Aの様子が撮像された映像、チャットなどで生徒Aが質問などを行った際のログ、生徒Aの脳波や脈拍などの生体情報、及び確認テストの結果などを、反応を推定するための要素としてもよい。
【0063】
例えば、講義がオンラインで行われた場合、オンラインで講義を行うためのデバイス、例えば、生徒Aのノートパソコンに設けられたカメラなどによって撮像された映像を用いて、学習装置10は生徒Aの反応を推定するようにしてもよい。この場合、例えば、学習装置10は、生徒Aがうなずく回数に基づいて反応を推定する。学習装置10は、映像に含まれるフレーム画像に物体認識を行う等して人間の顔部分が撮像された領域を抽出し、抽出した顔部分における時系列変化に基づいて、生徒Aがうなずいたか否かを判定する。例えば、学習装置10は、単位時間当たりにうなずいた回数が特定の閾値以上である場合、肯定的な反応(良い反応)を示していると推定する。一方、反応推定部132は、単位時間当たりにうなずいた回数が特定の閾値未満である場合、否定的な反応(悪い反応)を示していると推定する。
【0064】
また、講義がオンラインで行われた場合、学習装置10は、生徒Aから寄せられたチャットなどのログに基づいて反応を推定する。例えば、学習装置10は、ログにて示された文章に、肯定的な文言が含まれている場合、肯定的な反応(良い反応)を示していると推定する。一方、反応推定部132は、ログにて示された文章に、否定的な文言が含まれている場合、否定的な反応(悪い反応)を示していると推定する。
【0065】
また、学習装置10は、生徒Aが装着したウェアラブルデバイスなどから取得した生徒の生体情報に基づいて、生徒Aの反応を推定するようにしてもよい。この場合、例えば、学習装置10は、生体情報を反応推定モデル123に入力することによって得られる出力を、反応を推定した推定結果とする。この場合、反応推定モデル123は、生体情報と、その生体情報が良い反応を示している度合とが対応づけられたデータを教師データとして生体情報と反応との対応関係を学習することによって、入力された生体情報に対する反応を推定するように学習された学習済モデルである。
【0066】
また、学習装置10は、生徒Aが受けた確認テストの履歴などの結果に基づいて、生徒Aの反応を推定するようにしてもよい。この場合、例えば、学習装置10は、初回に受けら確認テストの結果を基準として、その後、講義が行われた後に受けた確認テストの結果が学力の向上を示しているか否かに応じて生徒Aの反応を推定する。例えば、学習装置10は、講義が行われた後に受けた確認テストの結果が学力の向上を示している場合、生徒が講義をよく理解できたことが示されており、肯定的な反応(良い反応)を示していると推定する。一方、学習装置10は、講義が行われた後に受けた確認テストの結果が学力の低下を示している場合、生徒が講義をよく理解できていないことが示されており、否定的な反応(悪い反応)を示していると推定する。
【0067】
図6には、生徒A(Audience)の反応が推定された推定結果が表示端末20に表示された例が示されている。図6に示すように、表示端末20は、学習装置10から通知された情報に基づく表示を行う。例えば、表示端末20は、生徒Aの反応を推定した結果として、生徒Aの集中力、及びうなずきの回数のそれぞれの時系列変化を表示する。学習装置10は、例えば、生徒Aが肯定的な反応を示している度合を、集中力とする。
【0068】
また、生徒Aの反応を推定した結果を、良い(good)から悪い(bad)までを4段階に分けた結果を、時系列変化を表示する。また、表示端末20は、「うなずきは増加していますが…」とのコメントを表示する。ここで、学習装置10は、生徒Aの反応を推定した根拠を、表示端末20に表示させるようにしてもよい。この場合、講師Tの音声評価時と同様に、学習装置10は、Explainable AI(説明可能なAI)などと称される手法を用いて寄与度を推定する。例えば、生徒Aの反応が良い場合において、集中力が最も寄与していると推定された場合、学習装置10は、集中力の高さが、反応が良いと推定された主たる要因である旨を、表示端末20に表示させる。
【0069】
また、表示端末20は、今後の生徒Aの反応の変化、ここでは、集中力及びうなずき合回数の変化、を予測した予測結果を表示するようにしてもよい。この場合、学習装置10の反応推定部132は、反応推定モデル123を用いて、生徒Aにおける今後の反応の変化を予測する。この場合、反応推定モデル123は、学習用環境音の時系列変化を学習することによって、入力された音の時系列変化から今後の反応の変化を推定するように学習された学習済モデルである。
【0070】
(学習装置10が行う処理について)
ここで、学習装置10が行う処理について、図7を用いて説明する。図7は、実施形態の学習装置10が行う処理の流れを示すフローチャートである。
【0071】
まず、学習装置10は、音声を取得する(ステップS10)。学習装置10は、講師Tが発話した音声、及びその講義を受けている生徒Aがいる空間において集音された聴者音を含む音声を取得する。
【0072】
学習装置10は、ステップS10で取得した音声から、講師Tが発話した音声を対象音声として抽出する(ステップS11)。学習装置10は、対象音声を分析する(ステップS12)。学習装置10は、例えば、対象音声を音声認識することによって、対象音声をテキスト化する。学習装置10は、テキスト化した文章を用いて、話すテンポや抑揚などを音声特徴として抽出する。また、学習装置10は、対象音声を論理分析する(ステップS13)。学習装置10は、対象音声を音声認識することによってテキスト化した文章を用いて、その文章に含まれる特定の表現の出現頻度やその増減、及び複数の表現の関連性やその時系列の変化などを算出することによって、対象音声を論理分析した結果を、音声特徴として抽出する。学習装置10は、対象音声における音声を評価する(ステップS14)。学習装置10は、音声特徴を最適化モデル122に入力することによって得られる出力を、音声を評価した評価結果とする。この場合、最適化モデル122は、音声特徴の良し悪しを評価する学習済モデルである。また、学習装置10は、論理分析の結果を最適化モデル122に入力することによって得られる出力を、論理展開の良し悪しを評価した評価結果とする。この場合、最適化モデル122は、論理分析の結果を基に論理展開の良し悪しを評価する学習済モデルである。
【0073】
また、学習装置10は、ステップS10で取得した音声から、生徒Aが発話した音声を抽出する(ステップS15)。例えば、学習装置10は、ステップS10で取得した音声から、ステップS11で抽出した講師Tの音声を除いた音を、生徒Aが発話した音声を含む聴者音として抽出する。学習装置10は、聴者音に基づいて、生徒Aの反応を推定する(ステップS16)。学習装置10は、聴者音に含まれる音声を音声認識することによってテキスト化した文章から抽出した単語やフレーズを、反応推定モデル123に入力することによって得られる出力を、音声から推定される反応とする。この場合、反応推定モデル123は、音声から抽出した単語やフレーズを基に、反応を推定する学習済モデルである。また、学習装置10は、聴者音に含まれる雑音レベルに基づいての反応を推定するようにしてもよい。
【0074】
学習装置10は、講師Tの話術を評価する(ステップS17)。学習装置10は、ステップS14における講師Tの音声を評価した評価結果、及びステップS16における生徒Aの反応を推定した推定結果の両方を用いて、講師Tの話術を評価する。学習装置10は、コメントを生成し(ステップS18)、生成したコメント等を表示端末20に出力する(ステップS19)。
【0075】
以上説明したように、実施形態の学習装置10は、音声評価部131と反応推定部132と、話術評価部133とを備える。音声評価部131は、対象音声を評価する。対象音声は、講師T(話者)が生徒A(聴者)に対して発した音声である。音声評価部131は、対象音声を、お手本となる理想音声と比較することによって評価する。反応推定部132は、反応情報に基づいて、講師Tが話した内容に対する生徒Aの反応を推定する。反応情報は、講師Tが話した内容に対する生徒Aの反応を示す情報である。反応情報は、例えば、聴者音である。聴者音は、生徒Aが存在する空間において集音された音である。反応情報として、生徒Aの様子が撮像された映像、チャットなどで生徒Aが質問などを行った際のログ、生徒Aの脳波や脈拍などの生体情報、及び確認テストの結果などが用いられてもよい。話術評価部133は、音声評価部131による対象音声の評価結果、及び、反応推定部132による反応の推定結果を用いて、講師Tの話術を評価する。
【0076】
これにより、実施形態の学習装置10では、講師Tがお手本通りに講義を行ったかだけではなく、講義を聴講している生徒Aの反応を考慮して、講師Tの話術を評価することができる。したがって、講師Tは、生徒Aの反応を把握することができ、どの様に講義を行えば反応が良くなるかを試行錯誤する等して相手の反応に対応するスキルを向上させることができる。
【0077】
また、実施形態の学習装置10では、音声評価部131は、最適化モデル122を用いて、対象音声における音声特徴を評価する。音声特徴は、例えば、声の高さ、声の大きさ、話すテンポ(速度)、抑揚のつけ方、活舌、論理展開、及びこれらの組合せ等のうち少なくとも何れか1つである。最適化モデル122は、学習用音声における音声特徴と、その音声特徴を評価した評価結果とが対応づけられた教師データを用いて、入力された音声における音声特徴の良し悪しを推定するように学習された学習済モデルである。これにより、実施形態の学習装置10では、学習済モデルを用いて対象音声における音声特徴を評価することができ、学習済モデルに情報を入力するという簡単な方法で対象音声の音声特徴を評価することができる。
【0078】
また、実施形態の学習装置10では、音声評価部131は、音声における話の論理展開に対応する特徴を音声特徴として、最適化モデル122を用いて、対象音声における話の論理展開の良し悪しを評価する。この場合、最適化モデル122は、学習用音声を音声認識して得られる文を論理分析した結果と、その論理分析した結果に基づいて論理展開の良し悪しを評価した評価結果とが対応づけられた教師データを学習することによって、入力された論理分析の結果に基づいて論理展開の良し悪しを推定するように学習されたモデルである。これにより、実施形態の学習装置10では、対象音声に対応する講義における論理展開の良し悪しを評価することができる。
【0079】
また、実施形態の学習装置10では、音声評価部131は、音声における話すテンポに対応する特徴を音声特徴として、最適化モデル122を用いて、対象音声における話すテンポの良し悪しを評価する。この場合、最適化モデル122は、音声評価部131は、最適化モデル122を用いて、対象音声における話すテンポの良し悪しを評価する。音声評価部131は、学習用音声における話すテンポに対応する特徴と、その話すテンポを評価した評価結果とが対応づけられた教師データを学習することによって、入力されたテンポを示す特徴に基づいて、そのテンポの良し悪しを推定するように学習されたモデルである。これにより、実施形態の学習装置10では、対象音声に対応する講義における話のテンポの良し悪しを評価することができる。
【0080】
また、実施形態の学習装置10では、音声評価部131は、音声における話の抑揚に対応する特徴を音声特徴として、最適化モデル122を用いて、対象音声における話の抑揚の良し悪しを評価する。この場合、最適化モデル122は、学習用音声における話の抑揚に対応する特徴と、その抑揚を評価した評価結果とが対応づけられた教師データを用いて、入力された音声における話の抑揚に対する評価を推定するように学習されたモデルである。これにより、実施形態の学習装置10では、対象音声に対応する講義における抑揚のつけ方が適切であるか否かに応じた評価を行うことができる。
【0081】
また、実施形態の学習装置10では、反応推定部132は、聴者音に含まれる音声を音声認識することによって生徒Aが発した文言を抽出し、抽出した文言の内容に基づいて、反応を推定する。これにより、実施形態の学習装置10では、生徒Aが発した単語やフレーズに応じて反応を推定することができる。
【0082】
また、実施形態の学習装置10では、反応推定部132は、聴者音を周波数解析することによって聴者音に含まれる雑音レベルを算出し、算出した雑音レベルに基づいて反応を推定する。これにより、実施形態の学習装置10では、生徒Aにより明確発話がなされていない場合であっても、教室全体がザワザワしているような落ち着かない集中力を欠いた度合に応じて反応を推定することができる。
【0083】
上述した実施形態における学習システム1及び学習装置10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0084】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0085】
1…学習システム
10…学習装置
130…取得部
131…音声評価部
132…反応推定部
133…話術評価部
134…コメント生成部
135…出力部
20…表示端末
図1
図2
図3
図4
図5
図6
図7