IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-130646情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130646
(43)【公開日】2024-09-30
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   H04N 21/258 20110101AFI20240920BHJP
   G06Q 50/10 20120101ALI20240920BHJP
【FI】
H04N21/258
G06Q50/10
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023040495
(22)【出願日】2023-03-15
(11)【特許番号】
(45)【特許公報発行日】2024-09-18
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】坪内 孝太
【テーマコード(参考)】
5C164
5L049
5L050
【Fターム(参考)】
5C164FA10
5C164SC11P
5C164UA45S
5C164UC01S
5C164YA12
5C164YA21
5L049CC11
5L050CC11
(57)【要約】
【課題】コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供すること。
【解決手段】本開示に係る情報処理装置は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備える。
【選択図】図3
【特許請求の範囲】
【請求項1】
コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、
コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、
発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、
利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備え、
前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理装置。
【請求項2】
理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させる出力部と、をさらに備える、
請求項1に記載の情報処理装置。
【請求項3】
コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、
利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、を含み、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理方法。
【請求項4】
コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、
利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定すること、
をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
ビデオ会議システムのよるオンラインミーティングの利用が普及してきている。オンラインミーティングは、遠隔地であっても遠距離の移動を行うことなく会議を開催できるメリットがあるなど利便性が高い反面、会議の参加者のしぐさや存在を五感によって感じることができないことから、他の参加者が自身の発言を理解しているか把握することが難しいという課題があった。
【0003】
例えば、下記の特許文献1には、各参加者よりその活動状態が反映された信号を取得し、当該信号より活動状態を表す特徴量を時系列で取得する個人特徴量取得部と、コミュニケーションにおける発言に基づき、当該コミュニケーションの難易度を時系列で推定する難易度推定部と、取得された特徴量と推定された難易度とに基づき、各参加者のコミュニケーションにおける理解状態を時系列で推定する個人推定部と、を備える理解状態推定装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016-213631号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の理解状態推定装置は、会議の参加者の理解度を推定することができるものの会議の参加者の発言ごとの理解度を推定することができなかった。
【0006】
本開示は上記課題を鑑み、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本開示に係る情報処理装置は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備え、前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。
【発明の効果】
【0008】
本開示によれば、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することができる。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る情報処理の一例を示す図である。
図2図2は、実施形態に係る情報処理システムの構成例を示す図である。
図3図3は、実施形態に係る情報処理装置の構成例を示す図である。
図4図4は、実施形態に係る情報処理装置のセンサデータ記憶部に記憶される情報の一例を示す図である。
図5図5は、実施形態に係る情報処理装置のモデル記憶部に記憶される情報の一例を示す図である。
図6図6は、実施形態に係る情報処理装置の発話音声記憶部に記憶される情報の一例を示す図である。
図7図7は、実施形態に係る利用者端末の構成例を示す図である。
図8図8は、実施形態に係る情報処理の一例を示すフローチャートである。
図9図9は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。
【0011】
(実施形態)
〔1.実施形態に係る情報処理〕
〔1-1.実施形態に係る情報処理の一例〕
まず、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1では、実施形態に係る情報処理が情報処理装置100、利用者端末200により実行される例を示す。以下、実施形態に係る情報処理についてステップごとに順を追って説明する。
【0012】
まず、情報処理装置100は、利用者端末200にコンテンツを提供する(ステップS1)。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、情報処理装置100は、利用者端末200に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。
【0013】
次に、情報処理装置100は、利用者端末200からコンテンツ視聴時の利用者の状態を示すセンサデータを取得する(ステップS2)。例えば、情報処理装置100は、センサデータとして、利用者端末200のジャイロセンサによって計測された利用者のコンテンツ視聴時の頭の動きを角速度によって表した計測データを取得してよい。また、情報処理装置100は、センサデータとして、利用者端末200の加速度センサによって計測された利用者のコンテンツ視聴時の頭の動きを加速度によって表した計測データを取得してもよい。また、情報処理装置100は、センサデータとして、利用者端末200のカメラによって撮像された利用者の表情を示す画像データを取得してもよい。なお、センサデータは、計測された時期を含む情報であってよい。
【0014】
次に、情報処理装置100は、コンテンツにおける発話音声を抽出する(ステップS3)。例えば、情報処理装置100は、コンテンツがオンラインミーティングである場合であれば、利用者端末200ごとに収音された音声データに基づいて、音声認識処理を実行することによって、利用者の発話ごとに発話音声を抽出してよい。また、情報処理装置100は、利用者端末200に紐付けられた利用者IDに紐付けて、コンテンツにおける発話音声として抽出してよい。なお、情報処理装置100は、コンテンツから発話音声を抽出するときに、同時に当該の発話音声が発せられた時刻を示す発話タイミングを抽出して、発話者IDに紐付けられる発話音声に紐づけて、後述して説明する発話音声記憶部123に記憶する。
【0015】
次に、情報処理装置100は、発話音声に対応するセンサデータに基づいて、利用者の理解度を推定する(ステップS4)。例えば、情報処理装置100は、発話音声ごとに発話タイミングに対応するセンサデータの値を抽出して、抽出されたセンサデータに基づいて、利用者の理解度を推定する。具体的には、情報処理装置100は、センサデータの値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。すなわち、この場合の学習済みモデルは、利用者のコンテンツ視聴の後に、発話音声ごとに利用者に対して理解度を質問して、利用者から得られた回答についての情報を学習用データとして与えられたものであってよい。学習に用いるモデルは、例えば、DNN(Deep Neural Network)であってよい。なお、この場合の利用者の理解度に関する質問は、例えば、利用者の理解度を高い順から順番に五段階によって表現された選択肢のうちの一つを選択する質問であってよい。なお、理解度の表現形式は、五段階による表現に限定されることなく、所定の数値を満点とする数値の大小によって表現される形式であってもよく、任意に設定してよい。
【0016】
次に、情報処理装置100は、コンテンツを視聴した利用者ごとに発話音声ごとの利用者の理解度を一覧表にしたテーブル(以下では、理解度テーブルという)を生成する(ステップS5)。例えば、情報処理装置100は、図1に示す理解度テーブルTBのように、発話音声に対して、理解度を対応付けた一覧表を生成してよい。図1に示す理解度テーブルTBは、利用者Uの発話音声ごとの理解度を一覧表として示すものである。例えば、理解度テーブルTBには、発話音声A,発話音声Bに対して、それぞれ理解度A,理解度Bが対応付けられて記憶されていることが示されている。情報処理装置100は、このような態様の理解度テーブルを生成してよい。なお、情報処理装置100は、利用者Uの理解度テーブルTBだけではなく、コンテンツを視聴した利用者ごとに、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成する。
【0017】
次に、情報処理装置100は、生成された理解度テーブルを利用者端末200に出力する(ステップS6)。例えば、情報処理装置100は、利用者端末200に理解度テーブルを表示させることによって、利用者端末200に出力してよい。なお、利用者端末200に表示される理解度テーブルは、コンテンツを視聴した利用者ごとに、別々の理解度テーブルを重ねて表示して、利用者が一番上に配置された理解度テーブルに対してスライド操作を行うことによって、その下に配置された次の利用者の理解度テーブルを表示する態様によって、利用者端末200に出力してもよい。
【0018】
これによれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置100を提供することができる。
【0019】
〔1-2.実施形態に係る情報処理の他の例〕
情報処理装置100が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。
【0020】
この情報処理について順を追って説明する。まず、情報処理装置100は、図1に示したステップS1と同じ処理を実行する。ステップS1は、上述した処理と同じであるから説明を省略する。
【0021】
次に、情報処理装置100は、コンテンツ視聴時の利用者Uのセンサデータとして、加速度センサにより計測された利用者Uの頭の動きの加速度と、ジャイロセンサにより計測された利用者Uの頭の動きの角速度を取得する(ステップS2-1)。例えば、情報処理装置100は、利用者端末200に備えられた加速度センサにより計測された利用者のUの頭の動きの加速度と、ジャイロセンサにより計測された利用者Uの頭の動きの角速度を取得してよい。なお、利用者の頭の動きの加速度は、X軸、Y軸、及びZ軸に対応する加速度の値を含んでいていてよい。また、利用者の頭の動きの角速度は、ヨー軸、ピッチ軸、及びロール軸の三軸に対応する角速度の値を含んでいてよい。
【0022】
次に、情報処理装置100は、図1に示したステップS3と同じ処理を実行する。ステップS3は、上述した処理と同じであるから説明を省略する。
【0023】
次に、情報処理装置100は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する(ステップS4-1)。例えば、情報処理装置100は、発話音声ごとに発話タイミングに対応する加速度と角速度の値を抽出して、抽出された加速度と角速度の値に基づいて、利用者の理解度を推定する。具体的には、情報処理装置100は、加速度と角速度の値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。なお、学習に用いるモデルは、例えば、DNNであってよい。
【0024】
次に、情報処理装置100は、図1に示したステップS5、及びS6と同じ処理を実行する。ステップS5、及びS6は、上述した処理と同じであるから説明を省略する。
【0025】
これによれば、コンテンツ視聴時の利用者の頭の動きの加速度と角速度に基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置100を提供することができる。
【0026】
〔1-3.実施形態に係る情報処理の他の例〕
情報処理装置100は、理解度が所定の閾値を下回る発話音声について、利用者端末200に対して、繰り返して当該発話音声を出力させる。
【0027】
この情報処理について順を追って説明する。まず、情報処理装置100は、図1に示したステップS1からS5と同じ処理を実行する。ステップS1からS5は、上述した処理と同じであるから説明を省略する。
【0028】
次に、情報処理装置100は、理解度が所定の閾値を下回る発話音声について、利用者端末200に対して、繰り返して当該発話音声を出力させる(ステップS6-1)。例えば、情報処理装置100は、ステップS4において推定された利用者Uの理解度が所定の閾値を下回る(例えば、理解度を五段階によって表現する場合であれば、最も低い一段階に該当する場合)発話音声を特定する。例えば、図1に示す利用者Uの理解度テーブルTBに示される発話音声Aの利用者Uの理解度が最も低い一段階に該当したとする。この場合、情報処理装置100は、利用者Uの利用者端末200に発話音声Aを繰り返して出力させる。なお、この場合の発話音声Aの繰り返しの回数は、任意の回数であってよい。また、情報処理装置100は、理解度が所定の閾値を下回る発話音声の繰り返しの出力に加えて、上述して説明したステップS6における理解度テーブルTBの出力を行ってよい。
【0029】
これによれば、利用者の理解度が所定の閾値を下回る発話音声を、当該の利用者の利用者端末200に繰り返して出力させることができる。そのため、利用者の理解度を高めることに寄与することができる。
【0030】
〔2.情報処理システムの構成〕
次に、図2を用いて実施形態に係る情報処理システムの構成について説明する。図2は、実施形態に係る情報処理システムの構成例を示す図である。図2に示すように、実施形態に係る情報処理システム1は、情報処理装置100と、利用者端末200と、ネットワークNを有する。以下、これらの構成について簡単に順を追って説明する。
【0031】
情報処理装置100は、例えばPC(Personal Computer)、WS(Work Station)、サーバの機能を備えるコンピュータなどの情報処理装置であってよい。情報処理装置100は、例えば、利用者端末200からネットワークNを介して送信されてきた情報に基づいて処理を行う。
【0032】
利用者端末200は、利用者が利用する情報処理装置である。利用者端末200は、例えば、ノート型PC、デスクトップ型PC、スマートフォン、タブレット型端末、携帯電話機、PDA(Personal Digital Assistant)等の情報処理装置であってよい。なお、図1に示す例においては、利用者端末200がノート型PCである場合を示している。
【0033】
ネットワークNは、情報処理装置100と、利用者端末200を有線、又は無線により相互に通信可能に接続する。ネットワークNが有線の場合は、IEEE802.3に規定されるイーサネット(登録商標)(ETHERNET(登録商標))により実現されてよい。また、ネットワークNが無線の場合は、IEEE802.11に規定される無線LAN(Local Area Network)により実現されてよい。
【0034】
〔3.情報処理装置の構成〕
次に、図3を用いて、情報処理装置100の構成について説明する。
【0035】
図3は、実施形態に係る情報処理装置の構成例を示す図である。図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130と、を有する。
【0036】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)、無線LAN(Local Area Network)カード等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、利用者端末200などとの間で情報の送受信を行う。
【0037】
(記憶部120について)
記憶部120は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部130が実行するプログラム、あるいは制御部130が処理するデータを記憶する。主記憶装置は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部130が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやSSD(Solid State Drive)、磁気テープ、光ディスク等によって実現されてよい。
【0038】
図3に示すように、記憶部120は、センサデータ記憶部121と、モデル記憶部122と、発話音声記憶部123と、を有する。以下、これらの構成について順を追って説明する。
【0039】
(センサデータ記憶部121について)
センサデータ記憶部121は、センサデータに関係する情報を記憶する。ここで、図4を用いて、センサデータ記憶部121が記憶する情報の一例を説明する。図4は、実施形態に係る情報処理装置のセンサデータ記憶部に記憶される情報の一例を示す図である。
【0040】
図4に示す例において、センサデータ記憶部121は、「利用者ID」、「センサデータ」という項目に係る情報を紐付けて記憶する。
【0041】
「利用者ID」は、利用者を識別する識別子であり、文字列や番号などによって表される。「センサデータ」は、「利用者ID」に紐付けられた利用者端末200から取得したセンサデータに関する情報であり、例えば、角速度や、加速度、画像データなどのデータと、それらの計測日時を含む。
【0042】
すなわち、図4においては、利用者ID「UID#1」により識別される利用者の利用者端末200から取得されたセンサデータ「SNDT#1」が記憶されていることを示している。
【0043】
なお、センサデータ記憶部121に記憶される情報は、「利用者ID」、「センサデータ」という項目に係る情報に限定されるものではなく、その他の任意のセンサデータに関係する情報が記憶されてよい。
【0044】
(モデル記憶部122について)
モデル記憶部122は、利用者の理解度を推定するモデルに関係する情報を記憶する。ここで、図5を用いて、モデル記憶部122が記憶する情報の一例を説明する。図5は、実施形態に係る情報処理装置のモデル記憶部に記憶される情報の一例を示す図である。
【0045】
図5に示す例において、モデル記憶部122は、「モデルID」、「モデルデータ」という項目に係る情報を紐付けて記憶する。
【0046】
「モデルID」は、モデルを識別する識別子であり、文字列や番号によって表される。「モデルデータ」は、モデルルのモデルデータを示す。例えば、モデルは、ニューラルネットワークなどであってよい。
【0047】
すなわち、図5において、モデルID「M#1」で識別されるモデルは、モデルM#1を示す。また、モデルデータ「MDT#1」は、モデルM#1のモデルデータを示す。
【0048】
ここで、モデルがニューラルネットワークである場合は、モデルデータ「MDT#1」には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるノードが互いにどのように結合するかという結合情報や、結合されたノード間で入出力される数値に掛け合わされる結合係数などの各種情報が含まれる。
【0049】
なお、モデル記憶部122に記憶される情報は、「モデルID」、「モデルデータ」という項目に係る情報に限定されるものではなく、その他の任意のモデルに関係する情報が記憶されてよい。
【0050】
(発話音声記憶部123について)
発話音声記憶部123は、発話音声に関係する情報を記憶する。ここで、図6を用いて、発話音声記憶部123が記憶する情報の一例を説明する。図6は、実施形態に係る情報処理装置の発話音声記憶部に記憶される情報の一例を示す図である。
【0051】
図6に示す例において、発話音声記憶部123は、「コンテンツID」、「発話音声データ」という項目に係る情報を紐付けて記憶する。なお、「発話音声データ」には、「発話者ID」、「発話タイミング」、「発話音声」という項目に係る情報を紐付けて記憶する。
【0052】
「コンテンツID」は、コンテンツを識別する識別子であり、文字列や番号などによって表される。「発話音声音声データ」は、「コンテンツID」により識別されるコンテンツに含まれる発話音声に関するデータであり、「発話者ID」、「発話タイミング」、「発話音声」を含む。「発話者ID」は、発明者を識別する識別子であり、文字列や番号などによって表される。「発話タイミング」は、発話者IDにより識別される発話者が発話したタイミングを示す情報であり、時刻などの数値や、コンテンツが所定の長さを有する動画であれば、所定の長さにおける所定の位置などによって表されてよい。「発話音声」は、「発話者ID」により識別される発話の「発話タイミング」により示されるタイミングで発話された音声データを示す。
【0053】
すなわち、図6においては、コンテンツID「CTID#1」により識別されるコンテンツの発話音声データとして、発話者ID「UID#1」、及び「UID#2」のそれぞれの発話タイミング「TM#1-1-1」、及び「TM#1-1-2」、並びに「TM#2-1-1」、及び「TM#2-1-2」における発話音声として、それぞれ発話音声「SD#1-1-1」、及び「SD#1-1-2」、並びに「SD#2-1-1」、及び「SD#2-1-2」が記憶されていることを示している。
【0054】
発話音声記憶部123に記憶される情報は、「コンテンツID」と、「発話者ID」、「発話タイミング」、「発話音声」という項目を含む「発話音声データ」という項目に係る情報に限定されるものではなく、その他の任意の発話音声に関係する情報が記憶されてよい。
【0055】
(制御部130について)
次に、図3に戻って、制御部130について説明する。制御部130は、情報処理装置100を制御するコントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100の記憶部120に記憶されている各種プログラムを読み出して、RAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array))等の集積回路により実現されてもよい。
【0056】
制御部130は、図3に示すように、提供部131と、取得部132と、抽出部133と、推定部134と、生成部135と、出力部136を有する。制御部130は、記憶部120からプログラムを読み出して、RAMを作業領域として実行することで、これらの機能を実現して、以下に説明する情報処理の機能や作用を実現または実行する。以下、これらの処理を、順を追って説明する。
【0057】
(提供部131について)
提供部131は、利用者端末200にコンテンツを提供する。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、提供部131は、利用者端末200に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。
【0058】
(取得部132について)
取得部132は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する。例えば、取得部132は、センサデータとして、利用者端末200のジャイロセンサによって計測された利用者のコンテンツ視聴時の頭の動きを角速度によって表した計測データを取得してよい。また、取得部132は、センサデータとして、利用者端末200の加速度センサによって計測された利用者のコンテンツ視聴時の頭の動きを加速度によって表した計測データを取得してもよい。また、取得部132は、センサデータとして、利用者端末200のカメラによって撮像された利用者の表情を示す画像データを取得してもよい。なお、センサデータは、計測された時期を含む情報であってよい。
【0059】
(抽出部133について)
抽出部133は、コンテンツに登場する人物ごとの発話音声を抽出する。例えば、抽出部133は、コンテンツがオンラインミーティングである場合であれば、利用者端末200ごとに収音された音声データに基づいて、音声認識処理を実行することによって、発話ごとに発話音声を抽出してよい。また、抽出部133は、利用者端末200に紐付けられた利用者IDに紐付けて、コンテンツにおける発話音声として抽出してよい。なお、抽出部133は、コンテンツから発話音声を抽出するときに、同時に当該の発話音声が発せられた時刻を示す発話タイミングを抽出して、発話者IDに紐付けられる発話音声に紐づけて、発話音声記憶部123に記憶する。
【0060】
(推定部134について)
推定部134は、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する。例えば、推定部134は、発話音声ごとに発話タイミングに対応するセンサデータの値を抽出して、抽出されたセンサデータに基づいて、利用者の理解度を推定する。具体的には、推定部134は、センサデータの値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。すなわち、この場合の学習済みモデルは、コンテンツ視聴の後に、発話音声ごとに利用者に対して理解度を質問して、利用者から得られた回答についての情報を学習用データとして与えられたものであってよい。なお、この場合の利用者の理解度に関する質問は、例えば、利用者の理解度を高い順から順番に五段階によって表現された選択肢のうちの一つを選択する質問であってよい。なお、理解度の表現形式は、五段階による表現に限定されることなく、所定の数値を満点とする数値の大小によって表現される形式であってもよく、任意に設定してよい。
【0061】
また、推定部134は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。例えば、推定部134は、発話音声ごとに発話タイミングに対応する加速度と角速度の値を抽出して、抽出された加速度と角速度の値に基づいて、利用者の理解度を推定する。具体的には、推定部134は、加速度と角速度の値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。
【0062】
(生成部135について)
生成部135は、利用者ごとに人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する。例えば、生成部135は、図1に示す理解度テーブルTBのように、発話音声に対して、理解度を対応付けた一覧表を生成してよい。図1に示す理解度テーブルTBは、利用者Uの発話音声ごとの理解度を一覧表として示すものである。例えば、理解度テーブルTBには、発話音声A,発話音声Bに対して、それぞれ理解度A,理解度Bが対応付けられて記憶されていることが示されている。生成部135は、このような態様の理解度テーブルを生成してよい。なお、生成部135は、利用者Uの理解度テーブルTBだけではなく、コンテンツを視聴した利用者ごとに、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成する。
【0063】
(出力部136について)
出力部136は、利用者端末200に対して各種の情報を出力する。例えば、出力部136は、理解度テーブルを利用者端末200に対して出力する。例えば、出力部136は、利用者端末200に理解度テーブルを表示させることによって、利用者端末200に出力してよい。なお、利用者端末200に表示される理解度テーブルは、コンテンツを視聴した利用者ごとに、別々の理解度テーブルを重ねて表示して、利用者が一番上に配置された理解度テーブルに対してスライド操作を行うことによって、その下に配置された次の利用者の理解度テーブルを表示する態様によって、利用者端末200に出力してもよい。
【0064】
また、出力部136は、理解度が所定の閾値を下回る発話音声について、利用者端末200に対して、繰り返して当該発話音声を出力させる。例えば、出力部136は、推定部134によって推定された利用者の理解度が所定の閾値を下回る(例えば、理解度を五段階によって表現する場合であれば、最も低い一段階に該当する場合)発話音声を特定する。そして、出力部136は、利用者端末200に特定した発話音声を繰り返して出力させる。なお、この場合の発話音声の繰り返しの回数は、任意の回数であってよい。また、出力部136は、理解度が所定の閾値を下回る発話音声の繰り返しの出力に加えて、上述して理解度テーブルの出力を行ってもよい。
【0065】
〔4.利用者端末の構成〕
次に、図7を用いて、実施形態に係る利用者端末200の構成について説明する。図7は、実施形態に係る利用者端末の構成例を示す図である。図7に示すように、利用者端末200は、通信部210と、記憶部220と、入力部230と、出力部240と、センサ部250と、制御部260と、を有する。
【0066】
通信部210は、例えば、NIC、無線LANカード等によって実現される。そして、通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100との間で各種の情報の送受信を行う。
【0067】
記憶部220は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部260が実行するプログラム、あるいは制御部260が処理するデータを記憶する。主記憶装置は、例えば、RAM、ROM、フラッシュメモリ等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部260が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやSSD、磁気テープ、光ディスク等によって実現されてよい。
【0068】
入力部230は、利用者から各種の操作情報が入力される。例えば、入力部230は、タッチパネルにより表示面(例えば出力部240)を介して利用者からの各種操作を受け付けてもよい。また、入力部230は、利用者端末200に設けられたボタンや、利用者端末200に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0069】
出力部240は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット型端末等の表示画面であり、各種情報を表示するための表示装置である。つまり、利用者端末200は、入力部230がタッチパネルである場合は、出力部240である表示画面により利用者の入力を受け付け、利用者への出力も行う。また、出力部240は、スピーカーであってもよく、スピーカーにより音声を出力してよい。
【0070】
センサ部250は、利用者の状態を示すセンサデータを計測する。以下に、センサ部250の具体的な態様について説明する。
【0071】
センサ部250は、ジャイロセンサであってよい。ジャイロセンサは、可動電極に一方向に振動する一次振動を発生させておき、可動電極に回転が加わると振動方向と90°の方向にコリオリの力が働くことにより二次振動が発生し、静電容量の変化が生じるため、これを検出する静電容量型MEMS(Micro Electro Mechanical Systems)ジャイロセンサであってよい。なお、静電容量の変化と可動電極の振動位相とにより角速度を求めることができる。なお、ジャイロセンサは、ヨー軸、ピッチ軸、及びロール軸の三軸の角速度を計測してよい。
【0072】
センサ部250は、加速度センサであってもよい。加速度センサは、例えば、MEMSにより可動電極と固定電極を作り、可動電極が動くことによる静電容量の変化と加速度の関係を用いて加速度を計測する静電容量式の加速度センサであってよい。なお、加速度センサは、X軸、Y軸、及びZ軸の三軸の加速度を計測してよい。
【0073】
センサ部250は、三軸ジャイロセンサと、三軸加速度センサと、三軸磁気センサを組み合わせた9DoF(Degree of Freedom)のIMU(Inertial Measurement Unit)であってもよい。
【0074】
センサ部250は、カメラであってもよい。カメラは、光学素子と撮像素子を含む。光学素子は、例えばレンズ、ミラー、プリズム、フィルタなどの光学系を構成する素子である。撮像素子は、光学素子を通して入射した光を電気信号である画像信号に変換する素子である。なお、撮像素子は、例えば、CCD(Charge Coupled Device)センサや、CMOS(Complementary Metal Oxide Semiconductor)センサなどであってよい。
【0075】
制御部260は、例えば、CPUやMPU等によって、利用者端末200に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部260は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
【0076】
図7に示すように、制御部260は、受付部261と、提供部262と、を有する。
【0077】
受付部261は、利用者の操作を受け付ける。例えば、受付部261は、コンテンツに対する利用者の操作を受け付ける。受付部261は、出力部240のタッチパネルを介して、利用者の操作を受け付けてよく、例えば、コンテンツに対するスワイプ操作や、ドラッグ操作、フリック操作などを受け付けてよい。
【0078】
提供部262は、利用者に対してコンテンツを提供する。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、提供部262は、出力部240に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。
【0079】
〔5.情報処理のフロー〕
次に、図8を用いて、実施形態に係る情報処理の手順について説明する。図8は、実施形態に係る情報処理の一例を示すフローチャートである。以下、図8に示すフローチャートに沿って、実施形態に係る情報処理の手順について説明する。
【0080】
まず、情報処理装置100は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する(ステップS101)。次に、情報処理装置100は、コンテンツに登場する人物ごとの発話音声を抽出する(ステップS102)。そして、情報処理装置100は、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する(ステップS103)。そして、情報処理装置100は、利用者ごとに登場人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する(ステップS104)。
【0081】
これによれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理方法、及び情報処理プログラムを提供することができる。
【0082】
〔6.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100は、例えば図9に示すような構成のコンピュータ1000によって実現される。図9は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0083】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが記憶される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
【0084】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0085】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0086】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0087】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0088】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、情報処理装置100の制御部130の機能を実現する。
【0089】
〔7.構成と効果〕
本開示に係る情報処理装置100は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部132と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部133と、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部134と、利用者ごとに人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部135と、を備え、取得部132が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、推定部134は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。
【0090】
この構成によれば、コンテンツ視聴時の利用者の頭の動きの加速度と角速度に基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置100を提供することができる。
【0091】
本開示に係る情報処理装置100は、理解度が所定の閾値を下回る発話音声について、利用者端末200に対して、繰り返して当該発話音声を出力させる出力部136と、をさらに備える。
【0092】
この構成によれば、利用者の理解度が所定の閾値を下回る発話音声を、当該の利用者の利用者端末200に繰り返して出力させることができる。そのため、利用者の理解度を高めることに寄与することができる。
【0093】
本開示に係る情報処理方法は、コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、コンテンツから利用者ごとの発話音声を抽出するステップと、発話音声のタイミングに対応するセンサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、を含む。
【0094】
この構成によれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理方法を提供することができる。
【0095】
本開示に係る情報処理プログラムは、コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、コンテンツから利用者ごとの発話音声を抽出するステップと、発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、をコンピュータに実行させる。
【0096】
この構成によれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理プログラムを提供することができる。
【0097】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0098】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、提供部131は、提供手段や提供回路に読み替えることができる。
【符号の説明】
【0099】
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
121 センサデータ記憶部
122 モデル記憶部
123 発話音声記憶部
130 制御部
131 提供部
132 取得部
133 抽出部
134 推定部
135 生成部
136 出力部
200 利用者端末
210 通信部
220 記憶部
230 入力部
240 出力部
250 センサ部
260 制御部
261 受付部
262 提供部
N ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2024-06-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、
コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定する推定部と、
利用者ごとの前記理解度を一覧表にしたテーブルを生成する生成部と、
前記理解度が所定の閾値下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させる出力部と、を備え、
前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理装置。
【請求項2】
情報処理装置で実行される情報処理方法であって、
コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定するステップと、
利用者ごとの前記理解度を一覧表にしたテーブルを生成するステップと、
前記理解度が所定の閾値下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させるステップと、を含み、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理方法。
【請求項3】
コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定するステップと、
利用者ごとの前記理解度を一覧表にしたテーブルを生成するステップと、
前記理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させるステップと、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定すること、
をコンピュータに実行させる情報処理プログラム。