特開2024-130646 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤフー株式会社の特許一覧

特開2024-130646情報処理装置、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130646

(43)【公開日】2024-09-30

(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

H04N 21/258 20110101AFI20240920BHJP

G06Q 50/10 20120101ALI20240920BHJP

【ＦＩ】

H04N21/258

G06Q50/10

【審査請求】有

【請求項の数】3

【出願形態】ＯＬ

(21)【出願番号】P 2023040495

(22)【出願日】2023-03-15

(11)【特許番号】

(45)【特許公報発行日】2024-09-18

(71)【出願人】

【識別番号】500257300

【氏名又は名称】ＬＩＮＥヤフー株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】坪内孝太

【テーマコード（参考）】

5C164

5L049

5L050

【Ｆターム（参考）】

5C164FA10

5C164SC11P

5C164UA45S

5C164UC01S

5C164YA12

5C164YA21

5L049CC11

5L050CC11

(57)【要約】

【課題】コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供すること。
【解決手段】本開示に係る情報処理装置は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備える。
【選択図】図３

【特許請求の範囲】

【請求項1】

コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、
コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、
発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、
利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備え、
前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理装置。

【請求項2】

理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させる出力部と、をさらに備える、
請求項１に記載の情報処理装置。

【請求項3】

コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、
利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、を含み、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理方法。

【請求項4】

コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、
利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定すること、
をコンピュータに実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

ビデオ会議システムのよるオンラインミーティングの利用が普及してきている。オンラインミーティングは、遠隔地であっても遠距離の移動を行うことなく会議を開催できるメリットがあるなど利便性が高い反面、会議の参加者のしぐさや存在を五感によって感じることができないことから、他の参加者が自身の発言を理解しているか把握することが難しいという課題があった。

【0003】

例えば、下記の特許文献１には、各参加者よりその活動状態が反映された信号を取得し、当該信号より活動状態を表す特徴量を時系列で取得する個人特徴量取得部と、コミュニケーションにおける発言に基づき、当該コミュニケーションの難易度を時系列で推定する難易度推定部と、取得された特徴量と推定された難易度とに基づき、各参加者のコミュニケーションにおける理解状態を時系列で推定する個人推定部と、を備える理解状態推定装置が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１６－２１３６３１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に記載の理解状態推定装置は、会議の参加者の理解度を推定することができるものの会議の参加者の発言ごとの理解度を推定することができなかった。

【0006】

本開示は上記課題を鑑み、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上述した課題を解決し、目的を達成するために、本開示に係る情報処理装置は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、発話音声のタイミングに対応する前記センサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部と、利用者ごとに前記人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部と、を備え、前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。

【発明の効果】

【0008】

本開示によれば、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施形態に係る情報処理の一例を示す図である。

【図2】図２は、実施形態に係る情報処理システムの構成例を示す図である。

【図3】図３は、実施形態に係る情報処理装置の構成例を示す図である。

【図4】図４は、実施形態に係る情報処理装置のセンサデータ記憶部に記憶される情報の一例を示す図である。

【図5】図５は、実施形態に係る情報処理装置のモデル記憶部に記憶される情報の一例を示す図である。

【図6】図６は、実施形態に係る情報処理装置の発話音声記憶部に記憶される情報の一例を示す図である。

【図7】図７は、実施形態に係る利用者端末の構成例を示す図である。

【図8】図８は、実施形態に係る情報処理の一例を示すフローチャートである。

【図9】図９は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0010】

以下に、本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態（以下、「実施形態」と記載する。）について図面を参照しつつ詳細に説明する。なお、この実施形態により本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。

【0011】

（実施形態）
〔１．実施形態に係る情報処理〕
〔１－１．実施形態に係る情報処理の一例〕
まず、図１を用いて、実施形態に係る情報処理の一例について説明する。図１は、実施形態に係る情報処理の一例を示す図である。図１では、実施形態に係る情報処理が情報処理装置１００、利用者端末２００により実行される例を示す。以下、実施形態に係る情報処理についてステップごとに順を追って説明する。

【0012】

まず、情報処理装置１００は、利用者端末２００にコンテンツを提供する（ステップＳ１）。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、情報処理装置１００は、利用者端末２００に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。

【0013】

次に、情報処理装置１００は、利用者端末２００からコンテンツ視聴時の利用者の状態を示すセンサデータを取得する（ステップＳ２）。例えば、情報処理装置１００は、センサデータとして、利用者端末２００のジャイロセンサによって計測された利用者のコンテンツ視聴時の頭の動きを角速度によって表した計測データを取得してよい。また、情報処理装置１００は、センサデータとして、利用者端末２００の加速度センサによって計測された利用者のコンテンツ視聴時の頭の動きを加速度によって表した計測データを取得してもよい。また、情報処理装置１００は、センサデータとして、利用者端末２００のカメラによって撮像された利用者の表情を示す画像データを取得してもよい。なお、センサデータは、計測された時期を含む情報であってよい。

【0014】

次に、情報処理装置１００は、コンテンツにおける発話音声を抽出する（ステップＳ３）。例えば、情報処理装置１００は、コンテンツがオンラインミーティングである場合であれば、利用者端末２００ごとに収音された音声データに基づいて、音声認識処理を実行することによって、利用者の発話ごとに発話音声を抽出してよい。また、情報処理装置１００は、利用者端末２００に紐付けられた利用者ＩＤに紐付けて、コンテンツにおける発話音声として抽出してよい。なお、情報処理装置１００は、コンテンツから発話音声を抽出するときに、同時に当該の発話音声が発せられた時刻を示す発話タイミングを抽出して、発話者ＩＤに紐付けられる発話音声に紐づけて、後述して説明する発話音声記憶部１２３に記憶する。

【0015】

次に、情報処理装置１００は、発話音声に対応するセンサデータに基づいて、利用者の理解度を推定する（ステップＳ４）。例えば、情報処理装置１００は、発話音声ごとに発話タイミングに対応するセンサデータの値を抽出して、抽出されたセンサデータに基づいて、利用者の理解度を推定する。具体的には、情報処理装置１００は、センサデータの値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。すなわち、この場合の学習済みモデルは、利用者のコンテンツ視聴の後に、発話音声ごとに利用者に対して理解度を質問して、利用者から得られた回答についての情報を学習用データとして与えられたものであってよい。学習に用いるモデルは、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）であってよい。なお、この場合の利用者の理解度に関する質問は、例えば、利用者の理解度を高い順から順番に五段階によって表現された選択肢のうちの一つを選択する質問であってよい。なお、理解度の表現形式は、五段階による表現に限定されることなく、所定の数値を満点とする数値の大小によって表現される形式であってもよく、任意に設定してよい。

【0016】

次に、情報処理装置１００は、コンテンツを視聴した利用者ごとに発話音声ごとの利用者の理解度を一覧表にしたテーブル（以下では、理解度テーブルという）を生成する（ステップＳ５）。例えば、情報処理装置１００は、図１に示す理解度テーブルＴＢのように、発話音声に対して、理解度を対応付けた一覧表を生成してよい。図１に示す理解度テーブルＴＢは、利用者Ｕの発話音声ごとの理解度を一覧表として示すものである。例えば、理解度テーブルＴＢには、発話音声Ａ，発話音声Ｂに対して、それぞれ理解度Ａ，理解度Ｂが対応付けられて記憶されていることが示されている。情報処理装置１００は、このような態様の理解度テーブルを生成してよい。なお、情報処理装置１００は、利用者Ｕの理解度テーブルＴＢだけではなく、コンテンツを視聴した利用者ごとに、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成する。

【0017】

次に、情報処理装置１００は、生成された理解度テーブルを利用者端末２００に出力する（ステップＳ６）。例えば、情報処理装置１００は、利用者端末２００に理解度テーブルを表示させることによって、利用者端末２００に出力してよい。なお、利用者端末２００に表示される理解度テーブルは、コンテンツを視聴した利用者ごとに、別々の理解度テーブルを重ねて表示して、利用者が一番上に配置された理解度テーブルに対してスライド操作を行うことによって、その下に配置された次の利用者の理解度テーブルを表示する態様によって、利用者端末２００に出力してもよい。

【0018】

これによれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置１００を提供することができる。

【0019】

〔１－２．実施形態に係る情報処理の他の例〕
情報処理装置１００が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。

【0020】

この情報処理について順を追って説明する。まず、情報処理装置１００は、図１に示したステップＳ１と同じ処理を実行する。ステップＳ１は、上述した処理と同じであるから説明を省略する。

【0021】

次に、情報処理装置１００は、コンテンツ視聴時の利用者Ｕのセンサデータとして、加速度センサにより計測された利用者Ｕの頭の動きの加速度と、ジャイロセンサにより計測された利用者Ｕの頭の動きの角速度を取得する（ステップＳ２－１）。例えば、情報処理装置１００は、利用者端末２００に備えられた加速度センサにより計測された利用者のＵの頭の動きの加速度と、ジャイロセンサにより計測された利用者Ｕの頭の動きの角速度を取得してよい。なお、利用者の頭の動きの加速度は、Ｘ軸、Ｙ軸、及びＺ軸に対応する加速度の値を含んでいていてよい。また、利用者の頭の動きの角速度は、ヨー軸、ピッチ軸、及びロール軸の三軸に対応する角速度の値を含んでいてよい。

【0022】

次に、情報処理装置１００は、図１に示したステップＳ３と同じ処理を実行する。ステップＳ３は、上述した処理と同じであるから説明を省略する。

【0023】

次に、情報処理装置１００は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する（ステップＳ４－１）。例えば、情報処理装置１００は、発話音声ごとに発話タイミングに対応する加速度と角速度の値を抽出して、抽出された加速度と角速度の値に基づいて、利用者の理解度を推定する。具体的には、情報処理装置１００は、加速度と角速度の値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。なお、学習に用いるモデルは、例えば、ＤＮＮであってよい。

【0024】

次に、情報処理装置１００は、図１に示したステップＳ５、及びＳ６と同じ処理を実行する。ステップＳ５、及びＳ６は、上述した処理と同じであるから説明を省略する。

【0025】

これによれば、コンテンツ視聴時の利用者の頭の動きの加速度と角速度に基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置１００を提供することができる。

【0026】

〔１－３．実施形態に係る情報処理の他の例〕
情報処理装置１００は、理解度が所定の閾値を下回る発話音声について、利用者端末２００に対して、繰り返して当該発話音声を出力させる。

【0027】

この情報処理について順を追って説明する。まず、情報処理装置１００は、図１に示したステップＳ１からＳ５と同じ処理を実行する。ステップＳ１からＳ５は、上述した処理と同じであるから説明を省略する。

【0028】

次に、情報処理装置１００は、理解度が所定の閾値を下回る発話音声について、利用者端末２００に対して、繰り返して当該発話音声を出力させる（ステップＳ６－１）。例えば、情報処理装置１００は、ステップＳ４において推定された利用者Ｕの理解度が所定の閾値を下回る（例えば、理解度を五段階によって表現する場合であれば、最も低い一段階に該当する場合）発話音声を特定する。例えば、図１に示す利用者Ｕの理解度テーブルＴＢに示される発話音声Ａの利用者Ｕの理解度が最も低い一段階に該当したとする。この場合、情報処理装置１００は、利用者Ｕの利用者端末２００に発話音声Ａを繰り返して出力させる。なお、この場合の発話音声Ａの繰り返しの回数は、任意の回数であってよい。また、情報処理装置１００は、理解度が所定の閾値を下回る発話音声の繰り返しの出力に加えて、上述して説明したステップＳ６における理解度テーブルＴＢの出力を行ってよい。

【0029】

これによれば、利用者の理解度が所定の閾値を下回る発話音声を、当該の利用者の利用者端末２００に繰り返して出力させることができる。そのため、利用者の理解度を高めることに寄与することができる。

【0030】

〔２．情報処理システムの構成〕
次に、図２を用いて実施形態に係る情報処理システムの構成について説明する。図２は、実施形態に係る情報処理システムの構成例を示す図である。図２に示すように、実施形態に係る情報処理システム１は、情報処理装置１００と、利用者端末２００と、ネットワークＮを有する。以下、これらの構成について簡単に順を追って説明する。

【0031】

情報処理装置１００は、例えばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ＷＳ（ＷｏｒｋＳｔａｔｉｏｎ）、サーバの機能を備えるコンピュータなどの情報処理装置であってよい。情報処理装置１００は、例えば、利用者端末２００からネットワークＮを介して送信されてきた情報に基づいて処理を行う。

【0032】

利用者端末２００は、利用者が利用する情報処理装置である。利用者端末２００は、例えば、ノート型ＰＣ、デスクトップ型ＰＣ、スマートフォン、タブレット型端末、携帯電話機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等の情報処理装置であってよい。なお、図１に示す例においては、利用者端末２００がノート型ＰＣである場合を示している。

【0033】

ネットワークＮは、情報処理装置１００と、利用者端末２００を有線、又は無線により相互に通信可能に接続する。ネットワークＮが有線の場合は、ＩＥＥＥ８０２．３に規定されるイーサネット（登録商標）（ＥＴＨＥＲＮＥＴ（登録商標））により実現されてよい。また、ネットワークＮが無線の場合は、ＩＥＥＥ８０２．１１に規定される無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）により実現されてよい。

【0034】

〔３．情報処理装置の構成〕
次に、図３を用いて、情報処理装置１００の構成について説明する。

【0035】

図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、を有する。

【0036】

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード等によって実現される。そして、通信部１１０は、ネットワークＮと有線または無線で接続され、利用者端末２００などとの間で情報の送受信を行う。

【0037】

（記憶部１２０について）
記憶部１２０は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部１３０が実行するプログラム、あるいは制御部１３０が処理するデータを記憶する。主記憶装置は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部１３０が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、磁気テープ、光ディスク等によって実現されてよい。

【0038】

図３に示すように、記憶部１２０は、センサデータ記憶部１２１と、モデル記憶部１２２と、発話音声記憶部１２３と、を有する。以下、これらの構成について順を追って説明する。

【0039】

（センサデータ記憶部１２１について）
センサデータ記憶部１２１は、センサデータに関係する情報を記憶する。ここで、図４を用いて、センサデータ記憶部１２１が記憶する情報の一例を説明する。図４は、実施形態に係る情報処理装置のセンサデータ記憶部に記憶される情報の一例を示す図である。

【0040】

図４に示す例において、センサデータ記憶部１２１は、「利用者ＩＤ」、「センサデータ」という項目に係る情報を紐付けて記憶する。

【0041】

「利用者ＩＤ」は、利用者を識別する識別子であり、文字列や番号などによって表される。「センサデータ」は、「利用者ＩＤ」に紐付けられた利用者端末２００から取得したセンサデータに関する情報であり、例えば、角速度や、加速度、画像データなどのデータと、それらの計測日時を含む。

【0042】

すなわち、図４においては、利用者ＩＤ「ＵＩＤ＃１」により識別される利用者の利用者端末２００から取得されたセンサデータ「ＳＮＤＴ＃１」が記憶されていることを示している。

【0043】

なお、センサデータ記憶部１２１に記憶される情報は、「利用者ＩＤ」、「センサデータ」という項目に係る情報に限定されるものではなく、その他の任意のセンサデータに関係する情報が記憶されてよい。

【0044】

（モデル記憶部１２２について）
モデル記憶部１２２は、利用者の理解度を推定するモデルに関係する情報を記憶する。ここで、図５を用いて、モデル記憶部１２２が記憶する情報の一例を説明する。図５は、実施形態に係る情報処理装置のモデル記憶部に記憶される情報の一例を示す図である。

【0045】

図５に示す例において、モデル記憶部１２２は、「モデルＩＤ」、「モデルデータ」という項目に係る情報を紐付けて記憶する。

【0046】

「モデルＩＤ」は、モデルを識別する識別子であり、文字列や番号によって表される。「モデルデータ」は、モデルルのモデルデータを示す。例えば、モデルは、ニューラルネットワークなどであってよい。

【0047】

すなわち、図５において、モデルＩＤ「Ｍ＃１」で識別されるモデルは、モデルＭ＃１を示す。また、モデルデータ「ＭＤＴ＃１」は、モデルＭ＃１のモデルデータを示す。

【0048】

ここで、モデルがニューラルネットワークである場合は、モデルデータ「ＭＤＴ＃１」には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるノードが互いにどのように結合するかという結合情報や、結合されたノード間で入出力される数値に掛け合わされる結合係数などの各種情報が含まれる。

【0049】

なお、モデル記憶部１２２に記憶される情報は、「モデルＩＤ」、「モデルデータ」という項目に係る情報に限定されるものではなく、その他の任意のモデルに関係する情報が記憶されてよい。

【0050】

（発話音声記憶部１２３について）
発話音声記憶部１２３は、発話音声に関係する情報を記憶する。ここで、図６を用いて、発話音声記憶部１２３が記憶する情報の一例を説明する。図６は、実施形態に係る情報処理装置の発話音声記憶部に記憶される情報の一例を示す図である。

【0051】

図６に示す例において、発話音声記憶部１２３は、「コンテンツＩＤ」、「発話音声データ」という項目に係る情報を紐付けて記憶する。なお、「発話音声データ」には、「発話者ＩＤ」、「発話タイミング」、「発話音声」という項目に係る情報を紐付けて記憶する。

【0052】

「コンテンツＩＤ」は、コンテンツを識別する識別子であり、文字列や番号などによって表される。「発話音声音声データ」は、「コンテンツＩＤ」により識別されるコンテンツに含まれる発話音声に関するデータであり、「発話者ＩＤ」、「発話タイミング」、「発話音声」を含む。「発話者ＩＤ」は、発明者を識別する識別子であり、文字列や番号などによって表される。「発話タイミング」は、発話者ＩＤにより識別される発話者が発話したタイミングを示す情報であり、時刻などの数値や、コンテンツが所定の長さを有する動画であれば、所定の長さにおける所定の位置などによって表されてよい。「発話音声」は、「発話者ＩＤ」により識別される発話の「発話タイミング」により示されるタイミングで発話された音声データを示す。

【0053】

すなわち、図６においては、コンテンツＩＤ「ＣＴＩＤ＃１」により識別されるコンテンツの発話音声データとして、発話者ＩＤ「ＵＩＤ＃１」、及び「ＵＩＤ＃２」のそれぞれの発話タイミング「ＴＭ＃１－１－１」、及び「ＴＭ＃１－１－２」、並びに「ＴＭ＃２－１－１」、及び「ＴＭ＃２－１－２」における発話音声として、それぞれ発話音声「ＳＤ＃１－１－１」、及び「ＳＤ＃１－１－２」、並びに「ＳＤ＃２－１－１」、及び「ＳＤ＃２－１－２」が記憶されていることを示している。

【0054】

発話音声記憶部１２３に記憶される情報は、「コンテンツＩＤ」と、「発話者ＩＤ」、「発話タイミング」、「発話音声」という項目を含む「発話音声データ」という項目に係る情報に限定されるものではなく、その他の任意の発話音声に関係する情報が記憶されてよい。

【0055】

（制御部１３０について）
次に、図３に戻って、制御部１３０について説明する。制御部１３０は、情報処理装置１００を制御するコントローラ（Ｃｏｎｔｒｏｌｌｅｒ）であり、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等によって、情報処理装置１００の記憶部１２０に記憶されている各種プログラムを読み出して、ＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））等の集積回路により実現されてもよい。

【0056】

制御部１３０は、図３に示すように、提供部１３１と、取得部１３２と、抽出部１３３と、推定部１３４と、生成部１３５と、出力部１３６を有する。制御部１３０は、記憶部１２０からプログラムを読み出して、ＲＡＭを作業領域として実行することで、これらの機能を実現して、以下に説明する情報処理の機能や作用を実現または実行する。以下、これらの処理を、順を追って説明する。

【0057】

（提供部１３１について）
提供部１３１は、利用者端末２００にコンテンツを提供する。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、提供部１３１は、利用者端末２００に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。

【0058】

（取得部１３２について）
取得部１３２は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する。例えば、取得部１３２は、センサデータとして、利用者端末２００のジャイロセンサによって計測された利用者のコンテンツ視聴時の頭の動きを角速度によって表した計測データを取得してよい。また、取得部１３２は、センサデータとして、利用者端末２００の加速度センサによって計測された利用者のコンテンツ視聴時の頭の動きを加速度によって表した計測データを取得してもよい。また、取得部１３２は、センサデータとして、利用者端末２００のカメラによって撮像された利用者の表情を示す画像データを取得してもよい。なお、センサデータは、計測された時期を含む情報であってよい。

【0059】

（抽出部１３３について）
抽出部１３３は、コンテンツに登場する人物ごとの発話音声を抽出する。例えば、抽出部１３３は、コンテンツがオンラインミーティングである場合であれば、利用者端末２００ごとに収音された音声データに基づいて、音声認識処理を実行することによって、発話ごとに発話音声を抽出してよい。また、抽出部１３３は、利用者端末２００に紐付けられた利用者ＩＤに紐付けて、コンテンツにおける発話音声として抽出してよい。なお、抽出部１３３は、コンテンツから発話音声を抽出するときに、同時に当該の発話音声が発せられた時刻を示す発話タイミングを抽出して、発話者ＩＤに紐付けられる発話音声に紐づけて、発話音声記憶部１２３に記憶する。

【0060】

（推定部１３４について）
推定部１３４は、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する。例えば、推定部１３４は、発話音声ごとに発話タイミングに対応するセンサデータの値を抽出して、抽出されたセンサデータに基づいて、利用者の理解度を推定する。具体的には、推定部１３４は、センサデータの値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。すなわち、この場合の学習済みモデルは、コンテンツ視聴の後に、発話音声ごとに利用者に対して理解度を質問して、利用者から得られた回答についての情報を学習用データとして与えられたものであってよい。なお、この場合の利用者の理解度に関する質問は、例えば、利用者の理解度を高い順から順番に五段階によって表現された選択肢のうちの一つを選択する質問であってよい。なお、理解度の表現形式は、五段階による表現に限定されることなく、所定の数値を満点とする数値の大小によって表現される形式であってもよく、任意に設定してよい。

【0061】

また、推定部１３４は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。例えば、推定部１３４は、発話音声ごとに発話タイミングに対応する加速度と角速度の値を抽出して、抽出された加速度と角速度の値に基づいて、利用者の理解度を推定する。具体的には、推定部１３４は、加速度と角速度の値と、コンテンツ視聴時の利用者の理解度に関して質問した際の回答の情報との関係を学習した学習済みモデルを用いて、利用者の理解度を推定してよい。

【0062】

（生成部１３５について）
生成部１３５は、利用者ごとに人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する。例えば、生成部１３５は、図１に示す理解度テーブルＴＢのように、発話音声に対して、理解度を対応付けた一覧表を生成してよい。図１に示す理解度テーブルＴＢは、利用者Ｕの発話音声ごとの理解度を一覧表として示すものである。例えば、理解度テーブルＴＢには、発話音声Ａ，発話音声Ｂに対して、それぞれ理解度Ａ，理解度Ｂが対応付けられて記憶されていることが示されている。生成部１３５は、このような態様の理解度テーブルを生成してよい。なお、生成部１３５は、利用者Ｕの理解度テーブルＴＢだけではなく、コンテンツを視聴した利用者ごとに、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成する。

【0063】

（出力部１３６について）
出力部１３６は、利用者端末２００に対して各種の情報を出力する。例えば、出力部１３６は、理解度テーブルを利用者端末２００に対して出力する。例えば、出力部１３６は、利用者端末２００に理解度テーブルを表示させることによって、利用者端末２００に出力してよい。なお、利用者端末２００に表示される理解度テーブルは、コンテンツを視聴した利用者ごとに、別々の理解度テーブルを重ねて表示して、利用者が一番上に配置された理解度テーブルに対してスライド操作を行うことによって、その下に配置された次の利用者の理解度テーブルを表示する態様によって、利用者端末２００に出力してもよい。

【0064】

また、出力部１３６は、理解度が所定の閾値を下回る発話音声について、利用者端末２００に対して、繰り返して当該発話音声を出力させる。例えば、出力部１３６は、推定部１３４によって推定された利用者の理解度が所定の閾値を下回る（例えば、理解度を五段階によって表現する場合であれば、最も低い一段階に該当する場合）発話音声を特定する。そして、出力部１３６は、利用者端末２００に特定した発話音声を繰り返して出力させる。なお、この場合の発話音声の繰り返しの回数は、任意の回数であってよい。また、出力部１３６は、理解度が所定の閾値を下回る発話音声の繰り返しの出力に加えて、上述して理解度テーブルの出力を行ってもよい。

【0065】

〔４．利用者端末の構成〕
次に、図７を用いて、実施形態に係る利用者端末２００の構成について説明する。図７は、実施形態に係る利用者端末の構成例を示す図である。図７に示すように、利用者端末２００は、通信部２１０と、記憶部２２０と、入力部２３０と、出力部２４０と、センサ部２５０と、制御部２６０と、を有する。

【0066】

通信部２１０は、例えば、ＮＩＣ、無線ＬＡＮカード等によって実現される。そして、通信部２１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、情報処理装置１００との間で各種の情報の送受信を行う。

【0067】

記憶部２２０は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部２６０が実行するプログラム、あるいは制御部２６０が処理するデータを記憶する。主記憶装置は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部２６０が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやＳＳＤ、磁気テープ、光ディスク等によって実現されてよい。

【0068】

入力部２３０は、利用者から各種の操作情報が入力される。例えば、入力部２３０は、タッチパネルにより表示面（例えば出力部２４０）を介して利用者からの各種操作を受け付けてもよい。また、入力部２３０は、利用者端末２００に設けられたボタンや、利用者端末２００に接続されたキーボードやマウスからの各種操作を受け付けてもよい。

【0069】

出力部２４０は、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等によって実現されるタブレット型端末等の表示画面であり、各種情報を表示するための表示装置である。つまり、利用者端末２００は、入力部２３０がタッチパネルである場合は、出力部２４０である表示画面により利用者の入力を受け付け、利用者への出力も行う。また、出力部２４０は、スピーカーであってもよく、スピーカーにより音声を出力してよい。

【0070】

センサ部２５０は、利用者の状態を示すセンサデータを計測する。以下に、センサ部２５０の具体的な態様について説明する。

【0071】

センサ部２５０は、ジャイロセンサであってよい。ジャイロセンサは、可動電極に一方向に振動する一次振動を発生させておき、可動電極に回転が加わると振動方向と９０°の方向にコリオリの力が働くことにより二次振動が発生し、静電容量の変化が生じるため、これを検出する静電容量型ＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）ジャイロセンサであってよい。なお、静電容量の変化と可動電極の振動位相とにより角速度を求めることができる。なお、ジャイロセンサは、ヨー軸、ピッチ軸、及びロール軸の三軸の角速度を計測してよい。

【0072】

センサ部２５０は、加速度センサであってもよい。加速度センサは、例えば、ＭＥＭＳにより可動電極と固定電極を作り、可動電極が動くことによる静電容量の変化と加速度の関係を用いて加速度を計測する静電容量式の加速度センサであってよい。なお、加速度センサは、Ｘ軸、Ｙ軸、及びＺ軸の三軸の加速度を計測してよい。

【0073】

センサ部２５０は、三軸ジャイロセンサと、三軸加速度センサと、三軸磁気センサを組み合わせた９ＤｏＦ（ＤｅｇｒｅｅｏｆＦｒｅｅｄｏｍ）のＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）であってもよい。

【0074】

センサ部２５０は、カメラであってもよい。カメラは、光学素子と撮像素子を含む。光学素子は、例えばレンズ、ミラー、プリズム、フィルタなどの光学系を構成する素子である。撮像素子は、光学素子を通して入射した光を電気信号である画像信号に変換する素子である。なお、撮像素子は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサや、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサなどであってよい。

【0075】

制御部２６０は、例えば、ＣＰＵやＭＰＵ等によって、利用者端末２００に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部２６０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

【0076】

図７に示すように、制御部２６０は、受付部２６１と、提供部２６２と、を有する。

【0077】

受付部２６１は、利用者の操作を受け付ける。例えば、受付部２６１は、コンテンツに対する利用者の操作を受け付ける。受付部２６１は、出力部２４０のタッチパネルを介して、利用者の操作を受け付けてよく、例えば、コンテンツに対するスワイプ操作や、ドラッグ操作、フリック操作などを受け付けてよい。

【0078】

提供部２６２は、利用者に対してコンテンツを提供する。ここで、コンテンツとは、音声を含む動画像のことを指してよく、例えば、ビデオ会議システムにおけるビデオ会議の映像データと音声データの組み合わせや、ニュースや外国語による映画などの映像データと音声データの組み合わせであってよい。例えば、提供部２６２は、出力部２４０に動画を表示させたうえで、音声を出力させることによって、コンテンツを提供してよい。

【0079】

〔５．情報処理のフロー〕
次に、図８を用いて、実施形態に係る情報処理の手順について説明する。図８は、実施形態に係る情報処理の一例を示すフローチャートである。以下、図８に示すフローチャートに沿って、実施形態に係る情報処理の手順について説明する。

【0080】

まず、情報処理装置１００は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する（ステップＳ１０１）。次に、情報処理装置１００は、コンテンツに登場する人物ごとの発話音声を抽出する（ステップＳ１０２）。そして、情報処理装置１００は、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する（ステップＳ１０３）。そして、情報処理装置１００は、利用者ごとに登場人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する（ステップＳ１０４）。

【0081】

これによれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理方法、及び情報処理プログラムを提供することができる。

【0082】

〔６．ハードウェア構成〕
また、上述した実施形態に係る情報処理装置１００は、例えば図９に示すような構成のコンピュータ１０００によって実現される。図９は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Ｉｎｔｅｒｆａｃｅ）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

【0083】

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが記憶される記憶装置であり、ＲＯＭ(ＲｅａｄＯｎｌｙＭｅｍｏｒｙ)、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリ等により実現される。

【0084】

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＤＶＩ（ＤｉｇｉｔａｌＶｉｓｕａｌＩｎｔｅｒｆａｃｅ）、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

【0085】

なお、入力装置１０２０は、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＰＤ（ＰｈａｓｅｃｈａｎｇｅｒｅｗｒｉｔａｂｌｅＤｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

【0086】

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

【0087】

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

【0088】

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、情報処理装置１００の制御部１３０の機能を実現する。

【0089】

〔７．構成と効果〕
本開示に係る情報処理装置１００は、コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部１３２と、コンテンツに登場する人物ごとの発話音声を抽出する抽出部１３３と、発話音声のタイミングに対応するセンサデータに基づいて、コンテンツに登場する人物の発話音声ごとの利用者の理解度を推定する推定部１３４と、利用者ごとに人物の発話音声ごとの理解度を一覧表にしたテーブルを生成する生成部１３５と、を備え、取得部１３２が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、推定部１３４は、加速度と角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する。

【0090】

この構成によれば、コンテンツ視聴時の利用者の頭の動きの加速度と角速度に基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理装置１００を提供することができる。

【0091】

本開示に係る情報処理装置１００は、理解度が所定の閾値を下回る発話音声について、利用者端末２００に対して、繰り返して当該発話音声を出力させる出力部１３６と、をさらに備える。

【0092】

この構成によれば、利用者の理解度が所定の閾値を下回る発話音声を、当該の利用者の利用者端末２００に繰り返して出力させることができる。そのため、利用者の理解度を高めることに寄与することができる。

【0093】

本開示に係る情報処理方法は、コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、コンテンツから利用者ごとの発話音声を抽出するステップと、発話音声のタイミングに対応するセンサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、を含む。

【0094】

この構成によれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理方法を提供することができる。

【0095】

本開示に係る情報処理プログラムは、コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、コンテンツから利用者ごとの発話音声を抽出するステップと、発話音声のタイミングに対応する前記センサデータに基づいて、発話音声ごとの利用者の理解度を推定するステップと、利用者ごとに発話音声ごとの理解度を一覧表にしたテーブルを生成するステップと、をコンピュータに実行させる。

【0096】

この構成によれば、コンテンツ視聴時のセンサデータに基づいて、利用者の理解度を推定して、発話音声ごとの利用者の理解度を一覧表にしたテーブルを生成して、利用者に生成したテーブルを提供することができる。そのため、コンテンツ視聴時の利用者の理解度を推定することができる情報処理プログラムを提供することができる。

【0097】

以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0098】

また、上述してきた「部（ｓｅｃｔｉｏｎ、ｍｏｄｕｌｅ、ｕｎｉｔ）」は、「手段」や「回路」などに読み替えることができる。例えば、提供部１３１は、提供手段や提供回路に読み替えることができる。

【符号の説明】

【0099】

１情報処理システム
１００情報処理装置
１１０通信部
１２０記憶部
１２１センサデータ記憶部
１２２モデル記憶部
１２３発話音声記憶部
１３０制御部
１３１提供部
１３２取得部
１３３抽出部
１３４推定部
１３５生成部
１３６出力部
２００利用者端末
２１０通信部
２２０記憶部
２３０入力部
２４０出力部
２５０センサ部
２６０制御部
２６１受付部
２６２提供部
Ｎネットワーク

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2024-06-20

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンテンツ視聴時の利用者の状態を示すセンサデータを取得する取得部と、
コンテンツに登場する人物ごとの発話音声を抽出する抽出部と、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定する推定部と、
利用者ごとの前記理解度を一覧表にしたテーブルを生成する生成部と、
前記理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させる出力部と、を備え、
前記取得部が取得するセンサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定部は、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理装置。

【請求項2】

情報処理装置で実行される情報処理方法であって、
コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定するステップと、
利用者ごとの前記理解度を一覧表にしたテーブルを生成するステップと、
前記理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させるステップと、を含み、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定する、
情報処理方法。

【請求項3】

コンテンツの視聴時の利用者の状態を示すセンサデータを取得するステップと、
コンテンツから利用者ごとの発話音声を抽出するステップと、
前記発話音声のタイミングに対応する前記センサデータに基づいて、利用者の理解度を推定するステップと、
利用者ごとの前記理解度を一覧表にしたテーブルを生成するステップと、
前記理解度が所定の閾値を下回る発話音声について、利用者端末に対して、繰り返して当該発話音声を出力させるステップと、
前記センサデータは、加速度センサにより計測された利用者の頭の動きの加速度と、ジャイロセンサにより計測された利用者の頭の動きの角速度であり、
前記推定するステップにおいては、前記加速度と前記角速度によって表される利用者の頭の動きと、利用者の理解度との関係を学習した学習済みモデルによって、利用者の理解度を推定すること、
をコンピュータに実行させる情報処理プログラム。

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版