(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-10-18
(45)【発行日】2023-10-26
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
H04N 21/485 20110101AFI20231019BHJP
H04N 21/24 20110101ALI20231019BHJP
H04R 3/00 20060101ALI20231019BHJP
G06N 20/00 20190101ALI20231019BHJP
【FI】
H04N21/485
H04N21/24
H04R3/00 310
G06N20/00
(21)【出願番号】P 2023061972
(22)【出願日】2023-04-06
【審査請求日】2023-05-30
【早期審査対象出願】
(73)【特許権者】
【識別番号】523125275
【氏名又は名称】村上 輝明
(74)【代理人】
【識別番号】100211719
【氏名又は名称】伊藤 和真
(72)【発明者】
【氏名】村上 輝明
【審査官】大西 宏
(56)【参考文献】
【文献】特開2008-065169(JP,A)
【文献】特開2016-161830(JP,A)
【文献】中国特許出願公開第110413239(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 -21/858
H04R 3/00
G06N 3/00 -99/00
(57)【特許請求の範囲】
【請求項1】
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、
予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、
を実行する制御部を備え
、
前記制御部は、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行し、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせる、
情報処理装置。
【請求項2】
前記制御部は、
前記第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第3撮影画像データを自動で生成することを、更に実行し、
前記第3撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせる、
請求項1に記載の情報処理装置。
【請求項3】
コンピュータが、
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、
予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行
し、
前記コンピュータは、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行し、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する、
情報処理方法。
【請求項4】
コンピュータに、
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、
予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行さ
せ、
前記コンピュータに、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、
を更に実行させ、
前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる、
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するためのユーザインタフェースとして、マウスやタッチパネル等のデバイスを利用した入力インタフェースが従来から用いられている。しかしながら、ユーザは、このような該ユーザの操作による入力インタフェースを用いることに煩わしさを感じることがあった。
【0003】
また、例えば、ユーザが車両を運転しているときには、該ユーザは、マウスやタッチパネル等の入力インタフェースを操作することができない。そのため、入力インタフェースを用いたユーザによる操作によらずに、上記の端末が自動で操作されることが好ましい。
【0004】
そして、特許文献1には、乗員感情に応じて提供したコンテンツにより乗員が不快になったとき、不快感情を改善させるコンテンツ提供装置が開示されている。この技術では、コンテンツ出力部により第1コンテンツが出力された後に推定された乗員感情に応じて、例えば、第1コンテンツの出力により乗員感情が悪化しているときには、第1コンテンツから第2コンテンツへのコンテンツの変更が指令される。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ユーザは、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するとき、マウスやタッチパネル等の入力インタフェースを用いた操作に煩わしさを感じることがあるため、これら端末が自動で操作されることが好ましい。
【0007】
ここで、特許文献1に記載の技術によれば、例えば、第1コンテンツの出力により乗員感情が悪化した場合には、コンテンツが第1コンテンツから第2コンテンツへ自動で変更されるため、ユーザによる操作の煩わしさが軽減できるようにも思われる。しかしながら、コンテンツに対してユーザが感じる快適性は、該コンテンツのジャンルのみによらず、該コンテンツの音量によっても影響を受ける。このように、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させる技術については、未だ改善の余地を残すものである。
【0008】
本開示の目的は、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供することにある。
【課題を解決するための手段】
【0009】
本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。そして、この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。
【0010】
上記の情報処理装置では、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを事前学習モデルに入力することで、該ユーザの快適性状態が取得される。そして、この快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量が自動で調節されるため、例えば、コンテンツの音量の影響によってユーザが不快に感じている場合には、ユーザによる操作によらずに自動でコンテンツの音量が調節されることになる。これにより、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。
【0011】
そして、本開示の情報処理装置は、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備え、前記制御部は、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行し、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。そして、この場合、前記制御部は、前記第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第3撮影画像データを自動で生成することを、更に実行し、前記第3撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせてもよい。これによれば、一つの第2撮影画像データに基づいて複数の第3撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。
【0012】
また、本開示の情報処理装置では、前記制御部は、前記撮影装置によって撮影された撮影画像データであって、前記ユーザが前記コンテンツとは異なる他コンテンツを視聴しているときの該ユーザの表情画像を表す第4撮影画像データを、該他コンテンツの再生中に周期的に取得することを、更に実行し、前記第4撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。
【0013】
そして、この場合、前記制御部は、前記第4撮影画像データに対して、前記ユーザが前記他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、前記ユーザが前記他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、前記事前学習モデルに学習を行わせてもよい。更に、前記制御部は、前記不快状態との合致割合と、前記快状態との合致割合と、に基づいて、前記快適性状態を取得してもよい。これによれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。
【0014】
また、本開示は、コンピュータによる情報処理方法の側面から捉えることができる。すなわち、本開示の情報処理方法は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理方法であって、コンピュータが、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行し、前記コンピュータは、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行し、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する。
【0015】
また、本開示は、情報処理プログラムの側面から捉えることができる。すなわち、本開示の情報処理プログラムは、ユーザが視聴するコンテンツの音量を自動で調節する情報処理プログラムであって、コンピュータに、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する第1取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第1撮影画像データを入力することで取得する第2取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行させ、前記コンピュータに、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第2撮影画像データを取得することと、を更に実行させ、前記第2撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる。
【発明の効果】
【0016】
本開示によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。
【図面の簡単な説明】
【0017】
【
図1】第1実施形態における情報処理システムの概略構成を示す図である。
【
図2】第1実施形態における、情報処理システムに含まれるサーバの構成要素をより詳細に示すとともに、サーバと通信を行うユーザ端末の構成要素を示した図である。
【
図3】第1実施形態における情報処理システムの動作の流れを例示する図である。
【
図4】情報処理システムを利用するための初期設定画面を例示する図である。
【
図5】第1実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。
【
図6】第2実施形態における情報処理システムの動作の流れを例示する図である。
【発明を実施するための形態】
【0018】
以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。
【0019】
<第1実施形態>
第1実施形態における情報処理システムの概要について、
図1を参照しながら説明する。
図1は、本実施形態における情報処理システムの概略構成を示す図である。本実施形態に係る情報処理システム100は、ネットワーク200と、サーバ300と、ユーザ端末400と、を含んで構成される。なお、本開示の情報処理システムは、ユーザが視聴するコンテンツの音量を自動で調節するシステムであって、サーバ300からの指令に従って、ユーザ端末400において再生されているコンテンツの音量が調節される。
【0020】
ネットワーク200は、例えば、IPネットワークである。ネットワーク200は、IPネットワークであれば、無線であっても有線であっても無線と有線の組み合わせであってもよく、例えば、無線による通信であれば、ユーザ端末400は、無線LANアクセスポイント(不図示)にアクセスし、LANやWANを介してサーバ300と通信してもよい。また、ネットワーク200は、これらの例に限られず、例えば、公衆交換電話網や、光回線、ADSL回線、衛星通信網などであってもよい。
【0021】
サーバ300は、ネットワーク200を介して、ユーザ端末400と接続される。なお、
図1において、説明を簡単にするために、サーバ300は1台、ユーザ端末400は4台示してあるが、これらに限定されないことは言うまでもない。
【0022】
サーバ300は、データの取得、生成、更新等の演算処理及び加工処理のための処理能力のあるコンピュータ機器であればどの様な電子機器でもよく、例えば、パーソナルコンピュータ、サーバ、メインフレーム、その他電子機器であってもよい。すなわち、サーバ300は、CPUやGPU等のプロセッサ、RAMやROM等の主記憶装置、EPROM、ハードディスクドライブ、リムーバブルメディア等の補助記憶装置を有するコンピュータとして構成することができる。なお、リムーバブルメディアは、例えば、USBメモリ、あるいは、CDやDVDのようなディスク記録媒体であってもよい。補助記憶装置には、オペレーティングシステム(OS)、各種プログラム、各種テーブル等が格納されている。
【0023】
また、サーバ300は、本実施形態に係る情報処理システム100専用のソフトウェアやハードウェア、OS等を設けずに、クラウドサーバによるSaaS(Software as a Service)、Paas(Platform as a Service)、IaaS(Infrastructure as a Service)を適宜用いてもよい。
【0024】
ユーザ端末400は、情報処理システム100を利用するユーザが保有する携帯端末等の電子機器であればよく、例えば、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等、その他端末機器であってもよい。
【0025】
次に、
図2に基づいて、主にサーバ300の構成要素の詳細な説明を行う。
図2は、第1実施形態における、情報処理システム100に含まれるサーバ300の構成要素をより詳細に示すとともに、サーバ300と通信を行うユーザ端末400の構成要素を示した図である。
【0026】
サーバ300は、機能部として通信部301、記憶部302、制御部303を有しており、補助記憶装置に格納されたプログラムを主記憶装置の作業領域にロードして実行し、プログラムの実行を通じて各機能部等が制御されることによって、各機能部における所定の目的に合致した各機能を実現することができる。ただし、一部または全部の機能はASICやFPGAのようなハードウェア回路によって実現されてもよい。
【0027】
ここで、通信部301は、サーバ300をネットワーク200に接続するための通信インタフェースである。通信部301は、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。サーバ300は、通信部301を介して、ユーザ端末400やその他の外部装置と通信可能に接続される。
【0028】
記憶部302は、主記憶装置と補助記憶装置を含んで構成される。主記憶装置は、制御部303によって実行されるプログラムや、当該制御プログラムが利用するデータが展開されるメモリである。補助記憶装置は、制御部303において実行されるプログラムや、当該制御プログラムが利用するデータが記憶される装置である。なお、サーバ300は、通信部301を介してユーザ端末400等から送信されたデータを取得し、記憶部302には、後述する撮影画像データが記憶される。また、記憶部302には、後述する快適性状態を取得するための教師データや事前学習モデルが記憶される。
【0029】
制御部303は、サーバ300が行う制御を司る機能部である。制御部303は、CPUなどの演算処理装置によって実現することができる。制御部303は、更に、第1取得部3031と、第2取得部3032と、音量調節部3033と、学習部3034と、の4つの機能部を有して構成される。各機能部は、記憶されたプログラムをCPUによって実行することで実現してもよい。なお、学習部3034は、機械学習に伴う演算量が多いため、記憶されたプログラムをGPUによって実行することで実現してもよい。このように、GPUを機械学習に伴う演算処理に利用するようにすると、高速処理できるようになる。また、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
【0030】
第1取得部3031は、情報処理システム100を利用するユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得する。ここで、上記のコンテンツは、動画や楽曲などのコンテンツである。そして、上記の第1撮影画像データは、ユーザが、ユーザ端末400を用いてコンテンツを視聴しているときに、該ユーザ端末400が備える撮影装置によって撮影される。なお、ユーザ端末400には、情報処理システム100を利用するための所定のアプリが予めインストールされ、コンテンツの再生時に該アプリがバックグラウンドで上記の画像を撮影する処理を実行する。そして、撮影されたデータがサーバ300にアップロードされる。そうすると、第1取得部3031は、第1撮影画像データを取得し、これを記憶部302に記憶させる。
【0031】
ここで、本実施形態におけるユーザ端末400は、機能部として通信部401、入出力部402、記憶部403を有している。通信部401は、ユーザ端末400をネットワーク200に接続するための通信インタフェースであり、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。入出力部402は、通信部401を介して外部から送信されてきた情報等を表示させたり、通信部401を介して外部に情報を送信する際に当該情報を入力したりするための機能部である。記憶部403は、サーバ300の記憶部302と同様に主記憶装置と補助記憶装置を含んで構成される。
【0032】
入出力部402は、更に、表示部4021、操作入力部4022、画像・音声入出力部4023を有している。表示部4021は、各種情報を表示する機能を有し、例えば、LCD(Liquid Crystal Display)ディスプレイ、LED(Light Emitting Diode)ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイ等により実現される。操作入力部4022は、ユーザからの操作入力を受け付ける機能を有し、具体的には、タッチパネル等のソフトキーあるいはハードキーにより実現される。画像・音声入出力部4023は、静止画や動画等の画像の入力を受け付ける機能を有し、具体的には、Charged-Coupled Devices(CCD)、Metal-oxide-semiconductor(MOS)あるいはComplementary Metal-Oxide-Semiconductor(CMOS)等のイメージセンサを用いたカメラにより実現される。また、画像・音声入出力部4023は、音声の入出力を受け付ける機能を有し、具体的には、マイクやスピーカーにより実現される。
【0033】
そうすると、上記のコンテンツ(例えば、動画)は、画像が表示部4021によって表示され、音声がスピーカーによって出力され得る。そして、カメラによって、上記の画像が撮影され得る。
【0034】
第2取得部3032は、情報処理システム100を利用するユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を取得する。ここで、第2取得部3032は、上記の第1撮影画像データを後述する事前学習モデルに入力することで、快適性状態を取得する。
【0035】
音量調節部3033は、上記の快適性状態に基づいて、上記のユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。
【0036】
学習部3034は、上記の第2取得部3032による処理に用いられる事前学習モデルを構築する機能部であって、その詳細は後述する。
【0037】
なお、制御部303が、第1取得部3031、第2取得部3032、音量調節部3033、および学習部3034の処理を実行することで、本開示に係る制御部として機能する。
【0038】
ここで、本実施形態における情報処理システム100の動作の流れについて説明する。
図3は、本実施形態における情報処理システム100の動作の流れを例示する図である。
図3では、本実施形態における情報処理システム100におけるサーバ300とユーザ端末400との間の動作の流れ、およびサーバ300とユーザ端末400とが実行する処理を説明する。
【0039】
本実施形態では、先ず、情報処理システム100を利用するための初期設定が行われる。サーバ300は、情報処理システム100を利用するユーザのユーザ端末400において初期設定用の初期コンテンツを再生させるために、初期コンテンツをユーザ端末400に送信する(S101)。そうすると、ユーザ端末400において、初期コンテンツが再生される(S102)。このとき、初期コンテンツでは、音量が自動で変化するように再生される。そして、ユーザ端末400には、ユーザによって不快タイミングが入力され(S103)、それがサーバ300に送信されることで、サーバ300は、上記の音量の変化によってユーザが不快と感じるタイミングを取得することができる(S104)。
【0040】
ここで、
図4は、情報処理システム100を利用するための初期設定画面を例示する図である。
図4に例示する画面SC1は情報処理システム100を利用するユーザのユーザ端末400の表示部4021に表示され、
図4(a)の画面SC1には、初期設定開始ボタンSC11が示される。
図4(a)の画面SC1において初期設定開始ボタンSC11が押下されると、
図4(b)の画面SC1に画面遷移し、初期コンテンツ再生フィールドにおいて初期コンテンツが再生される。このとき、初期コンテンツの音量が徐々に大きくなるように音声が流され、ユーザは、音声が大きすぎると感じた場合に、音量マイナスボタンSC12を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。また、
図4(c)の画面SC1では、初期コンテンツの音量が徐々に小さくなるように音声が流され、ユーザは、音声が小さすぎると感じた場合に、音量プラスボタンSC13を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。
【0041】
そして、
図3に戻って、サーバ300は、上記のタイミングにおけるユーザの表情画像を表す第2撮影画像データを撮影するための撮影指令をユーザ端末400に送信する(S105)。そうすると、ユーザ端末400は、その情報を取得し(S106)、第2撮影画像データを撮影する(S107)。なお、第2撮影画像データは、ユーザ端末400が有するカメラによって撮影され得る。そして、第2撮影画像データは、ユーザ端末400からサーバ300に送信され、サーバ300が、第2撮影画像データを取得する(S108)。
【0042】
そして、サーバ300は、第2撮影画像データを教師データとして、事前学習モデルに学習を行わせる(S109)。上述したように、第2撮影画像データは、コンテンツの音量の変化によってユーザが不快と感じるタイミングにおける該ユーザの表情画像を表すものであるため、これを教師データとして事前学習モデルに学習を行わせることで、該事前学習モデルを用いて、ユーザがコンテンツを視聴する際の快適性状態を識別することが可能になる。
【0043】
なお、サーバ300は、上記の第2撮影画像データに基づいて第3撮影画像データを自動で生成し、該第3撮影画像データを教師データに加えて、事前学習モデルに学習を行わせてもよい。ここで、上記の第3撮影画像データは、第2撮影画像データを加工することで生成される撮影画像データであって、該第2撮影画像データに含まれる人物の位置が任意に変更された、又は/及び該第2撮影画像データに含まれる背景の色が任意に変更された、又は/及び該第2撮影画像データに含まれる人物の服装が任意に変更されたデータである。
【0044】
ここで、ユーザの表情が同一であっても、該ユーザの周囲の環境(背景色や服装、位置による明るさの違い等)によって、撮影画像データの印象が異なることがある。そこで、一つの第2撮影画像データに基づいて複数の第3撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。
【0045】
また、S101からS109の初期設定および学習処理は、ユーザが情報処理システム100を利用する都度実行されてもよいし、ユーザが情報処理システム100を利用する初回のみ実行されてもよい。
【0046】
そして、上述した初期設定が完了した状態において、情報処理システム100を利用するユーザのユーザ端末400において、任意のコンテンツが再生される(S110)。このとき、ユーザ端末400では、予めインストールされた所定のアプリによって、コンテンツの再生時にバックグラウンドでユーザの表情画像を撮影する処理が実行される(S111)。そして、このようにして撮影された第1撮影画像データは、ユーザ端末400からサーバ300に送信される。
【0047】
そうすると、サーバ300は、ユーザ端末400から送信された第1撮影画像データを取得し(S112)、取得した第1撮影画像データを記憶部302に格納する。
【0048】
そして、サーバ300は、第1撮影画像データに基づいて快適性状態を取得する。これについて、以下に説明する。
【0049】
サーバ300は、事前学習モデルを呼出す処理を実行する(S113)。ここで、事前学習モデルは、第1撮影画像データに基づいて快適性状態を取得するために用いられる機械学習モデルであって、学習部3034によって、第2撮影画像データを教師データとして学習を行うことにより事前に構築される。
【0050】
ここで、
図5は、本実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。本実施形態では、事前学習モデルとして、ディープラーニングにより生成されるニューラルネットワークモデルを用いる。本実施形態における事前学習モデル30は、入力画像データの入力を受け付ける入力層31と、入力層31に入力された該画像データから人物の不快表情を表す特徴量を抽出する中間層(隠れ層)32と、特徴量に基づく識別結果を出力する出力層33とを有する。なお、
図5の例では、事前学習モデル30は、1層の中間層32を有しており、入力層31の出力が中間層32に入力され、中間層32の出力が出力層33に入力されている。ただし、中間層32の数は、1層に限られなくてもよく、事前学習モデル30は、2層以上の中間層32を有してもよい。
【0051】
また、
図5によると、各層31~33は、1又は複数のニューロンを備えている。例えば、入力層31のニューロンの数は、入力される画像データに応じて設定することができる。また、出力層33のニューロンの数は、識別結果である快適性状態に応じて設定することができる。
【0052】
そして、隣接する層のニューロン同士は適宜結合され、各結合には重み(結合荷重)が機械学習の結果に基づいて設定される。
図5の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、適宜設定することができる。
【0053】
このような事前学習モデル30は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築される。具体的には、特徴量とラベルとの組みをニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューロン同士の結合の重みがチューニングされる。このようにして、教師データの特徴を学習し、入力から結果を推定するための事前学習モデルが帰納的に獲得される。
【0054】
図3に戻って、サーバ300は、上記の事前学習モデルに第1撮影画像データを入力することで、快適性状態を取得する(S114)。そして、サーバ300は、ユーザがコンテンツを視聴する際の該ユーザの快適性状態が不快状態であるか否かを判別する(S115)。そして、S115の処理で肯定判定された場合、本フローはS116の処理へ進み、S115の処理で否定判定された場合、本フローはS111の処理へ戻る。
【0055】
S115の処理で肯定判定された場合、次に、S116において、音量調節処理が実行される。S116の処理では、サーバ300は、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。例えば、コンテンツの音声が大きすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ300は、コンテンツの音量を下げる処理を実行する。また、例えば、コンテンツの音声が小さすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ300は、コンテンツの音量を上げる処理を実行する。そして、このような音量調節処理の指令がサーバ300からユーザ端末400に送信されることで、ユーザ端末400において、音量の調節が自動で行われることになる(S117)。そして、S117の処理の後、本フローはS111の処理へ戻る。
【0056】
そして、コンテンツの再生時には、S111からS117の処理が所定の周期で繰り返し実行され、コンテンツの再生が終了されると、本フローの実行が終了される。そして、以上に述べた処理によれば、コンテンツの音量の影響によってユーザが不快に感じている場合に、ユーザによる操作によらずに自動でコンテンツの音量が調節される。そのため、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。
【0057】
以上に述べた情報処理システム100によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。
【0058】
<第2実施形態>
第2実施形態における情報処理システムについて、
図6に基づいて説明する。本実施形態では、サーバ300が、第4撮影画像データを取得することを、更に実行する。ここで、上記の第4撮影画像データとは、ユーザが、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツを視聴しているときの、該ユーザの表情画像を表す撮影画像データであって、ユーザ端末400が有するカメラによって、該他コンテンツの再生中に周期的に撮影される。そして、サーバ300は、この第4撮影画像データを教師データとして、事前学習モデルに学習を行わせる。
【0059】
ここで、
図6は、本実施形態における情報処理システム100の動作の流れを例示する図である。
図6では、本実施形態における情報処理システム100におけるサーバ300とユーザ端末400との間の動作の流れ、およびサーバ300とユーザ端末400とが実行する処理を説明する。なお、
図6に示す各処理において、上記の
図3に示した処理と実質的に同一の処理については、同一の符号を付してその詳細な説明を省略する。
【0060】
図6に示す例では、ユーザ端末400において、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツが再生されると(S201)、その情報が、サーバ300に送信される(S202)。ここで、ユーザ端末400では、予めインストールされた情報処理システム100に関する所定のアプリがバックグラウンドで実行され、任意のコンテンツが再生されると、その情報が該アプリによってサーバ300に送信される。
【0061】
そして、サーバ300は、上記の情報を取得すると(S202)、ユーザの表情画像を表す第4撮影画像データを撮影するための撮影指令をユーザ端末400に送信する(S203)。ここで、サーバ300は、上記の他コンテンツの再生中に周期的に第4撮影画像データを撮影するように、上記の撮影指令を送信する。そうすると、ユーザ端末400は、その情報を取得し(S204)、第4撮影画像データを周期的に撮影する(S205)。そして、第4撮影画像データは、ユーザ端末400からサーバ300に送信され、サーバ300が、第4撮影画像データを取得する(S206)。
【0062】
そして、サーバ300は、第4撮影画像データを教師データとして、事前学習モデルに学習を行わせる(S207)。
【0063】
ここで、上述したように、事前学習モデル30は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築され得る。そこで、本実施形態では、第4撮影画像データに対して、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、ユーザが他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、事前学習モデルに学習を行わせる。
【0064】
なお、第4撮影画像データは周期的に撮影される。また、上記のアプリによって、ユーザが他コンテンツの音量を調節したタイミングもモニタリングすることができる。そのため、周期的に撮影された第4撮影画像データの中から上記のタイミングに合致する撮影画像データを抽出することで、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を取得することが可能になる。そして、本実施形態では、このようにユーザが他コンテンツの音量を調節したタイミングにおいて、該ユーザが不快に感じていると推定して、該タイミングにおける該ユーザの表情画像を不快状態とラベル付けする。
【0065】
また、コンテンツを視聴しているときのユーザは、一度音量の調節を始めると、快適な音量となるまで調節し続ける傾向がある。言い換えれば、ユーザは、快適な音量となると調節を終了する。そこで、本実施形態では、ユーザが他コンテンツの音量を調節して所定時間経過した後において、該音量調節によって快適な音量となり該ユーザが快適に感じていると推定して、そのときの該ユーザの表情画像を快状態とラベル付けする。なお、上記の所定時間は、例えば、30秒から1分である。
【0066】
そして、
図6に示す例では、S114の処理において、上記のようにしてラベル付けされた教師データを用いて学習された事前学習モデルに第1撮影画像データを入力することで、快適性状態が取得される。このとき、本実施形態では、第1撮影画像データに対して事前学習モデルから出力される識別結果について、不快状態との合致割合と、快状態との合致割合と、が出力される。つまり、上述した2つのラベルとの合致割合が出力される。そして、サーバ300は、不快状態との合致割合と、快状態との合致割合と、に基づいて、例えば、不快状態との合致割合が快状態との合致割合よりも高い場合には、快適性状態として不快状態を取得する。
【0067】
このような処理によれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。
【0068】
そして、以上に述べた情報処理システム100によっても、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。
【0069】
<その他の変形例>
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。例えば、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
【0070】
また、1つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。例えば、学習部3034をサーバ300とは別の演算処理装置に形成してもよい。このとき当該別の演算処理装置はサーバ300と好適に協働可能に構成される。また、異なる装置が行うものとして説明した処理が、1つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成(サーバ構成)によって実現するかは柔軟に変更可能である。
【0071】
本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク・ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。
【符号の説明】
【0072】
100・・・情報処理システム
200・・・ネットワーク
300・・・サーバ
301・・・通信部
302・・・記憶部
303・・・制御部
400・・・ユーザ端末
【要約】
【課題】ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供する。
【解決手段】本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第1撮影画像データを取得することと、ユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに第1撮影画像データを入力することで取得することと、快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。
【選択図】
図3