特許7369884 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 村上輝明の特許一覧

特許7369884情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2023-10-18

(45)【発行日】2023-10-26

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

H04N 21/485 20110101AFI20231019BHJP

H04N 21/24 20110101ALI20231019BHJP

H04R 3/00 20060101ALI20231019BHJP

G06N 20/00 20190101ALI20231019BHJP

【ＦＩ】

H04N21/485

H04N21/24

H04R3/00 310

G06N20/00

【請求項の数】 4

(21)【出願番号】P 2023061972

(22)【出願日】2023-04-06

【審査請求日】2023-05-30

【早期審査対象出願】

(73)【特許権者】

【識別番号】523125275

【氏名又は名称】村上輝明

(74)【代理人】

【識別番号】100211719

【弁理士】

【氏名又は名称】伊藤和真

(72)【発明者】

【氏名】村上輝明

【審査官】大西宏

(56)【参考文献】

【文献】特開２００８－０６５１６９（ＪＰ，Ａ）

【文献】特開２０１６－１６１８３０（ＪＰ，Ａ）

【文献】中国特許出願公開第１１０４１３２３９（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｈ０４Ｒ３／００

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得することと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得することと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、
を実行する制御部を備え、
前記制御部は、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、
を更に実行し、
前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせる、
情報処理装置。

【請求項2】

前記制御部は、
前記第２撮影画像データを加工することで生成される撮影画像データであって、該第２撮影画像データに含まれる人物の位置が任意に変更された、又は／及び該第２撮影画像データに含まれる背景の色が任意に変更された、又は／及び該第２撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第３撮影画像データを自動で生成することを、更に実行し、
前記第３撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせる、
請求項１に記載の情報処理装置。

【請求項3】

コンピュータが、
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得する第１取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得する第２取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行し、
前記コンピュータは、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、
を更に実行し、
前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する、
情報処理方法。

【請求項4】

コンピュータに、
カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得する第１取得ステップと、
前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得する第２取得ステップと、
前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、
を実行させ、
前記コンピュータに、
前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、
前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、
を更に実行させ、
前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる、
情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するためのユーザインタフェースとして、マウスやタッチパネル等のデバイスを利用した入力インタフェースが従来から用いられている。しかしながら、ユーザは、このような該ユーザの操作による入力インタフェースを用いることに煩わしさを感じることがあった。

【0003】

また、例えば、ユーザが車両を運転しているときには、該ユーザは、マウスやタッチパネル等の入力インタフェースを操作することができない。そのため、入力インタフェースを用いたユーザによる操作によらずに、上記の端末が自動で操作されることが好ましい。

【0004】

そして、特許文献１には、乗員感情に応じて提供したコンテンツにより乗員が不快になったとき、不快感情を改善させるコンテンツ提供装置が開示されている。この技術では、コンテンツ出力部により第１コンテンツが出力された後に推定された乗員感情に応じて、例えば、第１コンテンツの出力により乗員感情が悪化しているときには、第１コンテンツから第２コンテンツへのコンテンツの変更が指令される。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１８－１０１３４１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

ユーザは、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等を操作するとき、マウスやタッチパネル等の入力インタフェースを用いた操作に煩わしさを感じることがあるため、これら端末が自動で操作されることが好ましい。

【0007】

ここで、特許文献１に記載の技術によれば、例えば、第１コンテンツの出力により乗員感情が悪化した場合には、コンテンツが第１コンテンツから第２コンテンツへ自動で変更されるため、ユーザによる操作の煩わしさが軽減できるようにも思われる。しかしながら、コンテンツに対してユーザが感じる快適性は、該コンテンツのジャンルのみによらず、該コンテンツの音量によっても影響を受ける。このように、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させる技術については、未だ改善の余地を残すものである。

【0008】

本開示の目的は、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供することにある。

【課題を解決するための手段】

【0009】

本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。そして、この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。

【0010】

上記の情報処理装置では、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを事前学習モデルに入力することで、該ユーザの快適性状態が取得される。そして、この快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量が自動で調節されるため、例えば、コンテンツの音量の影響によってユーザが不快に感じている場合には、ユーザによる操作によらずに自動でコンテンツの音量が調節されることになる。これにより、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。

【0011】

そして、本開示の情報処理装置は、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得することと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得することと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備え、前記制御部は、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、を更に実行し、前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。そして、この場合、前記制御部は、前記第２撮影画像データを加工することで生成される撮影画像データであって、該第２撮影画像データに含まれる人物の位置が任意に変更された、又は／及び該第２撮影画像データに含まれる背景の色が任意に変更された、又は／及び該第２撮影画像データに含まれる人物の服装が任意に変更された、前記ユーザの画像を表す第３撮影画像データを自動で生成することを、更に実行し、前記第３撮影画像データを前記教師データに加えて、前記事前学習モデルに学習を行わせてもよい。これによれば、一つの第２撮影画像データに基づいて複数の第３撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。

【0012】

また、本開示の情報処理装置では、前記制御部は、前記撮影装置によって撮影された撮影画像データであって、前記ユーザが前記コンテンツとは異なる他コンテンツを視聴しているときの該ユーザの表情画像を表す第４撮影画像データを、該他コンテンツの再生中に周期的に取得することを、更に実行し、前記第４撮影画像データを教師データとして、前記事前学習モデルに学習を行わせてもよい。

【0013】

そして、この場合、前記制御部は、前記第４撮影画像データに対して、前記ユーザが前記他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、前記ユーザが前記他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、前記事前学習モデルに学習を行わせてもよい。更に、前記制御部は、前記不快状態との合致割合と、前記快状態との合致割合と、に基づいて、前記快適性状態を取得してもよい。これによれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。

【0014】

また、本開示は、コンピュータによる情報処理方法の側面から捉えることができる。すなわち、本開示の情報処理方法は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理方法であって、コンピュータが、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得する第１取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得する第２取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行し、前記コンピュータは、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、を更に実行し、前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行する。

【0015】

また、本開示は、情報処理プログラムの側面から捉えることができる。すなわち、本開示の情報処理プログラムは、ユーザが視聴するコンテンツの音量を自動で調節する情報処理プログラムであって、コンピュータに、カメラによって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得する第１取得ステップと、前記ユーザが前記コンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、予め撮影された画像データを用いて学習を行うことにより構築された事前学習モデルに前記第１撮影画像データを入力することで取得する第２取得ステップと、前記快適性状態に基づいて、前記ユーザによる前記コンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する自動調整ステップと、を実行させ、前記コンピュータに、前記ユーザによる前記コンテンツの視聴前に、初期設定用の初期コンテンツを再生させ、且つその再生時に該初期コンテンツの音量を自動で変化させ、該音量の変化によって該ユーザが不快と感じるタイミングを取得することと、前記カメラによって撮影された撮影画像データであって、前記タイミングにおける前記ユーザの表情画像を表す第２撮影画像データを取得することと、を更に実行させ、前記第２撮影画像データを教師データとして、前記事前学習モデルに学習を行わせることを実行させる。

【発明の効果】

【0016】

本開示によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。

【図面の簡単な説明】

【0017】

【図1】第１実施形態における情報処理システムの概略構成を示す図である。

【図2】第１実施形態における、情報処理システムに含まれるサーバの構成要素をより詳細に示すとともに、サーバと通信を行うユーザ端末の構成要素を示した図である。

【図3】第１実施形態における情報処理システムの動作の流れを例示する図である。

【図4】情報処理システムを利用するための初期設定画面を例示する図である。

【図5】第１実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。

【図6】第２実施形態における情報処理システムの動作の流れを例示する図である。

【発明を実施するための形態】

【0018】

以下、図面に基づいて、本開示の実施の形態を説明する。以下の実施形態の構成は例示であり、本開示は実施形態の構成に限定されない。

【0019】

＜第１実施形態＞
第１実施形態における情報処理システムの概要について、図１を参照しながら説明する。図１は、本実施形態における情報処理システムの概略構成を示す図である。本実施形態に係る情報処理システム１００は、ネットワーク２００と、サーバ３００と、ユーザ端末４００と、を含んで構成される。なお、本開示の情報処理システムは、ユーザが視聴するコンテンツの音量を自動で調節するシステムであって、サーバ３００からの指令に従って、ユーザ端末４００において再生されているコンテンツの音量が調節される。

【0020】

ネットワーク２００は、例えば、ＩＰネットワークである。ネットワーク２００は、ＩＰネットワークであれば、無線であっても有線であっても無線と有線の組み合わせであってもよく、例えば、無線による通信であれば、ユーザ端末４００は、無線ＬＡＮアクセスポイント（不図示）にアクセスし、ＬＡＮやＷＡＮを介してサーバ３００と通信してもよい。また、ネットワーク２００は、これらの例に限られず、例えば、公衆交換電話網や、光回線、ＡＤＳＬ回線、衛星通信網などであってもよい。

【0021】

サーバ３００は、ネットワーク２００を介して、ユーザ端末４００と接続される。なお、図１において、説明を簡単にするために、サーバ３００は１台、ユーザ端末４００は４台示してあるが、これらに限定されないことは言うまでもない。

【0022】

サーバ３００は、データの取得、生成、更新等の演算処理及び加工処理のための処理能力のあるコンピュータ機器であればどの様な電子機器でもよく、例えば、パーソナルコンピュータ、サーバ、メインフレーム、その他電子機器であってもよい。すなわち、サーバ３００は、ＣＰＵやＧＰＵ等のプロセッサ、ＲＡＭやＲＯＭ等の主記憶装置、ＥＰＲＯＭ、ハードディスクドライブ、リムーバブルメディア等の補助記憶装置を有するコンピュータとして構成することができる。なお、リムーバブルメディアは、例えば、ＵＳＢメモリ、あるいは、ＣＤやＤＶＤのようなディスク記録媒体であってもよい。補助記憶装置には、オペレーティングシステム（ＯＳ）、各種プログラム、各種テーブル等が格納されている。

【0023】

また、サーバ３００は、本実施形態に係る情報処理システム１００専用のソフトウェアやハードウェア、ＯＳ等を設けずに、クラウドサーバによるＳａａＳ（Software as a Service）、Ｐａａｓ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）を適宜用いてもよい。

【0024】

ユーザ端末４００は、情報処理システム１００を利用するユーザが保有する携帯端末等の電子機器であればよく、例えば、携帯端末、タブレット端末、スマートフォン、ウェアラブル端末、パーソナルコンピュータ等、その他端末機器であってもよい。

【0025】

次に、図２に基づいて、主にサーバ３００の構成要素の詳細な説明を行う。図２は、第１実施形態における、情報処理システム１００に含まれるサーバ３００の構成要素をより詳細に示すとともに、サーバ３００と通信を行うユーザ端末４００の構成要素を示した図である。

【0026】

サーバ３００は、機能部として通信部３０１、記憶部３０２、制御部３０３を有しており、補助記憶装置に格納されたプログラムを主記憶装置の作業領域にロードして実行し、プログラムの実行を通じて各機能部等が制御されることによって、各機能部における所定の目的に合致した各機能を実現することができる。ただし、一部または全部の機能はＡＳＩＣやＦＰＧＡのようなハードウェア回路によって実現されてもよい。

【0027】

ここで、通信部３０１は、サーバ３００をネットワーク２００に接続するための通信インタフェースである。通信部３０１は、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。サーバ３００は、通信部３０１を介して、ユーザ端末４００やその他の外部装置と通信可能に接続される。

【0028】

記憶部３０２は、主記憶装置と補助記憶装置を含んで構成される。主記憶装置は、制御部３０３によって実行されるプログラムや、当該制御プログラムが利用するデータが展開されるメモリである。補助記憶装置は、制御部３０３において実行されるプログラムや、当該制御プログラムが利用するデータが記憶される装置である。なお、サーバ３００は、通信部３０１を介してユーザ端末４００等から送信されたデータを取得し、記憶部３０２には、後述する撮影画像データが記憶される。また、記憶部３０２には、後述する快適性状態を取得するための教師データや事前学習モデルが記憶される。

【0029】

制御部３０３は、サーバ３００が行う制御を司る機能部である。制御部３０３は、ＣＰＵなどの演算処理装置によって実現することができる。制御部３０３は、更に、第１取得部３０３１と、第２取得部３０３２と、音量調節部３０３３と、学習部３０３４と、の４つの機能部を有して構成される。各機能部は、記憶されたプログラムをＣＰＵによって実行することで実現してもよい。なお、学習部３０３４は、機械学習に伴う演算量が多いため、記憶されたプログラムをＧＰＵによって実行することで実現してもよい。このように、ＧＰＵを機械学習に伴う演算処理に利用するようにすると、高速処理できるようになる。また、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

【0030】

第１取得部３０３１は、情報処理システム１００を利用するユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得する。ここで、上記のコンテンツは、動画や楽曲などのコンテンツである。そして、上記の第１撮影画像データは、ユーザが、ユーザ端末４００を用いてコンテンツを視聴しているときに、該ユーザ端末４００が備える撮影装置によって撮影される。なお、ユーザ端末４００には、情報処理システム１００を利用するための所定のアプリが予めインストールされ、コンテンツの再生時に該アプリがバックグラウンドで上記の画像を撮影する処理を実行する。そして、撮影されたデータがサーバ３００にアップロードされる。そうすると、第１取得部３０３１は、第１撮影画像データを取得し、これを記憶部３０２に記憶させる。

【0031】

ここで、本実施形態におけるユーザ端末４００は、機能部として通信部４０１、入出力部４０２、記憶部４０３を有している。通信部４０１は、ユーザ端末４００をネットワーク２００に接続するための通信インタフェースであり、例えば、ネットワークインタフェースボードや、無線通信のための無線通信回路を含んで構成される。入出力部４０２は、通信部４０１を介して外部から送信されてきた情報等を表示させたり、通信部４０１を介して外部に情報を送信する際に当該情報を入力したりするための機能部である。記憶部４０３は、サーバ３００の記憶部３０２と同様に主記憶装置と補助記憶装置を含んで構成される。

【0032】

入出力部４０２は、更に、表示部４０２１、操作入力部４０２２、画像・音声入出力部４０２３を有している。表示部４０２１は、各種情報を表示する機能を有し、例えば、ＬＣＤ（Liquid Crystal Display）ディスプレイ、ＬＥＤ（Light Emitting Diode）ディスプレイ、ＯＬＥＤ（Organic Light Emitting Diode）ディスプレイ等により実現される。操作入力部４０２２は、ユーザからの操作入力を受け付ける機能を有し、具体的には、タッチパネル等のソフトキーあるいはハードキーにより実現される。画像・音声入出力部４０２３は、静止画や動画等の画像の入力を受け付ける機能を有し、具体的には、Charged-Coupled Devices（ＣＣＤ）、Metal-oxide-semiconductor（ＭＯＳ）あるいはComplementary Metal-Oxide-Semiconductor（ＣＭＯＳ）等のイメージセンサを用いたカメラにより実現される。また、画像・音声入出力部４０２３は、音声の入出力を受け付ける機能を有し、具体的には、マイクやスピーカーにより実現される。

【0033】

そうすると、上記のコンテンツ（例えば、動画）は、画像が表示部４０２１によって表示され、音声がスピーカーによって出力され得る。そして、カメラによって、上記の画像が撮影され得る。

【0034】

第２取得部３０３２は、情報処理システム１００を利用するユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を取得する。ここで、第２取得部３０３２は、上記の第１撮影画像データを後述する事前学習モデルに入力することで、快適性状態を取得する。

【0035】

音量調節部３０３３は、上記の快適性状態に基づいて、上記のユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。

【0036】

学習部３０３４は、上記の第２取得部３０３２による処理に用いられる事前学習モデルを構築する機能部であって、その詳細は後述する。

【0037】

なお、制御部３０３が、第１取得部３０３１、第２取得部３０３２、音量調節部３０３３、および学習部３０３４の処理を実行することで、本開示に係る制御部として機能する。

【0038】

ここで、本実施形態における情報処理システム１００の動作の流れについて説明する。図３は、本実施形態における情報処理システム１００の動作の流れを例示する図である。図３では、本実施形態における情報処理システム１００におけるサーバ３００とユーザ端末４００との間の動作の流れ、およびサーバ３００とユーザ端末４００とが実行する処理を説明する。

【0039】

本実施形態では、先ず、情報処理システム１００を利用するための初期設定が行われる。サーバ３００は、情報処理システム１００を利用するユーザのユーザ端末４００において初期設定用の初期コンテンツを再生させるために、初期コンテンツをユーザ端末４００に送信する（Ｓ１０１）。そうすると、ユーザ端末４００において、初期コンテンツが再生される（Ｓ１０２）。このとき、初期コンテンツでは、音量が自動で変化するように再生される。そして、ユーザ端末４００には、ユーザによって不快タイミングが入力され（Ｓ１０３）、それがサーバ３００に送信されることで、サーバ３００は、上記の音量の変化によってユーザが不快と感じるタイミングを取得することができる（Ｓ１０４）。

【0040】

ここで、図４は、情報処理システム１００を利用するための初期設定画面を例示する図である。図４に例示する画面ＳＣ１は情報処理システム１００を利用するユーザのユーザ端末４００の表示部４０２１に表示され、図４（ａ）の画面ＳＣ１には、初期設定開始ボタンＳＣ１１が示される。図４（ａ）の画面ＳＣ１において初期設定開始ボタンＳＣ１１が押下されると、図４（ｂ）の画面ＳＣ１に画面遷移し、初期コンテンツ再生フィールドにおいて初期コンテンツが再生される。このとき、初期コンテンツの音量が徐々に大きくなるように音声が流され、ユーザは、音声が大きすぎると感じた場合に、音量マイナスボタンＳＣ１２を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。また、図４（ｃ）の画面ＳＣ１では、初期コンテンツの音量が徐々に小さくなるように音声が流され、ユーザは、音声が小さすぎると感じた場合に、音量プラスボタンＳＣ１３を押下することで、音量の変化によって不快と感じるタイミングを入力することができる。

【0041】

そして、図３に戻って、サーバ３００は、上記のタイミングにおけるユーザの表情画像を表す第２撮影画像データを撮影するための撮影指令をユーザ端末４００に送信する（Ｓ１０５）。そうすると、ユーザ端末４００は、その情報を取得し（Ｓ１０６）、第２撮影画像データを撮影する（Ｓ１０７）。なお、第２撮影画像データは、ユーザ端末４００が有するカメラによって撮影され得る。そして、第２撮影画像データは、ユーザ端末４００からサーバ３００に送信され、サーバ３００が、第２撮影画像データを取得する（Ｓ１０８）。

【0042】

そして、サーバ３００は、第２撮影画像データを教師データとして、事前学習モデルに学習を行わせる（Ｓ１０９）。上述したように、第２撮影画像データは、コンテンツの音量の変化によってユーザが不快と感じるタイミングにおける該ユーザの表情画像を表すものであるため、これを教師データとして事前学習モデルに学習を行わせることで、該事前学習モデルを用いて、ユーザがコンテンツを視聴する際の快適性状態を識別することが可能になる。

【0043】

なお、サーバ３００は、上記の第２撮影画像データに基づいて第３撮影画像データを自動で生成し、該第３撮影画像データを教師データに加えて、事前学習モデルに学習を行わせてもよい。ここで、上記の第３撮影画像データは、第２撮影画像データを加工することで生成される撮影画像データであって、該第２撮影画像データに含まれる人物の位置が任意に変更された、又は／及び該第２撮影画像データに含まれる背景の色が任意に変更された、又は／及び該第２撮影画像データに含まれる人物の服装が任意に変更されたデータである。

【0044】

ここで、ユーザの表情が同一であっても、該ユーザの周囲の環境（背景色や服装、位置による明るさの違い等）によって、撮影画像データの印象が異なることがある。そこで、一つの第２撮影画像データに基づいて複数の第３撮影画像データを自動で生成することで、印象が異なる撮影画像データを複数生成することができ、事前学習モデルに学習を行わせるための教師データの数を効率的に増やすことができる。

【0045】

また、Ｓ１０１からＳ１０９の初期設定および学習処理は、ユーザが情報処理システム１００を利用する都度実行されてもよいし、ユーザが情報処理システム１００を利用する初回のみ実行されてもよい。

【0046】

そして、上述した初期設定が完了した状態において、情報処理システム１００を利用するユーザのユーザ端末４００において、任意のコンテンツが再生される（Ｓ１１０）。このとき、ユーザ端末４００では、予めインストールされた所定のアプリによって、コンテンツの再生時にバックグラウンドでユーザの表情画像を撮影する処理が実行される（Ｓ１１１）。そして、このようにして撮影された第１撮影画像データは、ユーザ端末４００からサーバ３００に送信される。

【0047】

そうすると、サーバ３００は、ユーザ端末４００から送信された第１撮影画像データを取得し（Ｓ１１２）、取得した第１撮影画像データを記憶部３０２に格納する。

【0048】

そして、サーバ３００は、第１撮影画像データに基づいて快適性状態を取得する。これについて、以下に説明する。

【0049】

サーバ３００は、事前学習モデルを呼出す処理を実行する（Ｓ１１３）。ここで、事前学習モデルは、第１撮影画像データに基づいて快適性状態を取得するために用いられる機械学習モデルであって、学習部３０３４によって、第２撮影画像データを教師データとして学習を行うことにより事前に構築される。

【0050】

ここで、図５は、本実施形態における事前学習モデルに対する入力から得られる識別結果と、該事前学習モデルを構成するニューラルネットワークを説明するための図である。本実施形態では、事前学習モデルとして、ディープラーニングにより生成されるニューラルネットワークモデルを用いる。本実施形態における事前学習モデル３０は、入力画像データの入力を受け付ける入力層３１と、入力層３１に入力された該画像データから人物の不快表情を表す特徴量を抽出する中間層（隠れ層）３２と、特徴量に基づく識別結果を出力する出力層３３とを有する。なお、図５の例では、事前学習モデル３０は、１層の中間層３２を有しており、入力層３１の出力が中間層３２に入力され、中間層３２の出力が出力層３３に入力されている。ただし、中間層３２の数は、１層に限られなくてもよく、事前学習モデル３０は、２層以上の中間層３２を有してもよい。

【0051】

また、図５によると、各層３１～３３は、１又は複数のニューロンを備えている。例えば、入力層３１のニューロンの数は、入力される画像データに応じて設定することができる。また、出力層３３のニューロンの数は、識別結果である快適性状態に応じて設定することができる。

【0052】

そして、隣接する層のニューロン同士は適宜結合され、各結合には重み（結合荷重）が機械学習の結果に基づいて設定される。図５の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、適宜設定することができる。

【0053】

このような事前学習モデル３０は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築される。具体的には、特徴量とラベルとの組みをニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューロン同士の結合の重みがチューニングされる。このようにして、教師データの特徴を学習し、入力から結果を推定するための事前学習モデルが帰納的に獲得される。

【0054】

図３に戻って、サーバ３００は、上記の事前学習モデルに第１撮影画像データを入力することで、快適性状態を取得する（Ｓ１１４）。そして、サーバ３００は、ユーザがコンテンツを視聴する際の該ユーザの快適性状態が不快状態であるか否かを判別する（Ｓ１１５）。そして、Ｓ１１５の処理で肯定判定された場合、本フローはＳ１１６の処理へ進み、Ｓ１１５の処理で否定判定された場合、本フローはＳ１１１の処理へ戻る。

【0055】

Ｓ１１５の処理で肯定判定された場合、次に、Ｓ１１６において、音量調節処理が実行される。Ｓ１１６の処理では、サーバ３００は、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節する。例えば、コンテンツの音声が大きすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ３００は、コンテンツの音量を下げる処理を実行する。また、例えば、コンテンツの音声が小さすぎることによりユーザの快適性状態が不快状態となっていると判定される場合には、サーバ３００は、コンテンツの音量を上げる処理を実行する。そして、このような音量調節処理の指令がサーバ３００からユーザ端末４００に送信されることで、ユーザ端末４００において、音量の調節が自動で行われることになる（Ｓ１１７）。そして、Ｓ１１７の処理の後、本フローはＳ１１１の処理へ戻る。

【0056】

そして、コンテンツの再生時には、Ｓ１１１からＳ１１７の処理が所定の周期で繰り返し実行され、コンテンツの再生が終了されると、本フローの実行が終了される。そして、以上に述べた処理によれば、コンテンツの音量の影響によってユーザが不快に感じている場合に、ユーザによる操作によらずに自動でコンテンツの音量が調節される。そのため、ユーザによる操作の煩わしさを軽減しつつ、ユーザの快適性を向上させることができる。

【0057】

以上に述べた情報処理システム１００によれば、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。

【0058】

＜第２実施形態＞
第２実施形態における情報処理システムについて、図６に基づいて説明する。本実施形態では、サーバ３００が、第４撮影画像データを取得することを、更に実行する。ここで、上記の第４撮影画像データとは、ユーザが、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツを視聴しているときの、該ユーザの表情画像を表す撮影画像データであって、ユーザ端末４００が有するカメラによって、該他コンテンツの再生中に周期的に撮影される。そして、サーバ３００は、この第４撮影画像データを教師データとして、事前学習モデルに学習を行わせる。

【0059】

ここで、図６は、本実施形態における情報処理システム１００の動作の流れを例示する図である。図６では、本実施形態における情報処理システム１００におけるサーバ３００とユーザ端末４００との間の動作の流れ、およびサーバ３００とユーザ端末４００とが実行する処理を説明する。なお、図６に示す各処理において、上記の図３に示した処理と実質的に同一の処理については、同一の符号を付してその詳細な説明を省略する。

【0060】

図６に示す例では、ユーザ端末４００において、音量の自動調節が行われるコンテンツとは異なる任意の他コンテンツが再生されると（Ｓ２０１）、その情報が、サーバ３００に送信される（Ｓ２０２）。ここで、ユーザ端末４００では、予めインストールされた情報処理システム１００に関する所定のアプリがバックグラウンドで実行され、任意のコンテンツが再生されると、その情報が該アプリによってサーバ３００に送信される。

【0061】

そして、サーバ３００は、上記の情報を取得すると（Ｓ２０２）、ユーザの表情画像を表す第４撮影画像データを撮影するための撮影指令をユーザ端末４００に送信する（Ｓ２０３）。ここで、サーバ３００は、上記の他コンテンツの再生中に周期的に第４撮影画像データを撮影するように、上記の撮影指令を送信する。そうすると、ユーザ端末４００は、その情報を取得し（Ｓ２０４）、第４撮影画像データを周期的に撮影する（Ｓ２０５）。そして、第４撮影画像データは、ユーザ端末４００からサーバ３００に送信され、サーバ３００が、第４撮影画像データを取得する（Ｓ２０６）。

【0062】

そして、サーバ３００は、第４撮影画像データを教師データとして、事前学習モデルに学習を行わせる（Ｓ２０７）。

【0063】

ここで、上述したように、事前学習モデル３０は、例えば、人物の表情を表す画像を含んだ画像データと、人物の不快表情を表す画像のラベルと、の組みである教師データを用いて教師あり学習を行うことで構築され得る。そこで、本実施形態では、第４撮影画像データに対して、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を不快状態とラベル付けし、ユーザが他コンテンツの音量を調節して所定時間経過した後の該ユーザの表情画像を快状態とラベル付けして、事前学習モデルに学習を行わせる。

【0064】

なお、第４撮影画像データは周期的に撮影される。また、上記のアプリによって、ユーザが他コンテンツの音量を調節したタイミングもモニタリングすることができる。そのため、周期的に撮影された第４撮影画像データの中から上記のタイミングに合致する撮影画像データを抽出することで、ユーザが他コンテンツの音量を調節したときの該ユーザの表情画像を取得することが可能になる。そして、本実施形態では、このようにユーザが他コンテンツの音量を調節したタイミングにおいて、該ユーザが不快に感じていると推定して、該タイミングにおける該ユーザの表情画像を不快状態とラベル付けする。

【0065】

また、コンテンツを視聴しているときのユーザは、一度音量の調節を始めると、快適な音量となるまで調節し続ける傾向がある。言い換えれば、ユーザは、快適な音量となると調節を終了する。そこで、本実施形態では、ユーザが他コンテンツの音量を調節して所定時間経過した後において、該音量調節によって快適な音量となり該ユーザが快適に感じていると推定して、そのときの該ユーザの表情画像を快状態とラベル付けする。なお、上記の所定時間は、例えば、３０秒から１分である。

【0066】

そして、図６に示す例では、Ｓ１１４の処理において、上記のようにしてラベル付けされた教師データを用いて学習された事前学習モデルに第１撮影画像データを入力することで、快適性状態が取得される。このとき、本実施形態では、第１撮影画像データに対して事前学習モデルから出力される識別結果について、不快状態との合致割合と、快状態との合致割合と、が出力される。つまり、上述した２つのラベルとの合致割合が出力される。そして、サーバ３００は、不快状態との合致割合と、快状態との合致割合と、に基づいて、例えば、不快状態との合致割合が快状態との合致割合よりも高い場合には、快適性状態として不快状態を取得する。

【0067】

このような処理によれば、ユーザの快適性状態の誤認識を可及的に抑制することができる。

【0068】

そして、以上に述べた情報処理システム１００によっても、ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる。

【0069】

＜その他の変形例＞
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。例えば、本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

【0070】

また、１つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。例えば、学習部３０３４をサーバ３００とは別の演算処理装置に形成してもよい。このとき当該別の演算処理装置はサーバ３００と好適に協働可能に構成される。また、異なる装置が行うものとして説明した処理が、１つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成（サーバ構成）によって実現するかは柔軟に変更可能である。

【0071】

本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する１つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクドライブ（ＨＤＤ）等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤディスク・ブルーレイディスク等）など任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。

【符号の説明】

【0072】

１００・・・情報処理システム
２００・・・ネットワーク
３００・・・サーバ
３０１・・・通信部
３０２・・・記憶部
３０３・・・制御部
４００・・・ユーザ端末

【要約】

【課題】ユーザによるコンテンツの視聴時に該ユーザの快適性を向上させることができる技術を提供する。
【解決手段】本開示の情報処理装置は、ユーザが視聴するコンテンツの音量を自動で調節する情報処理装置である。この情報処理装置は、所定の撮影装置によって撮影された撮影画像データであって、ユーザによるコンテンツの視聴時の該ユーザの表情画像を表す第１撮影画像データを取得することと、ユーザがコンテンツを視聴する際に該ユーザが感じる快不快の状態である快適性状態を、所定の画像データを用いて学習を行うことにより構築された事前学習モデルに第１撮影画像データを入力することで取得することと、快適性状態に基づいて、ユーザによるコンテンツの視聴時に該ユーザの快適性が向上するように該コンテンツの音量を自動で調節することと、を実行する制御部を備える。
【選択図】図３

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版