(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】情報処理装置及び情報処理方法、並びにコンピュータプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241001BHJP
G06N 5/045 20230101ALI20241001BHJP
【FI】
G06N20/00
G06N5/045
(21)【出願番号】P 2022514320
(86)(22)【出願日】2021-02-10
(86)【国際出願番号】 JP2021005122
(87)【国際公開番号】W WO2021205742
(87)【国際公開日】2021-10-14
【審査請求日】2023-12-20
(31)【優先権主張番号】P 2020070086
(32)【優先日】2020-04-08
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100093241
【氏名又は名称】宮田 正昭
(74)【代理人】
【識別番号】100101801
【氏名又は名称】山田 英治
(74)【代理人】
【識別番号】100095496
【氏名又は名称】佐々木 榮二
(74)【代理人】
【識別番号】100086531
【氏名又は名称】澤田 俊夫
(74)【代理人】
【識別番号】110000763
【氏名又は名称】弁理士法人大同特許事務所
(72)【発明者】
【氏名】戸塚 典子
(72)【発明者】
【氏名】ヘンチェル ミヒャエル
(72)【発明者】
【氏名】小川 浩明
(72)【発明者】
【氏名】浅野 康治
(72)【発明者】
【氏名】高橋 晃
(72)【発明者】
【氏名】明賀 知香
(72)【発明者】
【氏名】中村 匡伸
(72)【発明者】
【氏名】西川 加奈
(72)【発明者】
【氏名】山田 智恵
(72)【発明者】
【氏名】山本 眞大
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許出願公開第2018/0117769(US,A1)
【文献】特開2016-192020(JP,A)
【文献】特開2001-166803(JP,A)
【文献】特開2007-011674(JP,A)
【文献】特開2007-323233(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 5/045
(57)【特許請求の範囲】
【請求項1】
センサー情報に対応する制御対象装置の処理を決定する決定部と、
センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを用いて、前記処理に対する理由の説明を生成する生成部と、
前記説明に対するユーザの反応
を推定
する推定部と、
を具備し、
前記生成部は、
前記説明に対するユーザの反応
の推定結果に基づいて前記説明の提示を制御する、
情報処理装置。
【請求項2】
前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する、
請求項2に記載の情報処理装置。
【請求項4】
センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第1の機械学習モデルを再学習する、
請求項1に記載の情報処理装置。
【請求項5】
前記第1の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
請求項4に記載の情報処理装置。
【請求項6】
環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも1つに基づいて前記第1の機械学習モデルを再学習する、
請求項
4に記載の情報処理装置。
【請求項7】
前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
請求項
1に記載の情報処理装置。
【請求項8】
前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
請求項1に記載の情報処理装置。
【請求項9】
前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
請求項1に記載の情報処理装置。
【請求項10】
センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第2の機械学習モデルを再学習する、
請求項
9に記載の情報処理装置。
【請求項11】
前記第2の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
請求項10に記載の情報処理装置。
【請求項12】
前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第3の機械学習モデルを備え、前記第3の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
請求項
1に記載の情報処理装置。
【請求項13】
前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
請求項1に記載の情報処理装置。
【請求項14】
前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
請求項
13に記載の情報処理装置。
【請求項15】
前記生成部は、前記制御対象装置の1つの処理に対する複数の理由の説明のうち2以上を順番に又は同時に提示する、
請求項
1に記載の情報処理装置。
【請求項16】
前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
請求項1に記載の情報処理装置。
【請求項17】
前記説明を表示するための表示部を備える、
請求項1に記載の情報処理装置。
【請求項18】
情報処理装置が備える決定部が、センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
前記情報処理装置が備える生成部が、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを用いて、前記処理に対する理由の説明を生成する生成ステップと、
前記情報処理装置が備える推定部が、前記説明に対するユーザの反応を推定する推定ステップと、
を有し、
前記生成ステップでは、前記説明に対するユーザの反応の推定結果に基づいて前記説明の提示を制御する、
情報処理方法。
【請求項19】
センサー情報に対応する制御対象装置の処理を決定する決定部、
センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを用いて、前記処理に対する理由の説明を生成する生成部、
前記説明に対するユーザの反応を推定する推定部、
としてコンピュータを機能させ、
前記生成部は、前記説明に対するユーザの反応の推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で開示する技術(以下、「本開示」とする)は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムに関する。
【背景技術】
【0002】
最近、学習済みニューラルネットワークモデルを利用した人工知能技術が広範に普及しつつある。特に、複数のニューラルネットワークの層を備えたディープラーニングのニューラルネットワークモデル(以下、「DNN」とも呼ぶ)は、訓練すなわちディープラーニングを通じて開発者には想像できない特徴を多くのデータから抽出して、開発者がアルゴリズムを想定し得ないような複雑な問題解決を行うことのできる人工知能機能を開発することができる(例えば、特許文献1を参照のこと)。今後、テレビを始めとする身の回りのさまざまな機器の内部処理にDNNが適用されることが予想される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の目的は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0005】
本開示の第1の側面は、
センサー情報に対応する制御対象装置の処理を決定する決定部と、
前記処理に対する理由の説明を生成する生成部と、
ユーザの反応に対する推定を行う推定部と、
を具備し、
前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置である。
【0006】
前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する。
【0007】
前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを備え、前記第1の機械学習モデルを用いて前記処理に対する説明を生成する。センサー情報に対応して前記制御対象装置が行った処理に対して提示した説明とユーザの反応に基づいて、前記第1の機械学習モデルの再学習が行われる。
【0008】
また、前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する。センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて、前記第2の機械学習モデルの再学習が行われる。
【0009】
また、本開示の第2の側面は、
センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
前記処理に対する理由の説明を生成する生成ステップと、
ユーザの反応に対する推定を行う推定ステップと、
を有し、
前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法である。
【0010】
また、本開示の第3の側面は、
センサー情報に対応する制御対象装置の処理を決定する決定部、
前記処理に対する理由の説明を生成する生成部、
ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラムである。
【0011】
本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。
【発明の効果】
【0012】
本開示によれば、制御対象装置を自動操作した理由の説明を提示する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することができる。
【0013】
なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
【0014】
本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
【図面の簡単な説明】
【0015】
【
図1】
図1は、テレビ受信装置100の構成例を示した図である。
【
図2】
図2は、テレビ受信装置100に装備されるセンシング機能部300の構成例を示した図である。
【
図3】
図3は、テレビ受信装置100の自動操作と最適な動作理由の説明を行うための機能的構成例を示した図である。
【
図4】
図4は、テレビ受信装置100の自動操作と最適な動作理由の説明を行う処理手順(前半)を示したフローチャートである。
【
図5】
図5は、テレビ受信装置100の自動操作と最適な動作理由の説明を行う処理手順(後半)を示したフローチャートである。
【
図6】
図6は、ユーザ感情推定部103がユーザの感情を推定する処理手順を示したフローチャートである。
【
図7】
図7は、ユーザ感情推定部103で使用するニューラルネットワークをユーザ毎に最適化する処理手順を示したフローチャートである。
【
図8】
図8は、人工知能機能の判断により自動操作を行ったことを表示したテレビ画面の例を示した図である。
【
図9】
図9は、動作履歴メモリ111から読み出した動作履歴のリストの構成例を示した図である。
【
図10】
図10は、説明生成部102の動作例を示した図である。
【
図11】
図11は、説明生成部102の動作例を示した図である。
【
図12】
図12は、説明生成部102の動作例を示した図である。
【
図13】
図13は、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順を示したフローチャートである。
【
図14】
図14は、動作理由の説明を提示する画面の構成例を示した図である。
【
図15】
図15は、再学習の学習内容を設定する画面の構成例を示した図である。
【
図16】
図16は、動作理由の説明を提示する画面の構成例を示した図である。
【
図17】
図17は、再学習の学習内容を設定する画面の構成例を示した図である。
【
図18】
図18は、カーナビゲーションシステムと運転手との対話例を示した図である。
【
図19】
図19は、カーナビゲーションシステムと運転手との対話例を示した図である。
【
図20】
図20は、カーナビゲーションシステムと運転手との対話例を示した図である。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本開示について、以下の順に従って説明する。
A.概要
B.装置構成
C.センシング機能
D.内部処理の自動化と動作理由の説明
E.機能的構成
F.処理動作
G.動作理由の説明の実現例
H.感情推定のためのユーザの音声入力の実現例
I.動作理由の説明提示のための動作
J.動作決定を含めた学習
K.他の機器を使った説明提示
L.他の機器への応用例
【0017】
A.概要
近い将来、テレビを始めとする身の回りのさまざまな機器の内部処理にDNNが適用され、DNNの推論結果に基づいて機器が自動で動作することが予想される。ところが、機器が気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できないことが懸念される。
【0018】
例えば、DNNの内部的な特徴量のうち、代表的なものを言語化及び可視化してユーザに提示する推論装置が提案されている(特許文献1を参照のこと)。この推論装置は、クラスタリング問題をニューラルネットワーク(以下、「NN」とも呼ぶ)で解く場合に、各クラスの「頻出特徴量」とNN入力の「代表特徴量」に共通する「根拠特徴量」を求めて、根拠特徴量と概念を対応させることにより、推論の根拠となる特徴量を出力する。例えば画像クラスタリングNNが入力画像をゴミ収集車であると判断した理由の説明は「この画像は、ゴミ収集車である。なぜならば、タイヤ又は物の端っこ、四角形を組み合わせた細かい柄、細かいギザギザな模様、が含まれているからである。」となる。
【0019】
この推論装置は、DNN動作の根拠となった特徴量を説明するものであるが、その内容がユーザにとって理解し易いかどうかを推論するようには構成されていない。また、この推論装置を内部処理にDNNを適用した装置に搭載して動作理由の提示を行わせようとした場合、複数のDNNを組み合わせて動作することになり、複雑な処理が行われることが予測される。したがって、動作理由の説明文が長く煩雑になる可能性がある。また、この推論装置を使って提示される説明文は、DNNの内部的な特徴量を言語化してつなぎ合わせただけである。このため、DNNの動作理由としては正しい説明であっても、それが一般的なユーザにとって理解し易い内容であるかどうかは十分に考慮されていない。
【0020】
DNNが搭載された機器における自動動作の理由を機器自身が説明するという観点では、説明文が一般的なユーザ(又は、個別のユーザ)にとって理解し易いものである必要がある。そこで、本開示では、対象とする機器の動作を自動的に決定する動作決定部に、その動作決定部が決定した動作の理由をユーザに説明する説明文を生成する説明生成部を組み合わせた装置を提案する。説明生成部は、対象とする機器のどのような動作に対してユーザが説明を求めたかや、ユーザに提示した動作理由の説明に対してユーザがどのような反応を示したかを取得することで、最適な動作理由の説明文の生成方法や説明の提示方法を学習していく。説明生成部は、ユーザ毎に最適な動作理由の説明文の生成方法や説明の提示方法を学習することもできる。したがって、対象とする機器の動作を自動的に決定する動作決定部に、このような説明生成部を組み合わせることで、ユーザに適合する形で、簡潔且つユーザにとって理解し易い機器の自動動作の理由を提示することが可能となる。
【0021】
B.装置構成
この項では、本開示が適用されるテレビ受信装置について説明する。
図1には、本開示が適用されるテレビ受信装置100の構成例を示している。テレビ受信装置100は、主制御部201と、バス202と、ストレージ部203と、通信インターフェース(IF)部204と、拡張インターフェース(IF)部205と、チューナー/復調部206と、デマルチプレクサ(DEMUX)207と、映像デコーダ208と、オーディオデコーダ209と、文字スーパーデコーダ210と、字幕デコーダ211と、字幕処理部212と、データデコーダ213と、キャッシュ部214と、アプリケーション(AP)制御部215と、ブラウザ部216と、音源部217と、映像処理部218と、表示部219と、オーディオ処理部220と、オーディオ出力部221と、操作入力部222を備えている。
【0022】
主制御部201は、例えばコントローラとROM(Read Only Memory)(但し、EEPROM(Electrically Erasable Programmable ROM)のような書き換え可能なROMを含むものとする)、及びRAM(Random Access Memory)で構成され、所定の動作プログラムに従ってテレビ受信装置100全体の動作を統括的に制御する。コントローラは、CPU(Central Processing Unit)、又はMPU(Micro Processing Unit)などのプロセッサチップで構成される。あるいは、主制御部201は、GPU(Graphics Processing Unit)若しくはGPGPU(General Purpose Graphic Processing Unit)といった複数のプロセッサコアを持つプロセッサであってもよい。ROMは、オペレーティングシステム(OS)などの基本動作プログラムやその他の動作プログラムが格納された不揮発性メモリである。ROM内には、テレビ受信装置100の動作に必要な動作設定値が記憶されてもよい。RAMはOSやその他の動作プログラム実行時のワークエリアとなる。バス202は、主制御部201とテレビ受信装置100内の各部との間でデータ送受信を行うためのデータ通信路である。
【0023】
本開示では、主制御部201において、学習済みのDNNモデルを使用して、テレビ受信装置100の内部処理に関するさまざまな推論が行われる。学習済みのDNNモデルを使用した内部処理として、テレビ受信装置100の自動操作に関する動作決定や、決定した操作に関するユーザへの説明文の生成並びに説明文の出力方法の決定、出力した説明に対するユーザの反応又は感情の推定などが含まれる。但し、DNNモデルを使用した内部処理の詳細については、後述に譲る。また、主制御部201において、学習済みのDNNモデルの再学習を行うようにすることもできる。テレビ受信装置100の自動操作に関する動作として、例えば、画像モード(シネマモードやゲームモード)切り替え、輝度ダイナミックレンジ(SDRやHDR、LDR)又はガンマ補正切り替え、輝度切り替え、解像度切り替え(アップコンバート制御)、(外部入力の)画面サイズ制御(オーバースキャン、アンダースキャン、ドットバイドットなど)、UI(User Interface)の表示制御(位置、色、大きさなど)、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御(首振りテレビなどの場合)、画面回転制御(画面回転式ディスプレイなどの場合)、画面の露出制御(巻取り式ディスプレイなどの場合)を挙げることができる。
【0024】
ストレージ部203は、フラッシュROMやSSD(Solid State Drive)、HDD(Hard Disc Drive)などの不揮発性の記憶デバイスで構成される。ストレージ部203は、テレビ受信装置100の動作プログラムや動作設定値、テレビ受信装置100を使用するユーザの個人情報などを記憶する。また、ストレージ部203は、インターネットを介してダウンロードした動作プログラムやその動作プログラムで作成した各種データなどを記憶する。また、ストレージ部203は、放送波やインターネットを通じて取得した動画、静止画、オーディオなどのコンテンツも記憶可能である。また、ストレージ部203は、学習済みのDNNモデル(上述)のノード間の結合重み係数を記憶する。
【0025】
通信インターフェース部204は、ルータ(図示しない)などを介してインターネットと接続され、インターネット上の各サーバ装置やその他の通信機器とデータの送受信を行う。また、通信回線を介して伝送される番組のデータストリームの取得も行うものとする。ルータは、イーサネット(登録商標)などの有線接続、あるいはWi-Fi(登録商標)などの無線接続のいずれであってもよい。
【0026】
チューナー/復調部206は、アンテナ(図示しない)を介して地上波放送又は衛星放送などの放送波を受信し、主制御部201の制御に基づいてユーザの所望するサービス(放送局など)のチャンネルに同調(選局)する。また、チューナー/復調部206は、受信した放送信号を復調して放送データストリームを取得する。なお、複数画面同時表示や裏番組録画などを目的として、テレビ受信装置100が複数のチューナー/復調部を搭載する構成(すなわち多重チューナ)であってもよい。
【0027】
デマルチプレクサ207は、入力したデータストリーム中の制御信号に基づいてリアルタイム提示要素である映像データストリーム、オーディオデータストリーム、文字スーパーデータストリーム、字幕データストリームを、それぞれ映像デコーダ208、オーディオデコーダ209、文字スーパーデコーダ210、字幕デコーダ211に分配する。デマルチプレクサ207に入力されるデータストリームは、放送サービスによる放送データストリームや、IPTV(Internet Protocol TV)やOTT(Over-The-Top)、動画共有サイトなどのネットワークを利用した配信サービスによる配信データストリームを含む。放送データストリームは、チューナー/復調部206で選局受信及び復調された後にデマルチプレクサ207に入力され、配信データストリームは、通信インターフェース部204で受信された後にデマルチプレクサ207に入力される。また、デマルチプレクサ207は、マルチメディアアプリケーションやその構成要素であるファイル系データを再生し、アプリケーション制御部215に出力し、又はキャッシュ部214で一時的に蓄積する。
【0028】
映像デコーダ208は、デマルチプレクサ207から入力した映像ストリームを復号して映像情報を出力する。また、オーディオデコーダ209は、デマルチプレクサ207から入力したオーディオストリームを復号してオーディオ情報を出力する。デジタル放送では、例えばMPEG2 System規格に則ってそれぞれ符号化された映像ストリーム並びにオーディオストリームが多重化して伝送又は配信されている。映像デコーダ208並びにオーディオデコーダ209は、デマルチプレクサ207でデマルチプレクスされた符号化映像ストリーム、符号化映像ストリームを、それぞれ規格化されたデコード方式に従ってデコード処理を実施することになる。なお、複数種類の映像データストリーム及びオーディオデータストリームを同時に復号処理するために、テレビ受信装置100は複数の映像デコーダ208及びオーディオデコーダ209を備えてもよい。
【0029】
文字スーパーデコーダ210は、デマルチプレクサ207から入力した文字スーパーデータストリームを復号して文字スーパー情報を出力する。字幕デコーダ211は、デマルチプレクサ207から入力した字幕データストリームを復号して字幕情報を出力する。字幕処理部212は、文字スーパーデコーダ210から出力された文字スーパー情報と、字幕デコーダ211から出力された字幕情報とを合成処理する。
【0030】
データデコーダ213は、MPEG-2 TSストリームに映像及びオーディオとともに多重化されるデータストリームをデコードする。例えば、データデコーダ213は、PSI(Program Specific Information)テーブルの1つであるPMT(Program Map Table)の記述子領域に格納された汎用イベントメッセージをデコードした結果を、主制御部201に通知する。
【0031】
アプリケーション制御部215は、放送データストリームに含まれる制御情報をデマルチプレクサ207から入力し、又は、通信インターフェース部204を介してインターネット上のサーバ装置から取得して、これら制御情報を解釈する。
【0032】
ブラウザ部216は、キャッシュ部214若しくは通信インターフェース部204を介してインターネット上のサーバ装置から取得したマルチメディアアプリケーションファイルやその構成要素であるファイル系データを、アプリケーション制御部215の指示に従って提示する。ここで言うマルチメディアアプリケーションファイルは、例えばHTML(Hyper Text Markup Language)文書やBML(Broadcast Markup Language)文書などである。また、ブラウザ部216は、音源部217に働きかけることにより、アプリケーションのオーディオ情報の再生も行うものとする。
【0033】
映像処理部218は、映像デコーダ208から出力された映像情報と、字幕処理部212から出力された字幕情報と、ブラウザ部216から出力されたアプリケーション情報を入力し、適宜選択し又は重畳する処理を行う。映像処理部218はビデオRAM(図示を省略)を備え、このビデオRAMに入力された映像情報に基づいて表示部219の表示駆動が実施される。また、映像処理部218は、主制御部201の制御に基づいて、必要に応じて、EPG(Electronic Program Guide)画面や、主制御部201が実行するアプリケーションによって生成されたグラフィックスなどの画面情報の重畳処理も行う。また、映像処理部218は、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理も行う。
【0034】
表示部219は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイなどからなる表示デバイスであり、映像処理部218で選択又は重畳処理を施された映像情報をユーザに提示する。
【0035】
オーディオ処理部220は、オーディオデコーダ209から出力されたオーディオ情報と、音源部217で再生されたアプリケーションのオーディオ情報を入力して、適宜選択又は合成などの処理を行う。また、オーディオ処理部220は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。また、オーディオ処理部220は、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。
【0036】
オーディオ出力部221は、チューナー/復調部206で選局受信した番組コンテンツやデータ放送コンテンツのオーディオ出力や、オーディオ処理部220で処理されたオーディオ情報(音声ガイダンス又は音声エージェントの合成音声などを含む)の出力に用いられる。オーディオ出力部221は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部221は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)であってもよく、一部又は全部のスピーカーがテレビ受信装置100に外付け接続されていてもよい。
【0037】
操作入力部222は、ユーザがテレビ受信装置100に対する操作指示の入力を行う指示入力部である。操作入力部222は、例えば、リモコン(図示しない)から送信されるコマンドを受信するリモコン受信部とボタンスイッチを並べた操作キーで構成される。また、操作入力部222は、表示部219の画面に重畳されたタッチパネルを含んでもよい。また、操作入力部222は、拡張インターフェース部205に接続されたキーボードなどの外付け入力デバイスを含んでもよい。
【0038】
拡張インターフェース部205は、テレビ受信装置100の機能を拡張するためのインターフェース群であり、例えば、アナログ映像/オーディオインターフェースや、USB(Universal SerialBus)インターフェース、メモリインタフェースなどで構成される。拡張インターフェース部205は、DVI端子やHDMI(登録商標)端子やDisplay Port(登録商標)端子などからなるデジタルインターフェースを含んでいてもよい。
【0039】
拡張インターフェース部205は、センサー群(後述並びに
図2を参照のこと)に含まれる各種のセンサーのセンサー信号を取り込むためのインターフェースとしても利用される。センサーは、テレビ受信装置100の本体内部に装備されるセンサー、並びにテレビ受信装置100に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、テレビ受信装置100と同じ空間に存在する他のCE(Consumer Electronics)機器やIoT(Internet of Things)デバイスに内蔵されるセンサーも含まれる。拡張インターフェース部205は、センサー信号をノイズ除去などの信号処理を施しさらにデジタル変換した後に取り込んでもよいし、未処理のRAWデータ(アナログ波形信号)として取り込んでもよい。
【0040】
C.センシング機能
図2には、テレビ受信装置100に装備されるセンシング機能部300の構成例を模式的に示している。
図2に示す各センサーは、テレビ受信装置100の本体内部に装備されるセンサー、並びにテレビ受信装置100に外付け接続されるセンサーの双方を含むものとする。各センサーからのセンサー信号は、例えば拡張インターフェース部205を介してテレビ受信装置100内に取り込まれる。また、センシング機能部300に含まれるセンサーのうち少なくとも一部がリモコンに設けられていてもよい。センサー信号の少なくとも一部は、主制御部201において使用される学習済みのDNNモデルへの入力となる。
【0041】
カメラ部310は、表示部219に表示された映像コンテンツを視聴中のユーザを撮影するカメラ311と、表示部219に表示された映像コンテンツを撮影するカメラ312と、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影するカメラ313を含んでいてもよいし、カメラ311乃至313が持つ機能のうち複数の機能を有するカメラを含んでいてもよい。
【0042】
カメラ311は、例えば表示部219の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ312は、例えば表示部219の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ312を搭載したゴーグルを装着するようにしてもよい。また、カメラ312は、映像コンテンツの音声も併せて記録(録音)する機能を備えていてもよい。また、カメラ313は、例えば全天周カメラや広角カメラで構成され、テレビ受信装置100が設置されている室内(あるいは、設置環境)を撮影する。あるいは、カメラ313は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル(雲台)に乗せたカメラであってもよい。
【0043】
ユーザ状態センサー部320は、ユーザの状態に関する状態情報を取得する1以上のセンサーからなる。ユーザ状態センサー部320は、状態情報として、例えば、ユーザの作業状態(映像コンテンツの視聴の有無)や、ユーザの行動状態(静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小)、精神状態(ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など)、さらには生理状態を取得することを意図している。ユーザ状態センサー部320は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するIMU(Inertial Measurement Unit)などの各種のセンサー、ユーザの発話を収音するオーディオセンサー(マイクなど)、ユーザの指などの物体の位置を検出する位置情報検出センサー(近接センサーなど)を備えていてもよい。なお、マイクは、テレビ受信装置100と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン/ヘッドセット、タブレット、スマートフォン、あるいはPC(personal Computer)、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、IoT家電装置、又はロボットであってもよい。位置情報検出センサーは、表示部219に対するユーザ操作を検出するためのタッチセンサーとして構成されてもよい。
【0044】
環境センサー部330は、テレビ受信装置100が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、GPS(Global Positioning System)センサー、周囲音を収音するオーディオセンサー(マイクなど)などが環境センサー部330に含まれる。また、環境センサー部330は、テレビ受信装置100が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。
【0045】
機器状態センサー部340は、テレビ受信生装置100の内部の状態を取得する1以上のセンサーからなる。あるいは、映像デコーダ208やオーディオデコーダ209などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部340は、テレビ受信装置100やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。ユーザの操作には、テレビ受信装置100やその他の機器に対するリモコン操作を含んでもよい。ここで言うその他の機器は、タブレット、スマートフォン、PC、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、IoT家電装置、又はロボットであってもよい。また、機器状態センサー部340は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部340は、機器の性能や仕様に関する情報を記録した内蔵ROMのようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。
【0046】
ユーザプロファイルセンサー部350は、テレビ受信装置100で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部350は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ311で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを推定するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルや、スマートスピーカーやロボットがユーザとの対話を通じて取得するユーザプロファイルを、テレビ受信装置100とスマートフォンなどの機器の間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部350は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくEEPROMのようなメモリであってもよい。
【0047】
また、スマートフォンなどのユーザが携帯する多機能情報端末を、テレビ受信装置100とスマートフォンなどの機器の間の連携により、カメラ部310あるいはユーザ状態センサー部320、環境センサー部330、ユーザプロファイルセンサー部350として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能(歩数計など)、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、SNS(Social Network Service)の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、テレビ受信装置100と同じ空間に存在する他のCE機器やIoTデバイスに内蔵されるセンサーを、ユーザ状態センサー部320あるいは環境センサー部330として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、テレビ受信装置100から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。
【0048】
D.内部処理の自動化と動作理由の説明
本実施形態では、テレビ受信装置100の内部処理のほとんどすべてにDNNが適用され、上記C項で説明したセンシング機能によりセンシングされたユーザの使用状況や周囲環境に基づいて、テレビ受信装置100の自動操作が可能であることを想定している。具体的には、チャンネル操作、音量調整、画質調整、字幕設定といったテレビ受信装置100本体の操作をDNNにより自動化することを意図しているが、自動録画設定や外付けスピーカーへのオーディオ出力など、テレビ受信装置100とこれに接続する外部機器との連係動作もDNNを用いた自動操作の対象とすることができる。
【0049】
DNNの推論結果に基づいてテレビ受信装置100の自動操作を行うことで、ユーザは手動操作を行う必要がなくなり便利である。しかしながら、テレビ受信装置100又はDNNが気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できない場合がある。
【0050】
例えば、現在時刻が22時過ぎで、テレビ受信装置100の前にユーザが1名いるが、ユーザがテレビを観ていない場合には、そのユーザの嗜好に合った番組が放送されていないと推論して、音量を下げるなどの自動操作を行う。ユーザは、このような自動操作が行われる理由が分からず、気味悪く感じることもある。
【0051】
本開示では、DNNが搭載されたテレビ受信装置100における自動操作の理由を、テレビ受信装置100自身が説明する。したがって、ユーザは、テレビ受信装置100に何が起こったかを問い合わせることができる。また、テレビ受信装置100は、ユーザとのインタラクションを通じてどのような説明を行えばユーザに自動操作の理由を理解してもらい易くなるかを学習しており、ユーザに対する簡潔な理由の提示を実現することができる。
【0052】
E.機能的構成
図3には、テレビ受信装置100の自動操作と最適な動作理由の説明を行うための機能的構成例を模式的に示している。テレビ受信装置100は、当該機能を実現するために、動作決定部101と、説明生成部102と、ユーザ感情推定部103を備えている。また、テレビ受信装置100は、当該機能を実現する上で必要な情報を記憶又は蓄積する手段として、動作履歴メモリ111と、ユーザ情報データベース112を備えている。動作決定部101と、説明生成部102と、ユーザ感情推定部103は、例えば主制御部201が実行するソフトウェアモジュールである。但し、動作決定部101と、説明生成部102と、ユーザ感情推定部103のうち少なくとも1つは、拡張インターフェース部205を介してテレビ受信装置100に外部接続される情報処理装置(図示しない)上で動作していてもよい。また、動作履歴メモリ111とユーザ情報データベース112に必要な記憶領域は、例えばストレージ部203内に確保されるが、拡張インターフェース部205を介してテレビ受信装置100に外部接続される記憶装置(図示しない)上に確保されていてもよい。
【0053】
動作決定部101と、説明生成部102と、ユーザ感情推定部103は、それぞれ深層学習した学習済みのDNNモデルを用いて構成される。もちろん、動作決定部101と、説明生成部102と、ユーザ感情推定部103を併せて1つの学習済みDNNモデルとして構成することもできるが、本明細書では、便宜上、動作決定部101と、説明生成部102と、ユーザ感情推定部103をそれぞれ独立した機能モジュールとして説明する。これらのDNNモデルの深層学習は、クラウド上で行われ、学習済みのDNNモデルが各製品すなわちテレビ受信装置100に搭載されることを想定している。もちろん、テレビ受信装置100でDNNモデルの深層学習を行うことも可能である。
【0054】
動作決定部101は、センシング機能部300(
図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、テレビ受信装置100の動作を決定する。本実施形態では、動作決定部101は、ユーザの状態(ユーザによるテレビ受信装置100の使用状況)や周囲環境(現在時刻や部屋の明るさ、室温など)のセンシング情報と、テレビ受信装置100が行った動作との相関関係を深層学習した学習済みDNNを備えている。そして、動作決定部101は、センシング機能部300から入力されたセンシング結果から、学習済みのDNNの推論によって、テレビ受信装置100の動作を決定する。主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する。また、動作決定部101が決定してテレビ受信装置100で自動実行した動作を動作履歴メモリ111に保存する。動作履歴メモリ11は、テレビ受信装置100が自動で実行した動作を、実行した時刻とともに保存する。なお、動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
【0055】
なお、動作決定部101に入力される、センシング機能部300によるセンシング結果には、ユーザによるテレビ受信装置100の使用状況や周囲環境の他に、ユーザのテレビ受信装置100やその他の機器に対する操作履歴、テレビ受信装置100やその他の機器の動作履歴、ユーザプロファイルセンサー部350が取得するユーザプロファイル情報などを含んでいてもよい。
【0056】
また、動作決定部101がセンシング結果に基づいて決定するテレビ受信装置100の動作として、例えば、画像モード(シネマモードやゲームモード)切り替え、輝度ダイナミックレンジ(SDRやHDR、LDR)又はガンマ補正切り替え、輝度切り替え、解像度切り替え(アップコンバート制御)、(外部入力の)画面サイズ制御(オーバースキャン、アンダースキャン、ドットバイドットなど)、UIの表示制御(位置、色、大きさなど)、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御(首振りテレビなどの場合)、画面回転制御(画面回転式ディスプレイなどの場合)、画面の露出制御(巻取り式ディスプレイなどの場合)を挙げることができる。但し、動作決定部101はこれらすべての動作を決定する必要はなく、音量調整や字幕表示など上記のうち一部の動作を決定すれば十分な場合もある。
【0057】
説明生成部102は、ユーザからの説明提示の要求があった場合に、動作決定部101が決定したテレビ受信装置100の動作に対してユーザが好みそうな(又は、ユーザが納得し易い)理由の説明を生成する。本実施形態では、説明生成部102は、テレビ受信装置100が行った動作と、そのときの動作理由の説明に対するユーザの反応との相関関係を深層学習した学習済みDNNを備えている。ユーザの反応は、提示した動作理由の説明に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値でもよいし、より細かく分類した識別値で表現されていてもよい。また、この学習済みDNNは、さらにユーザの状態や周囲環境のセンシング情報との相関関係を考慮して深層学習を行っていてもよい。そして、説明生成部102は、センシング機能部300から入力されたセンシング結果と、動作決定部101が決定したテレビ受信装置100の動作から、学習済みのDNNの推論によって、テレビ受信装置100の動作に対してユーザが好みそうな動作理由の説明を生成する。センシング機能部300から入力されたセンシング結果には、ユーザプロファイルセンサー部350でセンシングされるユーザのプロファイル情報や、ユーザによる機器の使用履歴なども含まれる。
【0058】
説明生成部102は、ユーザから説明を要求されたテレビ受信装置100の動作に対する理由の説明を、ユーザが最も納得すると推定される形式で生成する。説明生成部102は、複数の動作理由の説明が推定される場合には、そのうちのいずれをユーザに提示すべきか(又は、提示する優先順位)を決定する。また、説明生成部102は、生成した動作理由を出力する形式、又は、ユーザに提示する方法も決定するようにしてもよい。例えば、動作理由の説明を音声又は画面のいずれか又は両方で出力するかを決定する。動作理由の説明を音声で行う場合には、音量や声質も決定するようにしてもよい。
【0059】
そして、説明生成部102は、説明提示を要求されたテレビ受信装置100の動作と、そのときに生成した(又は、ユーザに提示した)動作理由の説明を、ユーザ情報データベース112に保存する。
【0060】
なお、説明生成部102に対するユーザの説明提示要求は、ユーザによる音声コマンドやジェスチャによって行うようにしてもよい。また、ユーザは、操作入力部222やリモコン操作を介してテレビ受信装置100に対して説明提示要求を行うようにしてもよい。
【0061】
ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。ユーザ感情推定部103は、ユーザの反応を、ユーザによる音声コマンドやジェスチャによって入力するようにしてもよいし、操作入力部222やリモコン操作を介して入力するようにしてもよい。あるいは、ユーザ感情推定部103は、音声やジェスチャ、入力操作といったユーザの明示的な動作としてではなく、ユーザ状態センサー部320からのセンシング情報としてユーザの反応を入力するようにしてもよい。ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値でもよいし、より細かく分類した識別値で表現されていてもよい。本実施形態では、ユーザ感情推定部103は、ユーザの音声やジェスチャ、操作入力などとユーザの反応との相関関係を深層学習した学習済みDNNを備えている。そして、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、学習済みのDNNの推論によって、ユーザの感情を推定する。
【0062】
また、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。
【0063】
ユーザ情報データベース112には、テレビ受信装置100を自動操作したときの、「動作理由の提示の仕方」と、これに対してユーザが抱いた「ユーザの感情」のペアの情報が蓄積されていく。ユーザ情報データベース112に蓄積された情報は、説明生成部102で使用する学習済みDNNの再学習に使用される。再学習によって、説明生成部102は、テレビ受信装置100を使用する個別のユーザが好みそうな動作理由の説明を生成し易くなり、個別のユーザに不快感を与えるような説明を提示し難くなるようにパーソナライズされる。例えば、動作理由の説明を音声で提示する場合には、個別のユーザが心地よい声質を使って、不快感を与えない音量で出力できるように再学習される。
【0064】
なお、説明生成部102が使用する、テレビ受信装置100の自動操作に対する動作理由の説明を推定する学習済みDNNを「第1の機械学習モデル」とする。また、動作決定部101が環境情報などのセンシング結果に基づいてテレビ受信装置100の自動操作を推定する学習済みDNNを「第2の機械学習モデル」とする。ユーザ感情推定部103が使用する、ユーザの反応からユーザの感情(ポジティブ又はネガティブのいずれであるか)を推定する学習済みDNNを「第3の機械学習モデル」とする。
【0065】
図3に示した機能的構成は、テレビ受信装置100が行った自動操作について生成した動作理由の説明に対してユーザの反応などのフィードバックを取得して、ユーザに合った動作理由を生成するという系を備えている。したがって、人工知能技術によるテレビ受信装置100の自動操作を実施したときに、その動作理由についてユーザにとって分かり易い説明を提示できるようになる。
【0066】
また、テレビ受信装置100が行った1つの自動操作に対して、説明生成部102が複数の動作理由の説明を生成した場合には、ユーザが好みそうな順で1つずつ説明を提示して、ユーザの反応を取得する。したがって、ユーザの少ない負担で、提示した説明に対するユーザの反応を取得することができる。
【0067】
また、
図3に示した機能的構成では、説明生成部102が使用する、テレビ受信装置100の自動操作に対する動作理由の説明を推定する学習済みDNN「第1の機械学習モデル」の再学習を行うことができる。したがって、ユーザがテレビ受信装置100を継続的に使用することによって、テレビ受信装置100が自動操作を行ったときに、ユーザにとって理解し易い動作理由の説明を行えるように学習されていく。
【0068】
F.処理動作
F-1.全体的な処理手順
続いて、テレビ受信装置100が、
図3に示したような機能的構成を用いて、操作の自動化及び動作理由の説明を行うための全体的な処理動作について説明する。
図4及び
図5には、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。
【0069】
まず、動作決定部101は、センシング機能部300(
図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みDNN(前述)の推論によって、テレビ受信装置100の動作を決定する(ステップS401)。
【0070】
そして、動作決定部101は、決定した動作を動作履歴メモリ111に保存する(ステップS402)。動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
【0071】
主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する(ステップS403)。
【0072】
次いで、ステップS403で実施したテレビ受信装置100の自動操作に対して、ユーザから説明提示の要求があったかどうかをチェックする(ステップS404)。ユーザから説明提示の要求がなければ(ステップS404のNo)、ステップS401に戻って、上記の処理を繰り返し実行する。
【0073】
一方、ユーザから説明提示の要求があった場合には(ステップS404のYes)、説明生成部102は、動作履歴メモリ111から説明提示を要求された動作を読み出すとともに、センシング機能部300から入力されるセンシング結果を取得する(ステップS405)。そして、説明生成部102は、学習済みDNN(前述)の推論によって、説明提示が要求されたテレビ受信装置100の動作理由に関してユーザが好みそうな説明を生成する(ステップS406)。説明生成部102は、1回の説明提示要求に対して、複数の動作理由の説明を生成する場合もある。
【0074】
次いで、説明生成部102が生成した動作理由の説明を、例えばテレビ受信装置100が備える出力手段(スピーカーや画面など)を用いてユーザに提示する(ステップS407)。説明生成部102は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置100の周囲環境に基づいて選択するようにしてもよい。
【0075】
そして、説明生成部102は、説明提示を要求されたテレビ受信装置100の動作と、そのときに生成した(又は、ユーザに提示した)動作理由の説明を、ユーザ情報データベース112に保存する。
【0076】
次いで、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して(ステップS408)、ユーザの感情を推定する(ステップS409)。ここでは、説明の簡素化のため、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。そして、ユーザ感情推定部103が推定したユーザの感情がポジティブなものかどうかをチェックする(ステップS410)。
【0077】
提示した動作理由の説明に対するユーザの感情がポジティブなものであれば(ステップS410のYes)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
【0078】
また、提示した動作理由の説明に対するユーザの感情がポジティブなものでなければ(ステップS410のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の他の説明をユーザが要求しているかどうかをさらにチェックする(ステップS411)。
【0079】
ユーザが動作理由の他の説明を要求しない場合には(ステップS411のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
【0080】
また、ユーザが動作理由の他の説明を要求する場合には(ステップS411のYes)、説明生成部102が動作理由のさらに他の説明を生成しているかどうかをチェックする(ステップS412)。そして、説明生成部102が動作理由のさらに他の説明を生成している場合には(ステップS412のYes)、ステップS407に戻って、ユーザに他の説明を提示して、上記処理を繰り返し実行する。説明生成部102が動作理由の他の説明を生成していない場合には(ステップS412のNo)、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS413)。
【0081】
そして、説明生成部102は、ユーザ情報データベース112に蓄積された情報を使用して、動作理由の説明を生成する学習済みDNNの再学習を実施する(ステップS414)。
【0082】
テレビ受信装置100の自動操作に対する動作理由の説明を提示する処理動作について、さらに詳細に説明する。
【0083】
例えば、テレビ受信装置100において音量を下げるという自動操作が行われたことに対して、ユーザから説明を要求されたとする。このような場合、説明生成部102は、動作履歴メモリ111から説明提示を要求された動作を読み出すとともに、センシング機能部300から入力されるセンシング結果を取得して、学習済みDNN(前述)の推論によって、テレビ受信装置100が音量を下げる自動操作を行った理由に関して、「現在時刻が22時である」且つ「ユーザが1名しかいない」且つ「ユーザがテレビを観ていない」という説明を生成する。そして、説明生成部102は、これら生成した複数の説明のうちいずれをユーザが好むかを、学習済みDNN(前述)によってさらに推論する。例えば、説明提示を求めたユーザは「ユーザの習慣に基づいた説明をすると納得し易い」というように学習されているとする。この場合、説明生成部102は、生成した複数の説明の中から、「普段から22時を過ぎると音量を下げる傾向があるため、今回は自動で音量調整した」という説明が、今回の動作理由の説明として最もユーザに納得してもらえるものと推定する。
【0084】
なお、説明生成部102は、テレビ受信装置100の自動操作について複数の説明の候補を生成して、ユーザが納得し易い順番に各説明の候補を並べ替えてユーザに提示するようにしてもよい。また、説明生成部102は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置100の周囲環境に基づいて選択するようにしてもよい。
【0085】
ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。
図4及び
図5に示したフローチャートでは、ユーザ感情推定部103は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)を推定する。ユーザ感情推定部103は、例えばポジティブ○%、ネガティブ○%というような割合でユーザの感情の推定結果を示し、ポジティブ又はネガティブのいずれかの割合が閾値(例えば85%)を超えていれば、動作理由の説明に対してユーザがポジティブ(又はネガティブ)な感情を抱いたと推定するように構成される。但し、ユーザ感情推定部103がユーザの感情を推定する処理手順の詳細については、後述(
図6を参照のこと)に譲る。
【0086】
図4及び
図5に示したフローチャートでは、提示した動作理由の説明に対するユーザの感情がポジティブなものであれば、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。一方、提示した動作理由の説明に対するユーザの感情がネガティブな場合や、ユーザの感情を推定できない場合(ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合)には、ユーザが動作理由の他の説明を要求し、且つ、説明生成部102がさらに他の説明を生成している場合には、ユーザに他の説明を再度提示して、ユーザ感情推定部103はその説明に対するユーザの感情を推定する。他方、ユーザが他の説明を要求しない場合や、ユーザは他の説明を要求するが説明生成部102が他の説明を生成していない場合には、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない(又は、「ネガティブ」である)という感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する。
【0087】
説明生成部102は、ユーザ情報データベース112に蓄積された情報を使用して、動作理由の説明を生成する学習済みDNNの再学習を実施する。なお、確度の低い情報を再学習に使用することを避けるために、説明を提示したときのユーザの感情が曖昧な(ポジティブ及びネガティブのいずれの割合も閾値を超えていない)場合には、ユーザ情報データベース112に保存しないようにしてもよい。
【0088】
説明生成部102は、テレビ受信装置100の動作理由の説明を生成する際、その説明をユーザが好みそうであるかどうか、言い換えれば、ユーザがポジティブ又はネガティブのいずれの反応を示すかを、確率的に推定する。したがって、再学習では、説明生成部102は、ユーザ感情推定部103によって得られたユーザ情報データベース112の情報を使ってその確率を修正することによって、ユーザが納得し易い説明を生成し、ユーザを不快にさせる説明を生成しないように推定の精度を向上することができる。再学習において、ユーザ感情推定部103によって得られたユーザ情報データベース112の情報を使って、説明生成部102で生成する説明に対する反応の確率を修正する処理の具体例を以下に挙げておく。
【0089】
(1)説明生成部102でポジティブな反応が得られると推定され、且つユーザ感情推定部103でもポジティブな反応が得られた動作理由の説明は、ユーザに提示することが必須となるので、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(2)説明生成部102ではポジティブな反応が得られる確率が低いと推定されるが、ユーザ感情推定部103ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(3)説明生成部102ではポジティブな反応が得られる確率が低いと推定され、且つ、ユーザ感情推定部103ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部102においてポジティブな反応が得られると推定される確率が低下する。
(4)説明生成部102ではポジティブな反応が得られるかどうかが不明であるが、ユーザ感情推定部103ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部102においてポジティブな反応が得られると推定される確率が向上する。
(5)説明生成部102ではポジティブな反応が得られるかどうかが不明であり、且つ、ユーザ感情推定部103ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部102においてポジティブな反応が得られると推定される確率が低下する。
【0090】
また、説明生成部102で生成した動作理由の説明に対する、ユーザ感情推定部103におけるユーザの感情の推定が曖昧な場合(ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合)には、ポジティブ又はネガティブの割合に応じて、その説明の説明生成部102における確率の上げ幅又は下げ幅を調整するようにしてもよい。例えばポジティブの割合が100%であれば、説明生成部102においてポジティブな反応が得られると推定される確率を大幅に上げるようにする。
【0091】
上記のような説明生成部102の再学習は、ユーザ感情推定部103から推定結果が得られる度に行うようにしてもよいし、ユーザ情報データベース112に情報を蓄積して定期的に再学習を行うようにしてもよい(例えば、過去30日分の情報が蓄積したら再学習を行うようにする)。
【0092】
F-2.ユーザの感情の推定処理
図6には、
図5に示したフローチャート中のステップS409で実行される、ユーザ感情推定部103がユーザの感情を推定する処理手順をフローチャートの形式で示している。ここでは、説明の簡素化のため、ユーザの反応としてマイクで収音したユーザの音声を使用し、また、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。また、ユーザ感情推定部103は、パラ言語解析ニューラルネットワークや、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、学習済みのニューラルネットワークモデルを適宜利用するものとする。
【0093】
ユーザ感情推定部103は、マイクから音声情報を入力すると(ステップS601)、入力した音声を、例えば数十ミリ秒毎のフレームに分割して、各フレームから音響特徴量を抽出する(ステップS602)。
【0094】
ユーザ感情推定部103は、抽出した音響特徴量から、音量やピッチなどを抽出する(ステップS603)。また、ユーザ感情推定部103は、音声認識ニューラルネットワークを用いて、マイク入力音声の音響特徴量からテキスト情報を推定する(ステップS607)。また、ユーザ感情推定部103は、話者認識ニューラルネットワークを用いて、マイクから入力した音声の話者情報を推定する(ステップS609)。
【0095】
次いで、ユーザ感情推定部103は、音響特徴量と、音声認識ニューラルネットワークにより推定されたテキスト情報から、発話速度、イントネーション、リズム、ポーズ、声質といった周辺言語、すなわちパラ言語情報を抽出する(ステップS604)。そして、ユーザ感情推定部103は、パラ言語解析ニューラルネットワークを用いて、マイク入力音声の音響上のポジティブ・ネガティブを判定する(ステップS605)。
【0096】
また、ユーザ感情推定部103は、自然言語処理ニューラルネットワークを用いて、言語上のポジティブ・ネガティブを判定する(ステップS608)。
【0097】
そして、ユーザ感情推定部103は、総合ポジティブ・ネガティブ判定ニューラルネットワークを用いて、音響上のポジティブ・ネガティブ判定と、言語上のポジティブ・ネガティブ判定と、話者情報から、ユーザの感情がポジティブ又はネガティブのいずれであるかを総合的に判定する(ステップS606)。
【0098】
音声情報を利用してユーザの感情を推定する処理動作について、さらに詳細に説明する。
【0099】
マイクから入力された音声情報を、例えば数十ミリ秒単位のフレームに分割して抽出された特徴量から、パラ言語情報、テキスト情報、話者情報を抽出する。話者情報は、音響特徴量と事前に登録されたユーザの音声との相関関係を学習済みの話者情報ニューラルネットワークを用いて推定することができる。また、マイク入力音声のテキスト情報は、テキストと音響特徴量との相関関係を学習済みの音声認識ニューラルネットワークを用いて推定することができる。また、パラ言語情報として、例えば音量やピッチは音響特徴量から計算することができ、且つ、テキスト情報と音響特徴量を使うことで話速を計算することができる。そして、得られたパラ言語情報及びテキスト情報をそれぞれパラ言語解析ニューラルネットワーク及び自然言語処理ニューラルネットワークを用いて解析して、パラ言語情報及びテキスト情報にそれぞれポジティブ及びネガティブな要素がどの程度含まれているかを推定することができる。
【0100】
そして、最終的に、総合ポジティブ・ネガティブ判定ニューラルネットワークが、音響上のポジティブ・ネガティブ情報と、言語上のポジティブ・ネガティブ情報と、話者情報に基づいて、マイク入力音声にポジティブ又はネガティブの各要素が含まれる割合を決定する。
【0101】
図6に示す処理手順では、音声認識結果に加えてパラ言語情報も使用することによって、例えば「いいんじゃない?」という同じ文言について、話者の言い方によって得られる印象の違いを検出することが可能である。また、
図6に示す処理手順では、話者情報も使用することによって、ユーザ毎の音声の特性の個人差を考慮して、ポジティブ・ネガティブの推定を行うことができる。
【0102】
図6に示す処理手順では、ユーザ感情推定部103は、パラ言語解析ニューラルネットワーク、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、複数のニューラルネットワークを活用して、音声情報からユーザの感情を推定する。例えばこれらのニューラルネットワークは、テレビ受信装置100を利用するユーザ毎に最適化される。
【0103】
なお、
図6に示すユーザ感情推定処理手順は、基本的に、音声情報のみを利用してユーザの感情を推定する。もちろん、カメラで撮影したユーザの顔画像から表情認識したり、テレビの画面にアンケートを表示してユーザにリモコンボタンなどを使って回答してもらったりするなど、音声以外の情報を利用して、ユーザの感情を推定する方法や、音声情報とユーザの顔画像やアンケートの回答結果を組み合わせて、ユーザの感情を総合的に推定するようにしてもよい。
【0104】
図7には、ユーザ感情推定部103で使用するこれらのニューラルネットワークを、ユーザ毎に最適化する処理手順をフローチャートの形式で示している。
【0105】
まず、大規模データで一般的な音声でのデータ傾向をニューラルネットワークモデルに学習させる(ステップS701)。この処理は、例えばクラウド上で行うことを想定している。
【0106】
大規模データで事前学習が済んだニューラルネットワークモデルは、個別のユーザのテレビ受信装置100内のユーザ感情推定部103に搭載される。ユーザがテレビ受信装置100を使用していくうちに、使用ログが収集される(ステップS702)。そして、テレビ受信装置100において収集されたユーザの使用ログを用いて、ユーザ感情推定部103に搭載されたニューラルネットワークモデルの再学習が行われる(ステップS703)。
【0107】
その後、再学習されたニューラルネットワークモデルを使用して、実際にユーザの感情推定が行われる(ステップS704)。ユーザがテレビ受信装置100を長く使用すればするほど、使用を通じて収集される使用ログに基づいてニューラルネットワークモデルの再学習が繰り返し行われる。その結果として、ニューラルネットワークモデルを個別のユーザの特性に合わせて最適化することができる。
【0108】
パラ言語解析ニューラルネットワークの場合、大規模データで一般的な音声でのデータ傾向として、例えば「怒ったときの音声に特定の傾向がある(音量が上がる、話速が速くなるなど)」といった、音声特徴のデータと感情という正解ラベル情報を使って音声から感情を推定できるようにあらかじめ学習(製品出荷前の事前学習)されているとする。その後、製品を購入した個別のユーザの音声特徴に適合させる再学習のために、機器状態センサー部340によってセンシングされるテレビ受信装置100の使用ログや他の機器の使用状況から、音声特徴と感情のペアのデータを取得する。例えば、「使いづらい」など、言語上ネガティブな意味合いの可能性が高いユーザの音声がマイクから入力されたときに、その音声の特徴をネガティブ情報とのペアで取得して蓄積する。また、「これいいね!」など、言語上ポジティブな意味合いの高いユーザの音声がマイクから入力されたときに、その音声の特徴をポジティブ情報とのペアで取得して蓄積する。このように収集されたデータをパラ言語解析ニューラルネットワークの入力として再学習することで、個別のユーザの音声特徴に適合させることができる。
【0109】
G.動作理由の説明の実現例
この項では、説明生成部102で生成した動作理由の説明をユーザに提示する具体例について説明する。
【0110】
(1)ユーザのテレビの視聴体験を損なわずに動作理由の説明を提示する場合
例えばユーザ状態センサー部320がセンシングした視線情報に基づいて、ユーザのテレビ視聴の集中度を推定することができる。ユーザがテレビ視聴に集中している場合には、動作理由の説明を音声で出力することを控え、画面隅のポップアップ表示で動作理由の説明を提示する。ユーザが詳細表示を要求した場合には、画面上に動作理由の詳細な説明を表示する。
また、ユーザプロファイルセンサー部350がセンシングしたユーザプロファイルに基づいて、視聴中のテレビ番組がユーザの嗜好に合っているかどうかを推定することができる。ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、CM期間を検知して、CM期間中のタイミングで画面に動作理由の説明を提示する。また、動作理由の説明提示が要求されてから一定時間内にCM期間を検知できなかった場合には、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。
【0111】
(2)テレビ画面を見ていないユーザに動作理由の説明を提示する場合
ユーザがテレビの前を動き回っていたり、ユーザがスマートフォンや音楽プレーヤーなど他の機器に集中したりしているときには、ユーザはテレビ番組に集中していないと推定することができる。ユーザがテレビの前を動き回ってテレビ番組に集中していない場合には、テレビコンテンツの音量を下げて、音声で動作理由の説明を行う。
また、ユーザがスマートフォンや音楽プレーヤーなど他の機器を操作してテレビ番組に集中していない場合には、他の機器を使って動作理由の説明を提示するようにしてもよい。他の機器を使ってテレビ画面に着目するようにユーザに通知した上で、テレビ受信装置100の画面を使って動作理由の説明を提示するようにしてもよい。
【0112】
(3)複数人のユーザが同席中に動作理由の説明を提示する場合
説明生成部102で生成した説明文を自然言語処理技術によって解析して、説明文にユーザの個人情報(趣味・嗜好、生活習慣など)や機微情報が含まれているかどうかをチェックする。動作理由の説明にユーザの個人情報や機微情報が含まれている場合には、他のユーザも聴くことができるマイク出力や他のユーザも見ているテレビ画面に出力するのを避け、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。
【0113】
H.感情推定のためのユーザの音声入力の実現例
ユーザ感情推定部103は、提示した動作理由の説明に対するユーザの感情を、主にユーザが発話した音声情報に基づいて推定する。この項では、動作理由の説明に対するユーザの感情を推定するためのユーザの音声を入力する具体例について説明する。
【0114】
(1)テレビの視聴中にユーザの明瞭な音声を取得する場合
テレビ受信装置100に備えられたマイクを使ってユーザの音声を取得する場合、テレビの出力音が入り込むが、エコーキャンセリング技術を使ってユーザの音声だけを抽出して、ユーザの感情を高精度で推定することができる。
テレビ受信装置100に複数のマイクを搭載すれば、ビームフォーミングによって雑音のゲインを低減して、ユーザの音声を強調することができる。
また、動作理由の説明を提示したら、音声ガイダンスや画面表示によってユーザに発話を促し、その間だけテレビの出力音量を下げて、ユーザの音声を抽出し易くするようにしてもよい。
テレビ受信装置100本体のマイクの他に、リモコンに搭載したマイク、スマートフォン、スマートスピーカー、ロボットなどテレビ受信装置100と連携する機器のマイクを利用して、ユーザの音声を収音することができる。周囲環境のノイズレベルに応じて、いずれのマイクを使用するかを判断して、適切なマイクへの発話をユーザに指示する。例えば周囲がうるさい場合には、ユーザの口元に近いスマートフォンのマイクを指定して、ユーザに発話を促すようにすればよい。
【0115】
(2)ユーザの音声をうまく習得できない場合
音声合成技術を利用して、申し訳なさそうな音声を生成して、ユーザに再度発話を促すようにする。音声の取得に失敗した原因がテレビの出力音以外にある場合には、ユーザに環境の改善(ゆっくり話してほしいなど)をお願いするようにしてもよい。
【0116】
(3)テレビの視聴体験を損なわないようにユーザの音声を取得する場合
ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、提示した説明に対するユーザの反応を取得する優先度を下げるようにしてもよい。例えばユーザが番組視聴に特に集中している場合、いかなる通知情報の提示も邪魔に感じる可能性があるが、その際に得られたユーザの感情推定の結果は普段のテレビ視聴の際に得られる感情推定の結果と大きく異なることが考えられる。そのような場合には、スマートフォンなど他の端末に反応取得に関する通知を残しておいてもよいし、ユーザの反応を取得することを必須としなくてもよい。
【0117】
(4)説明の内容に対する感想のみを抽出する場合
動作理由の説明に関する感想を音声入力で自由に受け付けた場合、説明の内容に対する感想、又は説明の提示方法に対する感想のいずれであるかを識別する必要がある。説明の内容に対する感想のみを抽出できれば、説明生成部102が説明の生成に成功したかどうかを評価し、説明生成部102の再学習に使用することができる。そこで、ユーザ感情推定部103は、直近の説明提示の出力先の情報と、音声認識結果を組み合わせて、ユーザの音声が説明の内容又は説明の提示方法のいずれに対する感想であるかを推定する。例えば、直近で説明生成部102が説明提示の方法を工夫した場合には、ユーザの音声は、説明提示方法に対する反応である可能性がある。ユーザが何に対して反応したのかを、ユーザに問い合わせるようにしてもよい。また、ユーザの音声がいずれに対する感想であるかを識別できない場合には、今回のデータを説明生成部102の再学習に使用しないように判断してもよい。一方、説明生成部102が直近で(又はしばらくの間)説明提示の方法を変更していない場合には、ユーザの音声は説明の内容に対する反応であると判断して、ユーザ感情推定部103はユーザの感情を推定するようにしてもよい。
【0118】
(5)音声のみでユーザの感情を推定することが困難な場合
音声のみでユーザの感情を推定することが困難な場合には、ユーザ感情推定部103がユーザの反応を取得する方法を音声入力から画面上での選択形式に変更するようにしてもよい。例えば、音声による話者性の抽出と感情推定の結果、特定のユーザにおいてポジティブとネガティブの割合がどちらも閾値を超えない(又は、常にニュートラルとしか判定されない)ことにより、提示した説明に対して正解ラベルを付与できない状態が一定期間又は一定の割合続いた場合には(例えば、1か月間同じ状態や、ユーザが説明提示を要求した回数に対して8割以上正解ラベルを付与できない場合)、ユーザの反応を取得する方法を音声入力から画面上での選択形式に変更する。例えば、「納得した」、「説明の意味がよく分からない」、「他の説明を見たい」の3つの選択肢を提示して、ユーザにリモコン操作などによって選択してもらうようにする。
【0119】
I.動作理由の説明提示のための動作
この項では、
図3に示した機能的構成に基づいて、テレビ受信装置100の自動操作の理由を説明するための、説明生成部102を中心とした具体的な動作について説明する。
【0120】
I-1.動作理由の問い合わせと動作履歴との紐付け
ユーザがテレビ受信装置100の自動操作の理由を問い合わせるさまざまな方法が挙げられる。例えば、ユーザが操作入力部222又はリモコンの操作により問い合わせるようにしてもよいし(「動作理由問合せ」ボタンを設置してもよい)、テレビ受信装置100の音声エージェント機能を利用してユーザが音声で問い合わせるようにしてもよい(「今どうしてそんなことしたの?」と尋ねるなど)。
【0121】
なお、テレビ受信装置100がニューラルネットワークモデルを利用した人工知能機能に基づく自動操作であることを、画面や音声ガイダンスによってユーザに明示するようにしてもよい。
図8には、人工知能機能の判断により音量調整を行ったことを示す特定のマーク801を、テレビ画面に表示した例を示している。なお、画面ではなく、LED(Light Emitting Diode)を使って特定のパターンや色で発光することによって、人工知能機能による自動操作が行われたことをユーザに通知するようにしてもよい。同様に、動作理由の提示が人工知能機能に基づくものであることを、マーク801や発光表現などの手段によってユーザに提示してもよい。
【0122】
ユーザが動作理由の説明を要求した場合、テレビ受信装置100が行ったどの自動操作に対して動作理由の説明を求めているのかを特定する必要がある。
図3に示した機能的構成では、説明生成部102は、動作履歴メモリ111から直近の動作を読み出す。ユーザがどの自動操作に対して動作理由の説明を求めているのかを特定できない場合には、説明の提示を求めている対象となる動作をユーザに明示してもらうようにしてもよい。
【0123】
例えば、動作履歴メモリ111が保存している動作履歴の情報をテレビ画面に表示して、ユーザにその中から説明の提示を要求する動作を選択してもらうようにしてもよい。動作履歴メモリ111は、テレビ受信装置100が人工知能機能に基づく自動操作で実行した動作と実行した時刻を保存している。例えば、
図9に示すように、動作履歴メモリ111から読み出した動作履歴のリストをテレビ画面に表示する。そして、ユーザはリモコンのカーソルボタンなどを使って説明の提示を要求する動作を選択することができる。このようにして、ユーザが動作理由の説明を求めている動作を特定することができる。
【0124】
I-2.説明生成部の推論と学習
説明生成部102は、ユーザからの説明提示の要求があった場合に、動作決定部101が決定したテレビ受信装置100の動作に対してユーザが好みそうな(又は、ユーザが納得し易い)理由の説明を生成する。説明生成部102は、動作理由の説明提示がユーザから求められると、1つの動作に対して説明を1つ以上生成してユーザに提示する。そして、ユーザ感情推定部103で推定したユーザの反応を正解ラベルとして、説明を推論するDNNの再学習を行う。このような動作理由の説明生成とDNNの再学習というサイクルを繰り返すことによって、説明生成部102は各ユーザにとって分かり易い説明を生成するようになっていく。
【0125】
図10には、ユーザがテレビ受信装置100を使い始めて間もない状態での説明生成部102の動作例を示している。ここでは、説明の簡素化のため、動作歴メモリ111には決定した動作と併せてセンシング結果に基づいて動作を決定するに至った推論履歴が保存されているものとする。
【0126】
例えば動作決定部101がテレビの音量を自動で下げるという動作を決定したとき、動作履歴メモリ111には、動作決定部101が決定した動作「テレビの音量を下げた」と、動作決定部101が動作を推論した1以上の理由(
図10に示す例では、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の4つの理由)が保存される。
【0127】
ここで、ユーザから「テレビの音量を下げた」動作の理由の説明が求められた場合、説明生成部102は、この動作に対する理由となる情報を収集する。
図10に示す例では、説明生成部102は、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の4つの理由を収集する。
【0128】
ユーザがテレビ受信装置100を使い始めて間もないこの時点では、説明生成部102は、どのような動作理由の説明がユーザの好みに合っているかを推定するための学習が十分でない。このため、説明生成部102は、動作決定部101における動作の決定に最も寄与した割合の高い順や、動作履歴メモリ111に書き込まれている順番、あるいはランダムに、複数の動作理由のいずれかを選択して、説明を生成して、画面やスピーカーなどの出力部を使ってユーザに説明を提示する。
図10に示す例では、説明生成部102は、「時刻が22時を過ぎた」、「テレビの前に居るユーザは1名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」という各動作理由から、それぞれ「時刻が22時を過ぎなので」、「テレビの前に1人しかいなかったので」、「テレビに注目していなかったので」、「おすすめの番組が放送されていないので」という説明文をそれぞれ生成し、このうち「時刻が22時過ぎなので」という動作理由を選択すると、テレビ画面を使って「時刻が22時過ぎなので音量を下げました」という説明文が表示される。
【0129】
説明生成部102は、あらかじめ決められた数の説明を生成するようにしてもよいし、動作理由の数に応じて生成する説明の数を変化させるようにしてもよい。
【0130】
説明生成部102が生成した説明を、1つずつ順番にユーザに提示していく。そして、ユーザ感情推定部103は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときのユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部102が生成した動作理由の他の説明を提示する。
【0131】
また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース112に逐次保存する。
図10に示す例では、「テレビの音量を下げた」という自動操作に対する動作理由の説明として「時刻が22時を過ぎなので」、「テレビの前に1人しかいなかったので」、「テレビに注目していなかったので」が順にユーザに提示されたが、「時刻が22時を過ぎなので」と「テレビの前に1人しかいなかったので」という1番目及び2番目の説明に対するユーザの反応はともにネガティブであり、「テレビに注目していなかったので」という3番目の説明に対するユーザの反応はポジティブであったことが、ユーザ情報データベース112に保存される。
【0132】
図11には、説明生成部102の学習時の動作例を示している。
【0133】
動作決定部101が決定した動作をテレビ受信装置100で自動実行し、ユーザがその動作理由の説明を要求するというサイクルが複数回繰り返されると、テレビ受信装置100の動作理由に対する説明とそれに対するユーザの反応がユーザ情報データベース112に蓄積されていく。
図11に示す例では、以下の3種類の自動動作に対する動作理由の説明及びユーザの反応に関する情報が、ユーザ情報データベース112に蓄積されている。
【0134】
動作1:テレビの電源を入れた
動作理由の説明と反応:
1.ユーザがテレビの画面を一定期間見つめていた
→ポジティブな反応、説明提示終了
【0135】
動作2:自動で録画を開始した
動作理由の説明と反応:
1.過去に頻繁に録画されていたので
→ネガティブな反応、次の説明を要求
2.複数ユーザが対話中でテレビに注目できていなかったので
→ポジティブな反応、説明提示終了
【0136】
動作3:テレビの音量を下げた
動作理由の説明と反応:
1.時刻が22時過ぎなので
→ネガティブな反応、次の説明を要求
2.テレビ前に1人しかいなかったので
→ネガティブな反応、次の説明を要求
3.テレビに注目していなかったので
→ポジティブな反応、説明提示終了
【0137】
説明生成部102では、ユーザ感情推定部103によるユーザの感情推定結果(特に、ポジティブ又はネガティブが所定の割合を超えて、確度が高い推定結果)を正解ラベルとして、どのような説明をユーザが納得するのかの規則性を学習していく。例えば、学習の結果、「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされる。
【0138】
図12には、学習が進んだ状態での説明生成部102の動作例を示している。
【0139】
テレビ受信装置100において自動で字幕が表示される動作理由について、ユーザから説明が要求されたとする。説明生成部102は、動作履歴メモリ111から、字幕を自動で表示したという動作に対する動作理由に関する情報を読み出す。動作理由として、「この番組では字幕をオンにする頻度が高い」、「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザがテレビの前に居る」の3つが読み出されたとする。
【0140】
そして、説明生成部102は、動作の推論過程とユーザが好む説明の傾向に基づいて、1以上の動作理由の説明候補を説明する。ここでは、学習の結果として「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされており、収集した動作理由から、説明の第1候補として「テレビ周辺の雑音レベルが高いので」、第2候補として「字幕をよく使うユーザが見ているので」、第3候補として「この番組では字幕オンにする頻度が高いので」という説明文が生成される。
図12に示す例では、説明の第1候補の「テレビ周辺の雑音レベルが高いので」が選択され、テレビ画面を使って「テレビ周辺でなっているノイズが大きかったので字幕を表示しました」という説明文が表示されている。
【0141】
説明生成部102が生成した説明を、候補の順に1つずつユーザに提示していく。そして、ユーザ感情推定部103は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときにユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部102が生成した次の候補の説明を提示する。また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース112に逐次保存する。
【0142】
これまでの説明では、説明生成部102は、複数説明した説明文の候補を、学習結果に基づいて並べ替えて、ユーザの反応に応じて順に提示していくというものであった。さらに説明生成部102は、同じ説明の内容であっても、説明に用いる文言など説明文の表現方法をユーザの好みに応じて変更するようにしてもよい。例えば、説明生成部102は、ユーザ毎に、説明に用いる言葉を平易なものに言い換えたり、説明の粒度を粗く又は細かく変化させたりするようにしてもよい。
【0143】
また、これまでの説明では、説明生成部102は、「テレビ周辺の環境のセンシング結果に基づいて説明すると納得し易い」、「ユーザの習慣に基づいて説明すると納得し易い」など、ユーザ毎の傾向を学習するものであった。さらに説明生成部102は、音声による提示、画面上で文字による提示、画面上で図を使って提示などユーザが好む説明の提示方法を学習して、同じ説明の内容であってもユーザ毎に説明の提示方法を変更するようにしてもよい。
【0144】
また、説明生成部102は、ユーザが好む説明の文言や説明の提示方法の傾向を学習するために、感情推定部103が推定した過去のユーザのポジティブ又はネガティブの反応だけではなく、ユーザプロファイルセンサー部350がセンシングするユーザのプロファイル情報(ユーザの機器の使用履歴や、SNSの投稿又は閲覧履歴を含む)を学習データに用いてもよい。
【0145】
このように
図3に示した機能的構成によれば、ユーザがテレビ受信装置100を使用していく過程で、テレビ受信装置100が自動操作を実施し、ユーザの要求に応じて動作理由の説明を提示する度に、ユーザの反応を取得して学習を繰り返すことで、ユーザが納得し易い動作理由、説明文の表現方法、説明の提示方法を使ってユーザに動作理由を説明することが可能となる。
【0146】
J.動作決定を含めた学習
これまでは、テレビ受信装置100が、
図3に示した機能的構成により、自動操作を行ったときの動作理由の説明提示をユーザ好みに適合させるように学習する点について説明してきた。さらに、テレビ受信装置100がユーザの好みに適合した自動操作を行うように、動作決定部101の学習を併せて行うことも可能である。
【0147】
J-1.全体フロー
図13には、テレビ受信装置100が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。
図4及び
図5に示した処理手順との主な相違点は、動作決定部101による自動操作と、説明生成部102による動作理由の説明提示の各々について学習を行う点である。
【0148】
まず、動作決定部101は、センシング機能部300(
図2を参照のこと)によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みDNN(前述)の推論によって、テレビ受信装置100の動作を決定する(ステップS1301)。
【0149】
そして、動作決定部101は、決定した動作を動作履歴メモリ111に保存する(ステップS1302)。動作決定部101は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ111に保存するようにしてもよい。
【0150】
主制御部201は、動作決定部101が決定した動作を実現するための制御信号を、テレビ受信装置100内の該当する機能モジュールに送り、自動操作を実施する(ステップS1303)。
【0151】
次いで、ユーザ感情推定部103は、動作決定部101が決定した動作がテレビ受信装置100で実施されたときのユーザの反応を取得して(ステップS1304)、ユーザの感情の推定を試みる(ステップS1305)。ここでは、説明の簡素化のため、ユーザの感情は、テレビ受信装置100が実施した動作に対してユーザが好んだか否か(ポジティブ/ネガティブ)という2値で表現されるものとする。
【0152】
ユーザの感情を推定することができない場合には(ステップS1305のNo)、動作決定部101並びに説明生成部102の学習の実施を諦めて、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
【0153】
ユーザの感情を推定することができた場合には(ステップS1305のYes)、ユーザ感情推定部103が推定したユーザの感情がネガティブかどうかをチェックする(ステップS1306)。ユーザの感情がネガティブでない場合(又は、ポジティブな場合)には(ステップS1306のNo)、ユーザは動作決定部101が決定したテレビ受信装置100の動作に不満はなく、動作決定部101を再学習したり、テレビ受信装置100の動作理由の説明を提示したりする必要はない。したがって、この場合には、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
【0154】
一方、テレビ受信装置100が実施した動作に対するユーザの感情がネガティブな場合(又は、ポジティブでない場合)には(ステップS1306のYes)、ステップS1303で実施したテレビ受信装置100の自動操作に対して、ユーザに動作理由の説明を提示する必要があると考えられる。そこで、説明生成部102は、学習済みDNN(前述)の推論によって、説明提示が要求されたテレビ受信装置100の動作理由に関してユーザが好みそうな説明を生成して、生成した動作理由の説明を、例えばテレビ受信装置100が備える出力手段(スピーカーや画面など)を用いてユーザに提示する(ステップS1307)。
【0155】
次いで、ユーザ感情推定部103は、説明生成部102が生成した説明を提示したときのユーザの反応を取得して(ステップS1308)、ユーザの感情の推定を試みる(ステップS1309)。
【0156】
ユーザの感情を推定することができない場合には(ステップS1309のNo)、説明生成部102の学習の実施を諦めて、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
【0157】
ユーザの感情を推定することができた場合には(ステップS1309のYes)、ユーザ感情推定部103が推定したユーザの感情がネガティブかどうかをチェックする(ステップS1310)。ユーザの感情がネガティブでない場合(又は、ポジティブな場合)には(ステップS1310のNo)、ユーザは動作決定部101が決定したテレビ受信装置100の動作と説明生成部102が生成した動作理由の説明に不満はなく、動作決定部101や説明生成部102を再学習する必要はない。したがって、この場合には、ステップS1301に戻り、センシング結果に基づくテレビ受信装置100の動作決定を繰り返し行う。
【0158】
一方、提示した説明に対するユーザの感情がネガティブな場合(又は、ポジティブでない場合)には(ステップS1310のYes)、動作決定部101や説明生成部102を再学習する必要がある。そこで、ユーザ感情推定部103は、説明生成部102が生成した動作理由の説明を提示したときのユーザの「ネガティブ」であるという感情を、テレビ受信装置100の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース112に保存する(ステップS1311)。そして、ユーザ情報データベース112に蓄積された情報を使用して、動作決定部101は動作を決定する学習済みDNNの再学習を実施するとともに、説明生成部102は動作理由の説明を生成する学習済みDNNの再学習を実施する(ステップS1312)。
【0159】
動作決定部101及び説明生成部102の再学習を行う処理手順について、さらに詳細に説明する。
【0160】
テレビ受信装置100は、動作決定部101が決定した動作を自動実行する。この動作に対するユーザの反応がネガティブであった場合のみ、ユーザに説明の提示が必要であると判断して、説明生成部102は動作理由の説明の生成処理を行い、ユーザに説明を提示する。
【0161】
例えば、テレビ受信装置100が周囲の雑音に応じて音量を自動で上げたときに、ユーザがリモコンで音量を下げる操作を行った。また、テレビ受信装置100が環境に合わせて画面輝度を変更したときに、ユーザが画面輝度を元に戻す操作を行った。このように、テレビ受信装置100の自動操作に対してユーザが否定的な操作を行った場合には、ユーザには動作理由を説明する必要があると判断することができる。
【0162】
なお、ユーザの反応がポジティブな場合にもユーザに動作理由の説明を提示することも可能である。但し、ユーザが好む自動操作が行われているときに敢えて説明を提示すると、ユーザのテレビ番組の視聴を妨げる恐れがある。
【0163】
また、テレビ受信装置100の自動操作に対する動作理由について、説明を提示したときにユーザの反応がネガティブであった場合には、ユーザが好む自動操作が行われるように動作決定部101を再学習し、又はユーザが納得し易い動作理由の説明を提示できるように説明生成部102の再学習を行う。また、動作決定部101又は説明生成部102のいずれか一方のみが再学習されるようにしてもよい。動作決定部101又は説明生成部102のいずれについて再学習を行うべきかを、提示した説明に対するユーザの反応に基づいて判断するようにしてもよい。
【0164】
例えば、テレビ受信装置100が環境に合わせて画面輝度を変更し、「外光に合わせて輝度を変更しました」という説明を画面又は音声で提示したときに、ユーザが「やめて」と言った場合、動作決定部101は、この外光状況では輝度を調整しない、と学習する。また、ユーザが「やめて」と言ったことに対して、「処理を停止しますか?」とユーザに問い合わせ、ユーザから「はい」という返事があった場合には、環境に合わせて画面輝度を変更するという自動操作に対してユーザがネガティブであることが確認できるので、動作決定部101は、環境に合わせて画面輝度を変更する処理はこれ以降行わないことを学習する。
【0165】
また、テレビ受信装置100が周囲ノイズに応じて音量を自動で上げたときに、ユーザがもっと音量を上げるリモコン操作を行ったことも、自動操作に対するユーザのネガティブな反応である。このような場合、動作決定部101は、周囲ノイズに応じて音量をもっと上げるように学習する。
【0166】
J-2.ユーザ操作を利用した再学習
図13に示した処理手順では、テレビ受信装置100の自動操作に対するユーザの反応がネガティブである場合にその動作理由の説明がユーザに提示され、さらに提示された説明に対してユーザの反応がネガティブである場合に、動作決定部101及び説明生成部102でそれぞれ使用する学習済みDNNの再学習が行われる。ユーザがリモコン操作などによって再学習時の学習内容を設定するようにしてもよい。
【0167】
例えば、センサー部350のセンシング結果に基づいて「テレビ周辺の雑音レベルが高い」という事象が検出されたことにより、テレビ受信装置100において字幕をオンにする自動操作が実施されたとする。
図14には、動作理由の説明を提示する画面の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、
図14中の参照番号1401で示すように、画面の右下隅に「テレビ周辺の雑音レベルが高いため字幕を表示しました」という動作理由の説明が提示される。なお、画面の隅に説明を提示するのは、ユーザのテレビ番組の視聴を妨げないようにするためであるが、もちろん画面の中央に説明を大きく表示するようにしてもよい。その際、画面上に説明が提示されている間は、ユーザが表示された説明をリモコン操作で選択して、決定ボタン(OKボタン)などのボタンを押すことで学習内容に関する設定画面へ遷移するようにされてもよいし、ユーザが設定を望む旨を音声入力で示すことによって、学習内容に関する設定画面へ遷移するようにされてもよい。
【0168】
このとき、ユーザがリモコン操作などによって再学習時の学習内容を設定することを通知すると、
図15に示すように、自動操作について再学習するための学習内容を設定するための画面に遷移する。
図15に示す例では、参照番号1501で示すように、画面の上段に動作理由の説明「以下の理由により字幕を表示しました: テレビ周辺の雑音レベルが高い」が表示され、参照番号1502で示すように、画面の中段にこの動作理由に基づく自動操作の停止をユーザが意思表示するボタン「この理由に基づく処理を停止する」が表示される。また、参照番号1503で示すように、画面の下段に、同様の処理を行う他の理由「以下の場合に同様の処理を行います: 字幕をよく使うユーザが見ている/字幕オンにする頻度が高い番組である」を併せて提示するようにしてもよい。そして、ユーザがリモコンやタッチパネルの操作によりボタン1502を選択すると、テレビ受信装置100は、これ以降同様の理由で同じ処理を行わないように、再学習が実施される。また、表示された参照番号1503の提示に対する選択や決定などの操作に基づいて、参照番号1503に提示された各理由に関する設定画面に遷移して、上記で説明した参照番号1501の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。
【0169】
また、
図16には、動作理由の説明を提示する画面の他の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、
図16中の参照番号1601で示すように、画面の中央に「テレビ周辺で鳴っているノイズが大きかったので字幕を表示しました」という動作理由の説明が提示される。また、ユーザが画面の中央に表示された説明では納得しないときのために、参照番号1602で示すように、画面の下段には「[他の理由を提示]」と表示された、動作理由の他の説明を要求するボタンが表示される。
【0170】
このとき、ユーザがリモコンやタッチパネルの操作によりボタン1602を選択すると、
図17に示すように、動作理由の説明について再学習するための学習内容を設定するための画面に遷移する。
図17に示す例では、参照番号1701~1703で示すように、画面の上段には、字幕の自動表示に関する他の3種類の動作理由の説明「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザが見ている」、「この番組では字幕オンにする頻度が高い」が表示される。ユーザは、例えばリモコンのカーソルボタンの操作を使ってこれら3種類の動作理由の説明のいずれか1つを選択することができる。
図17では、2番目の説明「字幕をよく使うユーザが見ている」が選択されて、ハイライト表示されている。また、ユーザが選択中の説明の直下には、字幕自動表示に対する動作理由の説明として指定するボタン1704、並びに、この説明の重要度を上げることを指定するボタン1705が表示される。そして、ユーザがリモコンやタッチパネルの操作によりボタン1704又は1705のいずれかを押すと、そのボタンが示す処理が動作理由の説明について再学習するための学習内容として設定される。同様に、参照番号1701や1703などの他の説明を選択することで、上記で説明した参照番号1702の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。
【0171】
K.他の機器を使った説明提示
これまでは、テレビ受信装置100で行われた自動操作に対する動作理由の説明を、テレビ受信装置100の画面やスピーカーを用いてユーザに提示する実施形態を中心に説明してきた。変形例として、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置100と連携する他の機器を使って動作理由の説明を提示することもできる。
【0172】
例えば、説明生成部102は、テレビ受信装置100やスマートフォン、スマートスピーカー、ロボットなどを使って動作理由の説明を提示したときのユーザの反応からユーザの感情を推定した結果に基づいて、ユーザ毎に、あるいは動作理由毎に、説明の提示に使用する最適な機器がどれであるかを学習する。
【0173】
また、説明生成部102は、スマートフォンなど画面サイズが小さい機器を使って説明を提示する際に、適切な文字数や説明の粒度を学習するようにしてもよい。また、例えば有機ELディスプレイなどを使った巻取り式ディスプレイの場合、提示する説明の内容(例えば、説明文の文字数や説明に使用する画像など)に応じてディスプレイの最適な引き出し量を学習するようにしてもよいし、ディスプレイの引き出し量に応じて説明の内容を学習するようにしてもよい。情報量が多い説明を好むユーザに説明を提示する場合には、より多くの情報を表示できるようにディスプレイの引き出し量が大きくなるように学習することになる。例えば、機器状態センサー部340によって現在のディスプレイの引き出し量を取得して、説明の内容の学習や表示する説明の内容の決定を行ったり、適切なディスプレイの引き出し量の決定を行ったりするようにされてもよい。
【0174】
L.他の機器への応用例
本開示は、DNNが搭載された機器における自動動作の理由を、ユーザにとって理解し易く説明する機器に関する技術である。すなわち、本開示を適用する機器は、自動操作を行った際に、ユーザの要求に応じて、ユーザが受け入れ易い(又は、ユーザがポジティブな反応を示す)説明文や説明の提示方法を学習する。上記では、本開示を適用する機器の具体例としてテレビ受信装置を挙げたが、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなどのさまざまな家電機器や、カーナビゲーションシステム、自動運転車や無人航空機(ドローンなど)といった移動体装置にも適用することができる。
【0175】
以下では、本開示をカーナビゲーションシステムの音声ガイダンスに適用した実施例について説明する。
【0176】
図18には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する対話例を示している。
【0177】
運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由?なんで?」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、(対話4)及び(対話6)で「C市役所周辺の渋滞により、B駅経由の方が他のルートよりおよそ3分早く目的地まで到着します」とルート設定についての1つ目の理由を説明する。これに対し、運転手が(対話5)で「うん」と相槌を打つと、カーナビゲーションシステムは、さらに「また、B駅経由の方が他のルートよりも起伏が少なく、およそ1km/L燃費がいいです」と連続してルート設定についての2つ目の理由を説明する。運転手が(対話7)で2つ目の理由の説明に対して「もういいよ」と言うと、カーナビゲーションシステムはこれを運転手が説明の提示に対してポジティブに反応したと推定して、(対話8)で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の(1)又は(2)を学習する。
【0178】
(1)運転手が到着時間の説明に関してポジティブに反応したと推定して、以後の類似の対話では到着時間情報を理由の説明として提示するように学習する。
(2)運転手は複数の説明の提示を好まず、又は手短な説明を好むと推定して、以後の類似のやり取りでは理由の説明を1つだけ提示するように学習する。
【0179】
図19には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する他の対話例を示している。
【0180】
運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由?なんで?」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、(対話4)で「C市役所周辺の渋滞により…」とルート設定した理由を説明する。運転手が説明の途中に割り込んで、(対話5)で「早く着くんだね。OK」と言うと、カーナビゲーションシステムは提示した説明に対して運転手がポジティブに反応したと推定して、(対話6)で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の(1)又は(2)を学習する。
【0181】
(1)以後の類似の対話では、X周辺渋滞のために、Yルートを選択したこと
(2)(Z分)早く着くため、Yルートを選択したことを理由の説明として提示するように学習する。カーナビゲーションシステムが提示した説明に対する運転手からの反応があるまでのカーナビゲーションシステムの発話内容に基づいて、「X周辺渋滞のため」という説明を学習し、また、「早く着くんだね」と発話した運転手の反応に基づいて、「(Z分)早く着くため」という説明を学習する。
【0182】
また、カーナビゲーションシステムは、運転手が説明の途中に割り込んできたことから、運転手は長い説明を好まないことを学習し、その他の動作理由の説明に関しても短く簡潔な説明を提示するように学習する。例えば、「B駅経由の方が他のルートよりも起伏が少なく、およそ1km/L燃費がいいです」という長い説明を、「燃費がよいのでYルートを選択」のように簡潔な説明にするように学習する。なお、学習の結果として説明の粒度を粗くした場合には、説明の文字数が短くなるので、音声ではなく、ヘッドアップディスプレイやインパネに説明を提示するようにしてもよい。
【0183】
図20には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関するさらに他の対話例を示している。
【0184】
運転手が(対話1)でA動物園までのルート設定を指示すると、カーナビゲーションシステムは(対話2)でB駅経由のルートを設定したことを通知する。そして、運転手が(対話3)で「B駅経由では遠いんじゃない?」と言ったことを、カーナビゲーションシステムは、自動ルート設定に対してネガティブに反応したと解釈して、(対話4)で「C市役所周辺の渋滞により、B駅経由の方が他のルートよりおよそ3分早く目的地まで到着します」とルート設定の理由を説明する。運転手が(対話5)でこのルート設定の理由の説明に対して「そのルートは道が狭いから嫌だな」と言うと、カーナビゲーションシステムはこれを運転手がルート設定の理由の説明に対してネガティブに反応したと推定して、(対話6)で「D消防署経由のルートにしますか?」と他のルート設定を提案する。そして、運転手が(対話7)で「お願い」といったことから、カーナビゲーションシステムは提案したルートに運転手がポジティブに反応したと推定して、(対話8)で「案内を開始します」と告げて、そのルートに設定する。また、カーナビゲーションシステムは、以後の同様のやり取りでのルート設定に関して、例えば以下の(1)又は(2)を学習する。
【0185】
(1)B駅周辺を通るルートを避ける(又は、B駅周辺を通るルートの優先度を下げる)
(2)狭い道を通るルートを避ける(又は、狭い道を通るルートの優先度を下げる)
【0186】
なお、例えば(対話5)でユーザが説明の内容に対してネガティブに反応したと解釈された場合には、カーナビゲーションシステムは、他の説明があれば、(対話6)でルート設定に対する他の理由を提示する。
【0187】
また、一実施例として、本開示が人型や動物型、球形、円柱形のものを含むロボットやディスプレイに表示されたキャラクターによって実施されてもよい。例えば、ユーザに対する説明の提示が、人型ロボットやディスプレイに表示された人型キャラクターの身振りで表現されてもよいし、動物型ロボットやディスプレイに表示された動物型キャラクター、又はその他の形状のロボットやキャラクターの動作によって表現されてもよい。
【産業上の利用可能性】
【0188】
以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
【0189】
本明細書では、本開示をテレビ受信装置に適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。本開示は、内部処理にDNNを適用して自動動作を行うさまざまな機器に、同様に適用することができる。例えば、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなど、さまざまな家電機器に本開示を適用することができる。また、本開示は、カーナビゲーションシステム、自動運転車や無人航空機(ドローンなど)といった自律動作する移動体装置にも適用することができる。
【0190】
要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
【0191】
なお、本開示は、以下のような構成をとることも可能である。
【0192】
(1)センサー情報に対応する制御対象装置の処理を決定する決定部と、
前記処理に対する理由の説明を生成する生成部と、
ユーザの反応に対する推定を行う推定部と、
を具備し、
前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置。
【0193】
(2)前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
上記(1)に記載の情報処理装置。
【0194】
(3)前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定(画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質)を制御する、
上記(2)に記載の情報処理装置。
【0195】
(4)前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第1の機械学習モデルを備え、前記第1の機械学習モデルを用いて前記処理に対する説明を生成する、
上記(1)乃至(3)のいずれかに記載の情報処理装置。
【0196】
(5)センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第1の機械学習モデルを再学習する、
上記(4)に記載の情報処理装置。
【0197】
(6)前記第1の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
上記(5)に記載の情報処理装置。
【0198】
(7)環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも1つに基づいて前記第1の機械学習モデルを再学習する、
上記(5)又は(6)のいずれかに記載の情報処理装置。
【0199】
(8)前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
上記(1)乃至(7)のいずれかに記載の情報処理装置。
【0200】
(9)前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
上記(1)乃至(8)のいずれかに記載の情報処理装置。
【0201】
(10)前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第2の機械学習モデルを備え、前記第2の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
上記(1)乃至(9)のいずれかに記載の情報処理装置。
【0202】
(11)センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第2の機械学習モデルを再学習する、
上記(10)に記載の情報処理装置。
【0203】
(12)前記第2の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
上記(11)に記載の情報処理装置。
【0204】
(13)前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第3の機械学習モデルを備え、前記第3の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
上記(1)乃至(12)のいずれかに記載の情報処理装置。
【0205】
(14)前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
上記(1)乃至(13)のいずれかに記載の情報処理装置。
【0206】
(15)前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
上記(14)に記載の情報処理装置。
【0207】
(16)前記生成部は、前記制御対象装置の1つの処理に対する複数の理由の説明のうち2以上を順番に又は同時に提示する、
上記(1)乃至(15)のいずれかに記載の情報処理装置。
【0208】
(17)前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
上記(1)乃至(16)のいずれかに記載の情報処理装置。
【0209】
(18)前記説明を表示するための表示部を備える、
上記(1)乃至(17)のいずれかに記載の情報処理装置。
【0210】
(19)センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
前記処理に対する理由の説明を生成する生成ステップと、
ユーザの反応に対する推定を行う推定ステップと、
を有し、
前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法。
【0211】
(20)センサー情報に対応する制御対象装置の処理を決定する決定部、
前記処理に対する理由の説明を生成する生成部、
ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。
【符号の説明】
【0212】
100…テレビ受信装置、101…動作決定部、102…説明生成部
103…ユーザ感情推定部、111…動作履歴メモリ
112…ユーザ情報データベース
201…制御部、202…バス、203…ストレージ部
204…通信インターフェース(IF)部
205…拡張インターフェース(IF)部
206…チューナー/復調部、207…デマルチプレクサ
208…映像デコーダ、209…音声デコーダ
210…文字スーパーデコーダ、211…字幕デコーダ
212…字幕処理部、213…データデコーダ、214…キャッシュ部
215…アプリケーション(AP)制御部、216…ブラウザ部
217…音源部、218…映像処理部、219…表示部
220…音声処理部、221…音声出力部、222…操作入力部
300…センシング機能部、310…カメラ部
311~313…カメラ、320…ユーザ状態センサー部
330…環境センサー部、340…機器状態センサー部
350…ユーザプロファイルセンサー部