特許7523919 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7523919電子機器、学習装置、電子機器の制御方法、学習方法、学習済みモデルおよびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-19

(45)【発行日】2024-07-29

(54)【発明の名称】電子機器、学習装置、電子機器の制御方法、学習方法、学習済みモデルおよびプログラム

(51)【国際特許分類】

G06F 18/2433 20230101AFI20240722BHJP

G06N 20/00 20190101ALI20240722BHJP

【ＦＩ】

G06F18/2433

G06N20/00 130

【請求項の数】 13

(21)【出願番号】P 2020018948

(22)【出願日】2020-02-06

(65)【公開番号】P2021125037

(43)【公開日】2021-08-30

【審査請求日】2023-01-30

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】芝秀規

【審査官】渡辺一帆

(56)【参考文献】

【文献】特開２０１７－１３９８１２（ＪＰ，Ａ）

【文献】特開２０１３－１６４５３１（ＪＰ，Ａ）

【文献】特開２０１０－２４３６６７（ＪＰ，Ａ）

【文献】特許第６６２６５４９（ＪＰ，Ｂ１）

【文献】特開２０１８－０５６８９０（ＪＰ，Ａ）

【文献】特開２００７－００５８４９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／０２５３７９２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１８／２４３３

Ｇ０６Ｎ２０／００－２０／２０

(57)【特許請求の範囲】

【請求項1】

電子機器であって、
前記電子機器の外部音声データおよび内部音声データを取得する取得手段と、
取得された前記外部音声データおよび前記内部音声データを、機械学習された学習済みモデルに入力して、前記電子機器が持たれている状態であるかの推定を行う推定手段と、
前記推定の結果に応じて、省電力の制御を行う制御手段と、
を備えることを特徴とする電子機器。

【請求項2】

前記学習済みモデルは、学習用の外部音声データおよび学習用の内部音声データを入力とし、前記学習用の外部音声データおよび前記学習用の内部音声データが取得されたときに前記電子機器が持たれていたか否かを示す情報を教師データとして機械学習されることにより得られることを特徴とする請求項１に記載の電子機器。

【請求項3】

前記学習用の外部音声データおよび前記学習用の内部音声データが取得されたときに、前記電子機器が手ブレ補正を実施していた場合、前記教師データに前記電子機器が持たれていたことを示す情報が設定されることを特徴とする請求項２に記載の電子機器。

【請求項4】

前記学習用の外部音声データおよび前記学習用の内部音声データが取得されたときに、前記電子機器が固定部材に固定されていた場合、前記教師データに前記電子機器が持たれていなかったことを示す情報が設定されることを特徴とする請求項２または３に記載の電子機器。

【請求項5】

前記電子機器に装着可能な部材が装着されている場合と装着されていない場合とのそれぞれに対応する前記学習用の外部音声データと前記学習用の内部音声データと前記教師データとを用いて、前記機械学習が行われることを特徴とする請求項２乃至４のうち何れか１項に記載の電子機器。

【請求項6】

前記取得手段は、一定時間の前記学習用の外部音声データおよび前記学習用の内部音声データを取得する際に、前記一定時間より短い時間間隔で、前記学習用の外部音声データおよび前記学習用の内部音声データを取得することを特徴とする請求項２乃至５のうち何れか１項に記載の電子機器。

【請求項7】

電子機器であって、
前記電子機器の外部音声データおよび内部音声データを取得する取得手段と、
取得された前記外部音声データおよび前記内部音声データを、前記外部音声データおよび前記内部音声データを機械学習された学習済みモデルに入力して前記電子機器が持たれている状態であるかの推定を行う推定装置に送信し、前記推定装置から推定結果を受信する通信手段と、
受信した前記推定結果に応じて、省電力の制御を行う制御手段と、
を備えることを特徴とする電子機器。

【請求項8】

学習用の電子機器の外部音声データおよび学習用の電子機器の内部音声データを入力とし、前記学習用の電子機器の外部音声データおよび前記学習用の電子機器の内部音声データが取得されたときに電子機器が持たれていたか否かを示す情報を教師データとして学習モデルの機械学習を行う学習手段、
を備えることを特徴とする学習装置。

【請求項9】

電子機器を制御する電子機器の制御方法であって、
前記電子機器の外部音声データおよび内部音声データを取得する工程と、
取得された前記外部音声データおよび前記内部音声データを、機械学習された学習済みモデルに入力して、前記電子機器が持たれている状態であるかの推定を行う工程と、
前記推定の結果に応じて、省電力の制御を行う工程と、
を備えることを特徴とする電子機器の制御方法。

【請求項10】

学習装置によって実行される学習方法であって、
学習用の電子機器の外部音声データおよび学習用の電子機器の内部音声データを入力とし、前記学習用の電子機器の外部音声データおよび前記学習用の電子機器の内部音声データが取得されたときに電子機器が持たれていたか否かを示す情報を教師データとして学習モデルの機械学習を行う工程、
を備えることを特徴とする学習方法。

【請求項11】

推論装置によって実行される学習済みモデルであって、
学習用の電子機器の外部音声データおよび学習用の電子機器の内部音声データを入力とし、前記学習用の電子機器の外部音声データおよび前記学習用の電子機器の内部音声データが取得されたときに電子機器が持たれていたか否かを示す情報を教師データとして学習モデルの機械学習を行うことにより生成され、前記電子機器の外部音声データと前記電子機器の内部音声データが入力されることにより前記電子機器が持たれていたか否かを示す情報を出力するよう、前記推論装置を機能させるための学習済みモデル。

【請求項12】

請求項１乃至７のうち何れか１項に記載の電子機器の各手段をコンピュータに実行させるためのプログラム。

【請求項13】

請求項８に記載の学習装置の学習手段をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、電子機器、学習装置、電子機器の制御方法、学習方法、学習済みモデルおよびプログラムに関する。

【背景技術】

【0002】

例えば、デジタルカメラは、撮像センサの高画素化や処理負荷の増大等に起因して、通常動作しているときの消費電力が増大している傾向にある。消費電力が増大すると、デジタルカメラに内蔵されているバッテリが長持ちしなくなる。そこで、電源の省電力化を図る技術が用いられている。関連する技術として、特許文献１の技術が提案されている。特許文献１の技術は、ストラップ取付部にかかる張力の検出結果と、カメラ本体の動きの検出結果とに基づいて、少なくとも１つの機能を停止する省電力モードに移行する制御を行う。

【0003】

また、関連する技術として、特許文献２の技術が提案されている。特許文献２の技術は、電子機器本体に取り付けられたストラップと、ストラップに設けられた圧力センサと、圧力センサの出力結果とに基づいて、通常モードから節電モードへ切り換える。さらに、関連する技術として、特許文献３の技術が提案されている。特許文献３の技術は、角速度センサへ電力の供給を制御する電力供給制御手段を有している。この電力供給制御手段は、加速度センサにより携帯端末自体の加速度が検出されたとき、角速度センサへ電力を供給する。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１０－１５３９９１号公報

【文献】特開２０１３－２２５７８５号公報

【文献】特開２０１５－４６７９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述した特許文献１および特許文献２の技術では、省電力化を図るために、ストラップの張力を検出する圧力センサを必要とするため、装置構成が複雑化する。また、デジタルカメラにストラップが用いられない場合、省電力化を図ることができない。特許文献３の技術は、加速度センサを用いて省電力化を図っているため、例えば、ユーザが、デジタルカメラを持ちながら歩いて使用する場合や、カバン等の中にデジタルカメラを入れている場合に、省電力化を図ることができない。以上の問題は、デジタルカメラだけではなく、任意の電子機器にも生じ得るものである。

【0006】

本発明は、電子機器の省電力化を図ることを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために、本発明の電子機器は、前記電子機器の外部音声データおよび内部音声データを取得する取得手段と、取得された前記外部音声データおよび前記内部音声データを、機械学習された学習済みモデルに入力して、前記電子機器が持たれている状態であるかの推定を行う推定手段と、前記推定の結果に応じて、省電力の制御を行う制御手段と、を備えることを特徴とする。

【発明の効果】

【0008】

本発明によれば、電子機器の省電力化を図ることができる。

【図面の簡単な説明】

【0009】

【図1】本実施形態のシステムの一例を示す図である。

【図2】図１の各装置のハードウェア構成を示す図である。

【図3】音声入力部のハードウェア構成を示す図である。

【図4】図２の各装置のソフトウェア機能のブロックを示す図である。

【図5】学習モデルの入力データおよび出力データ示す図である。

【図6】入力データおよび教師データの対応関係を示すテーブルである。

【図7】システムにおけるデータの流れを示す図である。

【図8】デジタルカメラの第１の処理の流れおよびクライアント端末の処理の流れの一例を示すフローチャートである。

【図9】データサーバーおよび学習サーバーの処理の流れの一例を示すフローチャートである。

【図10】デジタルカメラの第２の処理の流れ一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

【0011】

以下、図面を参照して、本実施形態について説明する。図１は、本実施形態のシステム１００の一例を示す図である。デジタルカメラ１０１は、ユーザが使用する電子機器である。以下、電子機器はデジタルカメラ１０１（撮像装置）であるものとして説明するが、本実施形態は任意の電子機器に適用できる。例えば、電子機器は、スマートフォンやタブレット端末等のモバイル端末であってもよいし、デジタルカメラ等であってもよい。デジタルカメラ１０１は、クライアント端末１０２と、通信部１０３を介して、通信可能に接続されている。通信部１０３を介した通信は、有線通信であってもよいし、無線通信であってもよい。

【0012】

学習サーバー１０４は、学習モデルを機械学習させることが可能な学習装置である。以下、学習サーバー１０４は、機械学習としてディープラーニングを行うものとして説明する。ただし、学習サーバー１０４が行う機械学習は、ディープラーニングには限定されない。例えば、学習サーバー１０４は、決定木やサポートベクターマシン等の任意の機械学習アルゴリズムを用いて機械学習を行ってもよい。

【0013】

学習サーバー１０４は、ローカルネットワーク１０６を介して、データサーバー１０５と通信可能に接続されている。クライアント端末１０２は、ローカルネットワーク１０６を介して、有線通信または無線通信により、学習サーバー１０４と通信を行うことができる。学習サーバー１０４は、例えば、クラウドサーバやエッジコンピュータ等である。

【0014】

図２は、図１の各装置のハードウェア構成を示す図である。まず、デジタルカメラ１０１について説明する。ＣＰＵ２０１は、デジタルカメラ１０１の全体の制御を行う。また、ＣＰＵ２０１は、電源を制御する制御手段に対応する。バッテリ２００Ｂは、デジタルカメラ１０１の電源である。ＣＰＵ２０１は、電源としてのバッテリ２００Ｂを制御することができる。ＲＯＭ２０２は、ＣＰＵ２０１が動作するためのプログラムやデータを記憶する。ＲＡＭ２０３は、ＣＰＵ２０１がＲＯＭ２０２から読み出したプログラムや動作上のデータを一時的に展開するためのメモリである。ＣＰＵ２０１が、ＲＡＭ２０３に展開されたプログラムを実行することで、本実施形態のデジタルカメラ１０１の処理が実現される。ＧＰＵ２０４は、画像処理用の演算や行列演算等を高速で行い、多くのデータを並列処理できるように演算処理に特化した集積回路である。ＧＰＵ２０４は、データを多く並列処理することで効率的な演算を行うことができる。ＧＰＵ２０４が行う演算は、例えば、積和演算である。

【0015】

ＧＰＵ２０４は、ディープラーニングで学習させた学習済みモデルで推定処理を行う場合に好適に用いられる。そこで、本実施形態では、ＧＰＵ２０４が、ディープラーニングで学習させた学習済みモデルを用いた推定処理を行うものとする。ただし、推定処理は、ＣＰＵ２０１により行われてもよいし、ＣＰＵ２０１とＧＰＵ２０４とが協働して行われてもよい。

【0016】

音声入力部２０５は、デジタルカメラ１０１の外部音声および内部音声を取得して、音声データに変換する。音声入力部２０５のハードウェア構成の詳細については後述する。Ｉ／Ｆ２０６は、デジタルカメラ１０１とクライアント端末１０２との間で通信部１０３を介してデータの授受を行うためのインタフェースである。Ｉ／Ｆ２０６は、通信手段に対応する。入力部２０７は、画像センサやモーションセンサ等を含んで構成される。画像センサは、デジタルカメラ１０１が撮影を行うためのセンサである。モーションセンサは、手ブレ補正を行うための動きを検知する。また、入力部２０７は、ユーザからの指示を受け付ける機能を有する。例えば、入力部２０７は、デジタルカメラ１０１に対する撮影の指示やカメラの動作モードの指定をするスイッチを用いた指示等を受け付ける。

【0017】

表示部２０８は、入力部２０７の画像センサで撮影中の画像や撮影済みの画像、動作状態等を表示することができる。カメラエンジン２０９は、入力部２０７の画像センサが取得した画像を処理する。また、カメラエンジン２０９は、記憶部２１０に記憶された画像を表示部２０８に表示するための画像処理を行う。記憶部２１０は、デジタルカメラ１０１が撮影した静止画や動画の画像データを記憶する。システムバス２１１は、デジタルカメラ１０１を構成する各ブロックを接続する。

【0018】

次に、クライアント端末１０２について説明する。ＣＰＵ２１２は、クライアント端末１０２の全体の制御を行う。ＨＤＤ２１３は、ＣＰＵ２１２が動作するためのプログラムやデータを記憶する。ＲＡＭ２１４は、ＣＰＵ２１２がＨＤＤ２１３から読み出したプログラムや動作上のデータを一時的に展開するためのメモリである。ＣＰＵ２１２が、ＲＡＭ２１４に展開されたプログラムを実行することで、本実施形態におけるクライアント端末１０２の処理が実現される。ＮＩＣ２１５は、ローカルネットワーク１０６を介して、学習サーバー１０４やデータサーバー１０５と通信するインターフェースカードである。

【0019】

Ｉ／Ｆ２１６は、クライアント端末１０２とデジタルカメラ１０１の間で通信部１０３を介してデータの授受を行うインタフェースである。入力部２１７は、クライアント端末１０２を操作するためのキーボードやマウス等である。表示部２１８は、クライアント端末１０２に入力されている情報等を表示する。システムバス２１９は、クライアント端末１０２を構成する各ブロックを接続する。

【0020】

次に、学習サーバー１０４について説明する。ＣＰＵ２２０は、学習サーバー１０４の全体の制御を行う。ＨＤＤ２２１は、ＣＰＵ２２０が動作するためのプログラムやデータを記憶する。ＲＡＭ２２２は、ＣＰＵ２２０がＨＤＤ２２１から読み出したプログラムや動作上のデータを一時的に展開するためのメモリである。ＣＰＵ２２０が、ＲＡＭ２２２に展開されたプログラムを実行することで、本実施形態における学習サーバー１０４の処理が実現される。ＧＰＵ２２３は、ＧＰＵ２０４と同様、多くのデータを並列処理することが可能な集積回路である。このため、ＧＰＵ２２３は、学習処理に好適な回路である。学習サーバー１０４が行う学習処理は、ＧＰＵ２２３が行うものとする。ただし、学習処理は、ＣＰＵ２２０が行ってもよいし、ＣＰＵ２２０とＧＰＵ２２３とが協働して行ってもよい。本実施形態では、学習サーバー１０４が行う学習処理は、学習モデルを含む学習プログラムが実行されることにより実現される。

【0021】

ＮＩＣ２２４は、ローカルネットワーク１０６を介して、クライアント端末１０２やデータサーバー１０５と通信するインターフェースカードである。入力部２２５は、学習サーバー１０４を操作するためのキーボードやマウス等である。表示部２２６は、学習サーバー１０４に入力されている情報等を表示する。表示部２２６は、例えば、ディスプレイ等である。システムバス２２７は、学習サーバー１０４を構成する各ブロックを接続する。

【0022】

次に、データサーバー１０５について説明する。ＣＰＵ２２８は、データサーバー１０５の全体の制御を行う。ＨＤＤ２２９は、ＣＰＵ２２８が動作するためのプログラムやデータを記憶する。ＲＡＭ２３０は、ＣＰＵ２２８がＨＤＤ２２９から読み出したプログラムや動作上のデータを一時的に展開するためのメモリである。ＣＰＵ２２８が、ＲＡＭ２３０に展開されたプログラムを実行することで、本実施形態におけるデータサーバー１０５の処理が実現される。ＮＩＣ２３１は、ローカルネットワーク１０６を介して、クライアント端末１０２や学習サーバー１０４と通信するインターフェースカードである。入力部２３２は、データサーバー１０５を操作するためのキーボードやマウス等である。表示部２３３は、データサーバー１０５に入力されている情報等を表示する。表示部２３３は、例えば、ディスプレイ等である。システムバス２３４は、データサーバー１０５を構成する各ブロックを接続する。

【0023】

次に、音声入力部２０５について説明する。図３は、音声入力部２０５のハードウェア構成を示す図である。外部音声取得部３０１は、デジタルカメラ１０１の外部の音声を取得するためのマイク等である。ゲイン部３０２は、外部音声取得部３０１が取得した音声信号を増幅する。ＡＤＣ部３０３は、外部音声取得部３０１が取得したアナログ音声信号をデジタル処理するため、増幅されたアナログ音声信号をデジタル音声信号に変換する。

【0024】

内部音声取得部３０４は、デジタルカメラ１０１の内側の音声を取得するためのマイク等である。ゲイン部３０５は、内部音声取得部３０４で取得した音声信号を増幅する。ＡＤＣ部３０６は、内部音声取得部３０４が取得したアナログ音声信号をデジタル処理するため、増幅されたアナログ音声信号をデジタル音声信号に変換する。音声処理部３０７は、ＡＤＣ部３０３およびＡＤＣ部３０６でデジタル信号に変換された音声信号をデジタル処理する。音声処理部３０７が、外部音声信号をデジタル処理することで、外部音声データが生成され、内部音声信号をデジタル処理することで、内部音声データが生成される。

【0025】

次に、図２の各装置のソフトウェア機能を説明する。図４は、図２の各装置のソフトウェア機能のブロックを示す図である。デジタルカメラ１０１のカメラ制御部４０１は、デジタルカメラ１０１全体を制御する制御手段である。カメラ制御部４０１は、ＣＰＵ２０１がＲＡＭ２０３に展開されたプログラムを実行することで実現される。カメラ制御部４０１は、入力部２０７が受け付けたユーザ操作に応じて、画像センサからの入力をカメラエンジン２０９で処理させる。また、カメラ制御部４０１は、入力部２０７が受け付けたユーザ操作に応じて、記憶部２１０に記憶された画像データを表示部２０８に表示させる制御も行う。

【0026】

推定部４０２は、取得された外部音声データおよび内部音声データを学習済みモデルに入力して、推定処理を実行する推定手段である。推定部４０２は、ＧＰＵ２０４により実現される。データ取得部４０３は、音声入力部２０５から入力される外部音声データ（デジタルカメラ１０１の外部の音声）および内部音声データ（デジタルカメラ１０１の内部の音声）を取得する。データ取得部４０３は、音声入力部２０５に対応する取得手段である。データ取得部４０３は、取得した外部音声データおよび内部音声データを推定部４０２に受け渡す。データ送受信部４０４は、データ取得部４０３が取得した外部音声データおよび内部音声データを、クライアント端末１０２に送信する。また、データ送受信部４０４は、学習サーバー１０４が機械学習した学習済みモデルを、クライアント端末１０２からＩ／Ｆ２０６を経由して受信する。

【0027】

クライアント端末１０２のクライアント端末制御部４０５は、クライアント端末１０２全体を制御する。例えば、ユーザが、表示部２１８を視認しながら、学習用データの送信要求の指示を入力部２１７に対して行ったとする。この場合、クライアント端末制御部４０５は、入力部２１７に対する指示に基づき、デジタルカメラ１０１から学習用データを取得して、取得した学習用データをデータサーバー１０５に送信する指示を行う。また、ユーザが、表示部２１８を視認しながら、学習済みモデルの送信要求の指示を入力部２１７に対して行ったとする。クライアント端末制御部４０５は、入力部２１７に対する指示に基づき、学習サーバー１０４から学習済みモデルを取得して、取得した学習済みモデルをデジタルカメラ１０１に送信する指示を行う。

【0028】

データ送受信部４０６は、デジタルカメラ１０１が送信した学習用データをＩ／Ｆ２１６で受信し、ＮＩＣ２１５を介して、データサーバー１０５に送信する。また、データ送受信部４０６は、学習サーバー１０４が学習して生成された学習済みモデルデータを、ＮＩＣ２１５で受信し、Ｉ／Ｆ２１６を介して、デジタルカメラ１０１に送信する。

【0029】

データサーバー１０５のデータサーバー制御部４０７は、データサーバー１０５全体を制御する。データサーバー制御部４０７は、クライアント端末１０２から学習用データを受信した場合、学習用データをデータ記憶部４０９に記憶する。また、データサーバー制御部４０７は、学習サーバー１０４から学習用データの送信要求を受信した場合、学習用データを学習サーバー１０４に送信する制御を行う。データ収集提供部４０８は、クライアント端末１０２が送信した学習用データをＮＩＣ２３１で受信してデータを収集する。データ記憶部４０９は、ＮＩＣ２３１で受信した学習用データをＨＤＤ２２９に記憶する。また、データ記憶部４０９は、学習サーバー１０４が機械学習するための学習用データを、ＨＤＤ２２９から読み出して、読み出した学習用データをＮＩＣ２３１に受け渡す。データ収集提供部４０８は、学習サーバー１０４が機械学習するための学習用データを、ＮＩＣ２３１を介して、学習サーバー１０４に送信する。

【0030】

学習サーバー１０４の学習サーバー制御部４１０は、学習サーバー１０４全体を制御する。例えば、ユーザが、表示部２２６を視認しながら、学習処理の指示を行ったとする。学習サーバー制御部４１０は、学習処理の指示に基づき、データサーバー１０５から学習用データを取得する制御を行う。そして、学習サーバー制御部４１０は、学習部４１４に機械学習を行わせる。学習サーバー制御部４１０は、学習部４１４が行う機械学習により生成される学習済みモデルをクライアント端末１０２に送信する制御を行う。データ送受信部４１１は、データサーバー１０５から送信される学習用データを、ＮＩＣ２２４を介して受信する。また、データ送受信部４１１は、学習サーバー１０４が送信する学習済みモデルを、ＮＩＣ２２４、介してクライアント端末１０２に送信する。

【0031】

データ管理部４１２は、データ送受信部４１１が受信した学習用データを使用するか、またはデータ送受信部４１１から学習済みモデルを送信するかを判定する。学習用データは、全てのデータが学習済みモデルに対する入力データとして用いられるのではなく、一部が検証用データとして用いられてもよい。学習用データを、学習済みモデルに対する入力データと検証用データとに分割する手法としては、例えば、ホールドアウト法等が適用され得る。データ加工部４１３は、学習用データを、学習済みモデルに対する入力データと検証用データとに分割する処理等を行う。データ加工部４１３が加工したデータは、ＲＡＭ２２２またはＨＤＤ２２１に記憶される。

【0032】

学習部４１４は、ＲＡＭ２２２またはＨＤＤ２２１に記憶されている学習用データを使用して、学習モデルの機械学習を行う学習手段である。学習部４１４の機能は、ＧＰＵ２２３により実現され得る。学習モデルの機械学習が終了すると、学習済みモデルが得られる。学習部４１４が行う機械学習の詳細については後述する。データ記憶部４１５は、機械学習された学習済みモデルを記憶する。データ記憶部４１５は、ＨＤＤ２２１等により実現される。

【0033】

図５および図６を用いて、学習部４１４が行う機械学習について説明する。図５は、学習モデルの入力データおよび出力データ示す図である。本実施形態では、学習モデル５０１はニューラルネットワークであるものとして説明する。ただし、学習モデル５０１は、ニューラルネットワークには限定されない。学習モデル５０１には、外部音声データおよび内部音声データが入力される。外部音声データは、音声入力部２０５の外部音声取得部３０１で取得されたデジタルの音声データである。内部音声データは、音声入力部２０５の内部音声取得部３０４で取得されたデジタルの音声データである。学習モデル５０１は、外部音声データおよび内部音声データを入力として、推定処理を行い、推定の結果（推定結果）として、手持ち判定結果を出力する。手持ち判定結果は、デジタルカメラ１０１がユーザの手等により持たれているか否かを示す推定結果である。

【0034】

図６は、学習部４１４が学習モデル５０１の機械学習を行う際の入力データおよび教師データの対応関係を示すテーブルである。本実施形態では、学習部４１４は、学習モデル５０１の教師あり学習を行う。図６に示されるテーブルのうち、学習用データＩＤは、学習用データを識別する識別番号を示す。図６に示されるように、学習用の外部音声データ（Ｗａｖ＿ＥＸ＿０1）と学習用の内部音声データ（Ｗａｖ＿ＩＮ＿０１）とは、セットで記憶されている。学習用の外部音声データ（Ｗａｖ＿ＥＸ＿０１）と学習用の内部音声データ（Ｗａｖ＿ＩＮ＿０１）とは、同時刻に外部音声取得部３０１と内部音声取得部３０４とから取得された音声データである。また、学習用データＩＤには、入力データと教師データとが対応付けられている。

【0035】

教師データは、外部音声データおよび内部音声データが取得されたときと同時刻に、デジタルカメラ１０１が持たれていたかを否かを示すデータである。教師データが「Ｔｒｕｅ」である場合、デジタルカメラ１０１が持たれていたことを示す。この場合、ユーザが、デジタルカメラ１０１を手で持っていたことを示す。教師データが「Ｆａｌｓｅ」である場合、デジタルカメラ１０１が持たれていなかったことを示す。この場合、ユーザが、デジタルカメラ１０１を手で持っていなかったことを示す。デジタルカメラ１０１が持たれていたか否かを示す情報は、デジタルカメラ１０１による撮影時に、ユーザが入力部２０７を用いて設定されてもよい。これにより、外部音声データおよび内部音声データが取得されたときと同時刻に、ユーザがデジタルカメラ１０１を手で持っていたか否かを特定することができる。

【0036】

また、デジタルカメラ１０１のカメラ制御部４０１は、撮影時に手ブレ補正を実施している場合は、手で持っていると判定できる。この場合、カメラ制御部４０１は、外部音声データおよび内部音声データが取得されたときと同時刻に、ユーザがデジタルカメラ１０１を手で持っていたと判定できる。従って、カメラ制御部４０１は、対応する教師データとしてデジタルカメラ１０１が持たれていたことを示す「Ｔｒｕｅ」を設定する。

【0037】

一方、デジタルカメラ１０１が三脚等の固定部材に固定されている場合、ユーザはデジタルカメラ１０１を手で持っていないと想定される。このため、デジタルカメラ１０１が固定部材を検出した場合、外部音声データおよび内部音声データが取得されたときと同時刻に、ユーザがデジタルカメラ１０１を手で持っていないと判定できる。従って、カメラ制御部４０１は、対応する教師データとしてデジタルカメラ１０１が持たれていなかったことを示す「Ｆａｌｓｅ」を設定する。以上のようにして、教師データが設定される。

【0038】

ここで、ユーザがデジタルカメラ１０１を持っているとき（握っているとき）と、持っていないとき（握っていないとき）とでは、外部音声がデジタルカメラ１０１内部に音声を伝達する伝達関数が変化する。従って、外部音声と内部音声とに基づいて、ユーザがデジタルカメラ１０１を持っているか否かを判断することは可能である。ただし、ユーザによるデジタルカメラ１０１の持ち方によっては、伝達関数は無数に変化する。このため、伝達関数を算出して、算出された伝達関数に基づいて、ユーザがデジタルカメラ１０１を持っているか否かを判定することは難しい。

【0039】

そこで、本実施形態では、学習部４１４が、上述した入力データおよび教師データを用いて、学習モデル５０１の機械あり学習（ディープラーニング）を行い、学習済みモデルを生成する。これにより、学習モデル５０１の係数パラメータが、誤差逆伝搬法等により調整されていく。学習処理が行われた学習モデル５０１が、学習済みモデルである。そして、学習済みモデルに対して、未知の外部音声データおよび未知の内部音声データが入力されたときに、推定結果として手持ち判定結果が出力される。この場合、伝達関数の算出および判定は不要である。学習済みモデルの推定精度を向上させるためには、多様な学習用データで、学習モデル５０１の機械学習が行われることが望ましい。

【0040】

例えば、デジタルカメラ１０１に交換可能なレンズが装着されている場合と装着されていない場合との学習用データを用いて、学習モデル５０１の機械学習が行われることが望ましい。また、デジタルカメラ１０１に着脱可能なアクセサリが装着されている場合と装着されていない場合との学習用データを用いて、学習モデル５０１の機械学習が行われることが望ましい。以上のように、デジタルカメラ１０１に装着可能な部材が装着されているか否かの多様な状況における学習用データを用いて、学習モデル５０１の機械学習が行われることで、多様な状況における推定精度が向上する。

【0041】

次に、データの流れについて説明する。図７は、システム１００におけるデータの流れを示す図である。１番目として、デジタルカメラ１０１のＣＰＵ２０１は、音声入力部２０５からの外部音声データおよび内部音声データを取得するとともに、同時刻にユーザがデジタルカメラ１０１を手で持っているか否かを示す情報を取得する。取得された各情報は、学習用データである。２番目として、ＣＰＵ２０１は、取得した学習用データをクライアント端末１０２に送信する制御を行う。３番目として、クライアント端末１０２のＣＰＵ２１２は、受信した学習用データをデータサーバー１０５に送信する制御を行う。

【0042】

４番目として、データサーバー１０５のＣＰＵ２２８は、受信した学習用データを記憶する制御を行う。５番目として、クライアント端末１０２のＣＰＵ２１２は、学習サーバー１０４に対して、デジタルカメラ１０１に送信するための学習済みモデルの送信要求を出力する制御を行う。６番目として、学習サーバー１０４のＣＰＵ２２０は、学習済みモデルの送信要求を受信したことに応じて、データサーバー１０５に対して、学習用データの送信要求を出力する制御を行う。７番目として、データサーバー１０５のＣＰＵ２２８は、学習用データの送信要求を受信したことに応じて、その時点で記憶している学習用データを、学習サーバー１０４に送信する制御を行う。

【0043】

８番目として、学習サーバー１０４のＣＰＵ２２０は、データサーバー１０５から受信した学習用データを使用して学習モデル５０１の機械学習を行う。例えば、学習サーバー１０４は、機械学習の学習回数が所定回数に達したときに学習処理を終了してもよいし、ユーザ操作からの学習終了の指示を受け付けたときに、学習処理を終了してもよい。９番目として、学習サーバー１０４のＣＰＵ２２０は、学習モデルの学習処理が終了した後、学習済みモデルをクライアント端末１０２に送信する制御を行う。本実施形態における学習済みモデルの送信は、学習済みモデル自体のデータの送信であってもよいし、学習済みモデルの学習済み係数パラメータの送信であってもよい。１０番目として、クライアント端末１０２のＣＰＵ２１２は、学習サーバー１０４から受信した学習済みモデルをデジタルカメラ１０１に送信する制御を行う。１１番目として、デジタルカメラ１０１のＣＰＵ２０１は、クライアント端末１０２から受信した学習済みモデルのデータを記憶する制御を行う。

【0044】

以上の１番目から１０番目までのデータの流れで、デジタルカメラ１０１に学習済みモデルが搭載される。１２番目として、ユーザは、デジタルカメラ１０１を用いて撮影等の操作を行う。デジタルカメラ１０１の音声入力部２０５は、撮影等の操作を行ったときの外部音声データおよび内部音声データを取得する。１３番目として、デジタルカメラ１０１のＣＰＵ２０１は、取得された外部音声データおよび内部音声データを、学習済みモデルに入力して、デジタルカメラ１０１が持たれているか否かの推定を行う。

【0045】

１４番目として、デジタルカメラ１０１のＣＰＵ２０１は、学習済みモデルによる推定結果に応じて、バッテリ２００Ｂの電源制御を行う。つまり、デジタルカメラ１０１のＣＰＵ２０１は、推定結果が、デジタルカメラ１０１が持たれていないことを示している場合、低消費電力モードに移行する制御を行う。低消費電力モードは、完全に電源ＯＦＦのモードであってもよいし、通常よりも消費電力が少ないモードであってもよい。以上により、ユーザがデジタルカメラ１０１を手で持っていないとき、つまりデジタルカメラ１０１を使用していないときに、デジタルカメラ１０１は自動的に低消費電力モードに移行する。つまり、ＣＰＵ２０１は、デジタルカメラ１０１の省電力を行う。これにより、デジタルカメラ１０１のバッテリ２００Ｂの電力消費が抑制される。

【0046】

次に、デジタルカメラ１０１の第１の処理の流れについて説明する。図８（ａ）は、デジタルカメラ１０１の処理の流れの一例を示すフローチャートである。Ｓ８０１において、ＣＰＵ２０１は、学習用データの取得を行うか、学習済みモデルの記憶を行うかを判定する。Ｓ８０１において、ＣＰＵ２０１は、学習用データの取得を行うと判定した場合、処理をＳ８０２に進める。Ｓ８０２において、音声入力部２０５は、外部音声取得部３０１から外部音声を取得し、内部音声取得部３０４から内部音声を取得する。そして、ＣＰＵ２０１は、外部音声データおよび内部音声データを取得したときと同時刻におけるカメラ状態の情報を取得する。カメラ状態の情報は、デジタルカメラ１０１が持たれているか否かを示す情報である。

【0047】

Ｓ８０３において、ＣＰＵ２０１は、カメラ状態の情報に基づいて、デジタルカメラ１０１が持たれているかを判定する。この場合、デジタルカメラ１０１がユーザの手で持たれているかの判定が行われる。ＣＰＵ２０１は、Ｓ８０３でＹＥＳと判定した場合、処理をＳ８０４に進める。Ｓ８０３の判定は、上述したように、ユーザによる設定に基づいて行われてもよいし、手ブレ補正が実施されているかに基づいて行われてもよいし、三脚等の固定部材に固定されているかに基づいて行われてもよい。Ｓ８０４において、ＣＰＵ２０１は、教師データを「Ｔｕｒｅ」に設定する。ＣＰＵ２０１は、Ｓ８０４でＮＯと判定した場合、処理をＳ８０５に進める。Ｓ８０５において、ＣＰＵ２０１は、教師データを「Ｆａｌｓｅ」に設定する。設定された教師データは、例えば、ＲＡＭ２０３等に記憶される。

【0048】

Ｓ８０４の処理またはＳ８０５の処理が実行された後、Ｓ８０６において、ＣＰＵ２０１は、取得された外部音声データおよび内部音声データと教師データとを関連付けて学習用データを生成する。そして、Ｓ８０７において、ＣＰＵ２０１は、生成した学習用データをクライアント端末１０２に送信する制御を行う。これにより、クライアント端末１０２に学習用データが送信される。その後、Ｓ８０８において、ＣＰＵ２０１は、学習用データの取得を続けるかを判定する。例えば、学習用データの取得回数が、予め定められた一定回数に達したときに、ＣＰＵ２０１は、Ｓ８０８でＮＯと判定してもよい。ＣＰＵ２０１は、Ｓ８０８でＮＯと判定した場合、処理をＳ８０２に戻し、学習用データを続ける。一方、ＣＰＵ２０１は、Ｓ８０８でＹＥＳと判定した場合、処理を終了させる。

【0049】

Ｓ８０１において、ＣＰＵ２０１は、学習済みモデルの記憶を行うと判定した場合、処理をＳ８０９に進める。Ｓ８０９において、ＣＰＵ２０１は、クライアント端末１０２から学習済みモデルを受信したかを判定する。ＣＰＵ２０１は、Ｓ８０９でＮＯと判定した場合、処理をＳ８０９に戻し、学習済みモデルを受信するまで待機する。一方、ＣＰＵ２０１は、Ｓ８０９でＹＥＳと判定した場合、つまり学習済みモデルを受信した場合、処理をＳ８１０に進める。Ｓ８１０において、ＣＰＵ２０１は、受信した学習済みモデルをＧＰＵ２０４またはＲＡＭ２０３に記憶する。そして、ＣＰＵ２０１は、処理を終了させる。

【0050】

次に、クライアント端末１０２の処理について説明する。図８（ｂ）は、クライアント端末１０２の処理の流れの一例を示すフローチャートである。Ｓ８２１において、クライアント端末１０２のＣＰＵ２１２は、デジタルカメラ１０１から学習用データを受信したかを判定する。ＣＰＵ２１２は、Ｓ８２１でＮＯと判定した場合、つまり学習用データを受信していない場合は、処理をＳ８２２に進める。Ｓ８２２において、ＣＰＵ２１２は、デジタルカメラ１０１に学習済みモデルを送信するかを判定する。ＣＰＵ２１２は、Ｓ８２２でＮＯと判定した場合、学習用データを受信しておらず、学習済みモデルの送信も行わないため、処理を終了させる。

【0051】

ＣＰＵ２１２は、Ｓ８２２でＹＥＳと判定した場合、つまり学習済みモデルをデジタルカメラ１０１に送信する場合、処理をＳ８２３に進める。Ｓ８２３において、ＣＰＵ２１２は、学習サーバー１０４に学習済みモデルの送信要求を出力する制御を行う。そして、Ｓ８２４において、ＣＰＵ２１２は、学習サーバー１０４から学習済みモデルデータを受信したかを判定する。ＣＰＵ２１２は、Ｓ８２４でＮＯと判定した場合、つまり学習済みモデルを受信していない場合、処理をＳ８２４に戻し、学習済みモデルを受信するまで待機する。ＣＰＵ２１２は、Ｓ８２４でＹＥＳと判定した場合、つまり学習済みモデルを受信した場合、処理をＳ８２５に進める。Ｓ８２５において、ＣＰＵ２１２は、受信した学習済みモデルをデジタルカメラ１０１へ送信する。そして、ＣＰＵ２１２は、処理を終了させる。

【0052】

ＣＰＵ２１２は、Ｓ８２１でＹＥＳと判定した場合、つまり学習用データを受信した場合、処理をＳ８２６に進める。Ｓ８２６において、ＣＰＵ２１２は、受信した学習用データをデータサーバー１０５に送信する。そして、ＣＰＵ２１２は、処理を終了させる。

【0053】

次に、データサーバー１０５の処理について説明する。図９（ａ）は、データサーバー１０５の処理の流れの一例を示すフローチャートである。Ｓ９３１において、データサーバー１０５のＣＰＵ２２８は、クライアント端末１０２から学習用データを受信したかを判定する。ＣＰＵ２２８は、Ｓ９３２でＹＥＳと判定した場合、つまり学習用データを受信した場合、処理をＳ９３２に進める。Ｓ９３２において、ＣＰＵ２２８は、受信した学習用データをＨＤＤＤ２２９に記憶する制御を行う。そして、ＣＰＵ２２８は、処理をＳ９３３に進める。ＣＰＵ２２８は、Ｓ９３１でＮＯと判定した場合、つまり学習用データを受信していない場合、処理をＳ９３３に進める。

【0054】

Ｓ９３３において、ＣＰＵ２２８は、学習サーバー１０４から学習用データの送信要求を受信したかを判定する。ＣＰＵ２２８は、Ｓ９３３でＹＥＳと判定した場合、つまり学習用データの送信要求があった場合、処理をＳ９３４に進める。Ｓ９３４において、ＣＰＵ２２８は、ＨＤＤ２２９に記憶している学習用データを読み出して、読み出した学習用データを学習サーバー１０４に送信する制御を行う。これにより、学習用データが学習サーバー１０４に送信される。そして、ＣＰＵ２２８は、処理をＳ９３１に戻す。ＣＰＵ２２８は、Ｓ９３３でＮＯと判定した場合、つまり学習用データの送信要求を受信していない場合、処理をＳ９３１に戻す。

【0055】

次に、学習サーバー１０４の処理について説明する。図９（ｂ）は、学習サーバー１０４の処理の流れの一例を示すフローチャートである。Ｓ９４１において、学習サーバー１０４のＣＰＵ２２０は、クライアント端末１０２から学習済みモデルの送信要求を受信したかを判定する。ＣＰＵ２２０は、Ｓ９４１でＮＯと判定した場合、つまり学習済みモデルの送信要求を受信していない場合、処理をＳ９４１に戻し、学習済みモデルを受信するまで待機する。ＣＰＵ２２０は、Ｓ９４１でＹＥＳと判定した場合、つまり学習済みモデルの送信要求を受信した場合、処理をＳ９４２に進める。

【0056】

Ｓ９４２において、ＣＰＵ２２０は、データサーバー１０５に対して、学習用データの送信要求を出力する制御を行う。Ｓ９４３において、ＣＰＵ２２０は、学習用データを受信したかを判定する。ＣＰＵ２２０は、Ｓ９４３でＮＯと判定した場合、つまり学習用データを受信していない場合、処理をＳ９４３に戻し、学習用データを受信するまで待機する。ＣＰＵ２２０は、Ｓ９４３でＹＥＳと判定した場合、つまり学習用データを受信した場合、処理をＳ９４４に進める。

【0057】

Ｓ９４４において、ＣＰＵ２２０は、データサーバー１０５から取得した複数の学習用データを学習モデル５０１に入力する。各学習用データに含まれる外部音声データおよび内部音声データのセットには、教師データ（正解データ）が関連付けられている。Ｓ９４５において、ＧＰＵ２２３は、学習用の外部音声データおよび学習用の内部音声データを入力とし、教師データを「Ｔｒｕｅ」または「Ｆａｌｓｅ」とした教師あり学習を行う。これにより、学習モデル５０１の機械学習の学習処理が行われる。

【0058】

Ｓ９４６において、ＣＰＵ２２０は、学習処理を終了するかを判定する。ＣＰＵ２２０は、学習処理を終了するか否かを、データサーバー１０５から取得した複数の学習用データの全てを学習モデル５０１に入力したか否かに基づいて、判定する。ＣＰＵ２２０は、Ｓ９４６でＮＯと判定した場合、つまり学習処理が終了していない場合、処理をＳ９４４に戻す。この場合、学習モデル５０１に入力されていない学習用データが存在する。一方、ＣＰＵ２２０は、Ｓ９４６でＹＥＳと判定した場合、処理をＳ９４７に進める。この場合、学習処理が終了しており、学習済みモデルが生成されている。Ｓ９４７において、ＣＰＵ２２０は、生成した学習済みモデルをクライアント端末１０２に送信する制御を行う。これにより、学習済みモデルがクライアント端末１０２に送信される。上述したように、学習サーバー１０４は、学習済みモデル自体を送信してもよいし、学習済みモデルの学習済み係数パラメータを送信してもよい。

【0059】

次に、デジタルカメラ１０１の第２の処理について説明する。デジタルカメラ１０１の第２の処理は、デジタルカメラ１０１の電源制御の処理である。図１０は、デジタルカメラ１０１の第２の処理の流れの一例を示すフローチャートである。Ｓ１００１において、ＣＰＵ２０１は、デジタルカメラ１０１の入力部２０７の電源スイッチがＯＮになっているかを判定する。ＣＰＵ２０１は、Ｓ１００１でＮＯと判定した場合、つまり電源スイッチがＯＦＦである場合、処理をＳ１００２に進めず、電源スイッチがＯＮになるまで待機する。ＣＰＵ２０１は、Ｓ１００１でＹＥＳと判定した場合、つまり電源スイッチがＯＮになった場合、処理Ｓ１００３に進める。

【0060】

Ｓ１００２において、ＣＰＵ２０１は、音声入力部２０５から外部音声データおよび内部音声データを取得する。そして、Ｓ１００３において、ＣＰＵ２０１は、取得した外部音声データおよび内部音声データを、学習済みモデルに入力する。Ｓ１００４において、ＧＰＵ２０４は、学習済みモデルによる推定処理を行う。これにより、推定結果が得られる。上述したように、学習済みモデルは、推定結果としてカメラ状態（手持ち判定結果）を出力する。つまり、推定結果として、デジタルカメラ１０１が持たれているか否かを示す情報が出力される。

【0061】

Ｓ１００５において、ＣＰＵ２０１は、学習済みモデルからの出力であるカメラ状態が、デジタルカメラ１０１が持たれていることを示しているかを判定する。ＣＰＵ２０１は、Ｓ１００５でＹＥＳと判定した場合、つまりデジタルカメラ１０１が持たれていると判定した場合、低消費電力モードに移行する必要がないため、処理をＳ１００２に戻す。一方、ＣＰＵ２０１は、Ｓ１００５でＮＯと判定した場合、つまりデジタルカメラ１０１が持たれていないと判定した場合、処理をＳ１００６に進める。Ｓ１００６において、ＣＰＵ２０１は、デジタルカメラ１０１の動作状態を低消費電力モードに移行する制御を行う。そして、ＣＰＵ２０１は、処理を終了させる。

【0062】

以上、説明したように、本実施形態では、外部音声データおよび内部音声データのセットにカメラ状態が教師データとして関連付けられた学習用データを用いて、学習モデルの機械学習が行われることで、学習済みモデルが生成される。電子機器は、外部音声データおよび内部音声データを取得し、取得した外部音声データおよび内部音声データを学習済みモデルに入力することで、カメラ状態を推定する。これにより、カメラ状態を検出する別途のセンサを要することなく、電子機器の省電力の制御を行うことができる。このため、電子機器の構成が複雑化することなく電子機器の省電力化を図ることができる。その結果、バッテリを長持ちさせることができる。

【0063】

ここで、一定時間の学習用の外部音声データおよび学習用の内部音声データが取得されたとする。デジタルカメラ１０１の音声入力部２０５は、上記一定時間より短い時間間隔で、一定時間の学習用の外部音声データおよび学習用の内部音声データを取得してもよい。これにより、一定時間ごとに学習用の外部音声データおよび学習用の内部音声データを取得する場合よりも、多くの学習用の外部音声データおよび学習用の内部音声データを取得することができる。つまり、機械学習を行う際の学習用データを多く用意することができる。

【0064】

また、上述した実施形態では、ＣＰＵ２０１の推定部４０２が推定処理を行う例について説明したが、デジタルカメラ１０１の外部の装置が推定処理を行ってもよい。例えば、クライアント端末１０２がエッジコンピュータであるような場合、クライアント端末１０２が推定処理を行ってもよい。この場合、クライアント端末１０２は推定処理を行う機能を有する推定装置となる。デジタルカメラ１０１のＣＰＵ２０１は、取得された外部音声データおよび内部音声データを、Ｉ／Ｆ２０６を介して、クライアント端末１０２に送信する制御を行う。クライアント端末１０２のＣＰＵ２１２は、推定部４０２と同様の推定処理を行い、推定結果をデジタルカメラ１０１に送信する制御を行う。これにより、クライアント端末１０２のＣＰＵ２１２は、推定結果を受信することができる。そして、デジタルカメラ１０１ＣＰＵ２０１は、推定結果に応じて、電源制御を行う。この場合でも、上述した実施形態と同様の効果を得ることができる。

【0065】

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【符号の説明】

【0066】

１０１デジタルカメラ
１０２クライアント端末
１０４学習サーバー
１０５データサーバー
２００Ｂバッテリ
２０１ＣＰＵ
２０４ＧＰＵ
２０５音声入力部
２０６Ｉ／Ｆ
２２０ＣＰＵ
２２３ＧＰＵ
３０１外部音声取得部
３０４内部音声取得部
４０１カメラ制御部
４１４学習部
５０１学習モデル

【図1】