特開2024-149535 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特開2024-149535画像処理装置および画像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024149535

(43)【公開日】2024-10-18

(54)【発明の名称】画像処理装置および画像処理方法

(51)【国際特許分類】

H04N 5/92 20060101AFI20241010BHJP

H04N 5/76 20060101ALI20241010BHJP

G07C 5/00 20060101ALI20241010BHJP

【ＦＩ】

H04N5/92 010

H04N5/92 020

H04N5/76

G07C5/00 Z

【審査請求】有

【請求項の数】3

【出願形態】ＯＬ

(21)【出願番号】P 2024122207

(22)【出願日】2024-07-29

(62)【分割の表示】P 2020117846の分割

【原出願日】2020-07-08

(71)【出願人】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(72)【発明者】

【氏名】須永領平

(57)【要約】

【課題】撮影後に、撮影中の重要な場面を分かりやすいダイジェスト画像で振り返ること
ができる画像処理装置等を提供する。
【解決手段】画像処理装置は、移動体に搭載されたカメラからの画像を取得する取得部１１と、移動体に搭乗する１以上の乗員の状態を評価する状況評価部１２と、移動体に異常が発生した際の画像を記録する画像記録部１７と、画像に対して乗員の状態に応じた画像処理を行い、移動体に異常が発生した際の画像とは区別して画像記録部に記録する画像処理部１６と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

移動体に搭載されたカメラからの画像を取得する取得部と、
前記移動体に搭乗する１以上の乗員の状態を評価する状況評価部と、
前記移動体に異常が発生した際の画像を記録する画像記録部と、
前記画像に対して前記乗員の状態に応じた画像処理を行い、前記移動体に異常が発生した際の画像とは区別して前記画像記録部に記録する画像処理部と、
を備える画像処理装置。

【請求項2】

前記画像処理部は、前記画像処理を行った画像を、上書き禁止の態様にて、前記移動体に異常が発生した際の画像、前記移動体において常時記録される画像、前記乗員が手動で記録を行う際の画像、のいずれとも異なる記録領域に記録し、かつ、前記移動体に異常が発生した際の画像に対しては、前記画像処理を行わない、
ことを特徴とする、請求項１に記載の画像処理装置。

【請求項3】

移動体に搭載されたカメラからの画像を取得する取得ステップと、
前記移動体に搭乗する１以上の乗員の状態を評価する状況評価ステップと、
前記移動体に異常が発生した際の画像を記録する画像記録ステップと、
前記画像に対して前記乗員の状態に応じた画像処理を行い、前記移動体に異常が発生した際の画像とは区別して前記画像記録部に記録する画像処理ステップと、
を備える画像処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置および画像処理方法に関する。

【背景技術】

【0002】

車両の車室内の音声を含む画像（静止画および動画を含む）を車載カメラおよび車載マ
イクにより取得し、旅の記録として保存することが行われている。このような記録として
保存された画像を見返す場合、画像に予め字幕等の演出を付与しておくことは有効である
。
たとえば特許文献１の記載には、画像に含まれる音声から単語を抽出し、単語の使用頻
度に応じて字幕の表示態様を決定する表示態様決定装置が開示されている。
また、車両の車室内の画像に限らず、各種移動体の室内の画像またはその他の空間を撮
影した画像を出来事の記録として保存する場合についても同様である。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－０６２３３２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし上述した画像は、冗長な部分が多く、撮影後に出来事の記録として見返すのに適
していないという問題があった。特に再生時間が長い場合は、この問題が顕著に生じる。

【0005】

本発明は、上述した課題を解決するためになされたものであって、撮影後に、撮影中の
重要な場面を分かりやすいダイジェスト画像で振り返ることができる画像処理装置および
画像処理方法を提供するものである。

【課題を解決するための手段】

【0006】

本発明の一態様にかかる画像処理装置は、移動体に搭載されたカメラからの画像を取得する取得部と、移動体に搭乗する１以上の乗員の状態を評価する状況評価部と、移動体に異常が発生した際の画像を記録する画像記録部と、画像に対して乗員の状態に応じた画像処理を行い、移動体に異常が発生した際の画像とは区別して画像記録部に記録する画像処理部と、備える。

【0007】

本発明の一態様にかかる画像処理方法は、移動体に搭載されたカメラからの画像を取得する取得ステップと、移動体に搭乗する１以上の乗員の状態を評価する状況評価ステップと、移動体に異常が発生した際の画像を記録する画像記録ステップと、画像に対して乗員の状態に応じた画像処理を行い、移動体に異常が発生した際の画像とは区別して前記画像記録部に記録する画像処理ステップと、を備える。

【発明の効果】

【0008】

本発明によれば、撮影後に、撮影中の重要な場面を分かりやすいダイジェスト画像で振
り返ることができる画像処理装置および画像処理方法を提供することができる。

【図面の簡単な説明】

【0009】

【図1】実施形態１にかかる画像処理装置の構成の一例を示すブロック図である。

【図2】実施形態１にかかる状況テーブルのデータ構造の一例を示す図である。

【図3】実施形態１にかかる画像処理態様テーブルのデータ構造の一例を示す図である。

【図4】実施形態１にかかる画像処理装置の処理の概要を示すフローチャートである。

【図5】実施形態１にかかる画像処理装置の処理の第１の例を示すフローチャートである。

【図6】実施形態１にかかる画像処理装置の処理の第２の例を示すフローチャートである。

【図7】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図8】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図9】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図10】実施形態２にかかる画像処理装置の構成の一例を示すブロック図である。

【図11】実施形態２にかかる状況テーブルのデータ構造の一例を示す図である。

【図12】実施形態２にかかる画像処理態様テーブルのデータ構造の一例を示す図である。

【図13】実施形態２にかかる画像処理装置の処理を示すフローチャートである。

【図14】実施形態２にかかる画像処理装置の画像処理態様の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲にかかる発明を
以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を
解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載お
よび図面は、適宜、省略、および簡略化がなされている。なお、各図面において、同一の
要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

【0011】

＜実施形態１＞
まず図１～９を用いて、本発明の実施形態１について説明する。図１は、実施形態１に
かかる画像処理システム１の構成の一例を示すブロック図である。画像処理システム１は
、人物を含む対象空間を撮影した画像に対して、字幕付与等の画像処理を行い、ダイジェ
スト画像を生成するコンピュータシステムである。本実施形態１では、対象空間は、乗員
がいる車両の室内空間（以下、車室内と呼ぶことがある）を示す。しかしこれに限らず、
対象空間は、乗員がいる船若しくは飛行機等のその他の移動体の室内、または人物がいる
建物の屋内若しくは屋外の空間であってもよい。

【0012】

画像処理システム１は、画像処理装置１０と、カメラ３０と、マイク４０とを備える。
本実施形態１では、画像処理装置１０、カメラ３０およびマイク４０は、ドライブレコー
ダ、ドライバモニタまたはインキャビンモニタ等の車載機器を含む車載機器システムを構
成する。

【0013】

カメラ３０は、車両の任意の位置に搭載され、車室内の風景を撮影して、撮影した画像
の画像データを生成するカメラである。一例としてカメラ３０は、車両の座席に座る乗員
を撮影する。カメラ３０は、画像処理装置１０に通信可能に接続される。カメラ３０は、
例えば毎秒３０フレーム（３０ｆｐｓ）の画像データを生成し、生成した画像データを３
０分の１秒ごとに画像処理装置１０に供給する。カメラ３０は、車室内の風景の他に車両
外部の風景を撮影し、画像処理装置１０に供給してもよい。

【0014】

マイク４０は、車両の任意の位置に搭載され、車室内の音声を取得して、音声データを
生成するマイクである。一例としてマイク４０は、車両の座席に座る乗員の声を取得する
。マイク４０も、画像処理装置１０に通信可能に接続される。マイク４０は、生成した音
声データをカメラ３０と同様に画像処理装置１０に供給する。マイク４０は、車室内の音
声に限定されず、車両外部の音声を取得し、画像処理装置１０に供給してもよい。

【0015】

画像処理装置１０は、車載機器に関連して設置されるコンピュータまたはハードウェア
である。画像処理装置１０は、車載機器に内蔵されていてもよく、外付けで配設されてい
てもよい。また画像処理装置１０は、車両から離れた場所に設置され、無線通信手段によ
りカメラ３０およびマイク４０と通信してもよい。画像処理装置１０は、カメラ３０およ
びマイク４０からそれぞれ取得した画像および音声データに対して、字幕付与等の画像処
理を行い、ダイジェスト画像を生成する。画像処理装置１０は、カメラ３０およびマイク
４０を含んで構成されてもよい。

【0016】

画像処理装置１０は、取得部１１と、状況評価部１２と、音声認識部１５と、画像処理
部１６と、画像記録部１７と、テーブル記憶部１８とを有する。

【0017】

取得部１１は、撮影対象となる車室内の音声データおよび画像データを、マイク４０お
よびカメラ３０からそれぞれ取得する。取得部１１は、マイク４０およびカメラ３０と有
線で接続される入力端子や入力回路などのインタフェースであってもよく、マイク４０お
よびカメラ３０と無線で接続される通信受信部であってもよい。取得部１１は、取得した
音声データおよび画像データを、状況評価部１２および音声認識部１５に供給する。

【0018】

状況評価部１２は、車室内の状況を評価する。ここで、車室内の状況とは、その空間に
いる１または複数の人物（乗員）の表情または発話態様が類型化された状態を示す。たと
えば状況は、笑顔の乗員がいる状態、眠っている乗員がいる状態、または大声で怒る乗員
と笑顔の乗員とが混在する状態等が挙げられる。

【0019】

このとき状況評価部１２は、評価対象状況の状況評価値を算出する。評価対象状況とは
、評価の対象となる状況を指し、例えば後述する状況テーブル１９に示す状況のうち評価
対象として指定された状況を指す。評価対象状況は、状況テーブル１９に示す状況のすべ
てであってもよく、一部であってもよい。

【0020】

状況評価値は、評価対象状況ごとに算出され、車室内の状況が評価対象状況とどの程度
関連しているかのレベルを示す。

【0021】

ここで状況評価部１２は、画像評価部１３を含む。
画像評価部１３は、取得部１１が取得した画像データに基づいて、評価対象状況に関連
する各表情の表情評価統計値を算出する。より詳しくは、画像評価部１３は、画像データ
に画像認識処理を施して画像データに含まれる人物を認識し、また、認識した人物の表情
を認識して、「笑い」、「悲しみ」、「怒り」および「眠気」などの表情の種別として評
価する。画像認識処理は、機械学習などの公知の技術が用いられる。

【0022】

表情評価統計値は、状況評価値に含まれる状況評価指標の１つである。表情評価統計値
は、画像データに写る全ての乗員を母集団とした表情評価値の統計値である。
ここで表情評価値は、表情の種別に応じて定められ、定められた表情に個々の乗員の表
情がどの程度関連しているかを示す指標である。表情評価値は、画像データに写る乗員ご
とに算出される。たとえば表情評価値は、顔の各部の大きさ、位置、形状または顔若しく
は首の角度に関して、画像データから取得した実績値と予め定められた参照値との間の差
分に基づいて算出されてよい。また表情評価値は、被写体として様々な表情の人物が写る
画像を教師データとして学習した表情評価モデルにより算出されてもよい。表情評価統
計値は、画像データに写る全ての乗員の表情評価値に基づいて、算出される。表情評価統
計値は、閾値以上の表情評価値を有する乗員の数であってもよく、全ての乗員のうち、閾
値以上の表情評価値を有する乗員の割合であってもよい。また表情評価統計値は、閾値以
上の表情評価値を有する乗員の数や割合が予め定められる閾値を超えているか否かの判定
結果であってもよい。また表情評価統計値は、表情評価値の合計値または平均値であって
もよい。たとえば「笑い」の表情評価統計値は、「笑い」の表情評価値が高い乗員の数が
多いほど、高い値を有してよい。このように表情評価統計値を状況評価値として用いるこ
とで、車室内の全体の状況をより正確に評価することが可能となる。

【0023】

本実施形態１では、状況評価値として表情評価統計値を用いる。つまり本実施形態１で
は、画像評価部１３は、画像データに基づいて撮像された人物の表情を評価し、車室内に
おける評価対象状況に関連する表情の表情評価統計値を算出し、その表情評価統計値を状
況評価値とする。

【0024】

そして状況評価部１２は、状況テーブル１９を用いて状況評価値が予め定められた条件
を満たすか否かを判定し、満たす場合、評価対象状況のイベントが発生したと認定する。
本実施形態１では、状況評価部１２は、評価対象状況に関連する表情評価統計値の各々に
ついて、その表情評価値がその表情評価値に対応して予め定められた閾値以上であるか否
かを判定し、これらの判定結果に基づいてイベントが発生したか否かを判定する。状況評
価部１２は、イベントが発生したと認定した場合、音声認識部１５および画像処理部１６
に通知する。

【0025】

音声認識部１５は、音声データを、文字列を含むテキストデータに変換する。音声認識
部１５は、公知の音声データテキスト化技術を用いてよい。

【0026】

画像処理部１６は、イベント発生期間の画像データの画像に対して、画像処理態様テー
ブル２０を用いて、評価対象状況に応じた画像処理を行う。イベント発生期間とは、現に
イベントが発生している期間と、イベント発生前後の予め定められた期間とを含む期間を
示す。なおイベント発生期間は、イベント発生前後の期間に代えてイベント発生前または
イベント発生後のいずれかの期間を含むとしてもよいし、これらの期間を含まなくてもよ
い。画像処理部１６は、イベント発生期間の画像データの画像に対して、テキストデータ
に基づく画像および評価対象状況に関連する画像のうち少なくとも一方を重畳させた重畳
画像データを生成する。テキストデータに基づく画像は、一例としてテキストデータをそ
のまま文字列として所定のフォントにて可視化した字幕画像である。テキストデータに基
づく画像は、例えばテキストデータが日本語である場合、漢字や片仮名に変換した後に字
幕画像に変換してもよい。またテキストデータに基づく画像は、テキストデータの一部を
省略したり予め定められたテキストデータを追加したりする形態ととってもよい。またテ
キストデータに基づく画像は、図示しないデータベースによってテキストデータと予め関
連付けられたマーク画像であってもよい。評価対象状況に関連する画像は、後述する画像
処理態様テーブル２０によって状況ＩＤと関連づけられたマーク画像である。例えば評価
対象状況に関連する画像は、評価対象状況が「悲しみ」を含む状況ＩＤであった場合、涙
の形のマーク画像であってよい。

【0027】

そして画像処理部１６は、生成した重畳画像データを画像記録部１７に記録する。画像
記録部１７は、画像処理部１６が生成した重畳画像データを記憶する記憶媒体である。

【0028】

このとき画像処理部１６は、上書き禁止の記録形態で当該データを画像記録部１７に記
録することが好ましい。たとえば画像処理装置１０がドライブレコーダに搭載されている
場合、画像処理部１６は、通常のドライブレコーダが有する常時記録（上書き）、異常時
記録（衝撃検知時等に上書き禁止で記録）、手動記録などの記録モードとは別の記録モー
ドで画像記録部１７に記録してよい。画像記録部１７は、上記通常の記録モードの記録領
域とは異なる記録領域であることが好ましい。画像処理部１６は、異常時記録の記録モー
ドで記録する画像には、上述した画像の重畳処理を行わないことが好ましい。これにより
上記通常の記録モードで記録されたデータとは区別して、運転後に記録ファイルを容易に
閲覧することができる。さらに閲覧を容易にするために、記録モードに応じたフォルダ名
およびファイル名を付与して記録ファイルを識別することが好ましいが、これに限定され
ない。なおドライブレコーダは、上述した記録モードの全てまたは一部を搭載していなく
てもよい。

【0029】

テーブル記憶部１８は、状況テーブル１９および画像処理態様テーブル２０を記憶する
記憶媒体である。

【0030】

図２は、実施形態１にかかる状況テーブル１９のデータ構造の一例を示す図である。
状況テーブル１９は、状況識別情報（状況ＩＤ）と、その状況の内容と、状況評価値の
種別およびイベント閾値とを関連付ける。

【0031】

本実施形態１で状況の内容は、状況に関連する表情またはそれらの組み合わせを指す。
たとえば、状況ＩＤ１～３の状況の内容は、笑顔の乗員がいることを示す。また状況ＩＤ
４～５の状況の内容は、悲しんでいる乗員がいて、かつ笑顔の乗員がいることを示す。状
況ＩＤ６の状況の内容は、怒っている乗員がいて、かつ笑顔の乗員がいることを示す。状
況ＩＤ７の状況の内容は、眠っている乗員がいることを、状況ＩＤ８の状況の内容は、眠
っている乗員がいて、かつ笑顔の乗員がいることを示す。

【0032】

状況評価値の種別は、状況の内容に含まれる各項目に対応する状況評価値の種別を示す
。たとえば状況ＩＤ１～３の状況は、「笑い」の表情評価統計値である第１表情評価統計
値を状況評価値としている。また状況ＩＤ４～５の状況は、「悲しみ」の表情評価統計値
である第２表情評価統計値と、第１表情評価統計値とを状況評価値としている。また状況
ＩＤ６の状況は、「怒り」の表情評価統計値である第３表情評価統計値と、第１表情評価
統計値とを状況評価値としている。また状況ＩＤ７の状況は、「眠気」の表情評価統計値
である第４表情評価統計値を、状況ＩＤ８の状況は、第４表情評価統計値と第１表情評価
統計値とを状況評価値としている。

【0033】

イベント閾値は、状況評価部１２がイベント発生を判定するための閾値である。たとえ
ば第１評価統計値の大きさによって、状況が状況ＩＤ１～３の３段階に分類される。第１
評価統計値がＸ１以上であれば、乗員全員が笑顔である状況ＩＤ１のイベントが発生した
と判定される。第１評価統計値がＸ２以上Ｘ１未満であれば、過半数の乗員が笑顔である
状況ＩＤ２のイベントが発生したと判定される。第１評価統計値がＸ３以上Ｘ２未満であ
れば、少人数の乗員が笑顔である状況ＩＤ３のイベントが発生したと判定される。変形例
として、第１評価統計値は、後述する乗員の笑顔度合いの評価値であってもよく、状況Ｉ
Ｄ１が表情評価値５以上の場合、状況ＩＤ２が表情評価値３または４の場合、などの判定
であってもよい。

【0034】

ここで、各種表情評価統計値の算出方法の具体例について説明する。まず状況評価部１
２の画像評価部１３は、取得した画像データから予め各乗員の顔の正規化画像を生成する
。そして状況に関連する表情が「笑い」である場合、状況評価部１２の画像評価部１３は
、無表情の場合の目の大きさ、口の大きさおよび口角の位置の平均値から、正規化画像に
写る乗員の目の幅の減少量、口の大きさの変化量および口角の上昇量を算出する。画像評
価部１３は、各種変化量と、歯が見えるか等の条件とに基づいて、「笑い」の表情評価値
を、例えば１（無表情）～５（最大の笑顔）までの５段階評価値として算出する。笑って
いるか否かの０／１評価であってもよい。この評価値は、上述した口の大きさの変化量や
歯が見えるか否かなどのパラメータにより算出してもよく、機械学習された笑顔度合いの
認識辞書などを用いて笑顔の度合いを評価してもよい。後述する「悲しみ」、「怒り」お
よび「眠気」についても同様である。また「笑い」の表情評価値は、被写体として様々な
表情の人物が写る「笑い」の表情の画像を教師データとして学習した表情評価モデルによ
り算出されてもよい。

【0035】

また状況に関連する表情が「悲しみ」である場合、画像評価部１３は、無表情の場合の
目の大きさ、口の形状並びに首および顔の角度の平均値から、正規化画像に写る乗員の目
の幅の減少量と、口の形状並びに首および顔の角度の変化量とを算出する。画像評価部１
３は、各種変化量と、涙の有無等の条件とに基づいて、「悲しみ」の表情評価値を算出す
る。また「悲しみ」の表情評価値は、被写体として様々な表情の人物が写る「悲しみ」の
表情の画像を教師データとして学習した表情評価モデルにより算出されてもよい。

【0036】

また状況に関連する表情が「怒り」である場合、画像評価部１３は、無表情の場合の目
の大きさ、口の形状、眉毛の位置並びに首および顔の角度の平均値から、正規化画像に写
る乗員の目の大きさ、口の形状、眉毛の位置並びに首および顔の角度の変化量を算出する
。画像評価部１３は、各種変化量に基づいて、「怒り」の表情評価値を算出する。また「
怒り」の表情評価値は、被写体として様々な表情の人物が写る「怒り」の表情の画像を教
師データとして学習した表情評価モデルにより算出されてもよい。

【0037】

また状況に関連する表情が「眠気」である場合、画像評価部１３は、無表情の場合の目
の大きさ並びに首および顔の角度の平均値から、正規化画像に写る乗員の目が閉じている
か否かを判定し、首および顔の角度の変化量を算出する。画像評価部１３は、判定結果お
よび各種変化量に基づいて、「眠気」の表情評価値を算出する。また「眠気」の表情評価
値は、被写体として様々な表情の人物が写る「眠気」の表情の画像を教師データとして学
習した表情評価モデルにより算出されてもよい。

【0038】

そして画像評価部１３は、算出した各乗員の表情評価値に基づいて、各種表情評価統計
値を算出する。

【0039】

図３は、実施形態１にかかる画像処理態様テーブル２０のデータ構造の一例を示す図で
ある。画像処理態様テーブル２０は、状況ＩＤと、画像処理態様とを関連付ける。画像処
理態様は、字幕の文字サイズ、フォント、色および字幕重畳位置等の重畳する字幕の表示
態様に関する事項と、その他の画像処理態様とを含む。なお重畳する字幕の態様に関する
事項は、本図では、文字サイズ、フォントおよび字幕重畳位置である。その他の画像処理
態様は、マークの追加、状況に応じた字幕の追加、黒ベタ処理、色の変更、カラー画像の
モノクロ化処理、白黒反転処理およびモザイク処理等が挙げられる。図３における文字サ
イズは、例として５（最大）から１（最小）までの５段階で示しているが、１０段階であ
ってもよく、実際の文字サイズ（例えばフォント高さのピクセル数）で指定してもよい。

【0040】

なお画像処理部１６は、状況評価値、つまり本実施形態１では表情評価統計値に基づい
て、重畳される字幕の表示態様を決定してもよい。これにより乗員の表情の統計値によっ
て判定した室内の盛り上がりの程度に応じた、字幕演出を行うことができる。

【0041】

図４は、実施形態１にかかる画像処理装置１０の処理の概要を示すフローチャートであ
る。
まずステップＳ１０において、画像処理装置１０の取得部１１は、車室内の音声データ
および画像データを、マイク４０およびカメラ３０からそれぞれ取得する。取得部１１は
、取得した音声データおよび画像データを、状況評価部１２および音声認識部１５に供給
する。

【0042】

次にステップＳ１１において、状況評価部１２の画像評価部１３は、画像データに基づ
いて、認識した各乗員の表情について評価対象状況に関連する表情評価値を算出し、各乗
員の表情評価値に基づいて表情評価統計値を算出する。評価対象状況に関連する表情評価
統計値が複数ある場合には、画像評価部１３は、各表情評価統計値を算出する。なお、画
像評価部１３は状況テーブル１９を用いて、評価対象状況に関連する表情評価統計値の種
別を確認してよい。

【0043】

そしてステップＳ１２において、状況評価部１２は、評価対象状況に関連する状況評価
値種別ごとに状況評価値を算出する。本実施形態１では、状況評価部１２は、ステップＳ
１１で算出した表情評価統計値を状況評価値とする。

【0044】

次にステップＳ１３において、状況評価部１２は、状況テーブル１９を用いて、ステッ
プＳ１２で算出した状況評価値種別ごとの状況評価値から、評価対象状況のイベントが発
生したか否かを判定する。状況評価部１２は、イベントが発生したと判定した場合（ステ
ップＳ１３でＹｅｓ）、音声認識部１５にその旨を通知し、処理をステップＳ１４に進め
る。一方、状況評価部１２は、そうでない場合（ステップＳ１３でＮｏ）、処理をステッ
プＳ１０に戻す。

【0045】

ステップＳ１４において、音声認識部１５は、状況評価部１２から通知を受けたことに
応じて、イベント発生期間の音声データをテキストデータに変換し、変換したテキストデ
ータを画像処理部１６に供給し、処理をステップＳ１５に進める。

【0046】

ステップＳ１５において、画像処理部１６は、イベント発生期間の画像データに対して
、画像処理態様テーブル２０を用いて、評価対象状況の状況ＩＤに応じたテキストデータ
に基づく画像および評価対象状況に関連する画像のうち少なくとも一方を生成し、画像デ
ータに重畳させる画像処理を実行し、重畳画像データを生成し、処理をステップＳ１６に
進める。

【0047】

そしてステップＳ１６において、画像処理部１６は、イベント発生期間の音声データお
よび重畳画像データを、上書き禁止で画像記録部１７に記録し、処理を終了する。ステッ
プＳ１６はなくともよい。

【0048】

なおステップＳ１５はステップＳ１４よりも前に実行されてもよく、並行して実行され
てもよい。またステップＳ１４に代えて、音声認識部１５は、状況評価部１２から通知の
有無に関わらず、音声データを取得したことに応じて音声データをテキストデータに変換
してもよい。また音声認識部１５は、乗員の口の動きに基づいて乗員が発話中であると判
定される場合にのみ、音声データをテキストデータに変換してもよい。なお上記判定は、
画像評価部１３により行われてよい。

【0049】

次に図５～６を用いて、画像処理装置１０の処理の具体例について説明する。図５は、
実施形態１にかかる画像処理装置１０の処理の第１の例を示すフローチャートである。第
１の例では、状況テーブル１９の状況ＩＤ１～３が評価対象状況として予め指定されてい
るものとする。なお図４のステップＳ１０に示す処理については、その記載を省略する。

【0050】

ステップＳ２０において、画像処理装置１０の状況評価部１２は、各乗員の第１表情評
価値を算出し、第１表情評価値が所定閾値以上である乗員がいるか否か、つまり笑顔の乗
員が検出された否かを判定する。画像評価部１３は、笑顔の乗員が検出されたと判定した
場合（ステップＳ２０でＹｅｓ）、処理をステップＳ２１に進め、そうでない場合（ステ
ップＳ２０でＮｏ）、ステップＳ２０に示す処理を繰り返す。

【0051】

次にステップＳ２１において、状況評価部１２は、第１表情評価統計値を算出し、第１
表情評価統計値が状況テーブル１９に示す状況ＩＤ３の条件を満たすか否か、つまり所定
人数以上の乗員が笑顔であるか否かを判定する。状況評価部１２は、所定人数以上の乗員
が笑顔であると判定した場合（ステップＳ２１でＹｅｓ）、話が盛り上がるイベントが発
生したとして処理をステップＳ２２に進め、そうでない場合（ステップＳ２１でＮｏ）、
処理をステップＳ２０に戻す。

【0052】

ステップＳ２２において、状況評価部１２は、笑顔の乗員を検出した前後の画像データ
を所定の記録領域にバックアップする。

【0053】

次にステップＳ２３において、音声認識部１５は、笑顔の乗員を検出した前後の音声デ
ータをテキストデータに変換する。

【0054】

次にステップＳ２４において、状況評価部１２は、第１表情評価統計値が状況テーブル
１９に示す状況ＩＤ１の条件を満たすか否か、つまり乗員の全員が笑顔であるか否かを判
定する。状況評価部１２は、乗員の全員が笑顔であると判定した場合（ステップＳ２４で
Ｙｅｓ）、処理をステップＳ２５に進め、そうでない場合（ステップＳ２４でＮｏ）、処
理をステップＳ２６に進める。

【0055】

ステップＳ２５において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ１
の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳さ
せる。たとえば画像処理部１６は、通常の字幕に比べて、文字サイズを大きくし、字幕に
対してより目立つフォントおよび色を付与する。そして画像処理部１６は処理をステップ
Ｓ２９に進める。

【0056】

ステップＳ２６において、状況評価部１２は、第１表情評価統計値が状況テーブル１９
に示す状況ＩＤ２の条件を満たすか否か、つまり乗員の過半数が笑顔であるか否かを判定
する。状況評価部１２は、乗員の過半数が笑顔であると判定した場合（ステップＳ２６で
Ｙｅｓ）、処理をステップＳ２７に進め、そうでない場合（ステップＳ２６でＮｏ）、処
理をステップＳ２８に進める。

【0057】

ステップＳ２７において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ２
の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳さ
せる。そして画像処理部１６は処理をステップＳ２９に進める。

【0058】

ステップＳ２８において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ３
の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳さ
せる。そして画像処理部１６は処理をステップＳ２９に進める。

【0059】

ステップＳ２９において、画像処理部１６は、重畳画像データおよびこれに対応する音
声データを上書き禁止で画像記録部１７に記録し、処理を終了する。ステップＳ２９はな
くてもよい。

【0060】

本例では、画像処理態様は、笑顔の数を考慮した第１表情評価統計値によって決定され
る。したがって、乗員の表情によって判定された盛り上がりの程度に応じた字幕演出を行
うことができる。

【0061】

図６は、実施形態１にかかる画像処理装置１０の処理の第２の例を示すフローチャート
である。第２の例では、状況テーブル１９の状況ＩＤ７～８が評価対象状況として予め指
定されているものとする。なお図４のステップＳ１０に示す処理については、その記載を
省略する。

【0062】

ステップＳ３０において、画像処理装置１０の状況評価部１２は、第４表情評価統計値
を算出し、第４表情評価統計値が状況テーブル１９に示す状況ＩＤ７～８の条件を満たす
か否か、つまり睡眠中の乗員が検出された否かを判定する。状況評価部１２は、睡眠中の
乗員が検出されたと判定した場合（ステップＳ３０でＹｅｓ）、処理をステップＳ３１に
進め、そうでない場合（ステップＳ３０でＮｏ）、ステップＳ３０に示す処理を繰り返す
。

【0063】

ステップＳ３１において、状況評価部１２は、第１表情評価統計値を算出し、第１表情
評価統計値が状況テーブル１９に示す状況ＩＤ８の条件を満たすか否か、つまり所定人数
以上の乗員が笑顔であるか否かを判定する。状況評価部１２は、所定人数以上の乗員が笑
顔であると判定した場合（ステップＳ３１でＹｅｓ）、睡眠中の乗員を他の乗員が面白が
るというイベントが発生したとして処理をステップＳ３２に進める。一方、状況評価部１
２は、そうでない場合（ステップＳ３１でＮｏ）、処理をステップＳ３５に進める。

【0064】

ステップＳ３２において、画像処理部１６は、睡眠中の乗員を検出した前後のその乗員
（ターゲット乗員）の顔のズームアップ画像を生成し、所定の記録領域にバックアップす
る。

【0065】

次にステップＳ３３において、音声認識部１５は、睡眠中の乗員を検出した前後の音声
データをテキストデータに変換する。

【0066】

次にステップＳ３４において、画像処理部１６は、画像処理態様テーブル２０の状況Ｉ
Ｄ８の画像処理態様で、バックアップした画像データの画像に対して、ステップＳ３３で
変換したテキストデータに基づく画像および評価対象状況に関連する画像のうち少なくと
も一方を生成し、画像データに重畳させる画像処理を実行し、重畳画像データを生成する
。そして画像処理部１６は処理をステップＳ３７に進める。

【0067】

ステップＳ３５において、状況評価部１２は、ステップＳ３２と同様に、ターゲット乗
員の顔のズームアップ画像を生成し、所定の記録領域にバックアップする。

【0068】

次にステップＳ３６において、画像処理部１６は、画像処理態様テーブル２０の状況Ｉ
Ｄ７の画像処理態様で、バックアップした画像データの画像に対して、字幕および状況に
関連する画像を重畳させる。そして画像処理部１６は処理をステップＳ３７に進める。

【0069】

ステップＳ３７において、画像処理部１６は、重畳画像データおよびこれに対応する音
声データを上書き禁止で画像記録部１７に記録し、処理を終了する。ステップＳ３７はな
くてもよい。

【0070】

図７～９は、実施形態１にかかる画像処理装置１０の画像処理態様の一例を示す図であ
る。

【0071】

図７には、状況ＩＤ８に対応するイベントが発生した場合に生成される重畳画像データ
の画像ＩＭＧ１が示される。
画像処理部１６は、画像処理態様テーブル２０の、状況ＩＤ８に基づいた画像データ、
例えば睡眠中の擬音を表す「ｚｚｚ」マーク画像ＭＫ１および鼻風船の画像ＭＫ２を生成
し、睡眠中のターゲット乗員の顔のズームアップ画像に対して重畳させる。
そして画像処理部１６は、他の乗員の発話内容である音声データをテキストデータに変
換した「起きないね。」という字幕画像データを生成し、ＳＢ１を画像の下部に重畳させ
る。

【0072】

図８には、状況ＩＤ５に対応するイベントが発生した場合に生成される重畳画像データ
の画像ＩＭＧ２が示される。
画像処理部１６は、悲しんでいるターゲット乗員の顔のズームアップ画像に対して、そ
の目の周辺に悲しんでいることを表す涙マーク画像ＭＫ３を生成して重畳させ、額周辺に
縦斜線マークＭＫ４を重畳させる。
そして画像処理部１６は、ターゲット乗員の発話内容である音声データをテキストデー
タに変換した「ひいいい」という字幕画像ＳＢ２を生成し、その乗員の左側に重畳させる
。

【0073】

図９には、状況ＩＤ６に対応するイベントが発生した場合に生成される重畳画像データ
の画像ＩＭＧ３が示される。
画像処理部１６は、怒っているターゲット乗員の顔のズームアップ画像に対して、その
額の周辺に怒っていることを表す怒りマーク画像ＭＫ５を生成して重畳させる。
そして画像処理部１６は、ターゲット乗員の発話内容である音声データをテキストデー
タに変換した「何だとっ！」という字幕画像ＳＢ３を生成し、怒っていることを表す吹き
出しとともにその乗員の右側に重畳させる。

【0074】

このように実施形態１によれば、画像処理装置１０は、画像データから検出される情報
に基づいて対象空間の状況を評価し、状況に対応するイベントが発生した期間周辺のダイ
ジェスト画像を生成する。これにより撮影後に、撮影中の重要な場面、特に盛り上がった
場面をダイジェスト画像で振り返ることができる。

【0075】

また画像処理装置１０は、撮影した画像に対して、評価した状況に合わせた字幕演出を
行う。これにより、撮影後に分かりやすいバラエティ番組のような字幕付きの画像で旅の
思い出を振り返ることができる。

【0076】

画像処理装置１０は、対象空間の状況を評価するために、画像データから乗員の表情を
検出し、単一の表情だけでなく、乗員の表情の組み合わせを考慮してもよい。これにより
、単に「笑い」だけでなく、「悲しみ」および「笑い」の融合など、相反する表情が乗員
間で同時に起きた等の複雑な状況についても、盛り上がった場面として画像を記録するこ
とができる。

【0077】

＜実施形態２＞
次に図１０～１４を用いて、本発明の実施形態２について説明する。実施形態２は、状
況評価部が、画像データに加えて音声データに基づいて、対象空間の状況を評価すること
に特徴を有する。

【0078】

図１０は、実施形態２にかかる画像処理装置１０ａの構成の一例を示すブロック図であ
る。実施形態２にかかる画像処理装置１０ａは、実施形態１にかかる画像処理装置１０と
基本的に同様の構成および機能を有する。ただし画像処理装置１０ａは、状況評価部１２
、状況テーブル１９および画像処理態様テーブル２０に代えて、状況評価部１２ａ、状況
テーブル１９ａおよび画像処理態様テーブル２０ａを備える点で画像処理装置１０と相違
する。

【0079】

状況評価部１２ａは、状況評価部１２と基本的に同様の機能を有するが、画像評価部１
３に加えて、音声評価部１４を有する。

【0080】

音声評価部１４は、音声データから取得される特徴を評価し、当該特徴に基づいて音声
評価値を算出する。たとえば音声評価値は、音声データに含まれる発話の声量の程度を示
す第１音声評価値と、発話される音声を認識し、予め定められるキーワードを抽出して、
その出現頻度を示す第２音声評価値とを含む。

【0081】

状況評価部１２ａは、画像評価部１３が算出した表情評価統計値と、音声評価部１４が
算出した音声評価値とに基づいて、対象空間の状況を評価する。したがって状況評価値は
、状況評価指標として、表情評価統計値に加えて音声評価値を含む。

【0082】

図１１は、実施形態２にかかる状況テーブル１９ａのデータ構造の一例を示す図である
。状況テーブル１９ａは、状況テーブル１９に代えて、状況評価値の１つとして音声評価
値が採用される状況ＩＤ９～１０の状況のレコードである。状況テーブル１９ａは、状況
テーブル１９の状況ＩＤを含んで構成されてもよい。
状況ＩＤ９～１０の状況の内容は、状況に関連する表情に加えて、発話態様またはこれ
らの組み合わせを示す。
たとえば状況ＩＤ９の状況の内容は、笑顔の乗員がいて、かつ乗員が所定値以上の声量
（大声）で発話していることを示す。この場合、画像データに基づく第１表情評価統計値
と、音声データに基づく第１音声評価値とが、状況評価値とされる。
また状況ＩＤ１０の状況の内容は、笑顔の乗員がいる期間中に、所定頻度以上で繰り返
し発話される単語を示す高頻出キーワードがあることを示す。この場合、画像データに基
づく第１表情評価統計値と、音声データに基づく第２音声評価値とが、状況評価値とされ
る。

【0083】

図１２は、実施形態２にかかる画像処理態様テーブル２０ａのデータ構造の一例を示す
図である。
画像処理態様テーブル２０ａは、画像処理態様テーブル２０に加えて、状況ＩＤ９～１
０の状況のレコードを含む。

【0084】

なお画像処理部１６は、表情評価統計値に加えてまたは代えて、音声評価値に基づいて
、重畳される字幕の態様を決定してよい。これにより盛り上がりの程度に応じた字幕演出
をすることができる。

【0085】

図１３は、実施形態２にかかる画像処理装置１０ａの処理を示すフローチャートである
。図１３に示すステップは、図４に示すステップＳ１２，１３，１５に代えて、ステップ
Ｓ４０～４３を含む。図４に示すステップと同一のステップについては、適宜説明を省略
する。

【0086】

なおステップＳ１４に示す音声データのテキスト変換処理については，ステップＳ１０
および１１の間で実行されてよい。

【0087】

ステップＳ４０において、状況評価部１２ａの音声評価部１４は、取得部１１から供給
された音声データから各種音声評価値を算出する。本ステップは、ステップＳ１１の前に
行われてもよく、ステップＳ１１と並行して行われてもよい。

【0088】

ステップＳ４１において、状況評価部１２ａは、評価対象状況が状況ＩＤ９または１０
に該当する場合、表情評価統計値に加えて、音声評価値を状況評価値とする。

【0089】

ステップＳ４２において、状況評価部１２ａは、状況テーブル１９ａを用いて評価対象
状況のイベントが発生したか否かを判定する。状況評価部１２ａは、イベントが発生した
と判定した場合（ステップＳ４２でＹｅｓ）、状況評価値の情報を画像処理部１６に供給
し、処理をステップＳ４３に進める。一方、状況評価部１２は、そうでない場合（ステッ
プＳ４２でＮｏ）、処理をステップＳ１０に戻す。

【0090】

ステップＳ４３において、画像処理部１６は、イベント発生期間の画像データに対して
、画像処理態様テーブル２０ａを用いて、評価対象状況に応じた画像処理を実行し、重畳
画像データを生成する。

【0091】

図１４は、実施形態２にかかる画像処理装置１０ａの画像処理態様の一例を示す図であ
る。本図には、状況ＩＤ１０に対応するイベントが発生した場合に生成される重畳画像デ
ータの画像ＩＭＧ４が示される。状況ＩＤ１０においては、笑顔の乗員がいる中でキーワ
ードが閾値以上の頻度で出現する場合に、状況評価部１２ａは、話が盛り上がっており、
そのキーワードが話のキーポイントであると判定する。

【0092】

そして画像処理部１６は、撮影された画像データを例えば黒ベタ画像に変換する。そし
て画像処理部１６は、高頻出キーワード「寿司」を、文字サイズを大きくする、フォント
を他のワードと異なるように変更する、および色を変更する、色の濃度を濃くする、等に
よって強調する表示態様で字幕データとして重畳させた重畳画像データを生成し、変換し
た黒ベタ画像に重畳する。
このような画像が動画として再生された場合、黒ベタ画像に上述した重畳画像データを
重畳した画像を再生するとともに、対応する音声が再生されてよい。またこのときに、高
頻出キーワードの音量を大きくする、周波数を変換する、等によって強調する態様で音声
を再生させてもよい。

【0093】

このように実施形態２によれば、画像処理装置１０ａは、画像データに加え、声量およ
びキーワードの繰り返し等の音声データから得られる特徴に基づいて、状況評価値を算出
する。これにより画像処理装置１０ａは、盛り上がった場面を精度よく検出し、豊富なバ
リエーションで画像演出を行うことができる。

【0094】

上述の実施形態では、本発明をハードウェアの構成として説明したが、本発明は、これ
に限定されるものではない。本発明は、任意の処理を、プロセッサにコンピュータプログ
ラムを実行させることにより実現することも可能である。

【0095】

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（
non-transitory computer readable medium）を用いて格納され、コンピュータに供給す
ることができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒
体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気
記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁
気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、
ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray（登録商標） Disc）
、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（
Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また
、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer
readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可
読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は
、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュ
ータに供給できる。

【0096】

上述の実施形態ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を
含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、ＬＡＮ
（ローカル・エリア・ネットワーク）のサーバ、コンピュータ（パソコン）通信のホスト
、インターネット上に接続されたコンピュータシステム等によって構成されることも可能
である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュー
タを構成することも可能である。

【0097】

特許請求の範囲、明細書、および図面中において示したシステムおよび方法における各
処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処
理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。特許請求の範囲
、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて
説明したとしても、この順序で実施することが必須であることを意味するものではない。

【0098】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜
変更することが可能である。上記の実施形態の一部または全部は、以下の付記のようにも
記載されうるが、以下には限られない。
（付記）
（付記１）
対象空間の音声データおよび画像データを取得する取得部と、
前記音声データをテキストデータに変換する音声認識部と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状
況の状況評価値を算出する状況評価部と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前
記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前
記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重
畳させた重畳画像データを生成する画像処理部と
を備える画像処理システム。
（付記２）
前記状況評価部は、前記画像データに基づいて撮像された人物の表情を評価し、前記対
象空間における前記状況に関連する表情の表情評価統計値を算出し、
前記状況評価値は、前記表情評価統計値を含む
付記１に記載の画像処理システム。
（付記３）
前記画像処理部は、前記状況評価値に基づいて、重畳される前記テキストデータに基づ
く画像の態様を決定する
付記１または２に記載の画像処理システム。
（付記４）
前記音声データから取得される特徴に基づいて音声評価値を算出する音声評価部をさら
に備え、
前記状況評価値は、前記音声評価値を含む、
付記１から３のいずれか一項に記載の画像処理システム。
（付記５）
対象空間の音声データおよび画像データを取得する段階と、
前記音声データをテキストデータに変換する段階と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状
況の状況評価値を算出する段階と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前
記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前
記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重
畳させた重畳画像データを生成する段階と
を備える画像処理方法。

【符号の説明】

【0099】

１，１ａ画像処理システム
１０，１０ａ画像処理装置
１１取得部
１２，１２ａ状況評価部
１３画像評価部
１４音声評価部
１５音声認識部
１６画像処理部
１７画像記録部
１８テーブル記憶部
１９，１９ａ状況テーブル
２０，２０ａ画像処理態様テーブル
３０カメラ
４０マイク

【図1】