特許7532963 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許7532963画像処理装置および画像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-05

(45)【発行日】2024-08-14

(54)【発明の名称】画像処理装置および画像処理方法

(51)【国際特許分類】

H04N 5/93 20060101AFI20240806BHJP

H04N 23/60 20230101ALI20240806BHJP

H04N 23/611 20230101ALI20240806BHJP

G10L 15/00 20130101ALI20240806BHJP

G10L 15/10 20060101ALI20240806BHJP

G10L 15/22 20060101ALI20240806BHJP

G06F 3/01 20060101ALI20240806BHJP

【ＦＩ】

H04N5/93 050

H04N23/60 300

H04N23/60 500

H04N23/611

G10L15/00 200G

G10L15/10 500Z

G10L15/22 460Z

G06F3/01 510

【請求項の数】 5

(21)【出願番号】P 2020117846

(22)【出願日】2020-07-08

(65)【公開番号】P2022015167

(43)【公開日】2022-01-21

【審査請求日】2023-03-31

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】須永領平

【審査官】大西宏

(56)【参考文献】

【文献】特開２００７－２６６７９３（ＪＰ，Ａ）

【文献】特開２０１０－０６６８４４（ＪＰ，Ａ）

【文献】特開２０１１－１８２１０９（ＪＰ，Ａ）

【文献】特開２０１８－０６３４８６（ＪＰ，Ａ）

【文献】特開２０１８－０７３２５３（ＪＰ，Ａ）

【文献】特開２０１９－１５８９７５（ＪＰ，Ａ）

【文献】特表２０１９－５０４５３２（ＪＰ，Ａ）

【文献】国際公開第２０１３／００８３００（ＷＯ，Ａ１）

【文献】国際公開第２０１９／２３０２２５（ＷＯ，Ａ１）

【文献】中国特許出願公開第１０４０７７８２０（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／９１－５／９５６

Ｈ０４Ｎ２３／４０－２３／７６

Ｇ１０Ｌ１５／００－１７／２６

Ｇ０６Ｆ３／０１

(57)【特許請求の範囲】

【請求項1】

移動体の室内である対象空間の音声データおよび画像データを取得する取得部と、
前記音声データをテキストデータに変換する音声認識部と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する状況評価部と、
前記移動体に異常が発生した際の画像を予め記録する画像記憶部と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成し、前記予め記録された前記移動体に異常が発生した際の画像とは区別して前記重畳画像データを前記画像記憶部に記録する画像処理部と
を備える画像処理装置。

【請求項2】

前記取得部は、前記対象空間に存在する人物を撮像した画像データを取得し、
前記画像処理部は、前記画像データから、前記人物をズームアップした画像を生成し、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を、前記ズームアップした画像に重畳させた重畳画像データを生成する、
請求項１に記載の画像処理装置。

【請求項3】

前記画像処理部は、前記状況評価値に基づいて、重畳される前記テキストデータに基づく画像の態様を決定する
請求項１または２に記載の画像処理装置。

【請求項4】

前記音声データから取得される特徴に基づいて音声評価値を算出する音声評価部をさらに備え、
前記状況評価値は、前記音声評価値を含む、
請求項１から３のいずれか一項に記載の画像処理装置。

【請求項5】

移動体の室内である対象空間の音声データおよび画像データを取得する段階と、
前記音声データをテキストデータに変換する段階と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する段階と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成し、画像記憶部に予め記録された前記移動体に異常が発生した際の画像とは区別して前記重畳画像データを前記画像記憶部に記録する段階と
を備える画像処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置および画像処理方法に関する。

【背景技術】

【0002】

車両の車室内の音声を含む画像（静止画および動画を含む）を車載カメラおよび車載マイクにより取得し、旅の記録として保存することが行われている。このような記録として保存された画像を見返す場合、画像に予め字幕等の演出を付与しておくことは有効である。
たとえば特許文献１の記載には、画像に含まれる音声から単語を抽出し、単語の使用頻度に応じて字幕の表示態様を決定する表示態様決定装置が開示されている。
また、車両の車室内の画像に限らず、各種移動体の室内の画像またはその他の空間を撮影した画像を出来事の記録として保存する場合についても同様である。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－０６２３３２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし上述した画像は、冗長な部分が多く、撮影後に出来事の記録として見返すのに適していないという問題があった。特に再生時間が長い場合は、この問題が顕著に生じる。

【0005】

本発明は、上述した課題を解決するためになされたものであって、撮影後に、撮影中の重要な場面を分かりやすいダイジェスト画像で振り返ることができる画像処理装置および画像処理方法を提供するものである。

【課題を解決するための手段】

【0006】

本発明の一態様にかかる画像処理装置は、対象空間の音声データおよび画像データを取得する取得部と、前記音声データをテキストデータに変換する音声認識部と、前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する状況評価部と、前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成する画像処理部とを備える。

【0007】

本発明の一態様にかかる画像処理方法は、対象空間の音声データおよび画像データを取得する段階と、前記音声データをテキストデータに変換する段階と、前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する段階と、前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成する段階とを備える。

【発明の効果】

【0008】

本発明によれば、撮影後に、撮影中の重要な場面を分かりやすいダイジェスト画像で振り返ることができる画像処理装置および画像処理方法を提供することができる。

【図面の簡単な説明】

【0009】

【図1】実施形態１にかかる画像処理装置の構成の一例を示すブロック図である。

【図2】実施形態１にかかる状況テーブルのデータ構造の一例を示す図である。

【図3】実施形態１にかかる画像処理態様テーブルのデータ構造の一例を示す図である。

【図4】実施形態１にかかる画像処理装置の処理の概要を示すフローチャートである。

【図5】実施形態１にかかる画像処理装置の処理の第１の例を示すフローチャートである。

【図6】実施形態１にかかる画像処理装置の処理の第２の例を示すフローチャートである。

【図7】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図8】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図9】実施形態１にかかる画像処理装置の画像処理態様の一例を示す図である。

【図10】実施形態２にかかる画像処理装置の構成の一例を示すブロック図である。

【図11】実施形態２にかかる状況テーブルのデータ構造の一例を示す図である。

【図12】実施形態２にかかる画像処理態様テーブルのデータ構造の一例を示す図である。

【図13】実施形態２にかかる画像処理装置の処理を示すフローチャートである。

【図14】実施形態２にかかる画像処理装置の画像処理態様の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、発明の実施の形態を通じて本発明を説明するが、特許請求の範囲にかかる発明を以下の実施形態に限定するものではない。また、実施形態で説明する構成の全てが課題を解決するための手段として必須であるとは限らない。説明の明確化のため、以下の記載および図面は、適宜、省略、および簡略化がなされている。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

【0011】

＜実施形態１＞
まず図１～９を用いて、本発明の実施形態１について説明する。図１は、実施形態１にかかる画像処理システム１の構成の一例を示すブロック図である。画像処理システム１は、人物を含む対象空間を撮影した画像に対して、字幕付与等の画像処理を行い、ダイジェスト画像を生成するコンピュータシステムである。本実施形態１では、対象空間は、乗員がいる車両の室内空間（以下、車室内と呼ぶことがある）を示す。しかしこれに限らず、対象空間は、乗員がいる船若しくは飛行機等のその他の移動体の室内、または人物がいる建物の屋内若しくは屋外の空間であってもよい。

【0012】

画像処理システム１は、画像処理装置１０と、カメラ３０と、マイク４０とを備える。本実施形態１では、画像処理装置１０、カメラ３０およびマイク４０は、ドライブレコーダ、ドライバモニタまたはインキャビンモニタ等の車載機器を含む車載機器システムを構成する。

【0013】

カメラ３０は、車両の任意の位置に搭載され、車室内の風景を撮影して、撮影した画像の画像データを生成するカメラである。一例としてカメラ３０は、車両の座席に座る乗員を撮影する。カメラ３０は、画像処理装置１０に通信可能に接続される。カメラ３０は、例えば毎秒３０フレーム（３０ｆｐｓ）の画像データを生成し、生成した画像データを３０分の１秒ごとに画像処理装置１０に供給する。カメラ３０は、車室内の風景の他に車両外部の風景を撮影し、画像処理装置１０に供給してもよい。

【0014】

マイク４０は、車両の任意の位置に搭載され、車室内の音声を取得して、音声データを生成するマイクである。一例としてマイク４０は、車両の座席に座る乗員の声を取得する。マイク４０も、画像処理装置１０に通信可能に接続される。マイク４０は、生成した音声データをカメラ３０と同様に画像処理装置１０に供給する。マイク４０は、車室内の音声に限定されず、車両外部の音声を取得し、画像処理装置１０に供給してもよい。

【0015】

画像処理装置１０は、車載機器に関連して設置されるコンピュータまたはハードウェアである。画像処理装置１０は、車載機器に内蔵されていてもよく、外付けで配設されていてもよい。また画像処理装置１０は、車両から離れた場所に設置され、無線通信手段によりカメラ３０およびマイク４０と通信してもよい。画像処理装置１０は、カメラ３０およびマイク４０からそれぞれ取得した画像および音声データに対して、字幕付与等の画像処理を行い、ダイジェスト画像を生成する。画像処理装置１０は、カメラ３０およびマイク４０を含んで構成されてもよい。

【0016】

画像処理装置１０は、取得部１１と、状況評価部１２と、音声認識部１５と、画像処理部１６と、画像記録部１７と、テーブル記憶部１８とを有する。

【0017】

取得部１１は、撮影対象となる車室内の音声データおよび画像データを、マイク４０およびカメラ３０からそれぞれ取得する。取得部１１は、マイク４０およびカメラ３０と有線で接続される入力端子や入力回路などのインタフェースであってもよく、マイク４０およびカメラ３０と無線で接続される通信受信部であってもよい。取得部１１は、取得した音声データおよび画像データを、状況評価部１２および音声認識部１５に供給する。

【0018】

状況評価部１２は、車室内の状況を評価する。ここで、車室内の状況とは、その空間にいる１または複数の人物（乗員）の表情または発話態様が類型化された状態を示す。たとえば状況は、笑顔の乗員がいる状態、眠っている乗員がいる状態、または大声で怒る乗員と笑顔の乗員とが混在する状態等が挙げられる。

【0019】

このとき状況評価部１２は、評価対象状況の状況評価値を算出する。評価対象状況とは、評価の対象となる状況を指し、例えば後述する状況テーブル１９に示す状況のうち評価対象として指定された状況を指す。評価対象状況は、状況テーブル１９に示す状況のすべてであってもよく、一部であってもよい。

【0020】

状況評価値は、評価対象状況ごとに算出され、車室内の状況が評価対象状況とどの程度関連しているかのレベルを示す。

【0021】

ここで状況評価部１２は、画像評価部１３を含む。
画像評価部１３は、取得部１１が取得した画像データに基づいて、評価対象状況に関連する各表情の表情評価統計値を算出する。より詳しくは、画像評価部１３は、画像データに画像認識処理を施して画像データに含まれる人物を認識し、また、認識した人物の表情を認識して、「笑い」、「悲しみ」、「怒り」および「眠気」などの表情の種別として評価する。画像認識処理は、機械学習などの公知の技術が用いられる。

【0022】

表情評価統計値は、状況評価値に含まれる状況評価指標の１つである。表情評価統計値は、画像データに写る全ての乗員を母集団とした表情評価値の統計値である。
ここで表情評価値は、表情の種別に応じて定められ、定められた表情に個々の乗員の表情がどの程度関連しているかを示す指標である。表情評価値は、画像データに写る乗員ごとに算出される。たとえば表情評価値は、顔の各部の大きさ、位置、形状または顔若しくは首の角度に関して、画像データから取得した実績値と予め定められた参照値との間の差分に基づいて算出されてよい。また表情評価値は、被写体として様々な表情の人物が写る画像を教師データとして学習した表情評価モデルにより算出されてもよい。表情評価統計値は、画像データに写る全ての乗員の表情評価値に基づいて、算出される。表情評価統計値は、閾値以上の表情評価値を有する乗員の数であってもよく、全ての乗員のうち、閾値以上の表情評価値を有する乗員の割合であってもよい。また表情評価統計値は、閾値以上の表情評価値を有する乗員の数や割合が予め定められる閾値を超えているか否かの判定結果であってもよい。また表情評価統計値は、表情評価値の合計値または平均値であってもよい。たとえば「笑い」の表情評価統計値は、「笑い」の表情評価値が高い乗員の数が多いほど、高い値を有してよい。このように表情評価統計値を状況評価値として用いることで、車室内の全体の状況をより正確に評価することが可能となる。

【0023】

本実施形態１では、状況評価値として表情評価統計値を用いる。つまり本実施形態１では、画像評価部１３は、画像データに基づいて撮像された人物の表情を評価し、車室内における評価対象状況に関連する表情の表情評価統計値を算出し、その表情評価統計値を状況評価値とする。

【0024】

そして状況評価部１２は、状況テーブル１９を用いて状況評価値が予め定められた条件を満たすか否かを判定し、満たす場合、評価対象状況のイベントが発生したと認定する。本実施形態１では、状況評価部１２は、評価対象状況に関連する表情評価統計値の各々について、その表情評価値がその表情評価値に対応して予め定められた閾値以上であるか否かを判定し、これらの判定結果に基づいてイベントが発生したか否かを判定する。状況評価部１２は、イベントが発生したと認定した場合、音声認識部１５および画像処理部１６に通知する。

【0025】

音声認識部１５は、音声データを、文字列を含むテキストデータに変換する。音声認識部１５は、公知の音声データテキスト化技術を用いてよい。

【0026】

画像処理部１６は、イベント発生期間の画像データの画像に対して、画像処理態様テーブル２０を用いて、評価対象状況に応じた画像処理を行う。イベント発生期間とは、現にイベントが発生している期間と、イベント発生前後の予め定められた期間とを含む期間を示す。なおイベント発生期間は、イベント発生前後の期間に代えてイベント発生前またはイベント発生後のいずれかの期間を含むとしてもよいし、これらの期間を含まなくてもよい。画像処理部１６は、イベント発生期間の画像データの画像に対して、テキストデータに基づく画像および評価対象状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成する。テキストデータに基づく画像は、一例としてテキストデータをそのまま文字列として所定のフォントにて可視化した字幕画像である。テキストデータに基づく画像は、例えばテキストデータが日本語である場合、漢字や片仮名に変換した後に字幕画像に変換してもよい。またテキストデータに基づく画像は、テキストデータの一部を省略したり予め定められたテキストデータを追加したりする形態ととってもよい。またテキストデータに基づく画像は、図示しないデータベースによってテキストデータと予め関連付けられたマーク画像であってもよい。評価対象状況に関連する画像は、後述する画像処理態様テーブル２０によって状況ＩＤと関連づけられたマーク画像である。例えば評価対象状況に関連する画像は、評価対象状況が「悲しみ」を含む状況ＩＤであった場合、涙の形のマーク画像であってよい。

【0027】

そして画像処理部１６は、生成した重畳画像データを画像記録部１７に記録する。画像記録部１７は、画像処理部１６が生成した重畳画像データを記憶する記憶媒体である。

【0028】

このとき画像処理部１６は、上書き禁止の記録形態で当該データを画像記録部１７に記録することが好ましい。たとえば画像処理装置１０がドライブレコーダに搭載されている場合、画像処理部１６は、通常のドライブレコーダが有する常時記録（上書き）、異常時記録（衝撃検知時等に上書き禁止で記録）、手動記録などの記録モードとは別の記録モードで画像記録部１７に記録してよい。画像記録部１７は、上記通常の記録モードの記録領域とは異なる記録領域であることが好ましい。画像処理部１６は、異常時記録の記録モードで記録する画像には、上述した画像の重畳処理を行わないことが好ましい。これにより上記通常の記録モードで記録されたデータとは区別して、運転後に記録ファイルを容易に閲覧することができる。さらに閲覧を容易にするために、記録モードに応じたフォルダ名およびファイル名を付与して記録ファイルを識別することが好ましいが、これに限定されない。なおドライブレコーダは、上述した記録モードの全てまたは一部を搭載していなくてもよい。

【0029】

テーブル記憶部１８は、状況テーブル１９および画像処理態様テーブル２０を記憶する記憶媒体である。

【0030】

図２は、実施形態１にかかる状況テーブル１９のデータ構造の一例を示す図である。
状況テーブル１９は、状況識別情報（状況ＩＤ）と、その状況の内容と、状況評価値の種別およびイベント閾値とを関連付ける。

【0031】

本実施形態１で状況の内容は、状況に関連する表情またはそれらの組み合わせを指す。たとえば、状況ＩＤ１～３の状況の内容は、笑顔の乗員がいることを示す。また状況ＩＤ４～５の状況の内容は、悲しんでいる乗員がいて、かつ笑顔の乗員がいることを示す。状況ＩＤ６の状況の内容は、怒っている乗員がいて、かつ笑顔の乗員がいることを示す。状況ＩＤ７の状況の内容は、眠っている乗員がいることを、状況ＩＤ８の状況の内容は、眠っている乗員がいて、かつ笑顔の乗員がいることを示す。

【0032】

状況評価値の種別は、状況の内容に含まれる各項目に対応する状況評価値の種別を示す。たとえば状況ＩＤ１～３の状況は、「笑い」の表情評価統計値である第１表情評価統計値を状況評価値としている。また状況ＩＤ４～５の状況は、「悲しみ」の表情評価統計値である第２表情評価統計値と、第１表情評価統計値とを状況評価値としている。また状況ＩＤ６の状況は、「怒り」の表情評価統計値である第３表情評価統計値と、第１表情評価統計値とを状況評価値としている。また状況ＩＤ７の状況は、「眠気」の表情評価統計値である第４表情評価統計値を、状況ＩＤ８の状況は、第４表情評価統計値と第１表情評価統計値とを状況評価値としている。

【0033】

イベント閾値は、状況評価部１２がイベント発生を判定するための閾値である。たとえば第１評価統計値の大きさによって、状況が状況ＩＤ１～３の３段階に分類される。第１評価統計値がＸ_１以上であれば、乗員全員が笑顔である状況ＩＤ１のイベントが発生したと判定される。第１評価統計値がＸ_２以上Ｘ_１未満であれば、過半数の乗員が笑顔である状況ＩＤ２のイベントが発生したと判定される。第１評価統計値がＸ_３以上Ｘ_２未満であれば、少人数の乗員が笑顔である状況ＩＤ３のイベントが発生したと判定される。変形例として、第１評価統計値は、後述する乗員の笑顔度合いの評価値であってもよく、状況ＩＤ１が表情評価値５以上の場合、状況ＩＤ２が表情評価値３または４の場合、などの判定であってもよい。

【0034】

ここで、各種表情評価統計値の算出方法の具体例について説明する。まず状況評価部１２の画像評価部１３は、取得した画像データから予め各乗員の顔の正規化画像を生成する。そして状況に関連する表情が「笑い」である場合、状況評価部１２の画像評価部１３は、無表情の場合の目の大きさ、口の大きさおよび口角の位置の平均値から、正規化画像に写る乗員の目の幅の減少量、口の大きさの変化量および口角の上昇量を算出する。画像評価部１３は、各種変化量と、歯が見えるか等の条件とに基づいて、「笑い」の表情評価値を、例えば１（無表情）～５（最大の笑顔）までの５段階評価値として算出する。笑っているか否かの０／１評価であってもよい。この評価値は、上述した口の大きさの変化量や歯が見えるか否かなどのパラメータにより算出してもよく、機械学習された笑顔度合いの認識辞書などを用いて笑顔の度合いを評価してもよい。後述する「悲しみ」、「怒り」および「眠気」についても同様である。また「笑い」の表情評価値は、被写体として様々な表情の人物が写る「笑い」の表情の画像を教師データとして学習した表情評価モデルにより算出されてもよい。

【0035】

また状況に関連する表情が「悲しみ」である場合、画像評価部１３は、無表情の場合の目の大きさ、口の形状並びに首および顔の角度の平均値から、正規化画像に写る乗員の目の幅の減少量と、口の形状並びに首および顔の角度の変化量とを算出する。画像評価部１３は、各種変化量と、涙の有無等の条件とに基づいて、「悲しみ」の表情評価値を算出する。また「悲しみ」の表情評価値は、被写体として様々な表情の人物が写る「悲しみ」の表情の画像を教師データとして学習した表情評価モデルにより算出されてもよい。

【0036】

また状況に関連する表情が「怒り」である場合、画像評価部１３は、無表情の場合の目の大きさ、口の形状、眉毛の位置並びに首および顔の角度の平均値から、正規化画像に写る乗員の目の大きさ、口の形状、眉毛の位置並びに首および顔の角度の変化量を算出する。画像評価部１３は、各種変化量に基づいて、「怒り」の表情評価値を算出する。また「怒り」の表情評価値は、被写体として様々な表情の人物が写る「怒り」の表情の画像を教師データとして学習した表情評価モデルにより算出されてもよい。

【0037】

また状況に関連する表情が「眠気」である場合、画像評価部１３は、無表情の場合の目の大きさ並びに首および顔の角度の平均値から、正規化画像に写る乗員の目が閉じているか否かを判定し、首および顔の角度の変化量を算出する。画像評価部１３は、判定結果および各種変化量に基づいて、「眠気」の表情評価値を算出する。また「眠気」の表情評価値は、被写体として様々な表情の人物が写る「眠気」の表情の画像を教師データとして学習した表情評価モデルにより算出されてもよい。

【0038】

そして画像評価部１３は、算出した各乗員の表情評価値に基づいて、各種表情評価統計値を算出する。

【0039】

図３は、実施形態１にかかる画像処理態様テーブル２０のデータ構造の一例を示す図である。画像処理態様テーブル２０は、状況ＩＤと、画像処理態様とを関連付ける。画像処理態様は、字幕の文字サイズ、フォント、色および字幕重畳位置等の重畳する字幕の表示態様に関する事項と、その他の画像処理態様とを含む。なお重畳する字幕の態様に関する事項は、本図では、文字サイズ、フォントおよび字幕重畳位置である。その他の画像処理態様は、マークの追加、状況に応じた字幕の追加、黒ベタ処理、色の変更、カラー画像のモノクロ化処理、白黒反転処理およびモザイク処理等が挙げられる。図３における文字サイズは、例として５（最大）から１（最小）までの５段階で示しているが、１０段階であってもよく、実際の文字サイズ（例えばフォント高さのピクセル数）で指定してもよい。

【0040】

なお画像処理部１６は、状況評価値、つまり本実施形態１では表情評価統計値に基づいて、重畳される字幕の表示態様を決定してもよい。これにより乗員の表情の統計値によって判定した室内の盛り上がりの程度に応じた、字幕演出を行うことができる。

【0041】

図４は、実施形態１にかかる画像処理装置１０の処理の概要を示すフローチャートである。
まずステップＳ１０において、画像処理装置１０の取得部１１は、車室内の音声データおよび画像データを、マイク４０およびカメラ３０からそれぞれ取得する。取得部１１は、取得した音声データおよび画像データを、状況評価部１２および音声認識部１５に供給する。

【0042】

次にステップＳ１１において、状況評価部１２の画像評価部１３は、画像データに基づいて、認識した各乗員の表情について評価対象状況に関連する表情評価値を算出し、各乗員の表情評価値に基づいて表情評価統計値を算出する。評価対象状況に関連する表情評価統計値が複数ある場合には、画像評価部１３は、各表情評価統計値を算出する。なお、画像評価部１３は状況テーブル１９を用いて、評価対象状況に関連する表情評価統計値の種別を確認してよい。

【0043】

そしてステップＳ１２において、状況評価部１２は、評価対象状況に関連する状況評価値種別ごとに状況評価値を算出する。本実施形態１では、状況評価部１２は、ステップＳ１１で算出した表情評価統計値を状況評価値とする。

【0044】

次にステップＳ１３において、状況評価部１２は、状況テーブル１９を用いて、ステップＳ１２で算出した状況評価値種別ごとの状況評価値から、評価対象状況のイベントが発生したか否かを判定する。状況評価部１２は、イベントが発生したと判定した場合（ステップＳ１３でＹｅｓ）、音声認識部１５にその旨を通知し、処理をステップＳ１４に進める。一方、状況評価部１２は、そうでない場合（ステップＳ１３でＮｏ）、処理をステップＳ１０に戻す。

【0045】

ステップＳ１４において、音声認識部１５は、状況評価部１２から通知を受けたことに応じて、イベント発生期間の音声データをテキストデータに変換し、変換したテキストデータを画像処理部１６に供給し、処理をステップＳ１５に進める。

【0046】

ステップＳ１５において、画像処理部１６は、イベント発生期間の画像データに対して、画像処理態様テーブル２０を用いて、評価対象状況の状況ＩＤに応じたテキストデータに基づく画像および評価対象状況に関連する画像のうち少なくとも一方を生成し、画像データに重畳させる画像処理を実行し、重畳画像データを生成し、処理をステップＳ１６に進める。

【0047】

そしてステップＳ１６において、画像処理部１６は、イベント発生期間の音声データおよび重畳画像データを、上書き禁止で画像記録部１７に記録し、処理を終了する。ステップＳ１６はなくともよい。

【0048】

なおステップＳ１５はステップＳ１４よりも前に実行されてもよく、並行して実行されてもよい。またステップＳ１４に代えて、音声認識部１５は、状況評価部１２から通知の有無に関わらず、音声データを取得したことに応じて音声データをテキストデータに変換してもよい。また音声認識部１５は、乗員の口の動きに基づいて乗員が発話中であると判定される場合にのみ、音声データをテキストデータに変換してもよい。なお上記判定は、画像評価部１３により行われてよい。

【0049】

次に図５～６を用いて、画像処理装置１０の処理の具体例について説明する。図５は、実施形態１にかかる画像処理装置１０の処理の第１の例を示すフローチャートである。第１の例では、状況テーブル１９の状況ＩＤ１～３が評価対象状況として予め指定されているものとする。なお図４のステップＳ１０に示す処理については、その記載を省略する。

【0050】

ステップＳ２０において、画像処理装置１０の状況評価部１２は、各乗員の第１表情評価値を算出し、第１表情評価値が所定閾値以上である乗員がいるか否か、つまり笑顔の乗員が検出された否かを判定する。画像評価部１３は、笑顔の乗員が検出されたと判定した場合（ステップＳ２０でＹｅｓ）、処理をステップＳ２１に進め、そうでない場合（ステップＳ２０でＮｏ）、ステップＳ２０に示す処理を繰り返す。

【0051】

次にステップＳ２１において、状況評価部１２は、第１表情評価統計値を算出し、第１表情評価統計値が状況テーブル１９に示す状況ＩＤ３の条件を満たすか否か、つまり所定人数以上の乗員が笑顔であるか否かを判定する。状況評価部１２は、所定人数以上の乗員が笑顔であると判定した場合（ステップＳ２１でＹｅｓ）、話が盛り上がるイベントが発生したとして処理をステップＳ２２に進め、そうでない場合（ステップＳ２１でＮｏ）、処理をステップＳ２０に戻す。

【0052】

ステップＳ２２において、状況評価部１２は、笑顔の乗員を検出した前後の画像データを所定の記録領域にバックアップする。

【0053】

次にステップＳ２３において、音声認識部１５は、笑顔の乗員を検出した前後の音声データをテキストデータに変換する。

【0054】

次にステップＳ２４において、状況評価部１２は、第１表情評価統計値が状況テーブル１９に示す状況ＩＤ１の条件を満たすか否か、つまり乗員の全員が笑顔であるか否かを判定する。状況評価部１２は、乗員の全員が笑顔であると判定した場合（ステップＳ２４でＹｅｓ）、処理をステップＳ２５に進め、そうでない場合（ステップＳ２４でＮｏ）、処理をステップＳ２６に進める。

【0055】

ステップＳ２５において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ１の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳させる。たとえば画像処理部１６は、通常の字幕に比べて、文字サイズを大きくし、字幕に対してより目立つフォントおよび色を付与する。そして画像処理部１６は処理をステップＳ２９に進める。

【0056】

ステップＳ２６において、状況評価部１２は、第１表情評価統計値が状況テーブル１９に示す状況ＩＤ２の条件を満たすか否か、つまり乗員の過半数が笑顔であるか否かを判定する。状況評価部１２は、乗員の過半数が笑顔であると判定した場合（ステップＳ２６でＹｅｓ）、処理をステップＳ２７に進め、そうでない場合（ステップＳ２６でＮｏ）、処理をステップＳ２８に進める。

【0057】

ステップＳ２７において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ２の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳させる。そして画像処理部１６は処理をステップＳ２９に進める。

【0058】

ステップＳ２８において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ３の画像処理態様で、バックアップした画像データの画像に対して、字幕等の画像を重畳させる。そして画像処理部１６は処理をステップＳ２９に進める。

【0059】

ステップＳ２９において、画像処理部１６は、重畳画像データおよびこれに対応する音声データを上書き禁止で画像記録部１７に記録し、処理を終了する。ステップＳ２９はなくてもよい。

【0060】

本例では、画像処理態様は、笑顔の数を考慮した第１表情評価統計値によって決定される。したがって、乗員の表情によって判定された盛り上がりの程度に応じた字幕演出を行うことができる。

【0061】

図６は、実施形態１にかかる画像処理装置１０の処理の第２の例を示すフローチャートである。第２の例では、状況テーブル１９の状況ＩＤ７～８が評価対象状況として予め指定されているものとする。なお図４のステップＳ１０に示す処理については、その記載を省略する。

【0062】

ステップＳ３０において、画像処理装置１０の状況評価部１２は、第４表情評価統計値を算出し、第４表情評価統計値が状況テーブル１９に示す状況ＩＤ７～８の条件を満たすか否か、つまり睡眠中の乗員が検出された否かを判定する。状況評価部１２は、睡眠中の乗員が検出されたと判定した場合（ステップＳ３０でＹｅｓ）、処理をステップＳ３１に進め、そうでない場合（ステップＳ３０でＮｏ）、ステップＳ３０に示す処理を繰り返す。

【0063】

ステップＳ３１において、状況評価部１２は、第１表情評価統計値を算出し、第１表情評価統計値が状況テーブル１９に示す状況ＩＤ８の条件を満たすか否か、つまり所定人数以上の乗員が笑顔であるか否かを判定する。状況評価部１２は、所定人数以上の乗員が笑顔であると判定した場合（ステップＳ３１でＹｅｓ）、睡眠中の乗員を他の乗員が面白がるというイベントが発生したとして処理をステップＳ３２に進める。一方、状況評価部１２は、そうでない場合（ステップＳ３１でＮｏ）、処理をステップＳ３５に進める。

【0064】

ステップＳ３２において、画像処理部１６は、睡眠中の乗員を検出した前後のその乗員（ターゲット乗員）の顔のズームアップ画像を生成し、所定の記録領域にバックアップする。

【0065】

次にステップＳ３３において、音声認識部１５は、睡眠中の乗員を検出した前後の音声データをテキストデータに変換する。

【0066】

次にステップＳ３４において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ８の画像処理態様で、バックアップした画像データの画像に対して、ステップＳ３３で変換したテキストデータに基づく画像および評価対象状況に関連する画像のうち少なくとも一方を生成し、画像データに重畳させる画像処理を実行し、重畳画像データを生成する。そして画像処理部１６は処理をステップＳ３７に進める。

【0067】

ステップＳ３５において、状況評価部１２は、ステップＳ３２と同様に、ターゲット乗員の顔のズームアップ画像を生成し、所定の記録領域にバックアップする。

【0068】

次にステップＳ３６において、画像処理部１６は、画像処理態様テーブル２０の状況ＩＤ７の画像処理態様で、バックアップした画像データの画像に対して、字幕および状況に関連する画像を重畳させる。そして画像処理部１６は処理をステップＳ３７に進める。

【0069】

ステップＳ３７において、画像処理部１６は、重畳画像データおよびこれに対応する音声データを上書き禁止で画像記録部１７に記録し、処理を終了する。ステップＳ３７はなくてもよい。

【0070】

図７～９は、実施形態１にかかる画像処理装置１０の画像処理態様の一例を示す図である。

【0071】

図７には、状況ＩＤ８に対応するイベントが発生した場合に生成される重畳画像データの画像ＩＭＧ１が示される。
画像処理部１６は、画像処理態様テーブル２０の、状況ＩＤ８に基づいた画像データ、例えば睡眠中の擬音を表す「ｚｚｚ」マーク画像ＭＫ１および鼻風船の画像ＭＫ２を生成し、睡眠中のターゲット乗員の顔のズームアップ画像に対して重畳させる。
そして画像処理部１６は、他の乗員の発話内容である音声データをテキストデータに変換した「起きないね。」という字幕画像データを生成し、ＳＢ１を画像の下部に重畳させる。

【0072】

図８には、状況ＩＤ５に対応するイベントが発生した場合に生成される重畳画像データの画像ＩＭＧ２が示される。
画像処理部１６は、悲しんでいるターゲット乗員の顔のズームアップ画像に対して、その目の周辺に悲しんでいることを表す涙マーク画像ＭＫ３を生成して重畳させ、額周辺に縦斜線マークＭＫ４を重畳させる。
そして画像処理部１６は、ターゲット乗員の発話内容である音声データをテキストデータに変換した「ひいいい」という字幕画像ＳＢ２を生成し、その乗員の左側に重畳させる。

【0073】

図９には、状況ＩＤ６に対応するイベントが発生した場合に生成される重畳画像データの画像ＩＭＧ３が示される。
画像処理部１６は、怒っているターゲット乗員の顔のズームアップ画像に対して、その額の周辺に怒っていることを表す怒りマーク画像ＭＫ５を生成して重畳させる。
そして画像処理部１６は、ターゲット乗員の発話内容である音声データをテキストデータに変換した「何だとっ！」という字幕画像ＳＢ３を生成し、怒っていることを表す吹き出しとともにその乗員の右側に重畳させる。

【0074】

このように実施形態１によれば、画像処理装置１０は、画像データから検出される情報に基づいて対象空間の状況を評価し、状況に対応するイベントが発生した期間周辺のダイジェスト画像を生成する。これにより撮影後に、撮影中の重要な場面、特に盛り上がった場面をダイジェスト画像で振り返ることができる。

【0075】

また画像処理装置１０は、撮影した画像に対して、評価した状況に合わせた字幕演出を行う。これにより、撮影後に分かりやすいバラエティ番組のような字幕付きの画像で旅の思い出を振り返ることができる。

【0076】

画像処理装置１０は、対象空間の状況を評価するために、画像データから乗員の表情を検出し、単一の表情だけでなく、乗員の表情の組み合わせを考慮してもよい。これにより、単に「笑い」だけでなく、「悲しみ」および「笑い」の融合など、相反する表情が乗員間で同時に起きた等の複雑な状況についても、盛り上がった場面として画像を記録することができる。

【0077】

＜実施形態２＞
次に図１０～１４を用いて、本発明の実施形態２について説明する。実施形態２は、状況評価部が、画像データに加えて音声データに基づいて、対象空間の状況を評価することに特徴を有する。

【0078】

図１０は、実施形態２にかかる画像処理装置１０ａの構成の一例を示すブロック図である。実施形態２にかかる画像処理装置１０ａは、実施形態１にかかる画像処理装置１０と基本的に同様の構成および機能を有する。ただし画像処理装置１０ａは、状況評価部１２、状況テーブル１９および画像処理態様テーブル２０に代えて、状況評価部１２ａ、状況テーブル１９ａおよび画像処理態様テーブル２０ａを備える点で画像処理装置１０と相違する。

【0079】

状況評価部１２ａは、状況評価部１２と基本的に同様の機能を有するが、画像評価部１３に加えて、音声評価部１４を有する。

【0080】

音声評価部１４は、音声データから取得される特徴を評価し、当該特徴に基づいて音声評価値を算出する。たとえば音声評価値は、音声データに含まれる発話の声量の程度を示す第１音声評価値と、発話される音声を認識し、予め定められるキーワードを抽出して、その出現頻度を示す第２音声評価値とを含む。

【0081】

状況評価部１２ａは、画像評価部１３が算出した表情評価統計値と、音声評価部１４が算出した音声評価値とに基づいて、対象空間の状況を評価する。したがって状況評価値は、状況評価指標として、表情評価統計値に加えて音声評価値を含む。

【0082】

図１１は、実施形態２にかかる状況テーブル１９ａのデータ構造の一例を示す図である。状況テーブル１９ａは、状況テーブル１９に代えて、状況評価値の１つとして音声評価値が採用される状況ＩＤ９～１０の状況のレコードである。状況テーブル１９ａは、状況テーブル１９の状況ＩＤを含んで構成されてもよい。
状況ＩＤ９～１０の状況の内容は、状況に関連する表情に加えて、発話態様またはこれらの組み合わせを示す。
たとえば状況ＩＤ９の状況の内容は、笑顔の乗員がいて、かつ乗員が所定値以上の声量（大声）で発話していることを示す。この場合、画像データに基づく第１表情評価統計値と、音声データに基づく第１音声評価値とが、状況評価値とされる。
また状況ＩＤ１０の状況の内容は、笑顔の乗員がいる期間中に、所定頻度以上で繰り返し発話される単語を示す高頻出キーワードがあることを示す。この場合、画像データに基づく第１表情評価統計値と、音声データに基づく第２音声評価値とが、状況評価値とされる。

【0083】

図１２は、実施形態２にかかる画像処理態様テーブル２０ａのデータ構造の一例を示す図である。
画像処理態様テーブル２０ａは、画像処理態様テーブル２０に加えて、状況ＩＤ９～１０の状況のレコードを含む。

【0084】

なお画像処理部１６は、表情評価統計値に加えてまたは代えて、音声評価値に基づいて、重畳される字幕の態様を決定してよい。これにより盛り上がりの程度に応じた字幕演出をすることができる。

【0085】

図１３は、実施形態２にかかる画像処理装置１０ａの処理を示すフローチャートである。図１３に示すステップは、図４に示すステップＳ１２，１３，１５に代えて、ステップＳ４０～４３を含む。図４に示すステップと同一のステップについては、適宜説明を省略する。

【0086】

なおステップＳ１４に示す音声データのテキスト変換処理については，ステップＳ１０および１１の間で実行されてよい。

【0087】

ステップＳ４０において、状況評価部１２ａの音声評価部１４は、取得部１１から供給された音声データから各種音声評価値を算出する。本ステップは、ステップＳ１１の前に行われてもよく、ステップＳ１１と並行して行われてもよい。

【0088】

ステップＳ４１において、状況評価部１２ａは、評価対象状況が状況ＩＤ９または１０に該当する場合、表情評価統計値に加えて、音声評価値を状況評価値とする。

【0089】

ステップＳ４２において、状況評価部１２ａは、状況テーブル１９ａを用いて評価対象
状況のイベントが発生したか否かを判定する。状況評価部１２ａは、イベントが発生した
と判定した場合（ステップＳ４２でＹｅｓ）、状況評価値の情報を画像処理部１６に供給
し、処理をステップＳ４３に進める。一方、状況評価部１２ａは、そうでない場合（ステップＳ４２でＮｏ）、処理をステップＳ１０に戻す。

【0090】

ステップＳ４３において、画像処理部１６は、イベント発生期間の画像データに対して、画像処理態様テーブル２０ａを用いて、評価対象状況に応じた画像処理を実行し、重畳画像データを生成する。

【0091】

図１４は、実施形態２にかかる画像処理装置１０ａの画像処理態様の一例を示す図である。本図には、状況ＩＤ１０に対応するイベントが発生した場合に生成される重畳画像データの画像ＩＭＧ４が示される。状況ＩＤ１０においては、笑顔の乗員がいる中でキーワードが閾値以上の頻度で出現する場合に、状況評価部１２ａは、話が盛り上がっており、そのキーワードが話のキーポイントであると判定する。

【0092】

そして画像処理部１６は、撮影された画像データを例えば黒ベタ画像に変換する。そして画像処理部１６は、高頻出キーワード「寿司」を、文字サイズを大きくする、フォントを他のワードと異なるように変更する、および色を変更する、色の濃度を濃くする、等によって強調する表示態様で字幕データとして重畳させた重畳画像データを生成し、変換した黒ベタ画像に重畳する。
このような画像が動画として再生された場合、黒ベタ画像に上述した重畳画像データを重畳した画像を再生するとともに、対応する音声が再生されてよい。またこのときに、高頻出キーワードの音量を大きくする、周波数を変換する、等によって強調する態様で音声を再生させてもよい。

【0093】

このように実施形態２によれば、画像処理装置１０ａは、画像データに加え、声量およびキーワードの繰り返し等の音声データから得られる特徴に基づいて、状況評価値を算出する。これにより画像処理装置１０ａは、盛り上がった場面を精度よく検出し、豊富なバリエーションで画像演出を行うことができる。

【0094】

上述の実施形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、プロセッサにコンピュータプログラムを実行させることにより実現することも可能である。

【0095】

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray（登録商標） Disc）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0096】

上述の実施形態ではコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、ＬＡＮ（ローカル・エリア・ネットワーク）のサーバ、コンピュータ（パソコン）通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。

【0097】

特許請求の範囲、明細書、および図面中において示したシステムおよび方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。特許請求の範囲、明細書および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。

【0098】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記）
（付記１）
対象空間の音声データおよび画像データを取得する取得部と、
前記音声データをテキストデータに変換する音声認識部と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する状況評価部と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成する画像処理部と
を備える画像処理システム。
（付記２）
前記状況評価部は、前記画像データに基づいて撮像された人物の表情を評価し、前記対象空間における前記状況に関連する表情の表情評価統計値を算出し、
前記状況評価値は、前記表情評価統計値を含む
付記１に記載の画像処理システム。
（付記３）
前記画像処理部は、前記状況評価値に基づいて、重畳される前記テキストデータに基づく画像の態様を決定する
付記１または２に記載の画像処理システム。
（付記４）
前記音声データから取得される特徴に基づいて音声評価値を算出する音声評価部をさらに備え、
前記状況評価値は、前記音声評価値を含む、
付記１から３のいずれか一項に記載の画像処理システム。
（付記５）
対象空間の音声データおよび画像データを取得する段階と、
前記音声データをテキストデータに変換する段階と、
前記画像データに基づいて前記対象空間の状況を評価し、前記対象空間における前記状況の状況評価値を算出する段階と、
前記状況評価値が予め定められた条件を満たす状況を示すイベントが発生した場合、前記イベントが発生している期間を含む予め定められた期間の前記画像データの画像に、前記テキストデータに基づく画像および前記状況に関連する画像のうち少なくとも一方を重畳させた重畳画像データを生成する段階と
を備える画像処理方法。

【符号の説明】

【0099】

１，１ａ画像処理システム
１０，１０ａ画像処理装置
１１取得部
１２，１２ａ状況評価部
１３画像評価部
１４音声評価部
１５音声認識部
１６画像処理部
１７画像記録部
１８テーブル記憶部
１９，１９ａ状況テーブル
２０，２０ａ画像処理態様テーブル
３０カメラ
４０マイク

【図1】