【文献】
小森,第45回 知っておきたいキーワード,映像情報メディア学会誌,日本,(社)映像情報メディア学会,2009年10月 1日,第63巻 第10号,pp.1400-1402
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【0017】
(本発明が必要とされた社会的状況)
既に説明したように、既存のモバイル網の成長速度では、動画トラフィック需要に対応しきれない。そのため、動画のビットレートを低くすることで利用可能な動画数を増やし、需要に対処するしか方法はない。
【0018】
H.264などの既存の動画圧縮技術では、ビットレートを低くするために動画のサイズを小さくする技術があるものの、ビットレートを100kbpsまで低くすると動画のサイズが著しく小さくなる課題がある。例えば、128x128のサイズで100kbps程度、32x32のサイズで10kbps程度である。このように動画のサイズが著しく小さくなると、適用できる範囲が狭くなってしまう。
【0019】
超解像技術の適用も考えられる。超解像技術とは、低解像度の画像を高解像度に補正する技術である。しかしながら、テレビなどで採用されている既存の超解像技術では2〜4倍が限界である。学習型の超解像はリアルタイム処理が難しいという課題もある。
【0020】
本発明では、AI技術を利用することで、転送するビットレートは低くしつつ、転送先では高精細な動画再生を可能にする。言い換えると、画像生成型AIを利用したリアルタイム映像の生成(復元)を可能とする。このようなシステムによると、学習が進めば少ない情報で高精細画像を生成可能である。また、学習に時間はかかるが、高精細画像を生成するのは容易である。一般的な画像を高精細画像へ復元することはAI技術を用いても困難であるが、例えば、周回するバスの映像や監視カメラの映像など、同じような場所を撮影し続けた限定的な画像の復元においては、AI技術の適用により高い精度で高精細画像の生成が可能になる。映像のリアルタイム閲覧に対する需要(例えば、バス内映像の監視、自動運転への適用、監視カメラによる遠隔監視)が高まっているため、非常に実用的価値の高い発明と言える。
【0021】
(適用例)
図1は、本発明の実施の形態における動画閲覧システムを適用して路線バス4Aの車載映像を閲覧する場合の概念図である。この図に示すように、路線バス4A、観光バス、タクシー等では、ドライブレコーダの映像を用いて車内・車外の様子をリアルタイムに確認したいという需要がある。そこで、本発明の実施の形態では、事前に蓄積しておいたドライブレコーダの映像(高画質なオリジナル動画1)を使うことによって、リアルタイムに転送される低ビットレート動画2を高精細動画3に復元する。具体的な手順は以下のようになる。
(1)オリジナル動画1を10〜100kbpsの低ビットレート動画2に変換
(2)モバイルの低速回線を使って低ビットレート動画2をリアルタイムでアップロード
(3)低ビットレート動画2に最適な学習モデルMを選び、高精細動画3を生成
ここで学習モデルMは以下のように生成する。
(1)オリジナル動画1、低ビットレート動画2を準リアルタイムでアップロードす る
(2)オリジナル動画1と低ビットレート動画2の関係性をAIに学習させて学習モ デルMを作成する
ここでいうリアルタイムとは、数秒遅れで通信を行う方式を指し、準リアルタイムとは、数分〜数時間遅れで通信を行う方式を指す。すなわち、低ビットレート動画2から高精細動画3を生成する学習モデルMは実際の映像よりも古いものを利用することになるが、前述したように同じような場所を撮影し続けた限定的な映像を利用しているため、古い学習モデルMであっても高精細に復元することが可能となる。なお、低ビットレート動画2はドライブレコーダ側で保存せずに、オリジナル動画1がアップロードされたサーバなどで再生成してもよい。
【0022】
ドライブレコーダは車載のため、電源を気にせず低ビットレート動画2への動画変換を行いやすい。低ビットレート動画2をLTEやLPWAなどの狭帯域通信を用いてリアルタイムでアンテナ5Aを通じてクラウド6にアップロードする。また、路線バス4Aの営業所やバス停などにWiFi/WiGig(ミリ波)のAP(access point)5Bを設置し、ドライブレコーダの映像(教師データ)を定期的にクラウド6にアップロードする。WiFi/WiGigなどは定額で利用できる固定回線などを利用するためコスト(費用)を気にすることなく大容量のデータをクラウド6へアップロードできる。路線バス4Aは定期的に営業所やバス停などに立ち寄るため、教師データを収集しやすく、教師データを高頻度で更新することができる。
【0023】
クラウド6では、AI技術を利用している。AI6Bは、教師データに基づいて学習モデルM
1,M
2,M
3を生成する。個々の学習モデルM
1,M
2,M
3を特に区別しない場合は、単に「学習モデルM」と呼ぶことにする。路線バス4Aは同じ場所を運行するため、AI6Bによる学習効果は高い。AI6Aは、学習モデルM
1,M
2,M
3に基づいて高精細動画3を生成する。閲覧者7は、中央制御室などに設置されたコンピュータを用いて、AI6Aによって生成された高精細動画3を閲覧することが可能である。
【0024】
モバイル通信が発達した現在においても、高精細な動画を送信するためには時間とコスト(LTEをはじめほとんどのモバイル通信が従量制のため)が必要となる。そこで、画像サイズを変更することなくビットレートを低くすることで、これまで実現されていなかったモバイル通信による動画転送を可能にした。動画サイズを変更することなくビットレートを低くすることで、狭帯域(100kbps程度)で低ビットレート動画2を送信することができるため、コストをかけずリアルタイムに様々な目的・場所で動画を活用できる。また、AI技術と組み合わせ、送信された低ビットレート動画2をオリジナル動画1と遜色ないレベルまで生成(復元)することができるため、あたかもオリジナル動画1を閲覧しているかのような感覚で高精細動画3を閲覧することが可能になる。更に、路線バス4Aに設置されたドライブレコーダの映像をリアルタイムに中央制御室に送信することができるため、事故発生やトラブルの状況をリアルタイムに確認でき、迅速な対応が可能になる。
【0025】
(構成例)
図2は、本発明の実施の形態における動画閲覧システムのシステム構成図である。この図に示すように、動画取得・送信装置10と高精細動画生成装置20とが通信網30を介して接続されている。具体的には、LTEやLPWAなどの通信回線31と、WiFiやWiGigなどの通信回線32が用いられる。ケースにより回線を使い分けるようになっている。このような動画閲覧システムにおいてAI技術を利用することで、転送するビットレートは低くしつつ、転送先では高精細な動画を再生することが可能になる。
【0026】
動画取得・送信装置10は、動画を取得して高精細動画生成装置20に送信するドライブレコーダ、プラレールカメラ、定点カメラ等であって、動画取得部11と、低ビットレート動画送信部12と、オリジナル動画送信部13とを備える。動画取得部11は、オリジナル動画1を取得して、SDカードやハードディスクなどの記録媒体に蓄積する。低ビットレート動画送信部12は、記録媒体に蓄積されたオリジナル動画1に低ビットレート化処理を施して低ビットレート動画2を生成し、その低ビットレート動画2を通信回線31を用いてリアルタイムに送信する。オリジナル動画受信部21は、動画取得部11によって取得されたオリジナル動画1を通信回線32を用いて準リアルタイムに送信する。
【0027】
高精細動画生成装置20は、動画取得・送信装置10から動画を受信して高精細動画3を生成するコンピュータであって、オリジナル動画受信部21と、学習モデル生成部22と、学習モデルDB23と、低ビットレート動画受信部24と、高精細動画生成部25と、結果表示部26とを備える。オリジナル動画受信部21は、通信網30を介してオリジナル動画1を受信する。学習モデル生成部22は、オリジナル動画受信部21によって受信されたオリジナル動画1を教師データとして学習モデルMを生成する。学習モデルDB23は、学習モデル生成部22によって生成された学習モデルMを格納する。低ビットレート動画受信部24は、通信網30を介して低ビットレート動画2を受信する。高精細動画生成部25は、学習モデル生成部22によって生成された学習モデルMのうち低ビットレート動画2に応じた学習モデルMを用いて、低ビットレート動画受信部24によって受信された低ビットレート動画2から高精細動画3を生成する。結果表示部26は、高精細動画生成部25によって生成された高精細動画3などを表示する。
【0028】
ここでは、データベースとして学習モデルDB23だけを図示しているが、もちろん、その他のデータベースを備えてもよい。例えば、オリジナル動画1とその属性情報とを対応付けて格納する学習用データDBや、低ビットレート動画2とその属性情報とを対応付けて格納する低ビットレートデータDBなどを備えることも可能である。
【0029】
図3は、本発明の実施の形態における動画閲覧システムの機能ブロック図である。ここでいうクライアント50は動画取得・送信装置10に相当し、それ以外の部分は高精細動画生成装置20に相当する。以下、
図3を用いて、本動画閲覧システムの構成を更に詳しく説明する。
【0030】
まず、クライアント50でオリジナル動画1を取得し、コンバータ51で低ビットレート化処理を行う。低ビットレート化処理では、単純なビットレートの指定による方式や、色情報を削減したグレースケールへの変換、画像サイズの縮小やフレームレートの削減など、対象となる動画に応じてノイズが少なくなるように処理を組み合わせて施す。なお、低ビットレート化処理の方法をドライブレコーダーでノイズ等を検出しながら動的に変更を行っても構わない。また、車外を撮影しているような動画においては、動画内のあるフレーム画像は時間的に前のフレームを消失点を中心に拡大したフレームと酷似することから、ドライブレコーダーで消失点の周辺画像のみを抽出して送信してもよい。属性情報43は、動画のメタデータであり、撮影場所・路線を表す識別子、GPS位置、時間帯、季節、天候などである。天候は、インターネット上の天気予報DBから取得するようにしてもよい。また、これらの属性情報43を学習モデルMの作成時に教師データとして用いてもよい。
【0031】
オリジナル動画1をトレーナー60に送信し、トレーナー60でクライアント50のコンバータ51と同じコンバータ61を使い、低ビットレート動画2を再現する。AI62としてテンソルフロー(TensorFlow)を使用し、オリジナル動画1のフレーム1Fと低ビットレート動画2のフレーム2FのそれぞれをGAN(Generative Adversarial Network)方式で学習させることで、低ビットレート動画2からオリジナル動画1を再現する。AI62は、属性情報43に応じて出力モデルを切り替えるようになっている。ここでは、AI62によって学習モデルM
A,M
B,M
C,…が生成された場合を例示している。なお、TensorFlowやGANを例示したが、もちろん、その他のプログラムやアルゴリズムを採用することも可能である。
【0032】
基本的には、コントローラ70がジェネレータ80やビューア90を指示する。コントローラ70は、低ビットレート動画2を受信すると、その低ビットレート動画2のフレーム2Fを学習モデル選択部71に渡す。学習モデル選択部71は、属性情報43を使って学習モデルM
A,M
B,M
C,…を数種類に絞り込み、数フレームを使ってそれぞれの学習モデルM
A,M
B,M
C,…での再現率を測定し、一番良かった学習モデルMを選択する。例えば、すでに過去に選択が行われている属性情報43の場合は過去に最も再現率が高かった学習モデルMを優先的に選択し、さらに高い再現率の学習モデルMが存在した場合は以降そちらを選択する。ここでは、学習モデル選択部71によって学習モデルM
Cが選択された場合を例示している。
【0033】
ジェネレータ80は、コントローラ70の要求に基づいてデーモン(daemon)として動作し、TCPポートを待ち受けて送られてきたフレーム2Fを指定された場所に出力する。具体的には、AI81としてテンソルフローを使用し、学習モデル選択部71によって選択された学習モデルM
Cを使用して高精細動画3を生成し、高精細動画3のフレーム3Fを、指定されたディレクトリに書き出すか、もしくは指定されたコネクションで返送する。ジェネレータ80では、学習モデルM1,M2,M3,…毎にデーモンが立ち上がるようにしてもよい。
【0034】
ビューア90は、高精細動画3のフレーム3FをWeb上で閲覧可能にする。具体的には、Javascriptでイメージを定期的に取りに行く方法などを採用することができる(Javaは登録商標)。
【0035】
なお、上記の説明では特に言及しなかったが、現状のテンソルフロー(AI62,81)では静止画しか扱うことができない。そこで、AI62,81を利用するための前処理として、動画から静止画を生成し、その静止画にAI62,81を適用するようにしている。
【0036】
また、動画は、静止画の時系列の情報を持っているため、その時系列の情報を使用して高精細動画3を生成するようにしてもよい。例えば、低ビットレート動画2の対象物がほとんど動かない場合は、変化がない部分をクライアント50で間引いたうえで転送するようにし、間引いた部分を転送先(コントローラ70等)で復元するようにしてもよい。これにより、転送するビットレートを更に低くしつつ、転送先では高精細な動画再生が可能である。
【0037】
(動作例)
図4は、本発明の実施の形態における高精細動画生成装置20の動作を示すフローチャートである。以下、
図4を用いて、学習モデルMを生成する動作について説明する。
【0038】
まず、高精細動画生成装置20は、オリジナル動画1を準リアルタイムに取得すると、オリジナル動画1に属性情報43を付与し、AIを使って対象物毎に学習させ、その学習用データを学習用データDBに格納する(ステップS1→S2→S3)。次いで、学習用データDBに基づいて学習モデルMを生成し、学習モデルDB23に格納する(ステップS4→S5)。なお、高精細動画3の生成精度を向上させるため、定期的にオリジナル動画1を取得し、取得したオリジナル動画1を用いて高頻度で学習モデルMを更新するようになっている。
【0039】
図5は、本発明の実施の形態における高精細動画生成装置20の動作を示すフローチャートである。以下、
図5を用いて、高精細動画3を生成する動作について説明する。
【0040】
まず、高精細動画生成装置20は、低ビットレート動画2をリアルタイムに取得すると、低ビットレート動画2に属性情報43を付与し、低ビットレートデータDBに格納する(ステップS11→S12→S13)。次いで、低ビットレート動画2の対象物に応じて、低ビットレートデータDBの中から学習モデルMを選択する(ステップS14→S15)。ここで、学習モデル選択方法としては、ステップS11において取得した低ビットレート動画2の特徴(属性情報43)と学習モデルMの属性情報43とに基づいて最適な学習モデルMを選択する。例えば、ドライブレコーダの映像の場合、位置情報(同一路線)、時間帯、天候、撮影時期(より最近のもの)など、属性情報43が近いものを選択する。属性情報43の中でも位置情報は特に重要である。そのため、ドライブレコーダの映像と同じ位置情報の学習モデルMが存在する場合には、その学習モデルMを優先的に選択し、同じ位置情報の学習モデルMが存在しない場合には、最も近い位置情報の学習モデルMを優先的に選択するのが望ましい。次いで、選択した学習モデルMを学習モデルDB23から抽出し、AIを使って高精細動画3を生成し、生成した高精細動画3を高精細動画DBに格納する(ステップS15→S16→S17)。高精細動画DBに格納された高精細動画3は、閲覧者7によって閲覧可能となっている(ステップS18)。
【0041】
(データベース構成例)
図6は、本発明の実施の形態における学習モデルDB23のデータベース構成図である。以下、
図6を用いて、学習モデルDB23の一例について説明する。
【0042】
図6(a)に示すように、学習モデルDB23は、モデルID、場所ID、時間、天候、作成日(更新日)、項目A,B,C,D,…などを対応付けて格納している。モデルIDは、学習モデルMを識別するための情報である。場所IDは、場所を識別するための情報である。時間は、朝・昼・夜のような時間帯を示す情報であってもよい。天候は、晴れ・曇り・雨を表す情報はもちろん、雪が積もっているかことを表す情報であってもよい。作成日(更新日)は、年月日を表す情報はもちろん、夏や冬などの季節を表す情報であってもよい。その他、モデルIDには、学習モデルMの特徴を表す各種の項目A,B,C,D,…を対応付けることができる。
【0043】
図6(b)に示すように、場所IDと対応付けて、名称、時間、項目A,B,…を格納してもよい。名称は、「X観光_Aルート」など、路線バス4Aの路線の名称を表す情報
であってもよい。時間は、「20分」など、その路線の運行に要する時間情報であってもよい。その他、場所IDには、場所の特徴を表す各種の項目A,B…を対応付けることができる。
【0044】
(各動画の比較)
図7は、本発明の実施の形態における動画閲覧システムで用いられる各動画の一例を示す図である。
図7(a)はオリジナル動画1、
図7(b)は低ビットレート動画2、
図7(c)は高精細動画3を示している。ここでは、ドライブレコーダによって撮影された車外の映像を例示している。
図7(a)に示すように、オリジナル動画1は、オリジナルの高画質(高精細)な動画であり、通常はカラーである。また、
図7(b)に示すように、低ビットレート動画2は、低ビットレート化処理が施された動画であり、ここでは白黒の点画を例示している。低ビットレート化処理は、グレースケール、点画、エッジなど様々あり、特に限定されるものではない。更に、
図7(c)に示すように、高精細動画3は、高精細な動画であり、オリジナル動画1と同様に通常はカラーである。オリジナル動画1と遜色ないレベルまで生成(復元)されていることが分かる。
【0045】
(応用例)
本発明の実施の形態における動画閲覧システムによれば、超低ビットレートによるリアルタイム映像転送技術を確立することができる。超低ビットレートでのネットワーク利用による映像転送としては、例えば、LTEを利用した100Kbpsでの転送や、LPWAを利用した10Kbpsでの転送を採用することができる。費用対効果の観点から利用できなかった映像データに本動画閲覧システムを適用することが可能である。
【0046】
図8は、本発明の実施の形態における動画閲覧システムの応用例を示す概念図である。この図に示すように、本動画閲覧システムは、車載カメラ映像を閲覧する場合だけでなく、センサ映像やスポーツ中継映像を閲覧する場合などに適用することもできる。教師データとなるオリジナル動画1は実際の運用中に収集し、実運用時の高精度化を目指す。教師データを準リアルタイムで送信することで、より新しい実際の状況を学習させることができるため、高精細動画3の生成精度を高めることが可能である。
【0047】
まず、車載カメラ映像を閲覧する場合について説明する。この場合は、ドライブレコーダ映像の保存や、自動運転車の監視を行うことができる。車内・車外の映像に加え、その映像の属性情報43として路線情報や季節・時間帯情報などをクラウド6に送信するようにしてもよい。これにより、クラウド6のAI6Bは、路線情報や季節・時間帯情報などに基づいて学習モデルM
1,M
2,M
3等を生成することができる。学習モデルM
1,M
2,M
3は、それぞれ、ドライブレコーダで朝,昼,夜に撮影した場合の学習モデルである。一方、クラウド6のAI6Aは、路線情報や季節・時間帯情報などに基づいて最適な学習モデルMを選択し、その最適な学習モデルMに基づいて高精細動画3を生成することができる。路線バス4Aは同じルートを運行しているため、このような車載カメラ映像を閲覧する場合に本システムを適用することは非常に効果的である。
【0048】
次に、センサ映像を閲覧する場合について説明する。この場合は、遠隔農業地の監視や、獣害対策を行うことができる。トマトなどの対象農作物の映像に加え、その映像の属性情報43として季節・時間帯情報などをクラウド6に送信するようにしてもよい。これにより、クラウド6のAI6Bは、季節・時間帯情報などに基づいて学習モデルM
4等を生成することができる。学習モデルM
4は、センサカメラでトマトを撮影した場合の学習モデルである。一方、クラウド6のAI6Aは、季節・時間帯情報などに基づいて最適な学習モデルMを選択し、その最適な学習モデルMに基づいて高精細動画3を生成することができる。農作物はあまり動かないため、このようなセンサ映像を閲覧する場合に本システムを適用することは非常に効果的である。
【0049】
次に、スポーツ中継映像を閲覧する場合について説明する。この場合は、モバイル網でのリアルタイム観戦を行うことができる。競技場や野球場の映像に加え、その映像の属性情報43としてスポーツ種類情報や季節・時間帯情報などをクラウド6に送信するようにしてもよい。これにより、クラウド6のAI6Bは、スポーツ種類情報や季節・時間帯情報などに基づいて学習モデルM
5等を生成することができる。学習モデルM
5は、野球をスポーツ中継した場合の学習モデルである。一方、クラウド6のAI6Aは、スポーツ種類情報や季節・時間帯情報などに基づいて最適な学習モデルMを選択し、その最適な学習モデルMに基づいて高精細動画3を生成することができる。屋内テニスや卓球などは制限された空間で行われるため、このようなスポーツ中継映像を閲覧する場合に本システムを適用することは非常に効果的である。
【0050】
本発明の実施の形態における動画閲覧システムは、種々の変形が可能である。特にスポーツの場合、クラウド6経由という方法もあるが、例えば、特定のスポーツ(サッカーや野球、ラグビーなど、スポーツ種類は何でもよい。)を観戦する場合、事前に学習モデルMを特定することができる。そのため、ユーザが事前に自分のスマートフォンなどの端末に学習モデルMをダウンロードし、低ビットレート動画2のみを受信するようにしてもよい。これにより、クラウド6へのアクセスする必要がなくなり、個人のスマートフォンで高精細動画3を復元・閲覧することが可能となる。
【0051】
(まとめ)
以上説明したように、本発明の実施の形態における高精細動画生成装置20は、高画質動画であるオリジナル動画1を受信するオリジナル動画受信部21と、低ビットレート動画2を受信する低ビットレート動画受信部24と、オリジナル動画受信部21によって受信されたオリジナル動画1を教師データとして学習モデルMを生成する学習モデル生成部22と、学習モデル生成部22によって生成された学習モデルMのうち低ビットレート動画2に応じた学習モデルMを用いて、低ビットレート動画受信部24によって受信された低ビットレート動画2から高精細動画3を生成する高精細動画生成部25とを備える。これにより、動画サイズを変更することなくビットレートを低くすることで、狭帯域(100kbps程度)で低ビットレート動画2を送信することができるため、コストをかけずリアルタイムに様々な目的・場所で動画を活用できる。
【0052】
具体的には、高精細動画生成部25は、低ビットレート動画2の属性情報43と学習モデルMの属性情報43とに基づいて、低ビットレート動画2に応じた学習モデルMを選択してもよい。これにより、多くの学習モデルMの中から最適な学習モデルMを選択することが可能である。
【0053】
また、高精細動画生成部25は、低ビットレート動画2がドライブレコーダの映像の場合、そのドライブレコーダの映像と同じ運行ルートの学習モデルMを優先的に選択してもよい。これにより、属性情報の中でも特に重要な運行ルートの情報に基づいて最適な学習モデルMを選択することが可能である。
【0054】
また、高精細動画生成部25は、低ビットレート動画2から静止画を生成し、生成した静止画にAIを適用して高精細動画3を生成してもよい。これにより、静止画しか扱うことができないAI(例えば、テンソルフロー)を利用することが可能である。
【0055】
また、低ビットレート動画2は、オリジナル動画1に低ビットレート化処理を施した動画であってもよい。これにより、教師データを高頻度で更新することが可能である。
【0056】
また、低ビットレート動画2は、狭帯域通信を用いてリアルタイムに送信されてもよい。これにより、路線バス4Aに設置されたドライブレコーダの映像をリアルタイムに中央制御室に送信することによって、事故発生やトラブルの状況をリアルタイムに確認でき、迅速な対応が可能になる。
【0057】
なお、本発明は、高精細動画生成装置20として実現することができるだけでなく、高精細動画生成装置20が備える特徴的な処理部をステップとする高精細動画生成方法として実現したり、高精細動画生成装置20としてコンピュータを機能させるためのプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。