(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-01-20
(45)【発行日】2025-01-28
(54)【発明の名称】マルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法
(51)【国際特許分類】
B63B 79/20 20200101AFI20250121BHJP
G06F 40/216 20200101ALI20250121BHJP
G06N 3/0442 20230101ALI20250121BHJP
G06N 3/045 20230101ALI20250121BHJP
G06N 3/0464 20230101ALI20250121BHJP
G06N 3/0475 20230101ALI20250121BHJP
G06Q 50/40 20240101ALI20250121BHJP
G06T 7/00 20170101ALI20250121BHJP
G08G 3/00 20060101ALI20250121BHJP
【FI】
B63B79/20
G06F40/216
G06N3/0442
G06N3/045
G06N3/0464
G06N3/0475
G06Q50/40
G06T7/00 350C
G08G3/00 A
(21)【出願番号】P 2024173240
(22)【出願日】2024-10-02
【審査請求日】2024-10-02
(31)【優先権主張番号】202410429241.1
(32)【優先日】2024-04-10
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】515352847
【氏名又は名称】大連海事大学
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】左 毅
(72)【発明者】
【氏名】李 心宇
(72)【発明者】
【氏名】▲トン▼ 紹成
(72)【発明者】
【氏名】李 鉄山
(72)【発明者】
【氏名】陳 俊龍
【審査官】三宅 龍平
(56)【参考文献】
【文献】特開2024-009073(JP,A)
【文献】特表2024-500818(JP,A)
【文献】特表2023-542914(JP,A)
【文献】米国特許出願公開第2016/0125739(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
B63B 1/00 ― 85/00
G06V 10/80
G06F 40/216
G06N 3/0442
G06N 3/045
G06N 3/0464
G06N 3/0475
G06Q 50/40
G06T 7/00
G08G 3/00 ― 3/02
(57)【特許請求の範囲】
【請求項1】
マルチモーダルデータ入力を受け取るマルチモーダル融合ネットワークを構築する工程S1と、
複数モードのマルチモーダル結果を表示する工程S2と、
意思決定を支援する工程S3と、を含み、
S1が、
S11、マルチモーダルネットワークを構築するステップと、
S12、マルチモーダルデータを前処理するステップと、
S13、マルチモーダルデータを入力するステップと、
S14、マルチモーダル並列ネットワークの特徴に対して整列と融合を行うステップと、を含み、
S11が、
S111、時系列ネットワークTSNを構築するサブステップと、
S112、テキスト畳み込みネットワークT-CNNを構築するサブステップと、
S113、画像畳み込みネットワークI-CNNを構築するサブステップと、
S114、時系列画像畳み込みネットワークTICNを構築するサブステップと、を含み、
S111において、次の式に従って、長短期記憶のゲートニューラルネットワークを用いて時系列特性を備える航跡AISデータI
AISと、電子海図表示及び情報システム、即ちECDISデータI
ECDIS中のベクトル情報VectorデータI
Vectorを処理し、
O
TSN=TSN(I
AIS,I
Vector)
ここで、O
TSNはTSNの出力を表し、I
AISとI
VectorはTSNの入力を表し、TSNは長短期記憶ゲートニューラルネットワーク構造に基づく関数を表し、
S112において、次の式に従って、テキストベクトル化の畳み込みニューラルネットワークを用いて文脈依存関係を備えるNAVTEXメッセージデータI
NAVTEXを処理し、
O
T-CNN=T-CNN(I
NAVTEX)
ここで、O
T-CNNはT-CNNの出力を表し、I
NAVTEXはT-CNNの入力を表し、T-CNNはテキスト畳み込みネットワーク構造に基づく関数を表し、
S113において、次の式に従って、画像数値化の畳み込みニューラルネットワークを用いて、ビデオ画像即ちImageデータI
Image中の画素RGBデータI
RGBと、ECDISデータI
ECDIS中で画像特徴を備えるラスターRasterデータI
Rasterを処理し、
O
I-CNN=I-CNN(I
RGB,I
Raster)
ここで、O
I-CNNはI-CNNの出力を表し、I
RGBとI
RasterはI-CNNの入力を表し、I-CNNは画像畳み込みネットワーク構造に基づく関数を表し、
S114において、次の式に従って、時空融合の畳み込みニューラルネットワークを用いて、ImageデータI
Image中で時空間相関性を備える勾配方向ヒストグラムHOGデータI
HOGを処理し、
O
TICN=TICN(I
HOG)
ここで、O
TICNはTICNの出力を表し、I
HOGはTICNの入力を表し、TICNは時系列畳み込みネットワーク構造に基づく関数を表し、
S12において、前記マルチモーダルデータがAISデータI
AISとNAVTEXメッセージデータI
NAVTEXと電子海図データI
ECDISとビデオ画像データI
Imageとを含み、
S12が、
S121、AISデータI
AISを前処理するサブステップと、
S122、NAVTEXメッセージデータI
NAVTEXを前処理するサブステップと、
S123、電子海図データI
ECDISを前処理するサブステップと、
S124、ビデオ画像データI
Imageを前処理するサブステップと、を含み、
S121において、前記AISデータI
AISが船舶航行の経度longitudeと緯度latitudeと航行速度speedと航行方向courseとを含み、4元群I
AIS(k)=(longitude
(k),latitude
(k),speed
(k),course
(k))を構築することで時系列ネットワークTSNの入力I
AIS={I
AIS(1),I
AIS(2),...,I
AIS(k),...,I
AIS(t)}を取得し、
ここで、I
AIS(k)はI
AIS中で時刻kに対応するAISデータを表し、tはI
AISの前処理後のデータ全長を表し、
S122において、前記NAVTEXメッセージデータI
NAVTEXをテキスト形式で記憶し、I
NAVTEXがT-CNNによって利用されるようにテキストのベクトル化を採用し、次の式に従って、I
NAVTEXをテキスト畳み込みネットワークT-CNNへの入力としてベクトル化データに変換し、
I
NAVTEX={Word
1,Word
2,...,Word
i,...,Word
L}
ここで、LはI
NAVTEXの前処理後の単語数を示し、Word
iは、NAVTEXメッセージ中でi番目のワードのワンホットエンコーディングを表し、
S123において、前記電子海図データI
ECDISをベクトルデータI
VectorとラスターデータI
Rasterの形式で記憶し、それぞれ時系列ネットワークTSNの入力I
Vectorと画像畳み込みネットワークI-CNNの入力I
Rasterとし、その式は以下の通りであり、
I
Vector={I
Vector(1),I
Vector(2),...,I
Vector(k),...,I
Vector(t)}
I
Raster={I
Raster(1),I
Raster(2),...,I
Raster(j),...,I
Raster(m)}
ここで、I
Vector(k)はI
Vector中の時刻kに対応するベクトルデータを表し、tはI
Vectorの前処理後のデータ全長を表し、I
Raster(j)はI
Raster中のj番目のラスターデータを表し、mはI
Rasterの前処理後のラスター画像の数を表し、
S124において、前記ビデオ画像データI
ImageをRGBデータI
RGBとHOGデータI
HOGの形式で記憶し、それぞれ画像畳み込みネットワークI-CNNの入力I
RGBと時系列画像ネットワークTICNの入力I
HOGとし、その式は以下の通りであり、
I
RGB={I
RGB(1),I
RGB(2),...,I
RGB(j),...,I
RGB(m)}
I
HOG={I
HOG(1),I
HOG(2),...,I
HOG(q),...,I
HOG(n)}
ここで、I
RGB(j)は、I
RGB中のj番目のRGB画像データを表し、mはI
RGBの前処理後のRGB画像の数を表し、I
HOG(q)は、I
HOG中のq番目のHOG画像データを表し、nはI
HOGの前処理後のHOG画像の数を表し、
S13において、前処理されたマルチモーダルデータを、それぞれ対応する並列ネットワークTSN、T-CNN、I-CNN及びTICNに入力して訓練学習を行い、
S14において、多重注意力機制MHAに基づいて並列ネットワークTSN、T-CNN、I-CNN及びTICNに対応するO
TSN、O
T―CNN、O
I-CNN及びO
TICNに対してConcat融合を行い、マルチモーダル融合ネットワークの最終出力O
Final=Contact(MHA(O
TSN),MHA(O
T-CNN),MHA(O
I-CNN),MHA(O
TICN))を取得し、
S2が、
S21、大量データのフィードバック訓練により、生成型予備訓練モデル、即ちGPTモデルを取得するステップと、
S22、複数モードを出力するステップと、
S23、結果を表示するステップと、を含み、
S21において、GPTモデルの出力O
GPTは以下の式で表され、
O
GPT=GPT(O
Final)={O
GPT(TSN),O
GPT(T-CNN),O
GPT(I-CNN),O
GPT(TICN)}
ここで、O
GPT(TSN)、O
GPT(T―CNN)、O
GPT(I-CNN)及びO
GPT(TICN)はそれぞれGPTモデルで訓練されたO
TSN、O
T―CNN、O
I-CNN及びO
TICNに対応する出力を表し、
S22が、
S221、航跡O
Naviを出力するサブステップと、
S222、テキストO
Textを出力するサブステップと、
S223、画像O
Imageを出力するサブステップと、を含み、
S221において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の航跡記述を生成し、
【数1】
S222において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の文字記述を生成し、
【数2】
S223において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の画像記述を生成し、
【数3】
S23において、読み取り、観察及び監視に便利な情景表示を複数モードで提供し、
S3において、マルチモーダル融合により得られた航跡とテキストと画像の複数モードの出力を表示することで、船員がマルチモーダル海上安全情報を理解し易く、意思決定を迅速に下すようにする、
ことを特徴とするマルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、海上安全情報の技術分野に関し、特にマルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法に関する。
【背景技術】
【0002】
海上輸送の過程では、航行の安全を確保するために、船舶のいずれもに航行AISの経度・緯度情報やNAVTEXのテキスト情報や電子海図のベクトル情報及びラスター情報やビデオ画像のRGB情報やHOG情報等を含めるマルチモーダル海上安全情報、即ち航行支援情報を収集する多くのセンサーが取り付けられている。従って、マルチモーダル海上安全情報を完全に抽出して有効的に融合させ、そして航行に知能意思決定支援を提供することは非常に重要である。しかし、マルチモーダル情報特徴を単一モデルで抽出し、それらを簡単に合併して特徴融合を行うという現行方法は、信頼性やデータ整合性等の問題があるため、実時間の航法支援情報を全面且つ正確に利用できる程度を達成しない。そのため、相応な航行支援装置が取り付けられているにもかかわらず、船員への依存は緩和されていない。船員は、収集したマルチモーダル海上安全情報を手動で抽出することで船舶の航行状況の不確実性を判断し、最終的に航行の安全を確保するように相応な意思決定を下す必要がある。
【0003】
特許文献1にはBLSに基づくNAVTEXメッセージの意味自動分類方法が開示され、マルチモーダル海上安全情報の特徴抽出において、単一モデルのみを用いて収集したテキストデータに対して低い粒度の抽出を行っているが、各情報の特徴点と組み合わせて適切なモデルに基づいて並列ネットワークを用いてより深刻な情報抽出を行っていなく、注意力機制によりより有効的な特徴融合を行っていない。その上、結果出力モードが単一で、複数モードの出力を形成しないため、船員が容易に理解して意思決定を迅速に下すようにできない。そのため、マルチモーダル海上安全情報を完全に抽出且つ有効的に融合して、船員にインテリジェントな航行意思決定支援を提供する方法が必要となり、このような方法により、作業効率を向上させる上に船舶の航行安全性をさらに高めて航行支援機能を多様化させることができる。
【先行技術文献】
【特許文献】
【0004】
【文献】中国特許出願公開第116719933号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記従来技術に存在する課題を解決するために、本発明は、マルチモーダルデータ特徴の完全な抽出や有効的な融合や出力形態の多様化等の意思決定支援に適応した問題を解決するのに用いられる、マルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法を提案することを目的とする。該方法により、船員にインテリジェントな航行意思決定支援を提供でき、これにより船員の作業強度を有効的に低めて作業効率を向上させることができ、船舶の航行安全性をさらに高め、航行支援機能を多様化することができる。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の解決手段は以下のとおりである。
【0007】
本発明の一形態であるマルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法は、以下のS1~S3の工程を含み、
S1、マルチモーダルデータ入力を受け取るマルチモーダル融合ネットワークを構築する工程、
S2、複数モードのマルチモーダル結果を表示する工程、及び
S3、意思決定を支援する工程。
【0008】
S1が、
S11、マルチモーダルネットワークを構築するステップと、
S12、マルチモーダルデータを前処理するステップと、
S13、マルチモーダルデータを入力するステップと、
S14、マルチモーダル並列ネットワークの特徴に対して整列と融合を行うステップと、を含む。
【0009】
S11が、
S111、時系列ネットワークTSNを構築するサブステップと、
S112、テキスト畳み込みネットワークT-CNNを構築するサブステップと、
S113、画像畳み込みネットワークI-CNNを構築するサブステップと、
S114、時系列画像畳み込みネットワークTICNを構築するサブステップと、を含む。
【0010】
S111において、次の式に従って、長短期記憶のゲートニューラルネットワークを用いて時系列特性を備える航跡AISデータIAISと、電子海図表示及び情報システム、即ちECDISデータIECDIS中のベクトル情報VectorデータIVectorを処理し、
OTSN=TSN(IAIS,IVector)
ここで、OTSNはTSNの出力を表し、IAISとIVectorはTSNの入力を表し、TSNは長短期記憶ゲートニューラルネットワーク構造に基づく関数を表す。
【0011】
S112において、次の式に従って、テキストベクトル化の畳み込みニューラルネットワークを用いて文脈依存関係を備えるNAVTEXメッセージデータINAVTEXを処理し、
OT-CNN=T-CNN(INAVTEX)
ここで、OT-CNNはT-CNNの出力を表し、INAVTEXはT-CNNの入力を表し、T-CNNはテキスト畳み込みネットワーク構造に基づく関数を表す。
【0012】
S113において、次の式に従って、画像数値化の畳み込みニューラルネットワークを用いて、ビデオ画像即ちImageデータIImage中の画素RGBデータIRGBと、ECDISデータIECDIS中で画像特徴を備えるラスターRasterデータIRasterを処理し、
OI-CNN=I-CNN(IRGB,IRaster)
ここで、OI-CNNはI-CNNの出力を表し、IRGBとIRasterはI-CNNの入力を表し、I-CNNは画像畳み込みネットワーク構造に基づく関数を表す。
【0013】
S114において、次の式に従って、時空融合の畳み込みニューラルネットワークを用いて、ImageデータIImage中で時空間相関性を備える勾配方向ヒストグラムHOGデータIHOGを処理し、
OTICN=TICN(IHOG)
ここで、OTICNはTICNの出力を表し、IHOGはTICNの入力を表し、TICNは時系列畳み込みネットワーク構造に基づく関数を表す。
【0014】
S12において、前記マルチモーダルデータがAISデータIAISとNAVTEXメッセージデータINAVTEXと電子海図データIECDISとビデオ画像データIImageとを含む。
【0015】
S12が、
S121、AISデータIAISを前処理するサブステップと、
S122、NAVTEXメッセージデータINAVTEXを前処理するサブステップと、
S123、電子海図データIECDISを前処理するサブステップと、
S124、ビデオ画像データIImageを前処理するサブステップと、を含む。
【0016】
S121において、前記AISデータIAISが船舶航行の経度longitudeと緯度latitudeと航行速度speedと航行方向courseとを含み、4元群IAIS(k)=(longitude(k),latitude(k),speed(k),course(k))を構築することで時系列ネットワークTSNの入力IAIS={IAIS(1),IAIS(2),...,IAIS(k),...,IAIS(t)}を取得し、
ここで、IAIS(k)はIAIS中で時刻kに対応するAISデータを表し、tはIAISの前処理後のデータ全長を表す。
【0017】
S122において、前記NAVTEXメッセージデータINAVTEXをテキスト形式で記憶し、INAVTEXがT-CNNによって利用されるようにテキストのベクトル化を採用し、次の式に従って、INAVTEXをテキスト畳み込みネットワークT-CNNへの入力としてベクトル化データに変換し、
INAVTEX={Word1,Word2,...,Wordi,...,WordL}
ここで、LはINAVTEXの前処理後の単語数を示し、Wordiは、NAVTEXメッセージ中でi番目のワードのワンホットエンコーディングを表す。
【0018】
S123において、前記電子海図データIECDISをベクトルデータIVectorとラスターデータIRasterの形式で記憶し、それぞれ時系列ネットワークTSNの入力IVectorと画像畳み込みネットワークI-CNNの入力IRasterとし、その式は以下の通りであり、
IVector={IVector(1),IVector(2),...,IVector(k),...,IVector(t)}
IRaster={IRaster(1),IRaster(2),...,IRaster(j),...,IRaster(m)}
ここで、IVector(k)はIVector中の時刻kに対応するベクトルデータを表し、tはIVectorの前処理後のデータ全長を表し、IRaster(j)はIRaster中のj番目のラスターデータを表し、mはIRasterの前処理後のラスター画像の数を表す。
【0019】
S124において、ビデオ画像データIImageをRGBデータIRGBとHOGデータIHOGの形式で記憶し、それぞれ画像畳み込みネットワークI-CNNの入力IRGBと時系列画像ネットワークTICNの入力IHOGとし、その式は以下の通りであり、
IRGB={IRGB(1),IRGB(2),...,IRGB(j),...,IRGB(m)}
IHOG={IHOG(1),IHOG(2),...,IHOG(q),...,IHOG(n)}
ここで、IRGB(j)は、IRGB中のj番目のRGB画像データを表し、mはIRGBの前処理後のRGB画像の数を表し、IHOG(q)は、IHOG中のq番目のHOG画像データを表し、nはIHOGの前処理後のHOG画像の数を表す。
【0020】
S13において、前処理されたマルチモーダルデータを、それぞれ対応する並列ネットワークTSN、T-CNN、I-CNN及びTICNに入力して訓練学習を行う。
【0021】
S14において、多重注意力機制MHAに基づいて並列ネットワークTSN、T-CNN、I-CNN及びTICNに対応するOTSN、OT―CNN、OI-CNN及びOTICNに対してConcat融合を行い、マルチモーダル融合ネットワークの最終出力OFinal=Contact(MHA(OTSN),MHA(OT-CNN),MHA(OI-CNN),MHA(OTICN))を取得する。
【0022】
S2が、
S21、大量データのフィードバック訓練により、生成型予備訓練モデル、即ちGPTモデルを取得するステップと、
S22、複数モードを出力するステップと、
S23、結果を表示するステップと、を含み、
S21において、GPTモデルの出力OGPTは以下の式で表され、
OGPT=GPT(OFinal)={OGPT(TSN),OGPT(T-CNN),OGPT(I-CNN),OGPT(TICN)}
ここで、OGPT(TSN)、OGPT(T―CNN)、OGPT(I-CNN)及びOGPT(TICN)はそれぞれGPTモデルで訓練されたOTSN、OT―CNN、OI-CNN及びOTICNに対応する出力を表す。
【0023】
S22が、
S221、航跡O
Naviを出力するサブステップと、
S222、テキストO
Textを出力するサブステップと、
S223、画像O
Imageを出力するサブステップと、を含み、
S221において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の航跡記述を生成し、
【数1】
S222において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の文字記述を生成し、
【数2】
S223において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の画像記述を生成する。
【数3】
【0024】
S23において、読み取り、観察及び監視に便利な情景表示を複数モードで提供する。
【0025】
S3において、マルチモーダル融合により得られた航跡とテキストと画像の複数モードの出力を表示することで、船員がマルチモーダル海上安全情報を理解し易く、意思決定を迅速に下すようにする。
【発明の効果】
【0026】
本発明は、従来技術に比べて次の有益な効果を有する。
1、本発明は、TSNを構築していたため、AISデータとECDISデータの時間特性に対する整列を成し遂げる。
2、本発明は、T-CNNを構築していたため、NAVTEXデータのテキスト特徴符号化を成し遂げる。
3、本発明は、I-CNNを構築していたため、ECDISデータとビデオ画像データに対する空間特徴融合を成し遂げる。
4、本発明は、TICNを構築していたため、ビデオ画像データの時空間特徴融合を成し遂げる。
5、本発明は、MHAに基づく融合構造を構築していたため、並列ネットワークが有効的なマルチモーダル融合を行うことを保証する。
6、本発明は、マルチモーダル海上安全情報のGPTモデルを構築していたため、読み取り、観察及び監視に便利な情景表示を確保して意思決定支援を提供するように複数モードの出力を成し遂げる。
【図面の簡単な説明】
【0027】
【
図1】本発明によるマルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法全体の流れ図である。
【
図2】本発明においてTSNを構築することでAISデータとECDISデータの時間特性に対する整列を行うことを示す概略図である。
【
図3】本発明においてT-CNNを構築することでNAVTEXデータのテキスト特徴符号化を行うことを示す概略図である。
【
図4】本発明においてI-CNNを構築することでECDISデータとビデオ画像データに対する空間特徴融合を行うことを示す概略図である。
【
図5】本発明においてTICNを構築することでビデオ画像データの時空間特徴融合を行うことを示す概略図である。
【
図6】本発明においてMHAとConcatと組み合わせることで並列ネットワークに対してマルチモーダル融合を行うことを示す概略図である。
【
図7】本発明においてマルチモーダル海上安全情報のGPTモデルを構築することで複数モードの出力を生成することを示す概略図である。
【発明を実施するための形態】
【0028】
本発明の実施例の目的、技術手段及びメリットをより明らかにするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術的手段を明らか且つ完全に説明し、説明される実施例が全ての実施例ではなく、本発明の一部の実施例に過ぎないことはいうまでもない。当業者が本発明における実施例に基づいて創造的労動を行うことなく得た他の実施例は、全て本発明が保護する範囲に含まれるものとする。
【0029】
図1に示すように、マルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法は、次の工程を備える。
【0030】
S1、マルチモーダルデータ入力を受け取るマルチモーダル融合ネットワークを構築する。
【0031】
S11、マルチモーダルネットワークを構築する。
図2に示すように、まず、時系列ネットワークTSNを構築することで、時系列特性を備える航跡AISデータI
AISと、電子海図表示及び情報システム、即ちECDISデータI
ECDIS中のベクトル情報VectorデータI
Vectorを処理し、TSNモデルの出力O
TSN=TSN(I
AIS,I
Vector)を取得する。
図3に示すように、次にテキスト畳み込みネットワークT-CNNを構築することで、文脈依存関係を備えるNAVTEXメッセージデータI
NAVTEXを処理し、T-CNNモデルの出力O
T-CNN=T-CNN(I
NAVTEX)を取得する。
図4に示すように、その次に画像畳み込みネットワークI-CNNを構築することで、ビデオ画像即ちImageデータ中の画素RGBデータI
RGBと、ECDISデータ中で画像特徴を備えるラスターRasterデータI
Rasterを処理し、I-CNNモデルの出力O
I-CNN=I-CNN(I
RGB,I
Raster)を取得する。
図5に示すように、最後に時系列画像畳み込みネットワークTICNを構築することでImageデータ中で時空間相関性を備える勾配方向ヒストグラムHOGデータI
HOGを処理し、TICNモデルの出力O
TICN=TICN(I
HOG)を取得する。
【0032】
S12、マルチモーダルデータを前処理する。まず、AISデータIAISを前処理し、4元群IAIS(k)=(longitude(k),latitude(k),speed(k),course(k))を構築することで時系列ネットワークTSNの入力IAIS={IAIS(1),IAIS(2),...,IAIS(k),...,IAIS(t)}を取得する。次にNAVTEXメッセージデータINAVTEXを前処理し、テキストのベクトル化に経由してテキスト畳み込みネットワークT-CNNの入力INAVTEX={Word1,Word2,...,Wordi,...,WordL}を取得する。その次に、電子海図データIECDISを前処理し、それぞれ時系列ネットワークTSNのベクトルデータの入力IVector={IVector(1),IVector(2),...,IVector(k),...,IVector(t)}と、画像畳み込みネットワークI-CNNのラスターデータの入力IRaster={IRaster(1),IRaster(2),...,IRaster(j),...,IRaster(m)}を取得する。最後にビデオ画像データ(IImage)を前処理し、それぞれ画像畳み込みネットワークI-CNNのRGBデータ入力IRGB={IRGB(1),IRGB(2),...,IRGB(j),...,IRGB(m)}と、時系列画像ネットワークTICNのHOGデータ入力IHOG={IHOG(1),IHOG(2),...,IHOG(q),...,IHOG(n)}を取得する。
【0033】
S13、マルチモーダルデータを入力する。前処理された上記マルチモーダルデータを、それぞれ対応する並列ネットワークTSN、T-CNN、I-CNN及びTICNに入力して訓練学習を行う。
【0034】
S14、マルチモーダル並列ネットワークの特徴に対して整列と融合を行う。
図6に示すように、多重注意力機制MHAに基づいて並列ネットワークTSN、T-CNN、I-CNN及びTICNに対応するO
TSN、O
T―CNN、O
I-CNN及びO
TICNに対してConcat融合を行い、マルチモーダル融合ネットワークの最終出力O
Final=Contact(MHA(O
TSN),MHA(O
T-CNN),MHA(O
I-CNN),MHA(O
TICN))を取得する。
【0035】
S2、複数モードのマルチモーダル結果を表示する。
図7に示すように、訓練済みの生成型予備訓練モデルTransformer(Generate Pre-trained Transformer,GPT)に基づいて、出力O
GPT=GPT(O
Final)={O
GPT(TSN),O
GPT(T-CNN),O
GPT(I-CNN),O
GPT(TICN)}を取得する。従って、複数モードの出力を、それぞれ生成されたプリセット情景の航跡記述
【数4】
と、プリセット情景の文字記述
【数5】
と、プリセット情景の画像記述
【数6】
とに表示する。最終出力のマルチモーダル結果を、読み取り、観察及び監視に便利な情景のために複数モードで表示する。
【0036】
S3、意思決定を支援する。このシステムは、マルチモーダル融合により得られた航跡やテキストや画像等の複数モードの出力を表示することで、船員がマルチモーダル海上安全情報を理解し易く、意思決定を迅速に下すようにする。
【0037】
最後に以下のことを説明すべきである。以上の各実施例は本発明の技術的手段を説明するためのものに過ぎず、それを限定するものではなく、上述した各実施例を参照して本発明を詳細に説明したが、上述した各実施例に記載の技術的手段を修正するか、その術的特徴の一部又は全部に同等な取り替えを実施することも可能であり、これらの修正や取り替えによって、対応する技術的手段の本質が本発明の各実施例の技術的手段の範囲から逸脱しないことは当業者に自明である。
【0038】
(付記)
(付記1)
マルチモーダルデータ入力を受け取るマルチモーダル融合ネットワークを構築する工程S1と、
複数モードのマルチモーダル結果を表示する工程S2と、
意思決定を支援する工程S3と、を含み、
S1が、
S11、マルチモーダルネットワークを構築するステップと、
S12、マルチモーダルデータを前処理するステップと、
S13、マルチモーダルデータを入力するステップと、
S14、マルチモーダル並列ネットワークの特徴に対して整列と融合を行うステップと、を含み、
S11が、
S111、時系列ネットワークTSNを構築するサブステップと、
S112、テキスト畳み込みネットワークT-CNNを構築するサブステップと、
S113、画像畳み込みネットワークI-CNNを構築するサブステップと、
S114、時系列画像畳み込みネットワークTICNを構築するサブステップと、を含み、
S111において、次の式に従って、長短期記憶のゲートニューラルネットワークを用いて時系列特性を備える航跡AISデータI
AISと、電子海図表示及び情報システム、即ちECDISデータI
ECDIS中のベクトル情報VectorデータI
Vectorを処理し、
O
TSN=TSN(I
AIS,I
Vector)
ここで、O
TSNはTSNの出力を表し、I
AISとI
VectorはTSNの入力を表し、TSNは長短期記憶ゲートニューラルネットワーク構造に基づく関数を表し、
S112において、次の式に従って、テキストベクトル化の畳み込みニューラルネットワークを用いて文脈依存関係を備えるNAVTEXメッセージデータI
NAVTEXを処理し、
O
T-CNN=T-CNN(I
NAVTEX)
ここで、O
T-CNNはT-CNNの出力を表し、I
NAVTEXはT-CNNの入力を表し、T-CNNはテキスト畳み込みネットワーク構造に基づく関数を表し、
S113において、次の式に従って、画像数値化の畳み込みニューラルネットワークを用いて、ビデオ画像即ちImageデータI
Image中の画素RGBデータI
RGBと、ECDISデータI
ECDIS中で画像特徴を備えるラスターRasterデータI
Rasterを処理し、
O
I-CNN=I-CNN(I
RGB,I
Raster)
ここで、O
I-CNNはI-CNNの出力を表し、I
RGBとI
RasterはI-CNNの入力を表し、I-CNNは画像畳み込みネットワーク構造に基づく関数を表し、
S114において、次の式に従って、時空融合の畳み込みニューラルネットワークを用いて、ImageデータI
Image中で時空間相関性を備える勾配方向ヒストグラムHOGデータI
HOGを処理し、
O
TICN=TICN(I
HOG)
ここで、O
TICNはTICNの出力を表し、I
HOGはTICNの入力を表し、TICNは時系列畳み込みネットワーク構造に基づく関数を表し、
S12において、前記マルチモーダルデータがAISデータI
AISとNAVTEXメッセージデータI
NAVTEXと電子海図データI
ECDISとビデオ画像データI
Imageとを含み、
S12が、
S121、AISデータI
AISを前処理するサブステップと、
S122、NAVTEXメッセージデータI
NAVTEXを前処理するサブステップと、
S123、電子海図データI
ECDISを前処理するサブステップと、
S124、ビデオ画像データI
Imageを前処理するサブステップと、を含み、
S121において、前記AISデータI
AISが船舶航行の経度longitudeと緯度latitudeと航行速度speedと航行方向courseとを含み、4元群I
AIS(k)=(longitude
(k),latitude
(k),speed
(k),course
(k))を構築することで時系列ネットワークTSNの入力I
AIS={I
AIS(1),I
AIS(2),...,I
AIS(k),...,I
AIS(t)}を取得し、
ここで、I
AIS(k)はI
AIS中で時刻kに対応するAISデータを表し、tはI
AISの前処理後のデータ全長を表し、
S122において、前記NAVTEXメッセージデータI
NAVTEXをテキスト形式で記憶し、I
NAVTEXがT-CNNによって利用されるようにテキストのベクトル化を採用し、次の式に従って、I
NAVTEXをテキスト畳み込みネットワークT-CNNへの入力としてベクトル化データに変換し、
I
NAVTEX={Word
1,Word
2,...,Word
i,...,Word
L}
ここで、LはI
NAVTEXの前処理後の単語数を示し、Word
iは、NAVTEXメッセージ中でi番目のワードのワンホットエンコーディングを表し、
S123において、前記電子海図データI
ECDISをベクトルデータI
VectorとラスターデータI
Rasterの形式で記憶し、それぞれ時系列ネットワークTSNの入力I
Vectorと画像畳み込みネットワークI-CNNの入力I
Rasterとし、その式は以下の通りであり、
I
Vector={I
Vector(1),I
Vector(2),...,I
Vector(k),...,I
Vector(t)}
I
Raster={I
Raster(1),I
Raster(2),...,I
Raster(j),...,I
Raster(m)}
ここで、I
Vector(k)はI
Vector中の時刻kに対応するベクトルデータを表し、tはI
Vectorの前処理後のデータ全長を表し、I
Raster(j)はI
Raster中のj番目のラスターデータを表し、mはI
Rasterの前処理後のラスター画像の数を表し、
S124において、前記ビデオ画像データI
ImageをRGBデータI
RGBとHOGデータI
HOGの形式で記憶し、それぞれ画像畳み込みネットワークI-CNNの入力I
RGBと時系列画像ネットワークTICNの入力I
HOGとし、その式は以下の通りであり、
I
RGB={I
RGB(1),I
RGB(2),...,I
RGB(j),...,I
RGB(m)}
I
HOG={I
HOG(1),I
HOG(2),...,I
HOG(q),...,I
HOG(n)}
ここで、I
RGB(j)は、I
RGB中のj番目のRGB画像データを表し、mはI
RGBの前処理後のRGB画像の数を表し、I
HOG(q)は、I
HOG中のq番目のHOG画像データを表し、nはI
HOGの前処理後のHOG画像の数を表し、
S13において、前処理されたマルチモーダルデータを、それぞれ対応する並列ネットワークTSN、T-CNN、I-CNN及びTICNに入力して訓練学習を行い、
S14において、多重注意力機制MHAに基づいて並列ネットワークTSN、T-CNN、I-CNN及びTICNに対応するO
TSN、O
T―CNN、O
I-CNN及びO
TICNに対してConcat融合を行い、マルチモーダル融合ネットワークの最終出力O
Final=Contact(MHA(O
TSN),MHA(O
T-CNN),MHA(O
I-CNN),MHA(O
TICN))を取得し、
S2が、
S21、大量データのフィードバック訓練により、生成型予備訓練モデル、即ちGPTモデルを取得するステップと、
S22、複数モードを出力するステップと、
S23、結果を表示するステップと、を含み、
S21において、GPTモデルの出力O
GPTは以下の式で表され、
O
GPT=GPT(O
Final)={O
GPT(TSN),O
GPT(T-CNN),O
GPT(I-CNN),O
GPT(TICN)}
ここで、O
GPT(TSN)、O
GPT(T―CNN)、O
GPT(I-CNN)及びO
GPT(TICN)はそれぞれGPTモデルで訓練されたO
TSN、O
T―CNN、O
I-CNN及びO
TICNに対応する出力を表し、
S22が、
S221、航跡O
Naviを出力するサブステップと、
S222、テキストO
Textを出力するサブステップと、
S223、画像O
Imageを出力するサブステップと、を含み、
S221において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の航跡記述を生成し、
【数7】
S222において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の文字記述を生成し、
【数8】
S223において、入力されたマルチモーダルデータに基づき、次の式に従って、プリセット情景の画像記述を生成し、
【数9】
S23において、読み取り、観察及び監視に便利な情景表示を複数モードで提供し、
S3において、マルチモーダル融合により得られた航跡とテキストと画像の複数モードの出力を表示することで、船員がマルチモーダル海上安全情報を理解し易く、意思決定を迅速に下すようにする、
ことを特徴とするマルチモーダル融合ネットワークに基づく海上安全情報の知能意思決定支援方法。
【要約】 (修正有)
【課題】マルチモーダル海上安全情報を完全に抽出且つ有効的に融合して、船員にインテリジェントな航行意思決定支援を提供する。
【解決手段】データ処理端に対し、様々なネットワークを用いて航行AISの緯度経度情報とNAVTEXのテキスト情報と電子海図のベクトル情報及びラスター情報とビデオ画像のRGB情報とHOG情報とを含む様々な入力情報を訓練できるマルチモーダル融合ネットワークを提案するうえに、マルチモーダル情報の特徴を十分に抽出して有効的に融合するように多重注意力機制MHAに基づくConcat融合構造をマルチモーダルネットワークの並列構造に導入する。結果表示端に対し、生成型予備訓練に基づくTransformerモデルを提案し、融合特徴のマルチモーダル情報の文脈を理解することでマルチモーダル意思決定支援方法を提案する。
【選択図】
図1