IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7592095マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
<>
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図1
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図2
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図3
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図4
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図5
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図6
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図7
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図8
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図9
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図10
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図11
  • 特許-マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-21
(45)【発行日】2024-11-29
(54)【発明の名称】マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20241122BHJP
   G06F 40/56 20200101ALI20241122BHJP
【FI】
G06F40/44
G06F40/56
【請求項の数】 11
(21)【出願番号】P 2022540553
(86)(22)【出願日】2021-04-29
(65)【公表番号】
(43)【公表日】2023-03-06
(86)【国際出願番号】 CN2021091114
(87)【国際公開番号】W WO2021233112
(87)【国際公開日】2021-11-25
【審査請求日】2022-06-29
(31)【優先権主張番号】202010432597.2
(32)【優先日】2020-05-20
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】孟 凡▲東▼
(72)【発明者】
【氏名】尹 永▲競▼
(72)【発明者】
【氏名】▲蘇▼ ▲勁▼松
(72)【発明者】
【氏名】周 杰
【審査官】成瀬 博之
(56)【参考文献】
【文献】米国特許出願公開第2006/0123358(US,A1)
【文献】米国特許出願公開第2014/0236570(US,A1)
【文献】米国特許出願公開第2018/0314689(US,A1)
【文献】米国特許出願公開第2019/0287012(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法であって、前記方法は、
異なるモーダルに属するn個のソースステートメントのうちの少なくとも第1ソースステートメント及び第2ソースステートメントに基づいてセマンティック関連図を獲得するステップであって、
n種類の異なるモーダルのセマンティックノードのセットの各々の中に含まれるセマンティックノードを、各々のセット内においてフルメッシュ結合することによって第1結合辺を得るステップと、
前記n種類の異なるモーダルのセマンティックノードのセットのうちの第1のセットに含まれる名詞を所定のパーサを用いて識別するステップと、
前記識別された名詞句と、前記n種類の異なるモーダルのセマンティックノードのセットのうちの第2のセットに含まれる視覚オブジェクトとの対応関係、視覚グラウンディングツールキットと予め訓練されたRCNNを用いて識別するステップと、
前記第1のセットに含まれる1つ又は複数のセマンティックノードと、前記第2のセットに含まれる1つ又は複数のセマンティックノードとを前記識別された対応関係に基づいて結合して第2結合辺を得るステップであって、前記第1のセットは前記第1ソースステートメントに対応し、前記第2のセットは前記第2ソースステートメントに対応するステップと
を含み、
前記第1ソースステートメントはテキスト形式の翻訳対象であり、前記第2ソースステートメントは非テキスト形式の翻訳対象であり、
前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
前記セマンティック関連図から、
ニューラルネットワークモデルによりワード埋め込みを行うことと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うことと、
確率モデルによりワード埋め込みを行うことと、
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うことと、
のうちの少なくとも1つと、
前記第1のセットのそれぞれについて前記ワード埋め込みと位置埋め込みの和として定義することと、
前記第2のセットのそれぞれの視覚特徴について、多層パーセプトロンを使用して前記第1のセットと同じ空間に投影することと
によって、複数の第1ワードベクトルを抽出するステップであって、前記ワード埋め込みは、単語をワードベクトルにマッピングすることを指す、ステップと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む、
マルチモーダル機械学習に基づく翻訳方法。
【請求項2】
前記第1結合辺を得る前記ステップは、
第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加するステップであって、前記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である、ステップを含む、請求項1に記載の方法。
【請求項3】
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得するステップであって、前記モーダル内融合とは同一モーダル内の前記第1ワードベクトルの間でセマンティック融合を行うことを指し、前記モーダル間融合とは異なるモーダルの前記第1ワードベクトルの間でセマンティック融合を行うことを指し、eは正の整数である、ステップを含む、請求項1または2に記載の方法。
【請求項4】
マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、
各々の前記符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
前記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する前記ステップは、
前記複数の第1ワードベクトルをそれぞれ1番目の前記符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ前記複数の第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得するステップであって、1つの前記第1隠れ層ベクトルが1つのモーダルに対応する、ステップと、
n個の第1隠れ層ベクトルを前記1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、前記各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得するステップであって、1つの前記第1中間ベクトルが1つのモーダルに対応する、ステップと、
n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けるステップであって、1つの前記符号化特徴ベクトルが1つのモーダルに対応し、jは1よりも大きく且つe以下の正の整数である、ステップと、を含む、請求項3に記載の方法。
【請求項5】
前記直列接続されているe個の符号化モジュールのうちの前記各々の符号化モジュールにおける階層構造は同じである、請求項4に記載の方法。
【請求項6】
異なる前記モーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なる前記モーダル間融合層に異なる又は同じ特徴融合関数が設定される、請求項4に記載の方法。
【請求項7】
n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得する前記ステップは、
第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得するステップであって、前記第1目標語句が前記目標ステートメントにおける翻訳済み語句である、ステップと、
前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得するステップと、
前記復号特徴ベクトルに対応する確率分布を決定し、且つ前記確率分布に基づき前記第1目標語句の後の第2目標語句を決定するステップと、を含む、請求項1または2に記載の方法。
【請求項8】
デコーダは直列接続されているd個の復号モジュールを含み、dは正の整数であり、前記直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも第1自己注意層及び第2自己注意層を含み、
前記第2ワードベクトルを前記符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する前記ステップは、
前記第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、前記第1自己注意層により前記第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得するステップと、
前記第2隠れ層ベクトル及び前記符号化特徴ベクトルを前記1番目の復号モジュールにおける第2自己注意層に入力し、前記第2自己注意層により前記第2隠れ層ベクトルと前記符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得するステップと、
前記第2中間ベクトルを第k番目の復号モジュールに入力して第k回目の復号処理を行い、最後の1つの復号モジュールが前記復号特徴ベクトルを出力するまで続けるステップであって、kは1よりも大きく且つd以下の正の整数である、ステップと、を含む、請求項7に記載の方法。
【請求項9】
マルチモーダル機械学習に基づく翻訳装置であって、前記装置は、
異なるモーダルに属するn個のソースステートメントのうちの少なくとも第1ソースステートメント及び第2ソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、
前記セマンティック関連付けモジュールは、
n種類の異なるモーダルのセマンティックノードのセットの各々の中に含まれるセマンティックノードを、各々のセット内においてフルメッシュ結合することによって第1結合辺を得ることと、
前記n種類の異なるモーダルのセマンティックノードのセットのうちの第1のセットに含まれる名詞を所定のパーサを用いて識別することと、
前記識別された名詞句と、前記n種類の異なるモーダルのセマンティックノードのセットのうちの第2のセットに含まれる視覚オブジェクトとの対応関係、視覚グラウンディングツールキットと予め訓練されたRCNNを用いて識別すことと、
前記第1のセットに含まれる1つ又は複数のセマンティックノードと、前記第2のセットに含まれる1つ又は複数のセマンティックノードを前記識別された対応関係に基づいて結合して第2結合辺を得ることであって、前記第1のセットは前記第1ソースステートメントに対応し、前記第2のセットは前記第2ソースステートメントに対応することと
を実行するように構成され、
前記第1ソースステートメントはテキスト形式の翻訳対象であり、前記第2ソースステートメントは非テキスト形式の翻訳対象であり、
前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から、
ニューラルネットワークモデルによりワード埋め込みを行うことと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うことと、
確率モデルによりワード埋め込みを行うことと、
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うことと、
のうちの少なくとも1つと、
前記第1のセットのそれぞれについて前記ワード埋め込みと位置埋め込みの和として定義することと、
前記第2のセットのそれぞれの視覚特徴について、多層パーセプトロンを使用して前記第1のセットと同じ空間に投影することと
によって、複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む、
マルチモーダル機械学習に基づく翻訳装置。
【請求項10】
コンピュータ機器であって、前記コンピュータ機器は、
メモリと、
前記メモリに接続されるプロセッサと、を含み、
前記プロセッサは実行可能命令をロードし且つ実行することにより請求項1~8のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される、コンピュータ機器。
【請求項11】
コンピュータプログラムであって、少なくとも1セグメントのプログラムを含み、前記少なくとも1セグメントのプログラムはプロセッサによりロードされ且つ実行されることにより請求項1~8のいずれか一項に記載のマルチモーダル機械学習に基づく翻訳方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は人工知能の技術分野に関し、特にマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体に関する。
【0002】
本願は、2020年5月20日に提出された出願番号が第2020104325972号であり、発明の名称が「マルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体」である中国特許出願の優先権を要求し、その全部の内容は援用によって本願に組み込まれている。
【背景技術】
【0003】
機械翻訳はコンピュータを利用して1種類の自然言語を他の種類の自然言語に変換するプロセスである。
【0004】
いくつかの応用シーンにおいて、機械翻訳モデルにより複数種類の異なる表現形式のソース言語を目標言語に翻訳することができ、即ちマルチモーダルソース言語を目標言語に翻訳することができる。例示的には、ピクチャ及び対応する英語注釈を獲得し、機械翻訳モデルによりそれぞれピクチャ及び英語注釈に対して特徴抽出を行い、その後、抽出された特徴を融合し、更に融合後の特徴に基づいて翻訳し、ピクチャ及び英語注釈に対応するフランス語注釈を得る。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例はマルチモーダル機械学習に基づく翻訳方法、装置、機器及び記憶媒体を提供し、特徴符号化のプロセスにおいて、複数のモーダルのソース言語に対して十分なセマンティック融合を行うことができ、符号化ベクトルにより復号された目標ステートメントをソース言語により表される内容及び感情等に一層接近させる。前記技術的手段は以下のとおりである。
【課題を解決するための手段】
【0006】
本願の一態様によれば、コンピュータ機器により実行される、マルチモーダル機械学習に基づく翻訳方法を提供し、該方法は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築するステップであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、ステップと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出するステップと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得するステップと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得するステップと、を含む。
【0007】
本願の他の態様によれば、マルチモーダル機械学習に基づく翻訳装置を提供し、該装置は、
異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を構築することに用いられるセマンティック関連付けモジュールであって、前記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、前記セマンティックノードは1種類のモーダルにおける前記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である、セマンティック関連付けモジュールと、
前記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられる特徴抽出モジュールと、
前記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられるベクトル符号化モジュールと、
前記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられるベクトル復号モジュールと、を含む。
【0008】
本願の他の態様によれば、コンピュータ機器を提供し、該コンピュータ機器は、
メモリと、
メモリに接続されるプロセッサと、を含み、
プロセッサは実行可能命令をロードし且つ実行することにより上記1つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現するように構成される。
【0009】
本願の他の態様によれば、コンピュータ可読記憶媒体を提供し、上記コンピュータ可読記憶媒体に少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセット又は命令セットが記憶され、上記少なくとも1つの命令、少なくとも1セグメントのプログラム、コードセット又は命令セットはプロセッサによりロードされ且つ実行されることにより上記1つの態様及びその選択可能な実施例に記載のマルチモーダル機械学習に基づく翻訳方法を実現する。
【0010】
本願の実施例における技術的手段をより明確に説明するために、以下に実施例の記述に使用する必要のある図面を簡単に紹介するが、明らかなように、以下に記述される図面は単に本願のいくつかの実施例に過ぎない。当業者であれば、創造的な労力を要することなく、更にこれらの図面に基づき他の図面を獲得することができる。
【図面の簡単な説明】
【0011】
図1図1は本願の1つの例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。
図2図2は本願の1つの例示的な実施例が提供するコンピュータシステムの構造模式図である。
図3図3は本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。
図4図4は本願の1つの例示的な実施例が提供するセマンティック関連図を構築するフローチャートである。
図5図5は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。
図6図6は本願の他の例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートである。
図7図7は本願の他の例示的な実施例が提供するマルチモーダル機械翻訳モデルの構造模式図である。
図8図8は本願の1つの例示的な実施例が提供するモデルテスト結果の曲線図である。
図9図9は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。
図10図10は本願の他の例示的な実施例が提供するモデルテスト結果の曲線図である。
図11図11は本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置のブロック図である。
図12図12は本願の1つの例示的な実施例が提供するサーバの構造模式図である。
【発明を実施するための形態】
【0012】
本願の目的、技術的手段及び利点をより明確にするために、以下に図面を参照しながら本願の実施形態を更に詳しく記述する。
【0013】
本願に関わる名詞を以下のように解釈する。
【0014】
人工知能(Artificial Intelligence、AI):デジタルコンピュータ又はデジタルコンピュータにより制御される機械を利用して人の知能を模倣、拡大及び拡張し、環境を感知し、又は知識を獲得し且つ知識を使用して最適な結果を獲得する理論、方法、技術及び応用システムの技術科学である。換言すれば、人工知能はコンピュータ科学の1つの総合的な技術であり、それは知能の本質を理解し、且つ人間の知能に類似する方式で反応できる新しいインテリジェント機器を生産するように意図されている。人工知能とは、各種のインテリジェント機器の設計原理及び実現方法を研究し、機器に感知、推理及び意思決定の機能を有させるものである。
【0015】
人工知能技術は1つの総合的な学科であり、関連する分野が広く、ハードウェアレベルの技術及びソフトウェアレベルの技術を含む。人工知能の基礎技術は一般的に例えばセンサ、専用の人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクティブシステムシステム、及びメカトロニクス等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習等のいくつかの大きな方向を含む。
【0016】
ここで、自然言語処理(Nature Language Processing、NLP)はコンピュータ科学分野及び人工知能分野における1つの重要な方向である。それは人とコンピュータとが自然言語により効果的な通信を行うことを実現できる各種の理論及び方法について研究する。自然言語処理は言語学、コンピュータ科学、及び数学を一体に合わせる1つの科学である。従って、この分野の研究は自然言語、即ち人々が日常に使用している言語に関する。従って、それは言語学の研究と密接に関係している。自然言語処理技術は一般的にテキスト処理、セマンティック理解、機械翻訳、ロボット問答、及びナレッジグラフ等の技術を含む。
【0017】
機械学習(Machine Learning、ML)は複数の分野が交差する1つの学科であり、確率論、統計学、近似理論、凸解析、及びアルゴリズム複雑性理論等の複数の学科に関する。コンピュータが人間の学習行動をどのように模倣又は実現することにより新しい知識又はスキルを獲得し、既存の知識構造を改めて組織して自体の性能を絶えず改善するかについて、専門に研究している。機械学習は人工知能のコアであり、コンピュータに知能を持たせる根本的な方法であり、その応用は人工知能の各分野にわたっている。機械学習及び深層学習は一般的に人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習、及び類推学習等の技術を含む。
【0018】
本願においてはマルチモーダル機械翻訳モデルを提供し、n個の異なるモーダルのソースステートメントを目標ステートメントに正確に翻訳することができる。ここで、モーダルとは言語の表現形式を指し、例えば、ステートメントはグラフ表現又は文字表現等の方式を用いてもよい。ソースステートメントとは翻訳対象ステートメントを指し、翻訳対象ステートメントはテキスト形式の第1言語類の翻訳対象センテンス及び非テキスト形式の翻訳対象言語を含む。目標ステートメントとはテキスト形式の第2言語類の翻訳済みセンテンスを指し、第2言語類は第1言語類と異なる。例示的には、ソースステートメントは英語ステートメント及び該英語ステートメントのイラストを含み、マルチモーダル機械翻訳モデルにより上記英語ステートメント及びそのイラストに対応する中国語ステートメントを翻訳により取得することができる。
【0019】
図1のように、本願における1つの例示的な実施例が提供するマルチモーダル機械翻訳モデル100の構造模式図を示す。該マルチモーダル機械翻訳モデル100はマルチモーダルグラフ表現層101、第1ワードベクトル層102、マルチモーダル融合エンコーダ103及びデコーダ104を含み、
マルチモーダルグラフ表現層101は、n個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得することに用いられる。該セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数である。ここで、1つのセマンティックノードは1種類のモーダルにおけるソースステートメントの1つのセマンティックユニットを示すことに用いられる。英語を例とすると、1つのセマンティックノードは1つの単語に対応し、中国語を例とすると、1つのセマンティックノードは1つの漢字に対応する。
【0020】
第1ワードベクトル層102は、セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられ、
マルチモーダル融合エンコーダ103は、該複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、
デコーダ104は、n個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得することに用いられる。
【0021】
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、n組のセマンティックノードを獲得することであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか2つの上記セマンティックノードの間に上記第1結合辺を追加し、異なるモーダルのいずれか2つの上記セマンティックノードの間に上記第2結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。
【0022】
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、各々のモーダルのソース言語からセマンティックノードを抽出して、n個のモーダルのソース言語に対応するn組のセマンティックノードを取得することに用いられ、
マルチモーダルグラフ表現層101は、第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することに用いられる。
【0023】
いくつかの選択可能な実施例において、n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
マルチモーダルグラフ表現層101は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードは上記第1ソースステートメントを処理して取得したものである、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードは上記第2ソースステートメントを処理して取得したものである、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算して取得したものである、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものであることと、に用いられる。
【0024】
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソースステートメントから候補セマンティックノードを抽出することと、第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算することと、第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定することと、に用いられる。
【0025】
いくつかの選択可能な実施例において、マルチモーダルグラフ表現層101は、第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加することに用いられ、上記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である。
【0026】
つまり、マルチモーダルグラフ表現層101は、第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、iはn以下の正の整数である。
【0027】
いくつかの選択可能な実施例において、n個の符号化特徴ベクトルは、上記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、上記符号化特徴ベクトルを取得するというプロセスにより獲得される。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指す。ここで、eは正の整数である。
【0028】
いくつかの選択可能な実施例において、マルチモーダル融合エンコーダ103は直列接続されているe個の符号化モジュール1031を含み、各々の符号化モジュール1031はいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層11及びn個のモーダル間融合層12を含み、eは正の整数であり、
1番目の符号化モジュール1031は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層11に入力し、n個のモーダル内融合層11によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得することに用いられ、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得し、
1番目の符号化モジュール1031は、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層12に入力し、各々のモーダル間融合層12により上記n個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得することに用いられ、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得し、
第j番目の符号化モジュール1031は、n個の第1中間ベクトルに対してj回目の符号化処理を行い、最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることに用いられ、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である。
【0029】
いくつかの選択可能な実施例において、各々の符号化モジュール1031は更にn個の第1ベクトル変換層13を含み、上記1つのベクトル変換層は1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1ベクトル変換層13であり、
符号化モジュール1031は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層13に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
【0030】
いくつかの選択可能な実施例において、直列接続されているe個の符号化モジュール1031のうちの各々の符号化モジュール1031における階層構造は同じである。
【0031】
いくつかの選択可能な実施例において、異なるモーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なるモーダル間融合層に異なる又は同じ特徴融合関数が設定される。
【0032】
いくつかの選択可能な実施例において、該マルチモーダル機械翻訳モデル100は更に第2ワードベクトル層105及び分類器106を含み、且つデコーダ104は直列接続されているd個の復号モジュール1042を含み、dは正の整数であり、
第2ワードベクトル層105は、第1目標語句を獲得することであって、第1目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、に用いられ、
デコーダ104は、直列接続されているd個の復号モジュール1042により第2ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することに用いられ、
分類器106は、復号特徴ベクトルに対応する確率分布を決定し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することに用いられる。
【0033】
いくつかの選択可能な実施例において、直列接続されているd個の復号モジュール1042のうちの各々の復号モジュール1042はいずれも第1自己注意層21及び第2自己注意層22を含み、
1番目の復号モジュール1042は、第2ワードベクトルを1番目の復号モジュール1042における第1自己注意層21に入力し、第1自己注意層21により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することに用いられ、
1番目の復号モジュール1042は、第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュール1042における第2自己注意層22に入力し、第2自己注意層22により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することに用いられ、
第k番目の復号モジュールは、第2中間ベクトルを第k番目の復号モジュール1042に入力して第k回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることに用いられ、kは1よりも大きく且つd以下の正の整数である。
【0034】
いくつかの選択可能な実施例において、各々の復号モジュール1042は更に第2ベクトル変換層23を含み、
復号モジュール1042は、第2中間ベクトルを第2ベクトル変換層23に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
【0035】
以上のように、本実施例が提供するマルチモーダル機械翻訳モデルは、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を獲得する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得する。更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。
【0036】
図2に参照されるように、本願の1つの例示的な実施例が提供するコンピュータシステムの構造模式図を示し、該コンピュータシステムは端末220及びサーバ240を含む。
【0037】
端末220にオペレーティングシステムがインストールされ、該オペレーティングシステムにアプリケーションプログラムがインストールされ、該アプリケーションプログラムはマルチモーダルソース言語の翻訳機能をサポートする。例示的には、上記アプリケーションプログラムはインスタントメッセージングソフトウェア、金融ソフトウェア、ゲームソフトウェア、ショッピングソフトウェア、ビデオ再生ソフトウェア、コミュニティーサービスソフトウェア、オーディオソフトウェア、教育ソフトウェア、支払いソフトウェア及び翻訳ソフトウェア等を含んでもよく、上記アプリケーションプログラムに上記マルチモーダルソース言語の翻訳機能が統合されている。
【0038】
端末220とサーバ240とは有線又は無線ネットワーク経由で互いに結合されている。サーバ240は1台のサーバ、複数台のサーバ、クラウドコンピューティングプラットフォーム及び仮想化センターのうちの少なくとも1つを含む。例示的には、サーバ240はプロセッサ及びメモリを含む。ここで、メモリにコンピュータプログラムが記憶され、プロセッサは上記コンピュータプログラムを読み取り且つ実行してマルチモーダルソース言語の翻訳機能を実現することができる。
【0039】
選択肢として、サーバ240は主な計算作業を担い、端末220は副次的な計算作業を担う。又は、サーバ240は副次的な計算作業を担い、端末220は主な計算作業を担う。又は、サーバ240と端末220との両方の間は分散型計算アーキテクチャを用いて協調計算を行う。
【0040】
いくつかの選択可能な実施例において、上記マルチモーダル言語の翻訳機能を実現するプロセスにおいて、サーバ240は端末220におけるアプリケーションプログラムにバックグラウンドサービスを提供する。例示的には、端末220はn個のモーダルのソースステートメントを収集し、上記n個のモーダルのソースステートメントをサーバ240に送信し、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、nは1よりも大きな正の整数である。
【0041】
例示的には、端末220にはデータ伝送制御部材が含まれ、端末220は上記データ伝送制御部材により翻訳対象ステートメント及び翻訳対象ステートメントにマッチングする画像のこの2つの異なるモーダルのソースステートメントをサーバ240にアップロードする。サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、2つのモーダルのソースステートメントを目標ステートメントに翻訳する。
【0042】
いくつかの選択可能な実施例において、ソースステートメントは音声信号を含んでもよい。n個のモーダルのソースステートメントに音声信号が含まれる場合、n個のモーダルのソースステートメントを翻訳する前に、端末220又はサーバ240はまず音声信号を文字テキストに変換する。例示的には、端末220はマイクロホンにより音声信号を収集し、又は、端末220は他の端末から送信された音声信号を受信する。
【0043】
上記マルチモーダル機械学習に基づく翻訳方法はマルチメディアニュース翻訳シーンに応用できる。例示的には、端末220は文字と画像とを含むマルチメディアニュースをサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、マルチメディアニュースにおける第1言語類の文字を第2言語類の文字に翻訳する。
【0044】
上記マルチモーダル機械学習に基づく翻訳方法は外国語文献翻訳シーンに応用できる。例示的には、端末220は外国語文献における文字及び文字に対応する挿絵をサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語文献における第1言語類の文字を第2言語類の文字に翻訳する。
【0045】
上記マルチモーダル機械学習に基づく翻訳方法は外国語ウェブサイト翻訳シーンに応用できる。例示的には、端末220は外国語ウェブサイトにおける文字及び文字イラストを収集し、上記文字及び文字イラストをサーバ240にアップロードし、サーバ240により本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、外国語ウェブサイトにおける第1言語類の文字を第2言語類の文字に翻訳し、更に外国語ウェブサイトに対する翻訳を実現する。
【0046】
いくつかの選択可能な実施例において、端末220が翻訳された文字を展示する方式は音声形式又は文字形式を含む。
【0047】
説明する必要があるように、いくつかの選択可能な実施例において、端末220は本願が提供するマルチモーダル機械学習に基づく翻訳方法を実行し、更にn個のモーダルのソースステートメントを翻訳する。
【0048】
端末220は一般的に複数の端末のうちの1つを指してもよく、本実施例は端末220のみを例として説明する。該端末220はスマートフォン、タブレットコンピュータ、電子ブックリーダー、MPEGオーディオレイヤー3(Moving Picture Experts Group Audio Layer III、MP3)プレーヤー、MPEGオーディオレイヤー4(Moving Picture Experts Group Audio Layer IV、MP4)プレーヤー、ラップトップポケットコンピュータ、デスクトップコンピュータ、及びノートパソコンのうちの少なくとも1つを含んでもよい。以下の実施例は端末220がスマートフォン及びパーソナルコンピュータ機器を含む場合を例として説明する。
【0049】
当業者であれば分かるように、上記端末220の数はより多く又はより少なくてもよい。例えば、上記端末は1つのみであってもよく、又は上記端末は数十個若しくは数百個、若しくはより多くの数である。本願の実施例は端末220の数及び機器タイプを限定しない。
【0050】
図3に参照されるように、本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳方法のフローチャートを示す。該方法は図2に示されるコンピュータ機器に応用され、該コンピュータ機器は端末又はサーバを含み、該方法は以下を含む。
【0051】
ステップ301:コンピュータ機器はn個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築する。
【0052】
上記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数である。
【0053】
1つのモーダルのソースステートメントを例とすると、該ソースステートメントは1組のセマンティックノードに対応し、該1組のセマンティックノードはソースステートメントにおけるセマンティックユニットを示すことに用いられる少なくとも1つのセマンティックノードを含む。
【0054】
該コンピュータ機器にマルチモーダル融合エンコーダ及びデコーダが設定され、コンピュータ機器はマルチモーダルグラフ表現層により各々のモーダルのソースステートメントからセマンティックノードを抽出して、n個のモーダルのソースステートメントに対応するn組のセマンティックノードを取得し、マルチモーダルグラフ表現層により第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、同一モーダルのいずれか2つのセマンティックノードの間に第1結合辺を追加し、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行う。つまり、異なるモーダルのセマンティックノードの間に第2結合辺を追加して、セマンティック関連図を取得する。
【0055】
選択肢として、n個のモーダルのソースステートメントにはテキスト形式の第1ソースステートメント及び非テキスト形式の第2ソースステートメントが含まれる。n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含む。コンピュータ機器は、マルチモーダルグラフ表現層により第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソースステートメントから候補セマンティックノードを抽出し、マルチモーダルグラフ表現層を呼び出し、第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算し、マルチモーダルグラフ表現層を呼び出し、第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定する。
【0056】
ここで、テキスト形式の第1ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第1ソースステートメントに対して単語分割処理を行って、単語分割後のm個の語句を取得し、m個の語句が第1ソースステートメントにおける第1セマンティックノードに対応し、mは正の整数であり、
非テキスト形式の第2ソースステートメントにおけるセマンティックノードの抽出については、コンピュータ機器は第2ソースステートメントからm個の語句のうちの少なくとも1つの語句のセマンティックに対応する目標を抽出し、該目標が第2ソースステートメントにおける第2セマンティックノードである。
【0057】
例示的には、図4のように、2つのモーダルのソースステートメントは翻訳対象画像31及び翻訳対象ステートメント32を含み、翻訳対象ステートメント32の内容は「Two boys are playing with a toy car.」を含む。各々の英語単語が1つの第1セマンティックノードに対応し、それぞれVx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7及びVx8である。コンピュータ機器はセマンティックノードのセマンティックに基づいて翻訳対象画像31から候補画像を切り取り、セマンティックノードと候補画像とのセマンティック関連付けに基づき第1確率分布を算出し、第1確率分布に基づき候補画像からVx1及びVx2のセマンティックに対応する目標画像1及び目標画像2、並びにVx6、Vx7及びVx8のセマンティックに対応する目標画像3を決定する。目標画像1、目標画像2及び目標画像3にそれぞれ対応するVo1、Vo2及びVo3は翻訳対象画像31における3つの第2セマンティックノードである。コンピュータ機器はVx1、Vx2、Vx3、Vx4、Vx5、Vx6、Vx7及びVx8の2つごとの間に第1結合辺(実線)を用いてモーダル内セマンティック結合を行い、Vo1、Vo2及びVo3の2つごとの間に第1結合辺を用いてモーダル内セマンティック結合を行い、第1セマンティックノードと第2セマンティックノードとの間に第2結合辺(破線)を用いてモーダル間セマンティック結合を行う。
【0058】
選択肢として、異なるモーダルには異なる第1結合辺が対応して設定される。コンピュータ機器はセマンティックノードに対してモーダル内結合を行うときに、マルチモーダルグラフ表現層により第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行う。つまり、第i組のセマンティックノードにおけるいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加し、iはn以下の正の整数である。
【0059】
選択肢として、2つのモーダルのソースステートメントを翻訳するに際し、2つのモーダルのソースステートメントがそれぞれ文字及び画像である場合、コンピュータ機器は視覚グラウンディング(visual grounding)ツールにより2つのモーダルのソースステートメントの間のセマンティック関連付けを確立し、セマンティック関連図を構築する。
【0060】
ステップ302:コンピュータ機器はセマンティック関連図から複数の第1ワードベクトルを抽出する。
【0061】
例示的には、コンピュータ機器はワード埋め込み方式を用いてセマンティック関連図を処理して、複数の第1ワードベクトルを取得する。ワード埋め込みとは単語をワードベクトルにマッピングすることを指し、選択肢として、ワード埋め込み方法は、
ニューラルネットワークモデルによりワード埋め込みを行うこと、
語句共起行列に対して次元低減を行うことによりワード埋め込みを行うこと、
確率モデルによりワード埋め込みを行うこと、及び
単語の位置するコンテキストのセマンティックにより単語に対してワード埋め込みを行うこと、の4種類のうちの少なくとも1種類を含む。
【0062】
例えば、ワンホットエンコーディング(One-Hot Encoding)によりテキスト形式のソースステートメントにおける単語を表現し、続いて埋め込み行列によりワード埋め込みを行う。
【0063】
ステップ303:コンピュータ機器は複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得する。
【0064】
コンピュータ機器はマルチモーダル融合エンコーダにより第1ワードベクトルに対してモーダル内の特徴抽出を行い、続いて特徴抽出により取得されたベクトルに対してモーダル間の特徴融合を行う。
【0065】
例示的に、nの値が3である場合を例とする。マルチモーダル融合エンコーダには第1モーダルに対応する第1特徴抽出関数、第2モーダルに対応する第2特徴抽出関数、及び第3モーダルに対応する第3特徴抽出関数が含まれる。コンピュータ機器は第1特徴抽出関数により第1ワードベクトルに対して第1モーダル内の特徴抽出を行い、第2特徴抽出関数により第1ワードベクトルに対して第2モーダル内の特徴抽出を行い、第3特徴抽出関数により第1ワードベクトルに対して第3モーダル内の特徴抽出を行って、最終的に3つの隠れ層関数を取得する。マルチモーダル融合エンコーダには第1モーダルに対応する第1特徴融合関数、第2モーダルに対応する第2特徴融合関数、及び第3モーダルに対応する第3特徴融合関数が更に含まれる。コンピュータ機器は第1特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行い、第2特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行い、第3特徴融合関数により上記3つの隠れ層関数に対してモーダル間の特徴融合を行って、3つの特徴融合後の隠れ層ベクトル、即ち符号化特徴ベクトルを取得する。
【0066】
ステップ304:コンピュータ機器はn個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。
【0067】
コンピュータ機器はデコーダを呼び出してn個の符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。該目標ステートメントがn個のモーダルのソースステートメントを指定された言語類に翻訳して取得したステートメントである。
【0068】
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソースステートメントに対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソースステートメントの間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソースステートメントが総合的に表す内容、感情及び言語環境等に一層接近する。
【0069】
図3に基づいて、マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、各々の符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、eは正の整数である。従って、ステップ303はステップ3031を含んでもよく、図5のように、ステップは、以下の通りである。
ステップ3031:コンピュータ機器は直列接続されているe個の符号化モジュールにより複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、n個の符号化特徴ベクトルを取得する。
【0070】
ここで、モーダル内融合とは同一モーダル内の第1ワードベクトルの間でセマンティック融合を行うことを指し、モーダル間融合とは異なるモーダルの第1ワードベクトルの間でセマンティック融合を行うことを意味する。
【0071】
例示的には、上記符号化特徴ベクトルのモーダル内及びモーダル間融合は以下のステップにより実現され得る。
【0072】
1)第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行って、n個の第1隠れ層ベクトルを取得する。1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得する。
【0073】
例示的には、コンピュータ機器は第1ワードベクトルを1番目の符号化モジュールにおける1番目のモーダル内融合層に入力し、1番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行って1番目の第1隠れ層ベクトルを取得し、第1ワードベクトルを1番目の符号化モジュールにおける2番目のモーダル内融合層に入力し、2番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行って2番目の第1隠れ層ベクトルを取得し、…、第1ワードベクトルを1番目の符号化モジュールにおけるn番目のモーダル内融合層に入力し、n番目のモーダル内融合層により第1ワードベクトルに対してモーダル内のセマンティック融合を行ってn番目の第1隠れ層ベクトルを取得する。
【0074】
モーダル内融合層内には特徴抽出関数が設定され、選択肢として、特徴抽出関数は自己注意関数を含む。選択肢として、異なるモーダル内融合層内に異なる又は同じ自己注意関数が設定される。説明する必要があるように、自己注意関数が異なるとは関数内のパラメータが異なることを指し、異なるモーダルに対応する自己注意関数が異なれば、異なるモーダルに対応する関数内のパラメータは異なる。
【0075】
2)n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行って、n個の第1中間ベクトルを取得する。1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得する。
【0076】
例示的には、コンピュータ機器は、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける1番目のモーダル間融合層に入力し、1番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行って1番目のモーダルに対応する1番目の第1中間ベクトルを取得し、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける2番目のモーダル間融合層に入力し、2番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行って2番目のモーダルに対応する2番目の第1中間ベクトルを取得し、…、n個の第1隠れ層ベクトルを1番目の符号化モジュールにおけるn番目のモーダル間融合層に入力し、n番目のモーダル間融合層によりn個の第1隠れ層ベクトルに対してモーダル間のセマンティック融合を行ってn番目のモーダルに対応するn番目の第1中間ベクトルを取得する。
【0077】
モーダル間融合層には特徴融合関数が設定され、選択肢として、異なるモーダル間融合層内に設定される特徴融合関数は異なる又は同じである。説明する必要があるように、特徴融合関数が異なるとは関数内のパラメータが異なることを指し、又は、関数の計算方式が異なることを意味する。
【0078】
選択肢として、各々の符号化モジュールは、n個のモーダルに1対1で対応するn個の第1ベクトル変換層を更に含む。n個の第1中間ベクトルを取得した後に、コンピュータ機器は更にn個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得する。
【0079】
3)n個の第1中間ベクトルを第j番目の符号化モジュールに入力してj回目の符号化処理を行い、これを最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続ける。1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続ける。
【0080】
コンピュータ機器は、n個の中間ベクトルを2番目の符号化モジュールに入力して2回目の符号化処理を行って、改めて符号化されたn個の第1中間ベクトルを取得し、…、改めて符号化されたn個の第1中間ベクトルを第j番目の符号化モジュールに入力してj回目の符号化処理を行って、改めて符号化されたn個の第1中間ベクトルを取得し、…、改めて符号化されたn個の第1中間ベクトルをe番目の符号化モジュールに入力してe回目の符号化処理を行って、n個の符号化特徴ベクトルを取得する。ここで、jは1よりも大きく且つe以下の正の整数である。選択肢として、直列接続されているe個の符号化モジュールのうちの上記各々の符号化モジュールにおける階層構造は同じである。即ち、第j番目の符号化モジュールは1番目の符号化モジュールが第1中間ベクトルを符号化するステップに従って処理し、最後の1つの符号化モジュールが符号化特徴ベクトルを出力するまで続ける。
【0081】
例示的には、本実施例において自己注意メカニズムを用いて同じモーダル内部のセマンティック情報をモデリングする。そうすると、第j番目の符号化モジュールはテキストステートメントに対応する第1隠れ層ベクトル[数1]を計算し、式は、
[数2]であり、
ここで、[数3]はテキストステートメントに対応する第1ワードベクトル又は(j-1)番目の符号化モジュールが出力する第1中間ベクトルを指し、xはテキストステートメントのセマンティックノード、及びテキストステートメントのセマンティックノードにより計算して取得されたベクトルをマークすることに用いられ、MultiHead(Q,K,V)は多重注意メカニズムモデリング関数であり、トリプレット(Queries,Key,Values)を入力とし、Qがクエリ行列であり、Kがキー行列であり、Vが値行列であり、ここで、Q、K及びVが[数4]及びパラメータベクトルから計算して取得したものである。
【0082】
【数1】
【数2】
【数3】
【数4】
【0083】
第j番目のマルチモーダル融合エンコーダは画像に対応する第1隠れ層ベクトル[数5]を計算し、式は、
[数6]であり、
【0084】
【数5】
【数6】
【0085】
ここで、[数7]は画像に対応する第1ワードベクトル又は(j-1)番目の符号化モジュールが出力する第1中間ベクトルを指し、
【0086】
【数7】
【0087】
本実施例において更にゲーティングメカニズムに基づくクロスモーダル融合メカニズムを用いてマルチモーダル間のセマンティック融合をモデリングし、そうすると、第j番目の符号化モジュールはテキストステートメントに対応する第1中間ベクトル又は符号化特徴ベクトル[数8]を計算し、式は、
[数9]、
[数10]であり、
【0088】
【数8】
【数9】
【数10】
【0089】
ここで、Aは集合を示す。対応して、[数11]は第1セマンティックノード[数12]のセマンティック関連図における近傍ノードの集合である。[数13]はテキストステートメントのu番目のセマンティックノードを示し、uは正の整数である。[数14]は第j番目の符号化モジュールにおける画像のs番目のセマンティックノードのセマンティック表現ベクトルであり、[数15]は第j番目の符号化モジュールにおけるテキストステートメントのu番目のセマンティックノードのセマンティック表現ベクトルである。[数16]と[数17]はパラメータ行列であり、[数18]は否定排他的論理和演算を示し、Sigmoid()はs曲線型関数である。oは画像のセマンティックノード、及び画像のセマンティックノードにより計算して取得されたベクトルをマークすることに用いられる。更に同じ計算方式によって画像に対応する第1中間ベクトル又は符号化特徴ベクトル[数19]を計算し、ここで再び詳しく説明しない。
【0090】
【数11】
【数12】
【数13】
【数14】
【数15】
【数16】
【数17】
【数18】
【数19】
【0091】
マルチモーダル間融合を経た後に、本実施例において更にフィードフォワードニューラルネットワーク(FeedForward Neural、FFN)を用いて最終的な符号化特徴ベクトルを生成し、テキストステートメントに対応する符号化特徴ベクトル及び画像に対応する符号化特徴ベクトルはそれぞれ、
[数20]、
[数21]であり、
【0092】
【数20】
【数21】
【0093】
ここで、[数22]であり、{}は集合を示し、[数23]は第j番目の符号化モジュールにおけるテキストステートメントのu番目のセマンティックノードに対応する符号化特徴ベクトルを示し、[数24]は第j番目の符号化モジュールにおける画像のs番目のセマンティックノードに対応する符号化特徴ベクトルを示す。
【0094】
【数22】
【数23】
【数24】
【0095】
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後に、より正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
【0096】
該方法においてマルチモーダル融合エンコーダには直列接続されているe個の符号化モジュールが含まれる。各々の符号化モジュールはいずれもモーダル内融合層及びモーダル間融合層を含み、モーダル内及びモーダル間の特徴融合を複数回交互に行うことによりセマンティック融合がより完全な符号化特徴ベクトルを取得し、更にn個のモーダルのソース言語に対応するより正確な目標ステートメントを復号することができる。
【0097】
図3に基づいて、デコーダは直列接続されているd個の復号モジュールを更に含み、dは正の整数である。従って、ステップ304はステップ3041~ステップ3044を含んでもよく、図6に示すように、これらステップは以下のとおりである。
【0098】
ステップ3041:コンピュータ機器は第2ワードベクトル層により第1目標語句を獲得する。
【0099】
ここで、第1目標語句は目標ステートメントにおける翻訳済み語句である。コンピュータ機器は目標ステートメントにおける語句を1つずつ翻訳し、目標ステートメントにおけるr番目の語句を翻訳した後に、r番目の語句を第1目標語句とし、r+1番目の語句を翻訳することに用いる。言い換えれば、コンピュータ機器はr番目の語句を第2ワードベクトル層に入力し、rは負ではない整数である。
【0100】
ステップ3042:コンピュータ機器は第2ワードベクトル層により第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得する。
【0101】
例示的には、コンピュータ機器は第2ベクトル層により第1目標語句に対してワード埋め込みを行って、第2ワードベクトルを取得する。ワード埋め込みは、単語をベクトル空間において実数ベクトルとして表現する技術であり、本実施例においてワード埋め込みとは単語をワードベクトルにマッピングすることを指す。例えば、「わたし」をマッピングしてワードベクトル(0.1,0.5,5)を取得すれば、すなわち(0.1,0.5,5)は「わたし」に対してワード埋め込みを行った後のワードベクトルである。
【0102】
ステップ3043:コンピュータ機器は直列接続されているd個の復号モジュールにより第2ワードベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、復号特徴ベクトルを取得する。
【0103】
コンピュータ機器は直列接続されているd個の復号モジュールを呼び出して注意メカニズムに基づいて符号化特徴ベクトル及び第2ワードベクトルを処理して、復号特徴ベクトルを抽出する。
【0104】
選択肢として、直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも1つの第1自己注意層、1つの第2自己注意層及び1つの第2ベクトル変換層を含む。復号特徴ベクトルの抽出については、コンピュータ機器は第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、第1自己注意層により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得し、第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュールにおける第2自己注意層に入力し、第2自己注意層により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得し、第2中間ベクトルを第k番目の復号モジュールに入力してk回目の復号処理を行い、これを最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続け、kは1よりも大きく且つd以下の正の整数である。
【0105】
ここで、第1自己注意層は自己注意メカニズムに基づいて第2ワードベクトルを処理して、第2隠れ層ベクトルを抽出することに用いられ、第2自己注意層は注意メカニズムに基づいて目標ステートメントの言語類を用いて第2隠れ層ベクトル及び符号化特徴ベクトルを処理して、第2中間ベクトルを取得することに用いられる。第1自己注意層に第1自己注意関数が含まれ、第2自己注意層に第2自己注意関数が含まれ、第1自己注意関数と第2自己注意関数のパラメータは異なる。
【0106】
選択肢として、各々の復号モジュールは更に第2ベクトル変換層を含み、第2中間ベクトルを計算して取得した後に、コンピュータ機器は更に第2中間ベクトルを第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得する。
【0107】
ステップ3044:コンピュータ機器は復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定する。
【0108】
選択肢として、分類器に正規化(softmax)関数が含まれ、コンピュータ機器はsoftmax関数により復号特徴ベクトルに対応する確率分布を計算し、且つ復号特徴ベクトルに対応する確率分布に基づき第1目標語句の後の第2目標語句を決定する。
【0109】
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳方法は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築する。セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
【0110】
該方法は更にd個の復号モジュールにより目標ステートメントの言語類を用いて符号化特徴ベクトル及び第2隠れ層ベクトルに対して注意を繰り返し行って、より正確な目標ステートメントを復号する。
【0111】
更に説明する必要があるように、本願が提供するマルチモーダル機械翻訳モデルと以前のマルチモーダルニューラル機械翻訳(Neural Machine Translation、NMT)とに対してテスト比較を行ったところ、本願が提供するマルチモーダル機械翻訳モデルの翻訳効果が最も高いことが明らかになった。例示的に、入力データが画像及びテキストの2種類のソース言語であることを例として、上記テスト比較を以下のように詳しく説明する。
【0112】
本願が提供するマルチモーダル機械翻訳モデルは注意のコーデックフレームワークに基づいて構築されたものであり、訓練データの対数尤度の最大化を目標関数とする。本質的に、本願が提供するマルチモーダル融合エンコーダは1つのマルチモーダル拡張グラフニューラルネットワーク(Graph Neural Network、GNN)として見なされてもよい。マルチモーダル融合エンコーダを構築するために、入力された画像及びテキストを1つのマルチモーダルグラフ(即ちセマンティック関連図)として対応付けて表現し、その後、上記マルチモーダルグラフに基づいて複数のマルチモーダル融合層を重ね合わせてノード(即ちセマンティックノード)表現を学習し、デコーダに注意に基づくコンテキストベクトルを提供する。
【0113】
一、マルチモーダルグラフの構築については、形式的にマルチモーダルグラフは無向であり、G=(V,E)に形式化することができる。ここで、ノードセットVにおいて、個々のノードはテキスト語句又は視覚オブジェクトを示す。ここでテキストに対応するノードはセマンティックノードと称され、視覚オブジェクトに対応するノードは視覚ノードと称され、且つ以下のポリシーを用いてノードの間のセマンティック関連付けを構築する。
【0114】
1、ノードの抽出
(1)テキスト情報を十分に利用するために、テキストにおけるすべての単語を個別のテキストノードとする。例えば、図4においてマルチモーダルグラフは合計8つのテキストノードを含み、個々のテキストノードが入力ステートメント(即ち翻訳対象ステートメント)における1つの単語に対応する。(2)スタンフォードパーサ(Stanford parser)を使用して入力ステートメントにおけるすべての名詞フレーズを識別し、次に視覚グラウンディングツールキットを応用して個々の名詞フレーズの入力画像(即ち翻訳対象画像)における対応する境界ボックス(視覚オブジェクト)を識別する。その後、検出されたすべての視覚オブジェクトはいずれも独立した視覚ノードとされる。例えば、図4においてテキストノードVx1及びVx2は視覚ノードVo1及びVo2に対応し、テキストノードVx6、Vx7及びVx8は視覚ノードVo3に対応する。
【0115】
2、マルチモーダルセマンティックユニットの間の各種のセマンティック関連付けを捕獲するために、2種類のエッジ(即ち結合辺)を用いてセマンティックノードを結合する。エッジセットEにおける2種類のエッジは、(1)同一モーダルにおけるいずれか2つのセマンティックノードがいずれも1つのモーダル内エッジ(第1結合辺)により結合されることと、(2)いかなるテキストノード及び相応の視覚ノードがいずれも1つのモーダル間エッジ(第2結合辺)により結合されることと、を含む。例示的には、図4のように、Vo1とVo2との間にモーダル内エッジ(実線)を用いて結合し、Vo1とVx1との間にモーダル間エッジ(破線)を用いて結合する。
【0116】
二、埋め込み層については、マルチモーダルグラフを積層したマルチモーダル融合層に入力する前に、1つのワード埋め込み層を導入してノードの状態を初期化する必要がある。個々のテキストノードVxuについては、その初期状態Hxuをワード埋め込みと位置埋め込みとの和として定義する。視覚ノードVosの初期状態Hosについては、Faster-RCNNにおける関心領域プール(Region Of Interest pooling、ROIプール)層の全結合層(fully-connected layer)により視覚特徴を抽出し、次に線形整流関数(Rectified Linear Unit、ReLU)を活性化関数とする多層パーセプトロンを使用して視覚特徴をテキスト表現と同じ空間に投影する必要がある。
【0117】
ここで、RCCNは精確な物体検出及びセマンティックセグメンテーションに用いられる豊富な特徴階層構造(Rich feature hierarchies for accurate object detection and semantic segmentation)である。
【0118】
三、図7のように、左側部分にエンコーダを示し、埋め込み層402の頂部にe層のグラフに基づくマルチモーダル融合層がスタックされ、それにより上記マルチモーダルグラフを符号化する。マルチモーダル融合層において、モーダル内及びモーダル間融合を順次行って、すべてのノード状態を更新する。このように、最終的なノード状態は同一モーダルにおけるコンテキスト情報及びクロスモーダルセマンティック情報を同時に符号化したものである。特に、視覚ノード及びテキストノードは異なるモード情報を含む2種類のセマンティックユニットであるため、操作が類似するがパラメータが異なる関数を用いてノードの状態更新プロセスをモデリングする。
【0119】
例示的には、j個のマルチモーダル融合層において、テキストノード状態[数25]及び視覚ノード状態[数26]の更新は主に以下のステップに関する。
【0120】
【数25】
【数26】
【0121】
ステップ1:モーダル内融合。このステップにおいて、自己注意を使用して同一モーダル内の隣接ノードの間の情報融合を行って、個々のノードのコンテキスト表現を生成する。形式的に、すべてのテキストノードのコンテキスト表現[数27]の計算式は、
[数28]であり、
【0122】
【数27】
【数28】
【0123】
ここで、MultiHead(Q,K,V)は多重注意メカニズムモデリング関数(マルチヘッド自己注意関数とも称される)であり、クエリ行列Q、キー行列K及び値行列Vを入力とする。同様に、すべての視覚ノードのコンテキスト表現[数29]の計算式は、
[数30]である。
【0124】
【数29】
【数30】
【0125】
特に、視覚オブジェクトの初期状態は、深層学習アルゴリズム(deep CNNs)により抽出されたものであり、従って、1つの簡略化されたマルチヘッド自己注意を応用して視覚オブジェクトの初期状態を表現する。ここで、獲得された線形項目値及び最終的な出力を削除する。
【0126】
ステップ2:モーダル間融合。マルチモーダルの間に特徴融合を行うときに、要素操作特性を有する一種のクロスモーダルゲーティング制御メカニズムを用いて、個々のノードのクロスモーダル近傍領域のセマンティック情報を学習する。具体的に、テキストノードVxuの状態表現[数31]を生成する方式は、
[数32]、
[数33]であり、
【0127】
【数31】
【数32】
【数33】
【0128】
ここで、[数34]はノードVxuのマルチモーダルグラフにおける近傍ノードの集合であり、[数35]と[数36]はパラメータ行列である。同様に、テキストノードVosの状態表現[数37]を生成する方式は、
[数38]、
[数39]であり、
【0129】
【数34】
【数35】
【数36】
【数37】
【数38】
【数39】
【0130】
ここで、[数40]はノードVosのマルチモーダルグラフにおける近傍ノードの集合であり、[数41]と[数42]はパラメータ行列である。
【0131】
【数40】
【数41】
【数42】
【0132】
上記マルチモーダル融合プロセスを経た後に、フィードフォワードニューラルネットワークを用いて最終的なデル隠れ層表現を生成する。テキストノード状態[数43]及び画像ノード状態[数44]の計算プロセスは、
[数45]、
[数46]であり、
【0133】
【数43】
【数44】
【数45】
【数46】
【0134】
ここで、[数47]は全部のテキストノード状態及び画像ノード状態が更新されたことを示す。
【0135】
【数47】
【0136】
四、デコーダについては、従来のトランスフォーマ(Transformer)デコーダと類似する。視覚情報が既に複数のグラフに基づくマルチモーダル融合層によりすべてのテキストノードに融合されているため、デコーダがテキストノード状態のみに注目してマルチモーダルコンテキストを動的に利用することは許容されており、即ちテキストノード状態のみをデコーダに入力する。
【0137】
図7の右側部分に示すように、d個の同じ層を重ね合わせて目標側隠れ状態を生成する。ここで、個々の層は3つのサブ層により構成される。具体的に、上位2つのサブ層はそれぞれマスキング自己注意Ej及びコーデック注意Tjであり、それにより目標及びソース言語側コンテキストを統合し、
[数48]、
[数49]であり、
【0138】
【数48】
【数49】
【0139】
ここで、S(j-1)は第j-1層における目標側隠れ状態を示す。特に、S(0)は入力された目標語句の埋め込みベクトルであり、[数50]はデコーダにおける最上層の隠れ状態である。次に、1つの位置方向の全結合フィードフォワードニューラルネットワークはS(j)を生成することに用いられ、式は、
[数51]であり、
【0140】
【数50】
【数51】
【0141】
最後に、softmax層を利用して目標ステートメントを生成する確率分布を定義し、該層は最上層の隠れ状態[数52]を入力とし、
[数53]であり、
【0142】
【数52】
【数53】
【0143】
ここで、Xは入力された翻訳対象ステートメントであり、Iは入力された翻訳対象画像であり、Yは目標ステートメント(即ち翻訳ステートメント)であり、Wとbはsoftmax層のパラメータである。
【0144】
実験プロセスにおいて、英語をフランス語及びドイツ語に翻訳することを翻訳タスクとし、データセットはMulti30Kデータセットを用いる。ここで、データセットにおける各画像は、英語の記述、並びに人間が翻訳したドイツ語、及びフランス語に対応してペアになる。訓練、検証及びテストセットはそれぞれ29000個、1014個及び1000個の実例を含む。この他に、更にWMT17テストセットにおける各種のモデル及びファジーMSCOCOテストセットを評価するが、それらはそれぞれ1000個及び461個の実例を含む。本実験において、前処理されたステートメントを直接使用して、バイトペア符号化及び10000個の合併操作により単語をサブ単語に分割する。
【0145】
視覚特徴:まずスタンフォード(Stanford)パーサを用いて個々のソースステートメントから名詞フレーズを識別し、次に視覚グラウンディングツールキットを使用して識別された名詞フレーズの関連視覚オブジェクトを検出する。個々のフレーズについては、その対応する視覚オブジェクトの予測確率を最も高く維持することにより、豊富な視覚オブジェクトの悪影響を軽減する。個々のセンテンスにおいて、物体及び単語の平均数はそれぞれ3.5及び15.0程度である。最後に、予め訓練されたResNet-100 Faster RCNNを使用してこれらのオブジェクトの2048次元特徴を計算する。
【0146】
設定:トランスフォーマを基礎として使用する。訓練コーパスが比較的小さいため、訓練後のモデルは過度にフィッティングする傾向があり、まず1つの小さなグリッド検索を行って、1組の英語からドイツ語への翻訳検証セットにおけるハイパーパラメータを獲得する。具体的には、ワード埋め込み次元数及び隠れサイズはそれぞれ128及び256である。デコーダは4層を有し、注意のヘッド数は4である。ドロップアウト率を0.5として設定する。各ロットは約2000個のソースコードシンボル及び目標トークンにより構成される。所定の学習率を有するAdamオプティマイザを応用して各種のモデルを最適化し、且つそれと同じ他の設定を使用する。最後に、バイリンガル評価アンダースタディ(Bilingual EvaLuation Understudy、BLEU)指標及びMETEOR指標を使用して翻訳の品質を評価する。説明する必要があるように、個々の実験においてすべてのモデルに対して3回の動作をさせ、且つ平均結果を報告した。
【0147】
基礎モデル:テキストに基づくトランスフォーマ(TransFormer、TF)以外に、更に視覚特徴を利用し、幾つか種類の効果的な方法を用いて変換を行い、且つ本願の実施例が提供するモデルをトランスフォーマと比較した。
【0148】
1、ObjectAsToken(TF)。これはトランスフォーマの1つのバリエーションであり、すべての視覚オブジェクトはいずれも付加的なソースコードシンボルとして見なされ、且つ入力ステートメントの前に置かれる。
【0149】
2、Enc-att(TF)。トランスフォーマにおいてエンコーダに基づく画像注意メカニズムを用いており、個々のソース注釈及び注意に基づく視覚特徴ベクトルを追加ししている。
【0150】
3、Doubly-att(TF)。これは1つの二重注意のトランスフォーマである。個々の復号層において、全結合フィードフォロード層の前に1つのクロスモーダルマルチヘッド注意サブ層を挿入し、それにより視覚特徴に基づいて視覚コンテキストベクトルを生成する。
【0151】
それに対応して、更に幾つか種類の主なマルチモーダルニューラル機械翻訳(Neural Machine Translation、NMT)モデルの性能、例えばDoubly-att(RNN)、Soft-att(RNN)、Stochastlc-att(RNN)、Fusion-conv(RNN)、Trg-mul(RNN)、VMM T(RNN)及びDellberation Network(TF)が展開されている。ここで、RNNは再帰型ニューラルネットワーク(Recurrent Neural Netword)である。
【0152】
マルチモーダル融合層の数eは1つの重要なハイパーパラメータであり、エンコーダにおける細粒度セマンティック融合の程度を直接決める。従って、まずそれが英語からドイツ語への翻訳検証セットに与える影響を検査する。図8には実験結果を示しており、eが3であるときに、モデルは最適なp形態に達した。従って、すべての後続の実験においてe=3を使用した。
【0153】
【表1】
【0154】
[表1]には英語からドイツ語への翻訳タスクの主な結果を示した。METEORにおいてFusion-conv(RNN)及びTrg-mul(RNN)と比較し、本願の実施例が提供するモデルの性能はほとんどの以前のモデルよりも優れている。2組の結果はWMT2017テストセットにおけるシステム状態によって決められており、該WMT2017テストセットはMETEORに基づいて選択したものである。基礎モデルと比較して、以下の結論を得ることができる。
【0155】
まず、本願の実施例が提供するモデルはObjectAsToken(TF)よりも優れている。該モデルは領域視覚特徴とテキストとを一体に結合して、注目可能シーケンスを形成し、且つ自己注意メカニズムを利用してマルチモーダル融合を行う。その基本的な理由は2つの点を含み、第1としては、異なるモーダルのセマンティックユニットの間のセマンティック対応関係をモデリングしたことであり、第2としては、異なるモーダルのモデルパラメータを区別したことである。
【0156】
次に、本願の実施例が提供するモデルもEnc-att(TF)よりも著しく優れている。ここで、Enc-att(TF)は単層セマンティック融合エンコーダとして見なされてもよい。セマンティック対応関係をモデリングする利点以外に、多層マルチモーダルセマンティックインタラクションもNMTに有利であると更に推量される。
【0157】
第3としては、注意メカニズムだけを利用して視覚情報を抽出するDoubly-att(TF)に比べて、エンコーダにおいて十分なマルチモーダル融合を提供するため、本願の実施例が提供するモデルは著しく改良されている。
【0158】
【表2】
【0159】
また、ソース文の長さ及び名詞フレーズの数に基づきテストセットを異なるグループに分け、次に各グループのテストセットにおける異なるモデルの性能を比較する。図9及び図10には上記グループのBLEUスコアが示されている。まとめて言えば、本願の実施例が提供するモデルは依然としてすべてのグループにおいて常に最適な性能に達する。従って、本願の実施例が提供するモデルの有効性及び汎用性は再び実証されたといえる。注意する必要があるように、フレーズが比較的多いセンテンスにおいては、一般的にセンテンスが長くなり、本願の実施例が提供するモデルは基礎モデルの改良よりと比べてより深い意義を有する。長いセンテンスには比較的多く多義的なワードが含まれる場合が多いと推測される。従って、短いセンテンスに比べて、長いセンテンスは視覚情報を補充情報としてより良く利用する必要がある可能性があり、これは本願の実施例が提供するモデルのマルチモーダルセマンティックインタラクションにより実現され得る。
【0160】
更に、[表4]には更に本願の実施例が提供するモデル及び基礎モデルの訓練及び復号速度を示す。訓練プロセスにおいて、本願の実施例が提供するモデルは1秒あたりに約1.1Kのトークンを処理することができ、これは他のマルチモーダルモデルに相当する。復号プロセスに関する場合、本願の実施例が提供するモデルは1秒あたりに約16.7句を翻訳し、トランスフォーマに比べて、速度が少々低下した。この他は、本願の実施例が提供するモデルは少量の付加的なパラメータを導入したのみで、より良い性能を獲得している。
【0161】
【表3】
【0162】
異なる成分の有効性を研究するために、更に実験を行い、本願の実施例が提供するモデルと[表2]における以下のバリエーションとを比較した。
【0163】
(1)モーダル間融合。このバリエーションにおいて、2つの独立したトランスフォーマフォーマエンコーダを使用してそれぞれ単語及び視覚オブジェクトのセマンティック表現を学習し、次に二重注意デコーダを使用してテキスト及び視覚コンテキストをデコーダに合併する。[表2]における第3行の結果は、モーダル間融合をなくすと性能の顕著な低下をもたらすことを表している。これは、マルチモーダルセマンティックユニットの間のセマンティックインタラクションがマルチモーダル表現学習にとって有用であることを表している。
【0164】
(2)視覚グラウンディングから全結合まで。単語及び視覚オブジェクトを一体に完全に結合し、モーダル間の対応関係を確立する。[表2]における第4行の結果は、この変化が性能の顕著な低下をもたらすことを表明している。その根本的な理由は、完全に結合しているセマンティックの対応は本願の実施例が提供するモデルに非常に大きなノイズをもたらすことにある。
【0165】
(3)異なるパラメータから統一パラメータまで。このバリエーションを構築するときに、統一パラメータを割り当てて異なるモードにおけるノード状態を更新する。明らかなようにに、[表2]における第5行が報告する性能低下は、異なるパラメータを使用する方法の有効性も証明した。
【0166】
(4)視覚ノード注意。テキストノードのみを考慮するモデルと異なり、このバリエーションのデコーダが二重注意デコーダを使用してこの2種類のタイプのノードを考慮することは許容されている。[表2]における第6行の結果から観察できるように、すべてのノードを考慮することは更なる改良をもたらすことがない。上記結果はもとの仮定を実証しており、即ち、視覚情報は既に完全にエンコーダにおけるテキストノードに取り入れられているといえる。
【0167】
(5)テキストノード注意及び視覚ノード注意。しかしながら、視覚ノードのみを考慮するときには、モデルの性能が急激に低下するが、これは[表2]における第7行に示されている。これは、視覚ノードの数がテキストノードよりも遥かに少ないが、テキストノードが十分な翻訳コンテキストを生成できないためである。
【0168】
例示的に、更に英語からフランス語への翻訳データセットにおいて実験を行う。[表3]からわかるように、すべての以前のモデルに比べて、本願の実施例が提供するモデルは依然としてより良い性能を獲得する。これは、マルチモーダルNMTにおいて本願の実施例が提供するモデルは異なる言語に対して有効及び汎用的なものであることを再び証明している。
【0169】
[表2]において、関連するマルチモーダルNMTシステム及び本願の実施例が提供するマルチモーダルNMTシステムにおいて提供する機械翻訳モデルと比較を行っている。BLEU及びMETEOR指標から明らかなように、英語とフランス語との間の翻訳に対しても、本願が提供する機械翻訳モデルはより良い効果を獲得し、4つの指標値のうち3つはいずれも最高値(太字の数字)であった。
【0170】
【表4】
【0171】
図11に参照されるように、本願の1つの例示的な実施例が提供するマルチモーダル機械学習に基づく翻訳装置を示している。該装置はソフトウェア、ハードウェア又はそれらの組み合わせによりコンピュータ機器の一部又は全部となり、該装置はセマンティック関連付けモジュール501と、特徴抽出モジュール502と、ベクトル符号化モジュール503と、ベクトル復号モジュール504と、を含む。
【0172】
セマンティック関連付けモジュール501は、異なるモーダルに属するn個のソースステートメントに基づいてセマンティック関連図を獲得することに用いられる。上記セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、上記セマンティックノードは1種類のモーダルにおける上記ソースステートメントの1つのセマンティックユニットを示すことに用いられ、nは1よりも大きな正の整数である。
【0173】
選択肢として、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築することに用いられ、セマンティック関連図は、n種類の異なるモーダルのセマンティックノードと、同一モーダルのセマンティックノードを結合することに用いられる第1結合辺と、異なるモーダルのセマンティックノードを結合することに用いられる第2結合辺とを含み、nは1よりも大きな正の整数であり、
特徴抽出モジュール502は、上記セマンティック関連図から複数の第1ワードベクトルを抽出することに用いられ、選択肢として、第1ワードベクトル層によりセマンティック関連図から第1ワードベクトルを抽出し、
ベクトル符号化モジュール503は、上記複数の第1ワードベクトルを符号化して、n個の符号化特徴ベクトルを取得することに用いられ、選択肢として、マルチモーダル融合エンコーダにより第1ワードベクトルを符号化して、符号化特徴ベクトルを取得し、
ベクトル復号モジュール504は、上記n個の符号化特徴ベクトルを復号して、翻訳後の目標ステートメントを取得することに用いられ、選択肢として、デコーダを呼び出して符号化特徴ベクトルを復号処理して、翻訳後の目標ステートメントを取得する。
【0174】
いくつかの選択可能な実施例において、セマンティック関連付けモジュール501は、n組のセマンティックノードを獲得することであって、1組のセマンティックノードが1つのモーダルのソースステートメントに対応する、ことと、同一モーダルのいずれか2つの上記セマンティックノードの間に上記第1結合辺を追加し、異なるモーダルのいずれか2つの上記セマンティックノードの間に上記第2結合辺を追加して、上記セマンティック関連図を取得することと、に用いられる。選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により各々のモーダルのソース言語からセマンティックノードを抽出して、n個のモーダルのソース言語に対応するn組のセマンティックノードを取得することと、マルチモーダルグラフ表現層により第1結合辺を用いてn組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行い、且つ第2結合辺を用いてn組のセマンティックノードに対して異なるモーダル間のセマンティックノードの間の結合を行って、セマンティック関連図を取得することと、に用いられる。
【0175】
いくつかの選択可能な実施例において、n個のモーダルのソース言語にはテキスト形式の第1ソース言語及び非テキスト形式の第2ソース言語が含まれ、n組のセマンティックノードは第1セマンティックノード及び第2セマンティックノードを含み、
セマンティック関連付けモジュール501は、上記第1セマンティックノードを獲得することであって、上記第1セマンティックノードはマルチモーダルグラフ表現層が上記第1ソースステートメントを処理することにより取得される、ことと、候補セマンティックノードを獲得することであって、上記候補セマンティックノードはマルチモーダルグラフ表現層が上記第2ソースステートメントを処理することにより取得される、ことと、上記候補セマンティックノードの第1確率分布を獲得することであって、上記第1確率分布は上記マルチモーダルグラフ表現層が上記第1セマンティックノードと上記候補セマンティックノードとの間のセマンティック関連付けに応じて計算することにより取得される、ことと、上記候補セマンティックノードから上記第2セマンティックノードを決定することであって、上記第2セマンティックノードは上記マルチモーダルグラフ表現層が上記第1確率分布に基づき決定したものである、ことと、に用いられる。
【0176】
選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により第1ソースステートメントから第1セマンティックノードを抽出し、且つ第2ソース言語から候補セマンティックノードを抽出することと、マルチモーダルグラフ表現層を呼び出して第1セマンティックノードと候補セマンティックノードとの間のセマンティック関連付けに応じて候補セマンティックノードの第1確率分布を計算することと、マルチモーダルグラフ表現層を呼び出して第1確率分布に基づき候補セマンティックノードから第2セマンティックノードを決定することと、に用いられる。
【0177】
いくつかの選択可能な実施例において、セマンティック関連付けモジュール501は、第i組のセマンティックノードにおいて同一モーダル内のいずれか2つのセマンティックノードの間に第i種類の第1結合辺を追加することに用いられ、上記第i種類の第1結合辺が第i番目のモーダルに対応し、iはn以下の正の整数である。
【0178】
選択肢として、セマンティック関連付けモジュール501は、マルチモーダルグラフ表現層により第i番目のモーダルに対応する第i種類の第1結合辺を決定し、第i種類の第1結合辺を用いて第i組のセマンティックノードに対して同一モーダル内のセマンティックノードの間の結合を行うことに用いられ、iはn以下の正の整数である。
【0179】
いくつかの選択可能な実施例において、ベクトル符号化モジュール503は、上記複数の第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、上記n個の符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指し、ここで、eは正の整数である。
【0180】
選択肢として、マルチモーダル融合エンコーダは直列接続されているe個の符号化モジュールを含み、eは正の整数であり、
ベクトル符号化モジュール503は、直列接続されているe個の符号化モジュールにより第1ワードベクトルに対してモーダル内融合及びモーダル間融合をe回行って、符号化特徴ベクトルを取得することに用いられる。ここで、上記モーダル内融合とは同一モーダル内の上記第1ワードベクトルの間でセマンティック融合を行うことを指し、上記モーダル間融合とは異なるモーダルの上記第1ワードベクトルの間でセマンティック融合を行うことを指す。
いくつかの選択可能な実施例において、各々の符号化モジュールはいずれもn個のモーダルに1対1で対応するn個のモーダル内融合層及びn個のモーダル間融合層を含み、
ベクトル符号化モジュール503は、第1ワードベクトルをそれぞれ1番目の符号化モジュールにおけるn個のモーダル内融合層に入力し、n個のモーダル内融合層によりそれぞれ第1ワードベクトルに対して同じモーダル内部のセマンティック融合を行ってn個の第1隠れ層ベクトルを取得することであって、1つの上記第1隠れ層ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1隠れ層ベクトルを取得する、ことと、
n個の第1隠れ層ベクトルを1番目の符号化モジュールにおける各々のモーダル間融合層に入力し、各々のモーダル間融合層によりn個の第1隠れ層ベクトルに対して異なるモーダル間のセマンティック融合を行ってn個の第1中間ベクトルを取得することであって、1つの上記中間ベクトルが1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1中間ベクトルを取得する、ことと、
n個の第1中間ベクトルを第j番目の符号化モジュールに入力して第j回目の符号化処理を行い、これを最後の1つの符号化モジュールがn個の符号化特徴ベクトルを出力するまで続けることであって、1つの上記符号化特徴ベクトルが1つのモーダルに対応し、つまり、最後の1つの符号化モジュールがn個のモーダルに1対1で対応するn個の符号化特徴ベクトルを出力するまで続け、jは1よりも大きく且つe以下の正の整数である、ことと、に用いられる。
【0181】
いくつかの選択可能な実施例において、各々の符号化モジュールは更にn個の第1ベクトル変換層を含み、上記1つのベクトル変換層が1つのモーダルに対応し、つまり、n個のモーダルに1対1で対応するn個の第1ベクトル変換層であり、
ベクトル符号化モジュール503は更に、n個の第1中間ベクトルをそれぞれ所属するモーダルに対応するn個の第1ベクトル変換層に入力して非線形変換を行って、非線形変換後のn個の第1中間ベクトルを取得することに用いられる。
【0182】
いくつかの選択可能な実施例において、直列接続されているe個の符号化モジュールのうちの各々の符号化モジュールにおける階層構造は同じである。
【0183】
いくつかの選択可能な実施例において、異なるモーダル内融合層に異なる又は同じ自己注意関数が設定され、且つ異なるモーダル間融合層に異なる又は同じ特徴融合関数が設定される。
【0184】
いくつかの選択可能な実施例において、ベクトル復号モジュール504は、第1目標語句に対して特徴抽出を行って第2ワードベクトルを取得することであって、上記第1目標語句が上記目標ステートメントにおける翻訳済み語句である、ことと、上記第2ワードベクトルを上記符号化特徴ベクトルと組み合わせて特徴抽出を行って復号特徴ベクトルを取得することと、上記復号特徴ベクトルに対応する確率分布を決定し、且つ上記確率分布に基づき上記第1目標語句の後の第2目標語句を決定することと、に用いられる。
【0185】
選択肢として、デコーダは直列接続されているd個の復号モジュールを含み、dは正の整数であり、
ベクトル復号モジュール504は、第2ワードベクトル層により第1目標語句を獲得することであって、第1目標語句が目標ステートメントにおける翻訳済み語句である、ことと、第2ワードベクトル層により第1目標語句に対して特徴抽出を行って、第2ワードベクトルを取得することと、
直列接続されているd個の復号モジュールにより第2ワードベクトルを符号化特徴ベクトルと組み合わせて特徴抽出を行って、復号特徴ベクトルを取得することと、復号特徴ベクトルを分類器に入力し、分類器により復号特徴ベクトルに対応する確率分布を計算し、且つ確率分布に基づき第1目標語句の後の第2目標語句を決定することと、に用いられる。
【0186】
いくつかの選択可能な実施例において、直列接続されているd個の復号モジュールのうちの各々の復号モジュールはいずれも第1自己注意層及び第2自己注意層を含み、
ベクトル復号モジュール504は、第2ワードベクトルを1番目の復号モジュールにおける第1自己注意層に入力し、第1自己注意層により第2ワードベクトルに対して特徴抽出を行って、第2隠れ層ベクトルを取得することと、
第2隠れ層ベクトル及び符号化特徴ベクトルを1番目の復号モジュールにおける第2自己注意層に入力し、第2自己注意層により第2隠れ層ベクトルと符号化特徴ベクトルとを組み合わせて特徴抽出を行って、第2中間ベクトルを取得することと、
第2中間ベクトルを第k番目の復号モジュールに入力してk回目の復号処理を行い、最後の1つの復号モジュールが復号特徴ベクトルを出力するまで続けることであって、kは1よりも大きく且つd以下の正の整数である、ことと、に用いられる。
【0187】
いくつかの選択可能な実施例において、各々の復号モジュールは更に第2ベクトル変換層を含み、
ベクトル復号モジュール504は更に、第2中間ベクトルを第2ベクトル変換層に入力して非線形変換を行って、非線形変換後の第2中間ベクトルを取得することに用いられる。
【0188】
以上のように、本実施例が提供するマルチモーダル機械学習に基づく翻訳装置は、マルチモーダルグラフ表現層によりn個のモーダルのソース言語に対してセマンティック関連付けを行って、セマンティック関連図を構築し、セマンティック関連図において第1結合辺を用いて同一モーダルのセマンティックノードを結合し、且つ第2結合辺を用いて異なるモーダルのセマンティックノードを結合し、セマンティック関連図により複数のモーダルのソース言語の間のセマンティック関連付けを十分に表現する。続いてマルチモーダル融合エンコーダによりセマンティック関連図における特徴ベクトルに対して十分なセマンティック融合を行って、符号化後の符号化特徴ベクトルを取得し、更に符号化特徴ベクトルを復号処理した後により正確な目標ステートメントを取得する。該目標ステートメントはマルチモーダルのソース言語が総合的に表す内容、感情及び言語環境等に一層接近する。
【0189】
図12に参照されるように、本願の1つの実施例が提供するサーバの構造模式図を示す。該サーバは上記実施例において提供するマルチモーダル機械学習に基づく翻訳方法のステップを実施することに用いられる。具体的には、
上記サーバ600はCPU(Central Processing Unit、中央処理装置)601と、RAM(Random Access Memory、ランダムアクセスメモリ)602及びROM(Read-Only Memory、読み出し専用メモリ)603を含むシステムメモリ604と、システムメモリ604と中央処理ユニット601とを結合するシステムバス605と、を含む。上記サーバ600はコンピュータ内の各デバイスの間で情報を伝送することを支援する基本I/O(Input /Output、入力/出力)システム606と、オペレーティングシステム613、アプリケーションプログラム614及び他のプログラムモジュール615を記憶することに用いられる大容量記憶機器607とを更に含む。
【0190】
上記基本入力/出力システム606は情報を表示することに用いられるディスプレイ608と、ユーザーが情報を入力することに用いられる例えばマウス、キーボード等のような入力機器609とを含む。ここで上記ディスプレイ608及び入力機器609はいずれもシステムバス605に結合される入力出力コントローラ610により中央処理ユニット601に結合される。上記基本入力/出力システム606は更に入力出力コントローラ610を含んでもよく、それによりキーボード、マウス又は電子スタイラス等の複数の他の機器からの入力を受信及び処理することに用いられる。同様に、入力出力コントローラ610は更にディスプレイスクリーン、プリンタ又は他のタイプの出力機器に出力を提供する。
【0191】
上記大容量記憶機器607はシステムバス605に結合される大容量記憶コントローラ(図示せず)により中央処理ユニット601に結合される。上記大容量記憶機器607及びその関連するコンピュータ可読媒体はサーバ600に不揮発性記憶を提供する。言い換えれば、上記大容量記憶機器607は例えばハードディスク又はCD-ROM(Compact Disc Read-Only Memory、コンパクトディスクリードオンリーメモリ)ドライバ等のようなコンピュータ可読媒体(図示せず)を含んでもよい。
【0192】
一般性を失うことなく、上記コンピュータ可読媒体はコンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は例えばコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータ等の情報を記憶することに用いられるいかなる方法又は技術により実現される揮発性及び不揮発性、移動可能及び移動不可能媒体を含む。コンピュータ記憶媒体はRAM、ROM、EPROM(Erasable Programmable Read-Only Memory、消去可能プログラマブル読み出し専用メモリ)、EEPROM(Electrically Erasable Programmable Read-Only Memory、電気的消去可能プログラマブル読み出し専用メモリ)、フラッシュメモリ(Flash Memory)若しくは他のソリッドステートメモリ技術、CD-ROM、DVD(Digital Versatile Disc、デジタル多用途ディスク)若しくは他の光学記憶、テープカセット、磁気テープ、磁気ディスク記憶若しくは他の磁気記憶機器を含む。当然ながら、当業者であれば明らかなように、上記コンピュータ記憶媒体は上記幾つか種類に限定されるものではない。上記システムメモリ604及び大容量記憶機器607はメモリと総称されてもよい。
【0193】
本願の各種の実施例に基づき、上記サーバ600は更に例えばインターネット等のネットワーク経由でネットワークにおけるリモートコンピュータに結合して動作することができる。即ち、サーバ600は上記システムバス605に結合されるネットワークインターフェースユニット611によりネットワーク612に結合されてもよく、又は、ネットワークインターフェースユニット611を使用して他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に結合されてもよい。
【0194】
例示的な実施例において、コンピュータ可読記憶媒体を含むもの、例えば、命令を含むメモリ602を更に提供し、上記命令はサーバ600のプロセッサ601により実行されることで上記マルチモーダル機械学習に基づく翻訳方法を完了することができる。選択肢として、コンピュータ可読記憶媒体は非一時的記憶媒体であってもよく、例えば、上記非一時的記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク及び光データ記憶機器等であってもよい。
【0195】
例示的な実施例において、コンピュータプログラム製品を更に提供し、これはコンピュータプログラムを含み、該コンピュータプログラムは電子機器のプロセッサにより実行されてもよく、それにより上記マルチモーダル機械学習に基づく翻訳方法を実現する。
【0196】
当業者であれば理解できるように、上記実施例を実現する全部又は一部のステップはハードウェアにより完了してもよく、プログラムが関連するハードウェアに命令を出すことにより完了してもよく、上記プログラムは一種のコンピュータ可読記憶媒体に記憶されてもよく、上記言及した記憶媒体は読み出し専用メモリ、磁気ディスク又は光ディスク等であってもよい。
【0197】
以上の説明は単に本願の選択可能な実施例に過ぎず、本願を制限するためのものではない。本願の趣旨及び原則内において行われたいかなる修正、均等物への置換又は改良等は、いずれも本願の保護範囲内に含まれるべきである。
【符号の説明】
【0198】
11 モーダル内融合層
12 モーダル間融合層
13 第1ベクトル変換層
21 第1自己注意層
22 第2自己注意層
23 第2ベクトル変換層
31 翻訳対象画像
32 翻訳対象ステートメント
100 マルチモーダル機械翻訳モデル
101 マルチモーダルグラフ表現層
102 第1ワードベクトル層
103 マルチモーダル融合エンコーダ
104 デコーダ
105 第2ワードベクトル層
106 分類器
220 端末
240 サーバ
502 特徴抽出モジュール
503 ベクトル符号化モジュール
504 ベクトル復号モジュール
600 サーバ
601 中央処理ユニット
601 プロセッサ
602 メモリ
604 システムメモリ
605 システムバス
606 出力システム
607 大容量記憶機器
608 ディスプレイ
609 入力機器
610 入力出力コントローラ
611 ネットワークインターフェースユニット
612 ネットワーク
613 オペレーティングシステム
614 アプリケーションプログラム
615 プログラムモジュール
1031 符号化モジュール
1042 復号モジュール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12