IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7191054マルチメディアデータからテキストを推論するプログラム、装置及び方法
<>
  • 特許-マルチメディアデータからテキストを推論するプログラム、装置及び方法 図1
  • 特許-マルチメディアデータからテキストを推論するプログラム、装置及び方法 図2
  • 特許-マルチメディアデータからテキストを推論するプログラム、装置及び方法 図3
  • 特許-マルチメディアデータからテキストを推論するプログラム、装置及び方法 図4
  • 特許-マルチメディアデータからテキストを推論するプログラム、装置及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-08
(45)【発行日】2022-12-16
(54)【発明の名称】マルチメディアデータからテキストを推論するプログラム、装置及び方法
(51)【国際特許分類】
   G06F 40/56 20200101AFI20221209BHJP
   G06F 40/44 20200101ALI20221209BHJP
   G06N 3/04 20060101ALI20221209BHJP
【FI】
G06F40/56
G06F40/44
G06N3/04 154
【請求項の数】 8
(21)【出願番号】P 2020012207
(22)【出願日】2020-01-29
(65)【公開番号】P2021117860
(43)【公開日】2021-08-10
【審査請求日】2021-12-17
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】石川 彰夫
(72)【発明者】
【氏名】服部 元
【審査官】長 由紀子
(56)【参考文献】
【文献】特表2019-537147(JP,A)
【文献】特開2019-219827(JP,A)
【文献】特開2011-221794(JP,A)
【文献】米国特許出願公開第2019/0377987(US,A1)
【文献】野口 敬輔 外2名,画像物体間の構造情報を用いた深層学習によるキャプション生成,言語処理学会第24回年次大会 発表論文集 [online],日本,言語処理学会,2018年03月05日,pp.384-387
【文献】西田 京介、斉藤 いつみ,深層学習におけるアテンション技術の最新動向,電子情報通信学会誌,日本,一般社団法人電子情報通信学会,2018年06月01日,第101巻 第6号,pp.591-596
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
マルチメディアデータからテキストを生成する装置に搭載されたコンピュータを機能させるプログラムであって、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習する
ように機能させ、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ようにコンピュータを機能させることを特徴とするプログラム。
【請求項2】
マルチメディアデータは、画像、動画像又は音声であり、
テキストは、画像、動画像又は音声のキャプションとなる説明文である
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
ニューラルネットワークは、
画像又は動画像のマルチメディアデータに対しては、畳み込みニューラルネットワークであり、
音声のマルチメディアデータに対しては、再帰型ニューラルネットワークである
ようにコンピュータを機能させることを特徴とする請求項2に記載のプログラム。
【請求項4】
対訳エンコーダは、注意(attention)機構を有しており、
ニューラルネットワークから生成されるコンテキストベクトルは、対訳エンコーダによって生成されたコンテキストベクトルに一致させることによって、潜在的に注意機構を含む
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
【請求項5】
対訳エンコーダ及び対訳デコーダはそれぞれ、異なる言語数に応じて複数有し、
対訳エンコーダは、異なる言語の複数のコーパステキストをそれぞれ入力し、1つのコンテキストベクトルを生成し、及び/又は、
対訳デコーダは、1つのコンテキストベクトルを入力し、異なる言語の複数のコーパステキストをそれぞれ出力する
べく学習したものとなるようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
【請求項6】
対訳エンコーダ及び対訳デコーダは、系列変換モデル(sequence-to-sequence)のニューラルネットワークに基づくものであり、
対訳エンコーダは、埋め込み層及び再帰層から構成され、
対訳デコーダは、埋め込み層、再帰層及び出力層から構成される
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
【請求項7】
マルチメディアデータからテキストを生成する推論装置において、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習し、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ことを特徴とする推論装置。
【請求項8】
マルチメディアデータからテキストを生成する装置の推論方法において、
装置は、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習し、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ように実行することを特徴とする推論方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチメディアデータ(画像、動画像又は音声)からテキスト(キャプション)を推論(inference)する技術に関する。
【背景技術】
【0002】
従来、深層学習を用いて、マルチメディアデータからキャプションを生成する技術がある(例えば非特許文献1参照)。
【0003】
図1は、従来技術における推論装置の機能構成図である。
【0004】
図1によれば、非特許文献1に基づいて、訓練段階と運用段階とから構成されている。
学習データベースは、学習用マルチメディアデータ及び学習用テキストを対応付けて記憶している。これは、マルチメディアデータとテキストとを対応付けたマルチモーダルシステムで利用されるものである。ここでのテキストは、マルチメディアデータに対するキャプションとなる単語列のセットをいう。
【0005】
<訓練段階>
エンコーダ-デコーダモデルとして、ニューラルネットワーク(畳み込みニューラルネットワーク)とデコーダとから構成されている。
【0006】
ニューラルネットワークとしては、例えばGoogLeNet(登録商標)のような、事前学習済みのクラス分類用の畳み込みニューラルネットワークであり、隠れ層の出力をそのままコンテキストベクトルとして出力する。
デコーダは、コンテキストベクトルを入力し、次の単語の出現確率を出力するLSTM(Long short-term memory)に基づくものである。LSTMは、RNN (Recurrent Neural Network)の拡張として、時系列データ(sequential data)に対して長期記憶(Long term memory)及び短期記憶(Short term memory)によって構成された学習モデルである。
ニューラルネットワークは、学習用マルチメディアデータから当該ニューラルネットワーク自ら生成する単語列のセットが、学習用テキストの単語列のセットと一致するべく学習する。
【0007】
<運用段階>
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、当該コンテキストベクトルからデコーダによってテキストを生成する。
これによって、推論装置は、任意の対象マルチメディアデータ(例えば画像)を入力することによって、その対象マルチメディアデータからキャプションのテキストを生成することができる。
【先行技術文献】
【非特許文献】
【0008】
【文献】O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and tell: A neural image caption generator", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.3156-3164, 2015.
【文献】星の本棚、「自然言語処理(NLP)」、[online]、[令和1年12月21日検索]、インターネット<URL:http://yagami12.hatenablog.com/entry/2017/12/30/175113#ID_10-5-1>
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、非特許文献1に記載の技術によれば、ニューラルネットワークによって生成されるコンテキストベクトルは、クラス分類に最適化されたものであって、必ずしもテキスト(キャプション)の生成に適切ではないという課題がある。
また、LSTMを用いたデコーダの場合、言語モデルに基づいて単語列を生成するために、例えば画像(マルチメディアデータ)に何が写っているかではなく、文として自然であることを優先してしまうという課題がある。
【0010】
近年のニューラルネットワークを用いた自然言語処理では、文として自然であることを過度に優先することのないよう、エンコーダが「注意機構(Attention)」を備えている。
注意機構とは、新たに「デコーダで生成しようとしているi番目のtargetの単語翻訳時の内部状態」と、「エンコーダでの各単語の隠れ層」とを用いて計算されるコンテキストベクトルを、デコーダの推定時に用いるものである。そのために、注意機構を含むモデルでは、i番目の単語を出力するときに、入力として(1)1つ前の翻訳単語結果と、(2)デコーダの内部状態と、(3)注意機構によって算出されたコンテキストベクトルとが与えられ、それを用いてi番目の単語を推論する。
このように、注意機構によって重要視すべき単語や語句が指定されるために、適切な自然言語処理が可能となる。
【0011】
しかしながら、一般に、クラス分類用のニューラルネットワークは、注意機構を備えることができないため、重要視すべき特徴を指定することができない。
【0012】
図1によれば、運用段階で、例えば対象画像として、子供が歯磨きの準備をしている画像が、ニューラルネットワークに入力されている。これに対して、デコーダは、キャプションとして「子供がバットを構えている」と出力されている。このとき、ニューラルネットワークがGoogLeNetであれば、当然に「歯ブラシ」としてクラス分類していると考えられる。
これは、「子供が歯ブラシを構えている」という文よりも、「子供がバットを構えている」という文の方がありふれていることによって、後者が優先されたためと考えられる。即ち、ニューラルネットワークによれば「歯ブラシ」を認識したものの、過去に学習された「構えている」の認識に誘導されて、「歯ブラシを構えている」という不自然な文を、「バットを構えている」と推論したものと考えられる。
一方で、「バットを構えている」は、文としては自然であるものの、対象画像から見ると不自然なものとなってしまう。なぜなら、生成されたコンテキストベクトルは、クラス分類に最適化されたものであって、必ずしも文の生成に適切ではないためである。
【0013】
そこで、本発明は、マルチメディアデータから、既存の言語モデルやニューラルネットワークの影響をできる限り受けないようなテキストを生成するプログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明によれば、マルチメディアデータからテキストを生成する装置に搭載されたコンピュータを機能させるプログラムであって、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習する
ように機能させ、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ようにコンピュータを機能させることを特徴とする。
【0015】
本発明のプログラムにおける他の実施形態によれば、
マルチメディアデータは、画像、動画像又は音声であり、
テキストは、画像、動画像又は音声のキャプションとなる説明文である
ようにコンピュータを機能させることも好ましい。
【0016】
本発明のプログラムにおける他の実施形態によれば、
ニューラルネットワークは、
画像又は動画像のマルチメディアデータに対しては、畳み込みニューラルネットワークであり、
音声のマルチメディアデータに対しては、再帰型ニューラルネットワークである
ようにコンピュータを機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダは、注意(attention)機構を有しており、
ニューラルネットワークから生成されるコンテキストベクトルは、対訳エンコーダによって生成されたコンテキストベクトルに一致させることによって、潜在的に注意機構を含む
ようにコンピュータを機能させることも好ましい。
【0018】
本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダ及び対訳デコーダはそれぞれ、異なる言語数に応じて複数有し、
対訳エンコーダは、異なる言語の複数のコーパステキストをそれぞれ入力し、1つのコンテキストベクトルを生成し、及び/又は、
対訳デコーダは、1つのコンテキストベクトルを入力し、異なる言語の複数のコーパステキストをそれぞれ出力する
べく学習したものとなるようにコンピュータを機能させることも好ましい。
【0019】
本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダ及び対訳デコーダは、系列変換モデル(sequence-to-sequence)のニューラルネットワークに基づくものであり、
対訳エンコーダは、埋め込み層及び再帰層から構成され、
対訳デコーダは、埋め込み層、再帰層及び出力層から構成される
ようにコンピュータを機能させることも好ましい。
【0020】
本発明によれば、マルチメディアデータからテキストを生成する推論装置において、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習し、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ことを特徴とする。
【0021】
本発明によれば、マルチメディアデータからテキストを生成する装置の推論方法において、
装置は、
訓練段階として、
対訳となる第1の言語のコーパステキスト及び第2の言語のコーパステキストを入力し、エンコーダ-デコーダモデルとして、第1の言語のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第2の言語のコーパステキストを出力する対訳デコーダとを学習し、
学習用マルチメディアデータ及び学習用テキストを対応付けて入力し、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワークを学習し、
運用段階として、
対象マルチメディアデータからニューラルネットワークによってコンテキストベクトルを生成し、
当該コンテキストベクトルから対訳デコーダによってテキストを生成する
ように実行することを特徴とする。
【発明の効果】
【0022】
本発明のプログラム、装置及び方法によれば、マルチメディアデータから、既存の言語モデルやニューラルネットワークの影響をできる限り受けないようなテキストを生成することができる。
【図面の簡単な説明】
【0023】
図1】従来技術における推論装置の機能構成図である。
図2】本発明における推論装置の訓練段階の機能構成図である。
図3】対訳デコーダ及び対訳エンコーダの訓練を表す第1の実施形態の説明図である。
図4】対訳デコーダ及び対訳エンコーダの訓練を表す第2の実施形態の説明図である。
図5】本発明における推論装置の運用段階の機能構成図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0025】
図2は、本発明における推論装置の訓練段階の機能構成図である。
【0026】
図2によれば、推論装置1は、訓練段階として、対訳コーパスデータベース101と、学習データベース102と、対訳エンコーダ111と、対訳デコーダ112と、ニューラルネットワーク12とを有する。これら機能構成図は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の推論方法における訓練段階としても理解できる。
ここで、訓練は、第1の訓練段階と第2の訓練段階とに区分される。各訓練段階とも、エンコーダ-デコーダモデルとして構成され、エンコーダ側とデコーダ側とがコンテキストベクトルを介して接続される。
【0027】
<<第1の訓練段階>>
第1の訓練段階では、対訳コーパスデータベース101と、対訳エンコーダ111と、対訳デコーダ112とによって訓練される。
【0028】
[対訳コーパスデータベース101]
対訳コーパスデータベース101は、異なる言語間で対訳となるコーパステキスト(corpus text)を蓄積したものである。これは、対訳エンコーダ111に入力すべき第1の言語のコーパステキストと、対訳デコーダ112で出力されるべき第2の言語のコーパステキストとを対応付けたものである。
コーパステキストは、例えばニューラル機械翻訳における多言語の対訳コーパスであってもよい。即ち、同じ意味を表す異なる言語を、対訳として用意する。
日本語:「私はあなたを愛している。」
英語 :「I love you.」
独語 :「Ich liebe dich.」
中国語:「我愛弥」
【0029】
[対訳エンコーダ111]
対訳エンコーダ111は、第1の言語のコーパステキストを入力し、第1の言語のコーパステキストからコンテキストベクトルを生成する、ように学習する。ここで、対訳エンコーダは、注意(attention)機構を有する。
[対訳デコーダ112]
対訳デコーダ112は、当該コンテキストベクトルから第2の言語のコーパステキストを出力する、ように学習する。
【0030】
対訳エンコーダ111及び対訳デコーダ112は、エンコーダ-デコーダモデルとして、一方の系列(sequence)から他方の系列へ変換する確率をモデル化した、ニューラルネットワークに基づく「系列変換モデル(sequence-to-sequence / seq2seq)」として構成されたものである(例えば非特許文献2参照)。即ち、系列Xが入力されたときの、ある系列Yが出力される条件付き確率P(Y|X)を、モデル化したものである。
系列変換モデルは、系列Xを入力し、固定長の「コンテキストベクトル」を生成する対訳エンコーダ111と、その固定長のコンテキストベクトルから系列Yを出力する対訳デコーダ112とから構成される。
【0031】
ここで、本発明によれば、マルチメディアデータから1つの言語のキャプションしか生成しないにも拘わらず、異なる言語に対訳コーパスを用いる点に、最も注目すべきである。
通常、マルチメディアデータからキャプションを生成する場合、そのキャプションは、1つの言語に過ぎない。即ち、訓練段階と運用段階とは、同一言語を用いるのが一般的である。当然、キャプションが日本語であれば、その他の言語間の対訳コーパスなど必要としない。対訳エンコーダ-対訳デコーダモデルで、日本語同士で対訳コーパスを用いたとしても、単なる恒等変換にしかならない。そのために、マルチメディアデータからのキャプションの生成に、対訳コーパステキストを用いることは全く想定されない。
これに対し、本発明によれば、あえて、キャプションの言語を含む複数の異なる言語間の対訳コーパスを用いている。その理由は、言語が多種類であるほど、個々の言語モデルの影響を受けないコンテキストベクトルの生成及び注意機構が可能となることにある。これによって、最終的に生成されるキャプションは、既存の言語モデルやニューラルネットワークの影響をできる限り受けないものとなることが期待される。
【0032】
図3は、対訳デコーダ及び対訳エンコーダの訓練を表す第1の実施形態の説明図である。
【0033】
図3によれば、対訳エンコーダ111には、第1の言語のコーパステキストに基づく形態素系列が入力される。
日本語:「あなた/を/愛し/て/いる/<EOS>」
対訳デコーダ112には、第2の言語のコーパステキストに基づく形態素系列が入力される。
英語:「<BOS>/I/love/you/<EOS>」
第1の言語のコーパステキスト、第2の言語のコーパステキストとは、異なる言語であるが、同義文である。
【0034】
また、図3によれば、対訳エンコーダ111には、例えば以下の日本語文が入力されている。
「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」
これに対し、対訳デコーダ112は、コンテキストベクトルから、以下のような英語文を出力するように、対訳エンコーダ111及び対訳デコーダ112を学習する。
「The shogunate banished Portuguese in 1639, ordered Daimyo to guard
the coast.」
同様に、図3によれば、対訳エンコーダ111には、例えば以下の日本語文が入力されている。
「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた。」
これに対し、対訳デコーダ112は、コンテキストベクトルから、以下のような英語文を出力するように、対訳エンコーダ111及び対訳デコーダ112を学習する。
「In 1639, the Portuguese were expelled, and the shogunate was ordered
to protect the coast from Daimyo.」
【0035】
図3によれば、対訳エンコーダ111は、埋め込み層及び再帰層から構成され、第1の言語のコーパステキストからコンテキストベクトルを出力するように学習する。
埋め込み層は、入力テキストXの各単語xを、埋め込みベクトル(embedding vector)の分散表現(distribute representation)に変換する。
次に、再帰層は、埋め込みベクトルを入力し、コンテキストベクトルを出力するように、再帰型ニューラルネットワークとして機能する。
【0036】
これに対し、デコーダ12は、埋め込み層、再帰層及び出力層から構成され、コンテキストベクトルを入力し、第2の言語のコーパステキストを出力するように学習する。
埋め込み層は、出力テキストYの各単語yを、埋め込みベクトルの分散表現に変換する。
次に、再帰層は、埋め込みベクトルとコンテキストベクトルとを入力し、再帰型ニューラルネットワークとして機能する。
出力層は、再帰層から出力された出力系列Yの単語yに対応する隠れ層状態ベクトルを入力し、テキストを出力する。
【0037】
図4は、対訳デコーダ及び対訳エンコーダの訓練を表す第2の実施形態の説明図である。
【0038】
図4によれば、4つの異なる言語のコーパステキストを対応付けると共に、2つの対訳エンコーダ111と、2つの対訳デコーダ112とから、コンテキストベクトルが生成されている。即ち、2つの対訳エンコーダ111と2つの対訳デコーダ112とによって構成している。
図4によれば、日本語に対応する対訳エンコーダ111と、中国語に対応する対訳エンコーダ111とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ112と、独語に対応する対訳デコーダ112とに入力して学習している。これによって、4つの異なる言語について、同義文となる対訳コーパスに共通するコンテキストベクトルが生成されることとなる。
【0039】
勿論、更なる実施形態として、対訳エンコーダ111及び対訳デコーダ112を、1対2、2対1と異なるように構成してもよい。
例えば、日本語に対応する対訳エンコーダ111とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ112と、独語に対応する対訳デコーダ112とに入力して学習するものであってもよい。
また、例えば、日本語に対応する対訳エンコーダ111と、中国語に対応する対訳エンコーダ111とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ112に入力して学習するものであってもよい。
【0040】
<<第2の訓練段階>>
第2の訓練段階では、学習データベース102と、対訳エンコーダ111と、ニューラルネットワーク12とによって訓練される。
【0041】
[学習データベース102]
学習データベース102は、学習用マルチメディアデータ及び学習用テキストを対応付けて蓄積したものである。これは、従来技術としての図1における学習データベースと同様のものであって、マルチメディアデータとテキストとを対応付けたマルチモーダルシステムで利用されるものである。
マルチメディアデータは、例えば画像、動画像又は音声である。また、テキストは、画像、動画像又は音声のキャプションとなる説明文(例えば日本語)である。
【0042】
第2の訓練段階では、学習データベース102と、対訳エンコーダ111と、ニューラルネットワーク12とによって構成される。ここで、第2の訓練段階における対訳エンコーダ111は、第1の訓練段階で学習された対訳エンコーダ111をそのまま用いている。
【0043】
[ニューラルネットワーク12]
ニューラルネットワーク12は、エンコーダ-デコーダモデルとして、学習用マルチメディアデータからニューラルネットワークによって生成されるコンテキストベクトルが、学習用テキストから対訳エンコーダによって生成されたコンテキストベクトルと一致するべく当該ニューラルネットワーク12を学習する。
ニューラルネットワークは、例えば画像又は動画像のマルチメディアデータに対しては、畳み込みニューラルネットワークであるのが好ましい。また、例えば音声のマルチメディアデータに対しては、再帰型ニューラルネットワークであるのが好ましい。
【0044】
前述した図2によれば、第2の訓練段階について、選手がバットを構えている画像(学習用マルチメディアデータ)と、学習用テキスト「選手がバットを構えている」とが入力され、対訳エンコーダ111とニューラルネットワーク12との間で共通のコンテキストベクトル(特徴量)によって学習される。
このとき、対訳エンコーダ111によって生成されたコンテキストベクトルは、潜在的に注意機構を含むこととなる。
【0045】
<<運用段階>>
図5は、本発明における推論装置の運用段階の機能構成図である。
【0046】
推論装置1は、対象マルチメディアデータから、キャプションとしてのテキストを推論する。
運用段階では、ニューラルネットワーク12と対訳デコーダ112とによって推論される。
ニューラルネットワーク12は、対象マルチメディアデータからコンテキストベクトルを生成する。ニューラルネットワーク12から生成されるコンテキストベクトルは、第2の訓練段階における対訳エンコーダ111によって訓練されたものであり、潜在的に注意機構を含む。
対訳デコーダ112は、当該コンテキストベクトルからテキストを生成する。
【0047】
図5によれば、運用段階で、例えば対象画像として、子供が歯磨きの準備をしている画像が、ニューラルネットワーク12に入力されている。これに対して、対訳デコーダ112は、キャプションとして「子供が歯ブラシを持っている」と出力されている。この点で、従来技術における前述した図1と異なっている。
【0048】
これは、「子供がバットを構えている」という文よりも、注意機構によって「子供が歯ブラシを持っている」という文の方が優先されている。ニューラルネットワーク12によれば「歯ブラシ」を認識した上で、注意機構によって自然な文として「子供が歯ブラシを持っている」と推論されている。
このように、コンテキストベクトルに、対訳コーパスに基づく言語の注意機構を内在させることによって、1つの言語の言語モデルに引き摺られることなく、マルチメディアデータの推論結果も考慮したキャプション(テキスト)を推論することができる。
【0049】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、マルチメディアデータから、既存の言語モデルやニューラルネットワークの影響をできる限り受けないようなテキストを生成することができる。
【0050】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0051】
1 推論装置
101 対訳コーパスデータベース
102 学習データベース
111 対訳エンコーダ
112 対訳デコーダ
12 ニューラルネットワーク

図1
図2
図3
図4
図5