特開2023-12177 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2023-12177検索装置、検索方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023012177

(43)【公開日】2023-01-25

(54)【発明の名称】検索装置、検索方法、およびプログラム

(51)【国際特許分類】

G06F 16/38 20190101AFI20230118BHJP

【ＦＩ】

G06F16/38

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2021115664

(22)【出願日】2021-07-13

(11)【特許番号】

(45)【特許公報発行日】2022-09-08

(71)【出願人】

【識別番号】397065480

【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100101247

【弁理士】

【氏名又は名称】高橋俊一

(74)【代理人】

【識別番号】100095500

【弁理士】

【氏名又は名称】伊藤正和

(72)【発明者】

【氏名】川前徳章

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FB03

(57)【要約】

【課題】形式の異なる対象を含めた検索を可能にする。
【解決手段】検索システム１は、対象のＩＤとその対象を参照する文書を入力し、文書から単語を抽出し、少なくとも対象と文書と単語をモードとするテンソルデータを生成する事前処理部１１と、ＮＴＦによりテンソルデータを分解して対象と文書と単語の分散埋め込み表現とトピックを学習するとともに、Ｔｒａｎｓｆｏｒｍｅｒエンコーダに対象と文書と単語の分散埋め込み表現とトピックを文書ごとに入力し、単語の一部を除いたときの除いた単語の予測精度を表す目的関数ＭＬＭと、対象を与えないときの対象の予測精度を表す目的関数ＭＩＤと、対象と単語のマッチング度合いを表す目的関数ＩＬＭの値を最小化するように対象と文書と単語の分散埋め込み表現とトピックを更新する計算処理部１２と、対象と単語との演算を含む検索式を入力し、対象と単語の分散埋め込み表現を得て、分散埋め込み表現の演算結果に対応する対象または単語を検索結果として出力する検索部２０を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

対象の識別子と前記対象を参照する文書を入力し、前記文書から単語を抽出し、少なくとも前記対象と前記文書と前記単語をモードとするテンソルデータを生成する事前処理部と、
ＮＴＦにより前記テンソルデータを分解して前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習する第１学習部と、
Ｔｒａｎｓｆｏｒｍｅｒエンコーダに前記第１学習部の学習した前記対象と前記文書と前記単語の分散埋め込み表現とトピックを前記文書ごとに入力し、前記単語の一部を除いたときの除いた前記単語の予測精度を表す目的関数と、前記対象を与えないときの前記対象の予測精度を表す目的関数と、前記対象と前記単語のマッチング度合いを表す目的関数の値を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを更新する第２学習部と、
前記第１学習部と前記第２学習部で学習した前記対象と前記文書と前記単語の分散埋め込み表現を記憶する結果記憶部と、
前記対象と前記単語との演算を含む検索式を入力し、前記結果記憶部から前記対象と前記単語の分散埋め込み表現を得て、当該分散埋め込み表現の演算結果に対応する前記対象または前記単語を検索結果として出力する検索部を備える
検索装置。

【請求項2】

請求項１に記載の検索装置であって、
前記第１学習部は、前記対象と前記文書と前記単語の分散埋め込み表現を全結合する多層パーセプトロンレイヤと、前記対象と前記文書と前記単語のトピックの積を求めるテンソル因子分解レイヤと、前記分散埋め込み表現の全結合と前記トピックの積から前記テンソルデータの要素の推定値を求めるニューラルテンソル因子分解レイヤを備え、前記要素の推定値の誤差を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習する
検索装置。

【請求項3】

コンピュータが、
対象の識別子と前記対象を参照する文書を入力し、前記文書から単語を抽出し、少なくとも前記対象と前記文書と前記単語をモードとするテンソルデータを生成し、
ＮＴＦにより前記テンソルデータを分解して前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習し、
Ｔｒａｎｓｆｏｒｍｅｒエンコーダに学習した前記対象と前記文書と前記単語の分散埋め込み表現とトピックを前記文書ごとに入力し、前記単語の一部を除いたときの除いた前記単語の予測精度を表す目的関数と、前記対象を与えないときの前記対象の予測精度を表す目的関数と、前記対象と前記単語のマッチング度合いを表す目的関数の値を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを更新し、
学習した前記対象と前記文書と前記単語の分散埋め込み表現を結果記憶部に記憶し、
前記対象と前記単語との演算を含む検索式を入力し、前記結果記憶部から前記対象と前記単語の分散埋め込み表現を得て、当該分散埋め込み表現の演算結果に対応する前記対象または前記単語を検索結果として出力する
検索方法。

【請求項4】

請求項３に記載の検索方法であって、
前記ＮＴＦは、前記対象と前記文書と前記単語の分散埋め込み表現を全結合する多層パーセプトロンレイヤと、前記対象と前記文書と前記単語のトピックの積を求めるテンソル因子分解レイヤと、前記分散埋め込み表現の全結合と前記トピックの積から前記テンソルデータの要素の推定値を求めるニューラルテンソル因子分解レイヤを備え、前記要素の推定値の誤差を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習する
検索方法。

【請求項5】

請求項１または２に記載の検索装置の各部としてコンピュータを動作させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、検索装置、検索方法、およびプログラムに関する。

【背景技術】

【0002】

テキストから画像や音声などの非テキストデータを検索したり、非テキストデータからテキストを検索したりするマルチモーダル検索では、非テキストデータのメタデータに対する全文一致検索を行う方法がある。また、画像と文字列のベクトルの近さが意味の近さになるように学習したモデルを用いて画像または文字列を分散埋め込み表現のベクトルに変換し、ベクトルの近さで画像および文字列を検索する方法がある（非特許文献１－３参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu, “UNITER: UNiversal Image-TExt Representation Learning”, ECCV, 2020, pp. 104-120

【非特許文献2】Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai, “VL-BERT: Pre-training of Generic Visual-Linguistic Representations”, ICLR, 2020

【非特許文献3】Tan Wang, Xing Xu, Yang Yang, Alan Hanjalic, Heng Tao Shen, and Jingkuan Song,“Matching Images and Text with Multimodal Tensor Fusion and Re-ranking”, MM, 2019, pp. 12-20

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の方法では、特徴量を抽出できない非テキストデータあるいは特徴量の抽出が困難な非テキストデータからは分散埋め込み表現が学習できないという問題があった。特徴量を抽出できない対象とは、例えば、場所、イベントなどである。場所そのもの、イベントそのものからは特徴量を抽出できない。

【0005】

また、画像と音声といった異なる形式の特徴量を持つ対象の分散埋め込み表現を同時に学習することができないという問題があった。例えば、画像と文字列のベクトルの近さが意味の近さになるように同時に学習することができるが、画像と文字列に加えて、画像とは異なる形式の特徴量を持つ音声を同時に学習することはできなかった。

【0006】

本発明は、上記に鑑みてなされたものであり、形式の異なる対象を含めた検索を可能にすることを目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様の検索装置は、対象の識別子と前記対象を参照する文書を入力し、前記文書から単語を抽出し、少なくとも前記対象と前記文書と前記単語をモードとするテンソルデータを生成する事前処理部と、ＮＴＦにより前記テンソルデータを分解して前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習する第１学習部と、Ｔｒａｎｓｆｏｒｍｅｒエンコーダに前記第１学習部の学習した前記対象と前記文書と前記単語の分散埋め込み表現とトピックを前記文書ごとに入力し、前記単語の一部を除いたときの除いた前記単語の予測精度を表す目的関数と、前記対象を与えないときの前記対象の予測精度を表す目的関数と、前記対象と前記単語のマッチング度合いを表す目的関数の値を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを更新する第２学習部と、前記対象と前記単語との演算を含む検索式を入力し、前記対象と前記単語の分散埋め込み表現を得て、当該分散埋め込み表現の演算結果に対応する前記対象または前記単語を検索結果として出力する検索部を備える。

【0008】

本発明の一態様の検索方法は、コンピュータが、対象の識別子と前記対象を参照する文書を入力し、前記文書から単語を抽出し、少なくとも前記対象と前記文書と前記単語をモードとするテンソルデータを生成し、ＮＴＦにより前記テンソルデータを分解して前記対象と前記文書と前記単語の分散埋め込み表現とトピックを学習し、Ｔｒａｎｓｆｏｒｍｅｒエンコーダに学習した前記対象と前記文書と前記単語の分散埋め込み表現とトピックを前記文書ごとに入力し、前記単語の一部を除いたときの除いた前記単語の予測精度を表す目的関数と、前記対象を与えないときの前記対象の予測精度を表す目的関数と、前記対象と前記単語のマッチング度合いを表す目的関数の値を最小化するように前記対象と前記文書と前記単語の分散埋め込み表現とトピックを更新し、前記対象と前記単語との演算を含む検索式を入力し、前記対象と前記単語の分散埋め込み表現を得て、当該分散埋め込み表現の演算結果に対応する前記対象または前記単語を検索結果として出力する。

【発明の効果】

【0009】

本発明によれば、形式の異なる対象を含めた検索が可能になる。

【図面の簡単な説明】

【0010】

【図1】図１は、本実施形態の検索システムの構成の一例を示す図である。

【図2】図２は、本実施形態で提案するモデルの一例を示す図である。

【図3】図３は、本実施形態の検索システムの学習処理の流れの一例を示すフローチャートである。

【図4】図４は、本実施形態の検索システムの検索処理の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

［システム構成］
以下、本発明の実施の形態について図面を用いて説明する。

【0012】

図１は、本実施形態の検索システムの構成の一例を示す図である。同図に示す検索システム１は、学習部１０、検索部２０、データ保存部３０、および計算結果記憶部４０を備える。検索システム１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは検索システム１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。

【0013】

学習部１０は、対象と、対象を参照する文書と、文書に出現する単語との間にトピックという構造を仮定し、その構造を介在して対象、文書、および単語の分散埋め込み表現を学習する。対象とは、画像、音楽、または動画などの非テキストデータである。対象は、イベントまたはスポットなどの実体のないものであってもよい。対象を識別子（ＩＤまたはインデックスでもよい）で扱うので、タイプの異なる対象（例えば画像と音声など）を同時に学習できる。対象そのものから特徴量を抽出できなくてもよい。対象を参照する文書とは、対象について記載した文書である。例えば、対象が走っている犬の画像の場合、その対象を参照する文書には「ドッグランで走る秋田犬」と記載されている。

【0014】

学習には、ローカル、グローバルという異なる観点のモデルを用いる。グローバル観点のモデルには、非負値テンソル因子分解（ＮＴＦ）を利用する。ＮＴＦに、対象、対象を参照する文書、および各文書に出現する単語を含むデータを入力し、対象、文書、および単語の分散埋め込み表現と、対象と文書と単語の共起というグローバルな情報であるトピックを学習する。ローカル観点のモデルには、文書ごとに、各文書に出現する単語および各文書の参照する対象というローカルな情報を用いたＴｒａｎｓｆｏｒｍｅｒエンコーダを利用する。ＴｒａｎｓｆｏｒｍｅｒエンコーダにＮＴＦで得られた対象、文書、および単語の分散埋め込み表現とトピックを文書ごとに入力して、対象、文書、および単語の分散埋め込み表現とトピックを学習（更新）する。対象をＩＤで扱うので、タイプの異なる対象と単語を同じ意味空間で表現でき、単語と対象間の意味的な近さに基づいた検索結果を得ることができる。

【0015】

学習部１０は、事前処理部１１と計算処理部１２を備える。事前処理部１１は、処理対象の文書群を単語に分割し、単語の出現頻度に基づいて各文書の単語の重要度を求める。事前処理部１１は、対象および対象を参照する文書について、各文書の各対象に対する参照度合いまたは重みについてのデータも取得する。また、事前処理部１１は、少なくとも対象、文書、および単語の３つのモードを持ち、重要度あるいは出現頻度を要素とするテンソルデータを生成する。

【0016】

計算処理部１２は、ＮＴＦによる計算でテンソルデータを分解し、トピックを因子として、対象、文書、および単語の分散埋め込み表現を学習する。計算処理部１２は、さらに、Ｔｒａｎｓｆｏｒｍｅｒエンコーダによる計算で、ＮＴＦで得られた対象、文書、および単語の分散埋め込み表現とトピックを学習する。計算処理部１２は、ＮＴＦとＴｒａｎｓｆｏｒｍｅｒエンコーダを交互に学習することで、分散埋め込み表現とトピックを得る。

【0017】

検索部２０は、ユーザ端末５から対象と単語との演算を含む検索式を入力し、対象と単語の分散埋め込み表現（分散ベクトル）を計算結果記憶部４０から検索し、分散ベクトルの演算結果に対応する対象または単語をデータ保存部３０から取得して検索結果としてユーザ端末５へ返却する。

【0018】

データ保存部３０は、検索対象の対象、対象を参照する文書などの各種データを保持する。データ保存部３０の保持するデータは、学習部１０の学習に用いられる。

【0019】

計算結果記憶部４０は、対象および単語の分散ベクトルを保持する。対象および単語の分散ベクトルは、データ保存部３０の保持するデータを学習部１０に入力することで得られる。計算結果記憶部４０は、対象および単語の意味空間のインデックスであり、空間内での距離の近さは意味の近さになっている。

【0020】

［提案モデル］
図２を参照し、本実施形態で提案するモデルについて説明する。図２に示す提案モデルは、ＮＴＦとＴｒａｎｓｆｏｒｍｅｒエンコーダを結び付けたモデルである。図２の左側がＮＴＦであり、右側がＴｒａｎｓｆｏｒｍｅｒエンコーダである。図２のモデルでは、データをＮＴＦに入力して文書、単語、および対象の分散埋め込み表現とトピックを学習し、さらに、得られた文書、単語、および対象の分散埋め込み表現とトピックをＴｒａｎｓｆｏｒｍｅｒエンコーダに入力して、文書、単語、および対象の分散埋め込み表現とトピックを学習する。

【0021】

図２の左側のＮＴＦは、テンソル因子分解（ＴＦ）レイヤ、多層パーセプトロン（ＭＬＰ）レイヤ、およびニューラルＴＦレイヤを備える。図２に示すＮＴＦは、ニューラルネットワークに基づくテンソル因子分解モデルである。ＮＴＦは、対象、対象を参照する文書、および各文書に出現する単語をモードとするテンソルデータについて、文書、単語、および対象の分散埋め込み表現とトピックに初期値を与え、対象と文書と単語の間の相互作用の観測値と推定値との間の誤差が小さくなるように対象、文書、および単語の分散埋め込み表現とトピックを学習する。対象と文書と単語の間の相互作用の観測値とは、テンソルデータの要素である。

【0022】

ＴＦレイヤは、対象と文書と単語のトピックを入力し、次式（１）でφ_ＮＴＦ（θ_n, ｔ_v, ｇ_l）を計算する。

【0023】

【数1】

【0024】

ここで、θ_nはｎ番目の文書のトピック、ｔ_vはｖ番目の単語のトピック、ｇ_lはｌ番目の対象のトピックを表す。丸にドットは、ベクトルの要素ごとの積を表す。

【0025】

ＭＬＰレイヤは、対象と文書と単語の分散埋め込み表現を入力し、次式（２）でφ_{ＭＬＰ，Ｈ}（ｅ_n, ｅ_v, ｅ_l）を計算する。Ｈはレイヤの位置（下から何番目のレイヤのインデックスであるか）を示す。

【0026】

【数2】

【0027】

ここで、ｅ_nはｎ番目の文書の分散埋め込み表現、ｅ_vはｖ番目の単語の分散埋め込み表現、ｅ_lはｌ番目の対象の分散埋め込み表現を表す。「;」は結合オペレーションを表す。Ｗ_hとｂ_hはｈ番目のＭＬＰレイヤのプロジェクション行列とバイアスである。ａ_hはｈ番目のＭＬＰレイヤのパーセプトロンの活性化関数である。ＨはＭＬＰレイヤの中間層の数である。

【0028】

ニューラルＴＦレイヤは、次式（３）で推定値ｄ_n,v,t（ｄの上に＾）を計算する。

【0029】

【数3】

【0030】

次式（４）を最小化するように、各種パラメータ（θ_n，ｔ_v，ｇ_l，ｅ_n，ｅ_v，ｅ_l）を更新（学習）する。

【0031】

【数4】

【0032】

ここで、ｄ_n,v,tは観測値を表す。Ｄ_oは観測値の集合を表す。斜体のＤは負の値の集合を表す。正体のＤは入力したデータを表す。右辺の第２項は、オーバーフィッティングを防止するための正規化項である。ωは全てのパラメータを表し、λ_ωは正規化項を調整するパラメータである。

【0033】

以上のＮＴＦによる計算により、入力したデータを分解した対象、文書、および単語の分散埋め込み表現とトピックが学習される。なお、本実施形態では、ニューラルネットワークに基づくテンソル因子分解モデルを用いたが、他のモデルを用いてテンソルデータを因子分解してもよい。

【0034】

図２の右側のＴｒａｎｓｆｏｒｍｅｒエンコーダには、文書ごとに、ＮＴＦで学習した文書、対象、および単語の分散埋め込み表現（ｅ_n，ｅ_l，ｅ_v）をＴｏｋｅｎＥｍｂｅｄｄｉｎｇを反映し、トピック（θ_n，ｔ_v，ｇ_l）をＴｏｐｉｃＥｍｂｅｄｄｉｎｇに反映し、単語の出現位置をＰｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇを反映し、データ形式をＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇに反映して、文書、対象、および単語のそれぞれについて、ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ、ＰｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ、ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇ、およびＴｏｐｉｃＥｍｂｅｄｄｉｎｇの総和のシーケンスを入力する。文書が複数の対象を参照する場合、複数の対象を入力してもよい。具体的には、図２のＩＤの列を増やして入力する。

【0035】

Ｔｒａｎｓｆｏｒｍｅｒエンコーダでは、以下の式で示される目的関数（ＭＩＤ、ＩＬＭ、ＭＬＭ）の値を最小化するように、各種パラメータ（θ_n，ｔ_v，ｇ_l，ｅ_n，ｅ_v，ｅ_l）を更新（学習）する。

【0036】

【数5】

【0037】

ここで、ζは学習するパラメータ（分散埋め込み、トピックを含める）を表す。ｗ_jとｌ_jはｊ番目の文書の単語とｊ番目の文書が言及する対象を表す。バックスラッシュを付したｍはｍ番目の単語あるいは対象のＩＤをマスクしたことを表す。

【0038】

式（５）のＭＬＭは、対象のＩＤを与え、単語（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）の一部をランダムに［ＭＡＳＫ］に差し替えたときに、マスクした単語をＴｒａｎｓｆｏｒｍｅｒエンコーダがどれだけ精度よく予測できるかを表す。

【0039】

式（６）のＭＩＤは、対象のＩＤを与えないときに、その対象を参照する文書の単語の全てから、対象をＴｒａｎｓｆｏｒｍｅｒエンコーダがどれだけ精度よく予測できるかを表す。

【0040】

式（７）のＩＬＭは、対象と単語とのマッチング度合いを表す。

【0041】

式（８）は、式（５）から式（７）を合わせたものである。式（８）のＩ［ｙ＝１］は、単語（文書）とＩＤのペアとしてＩＤが正しいことを示すインジケータである。式（８）の値を最小化するように、文書、対象、および単語の分散埋め込み表現とトピックを更新する。

【0042】

Ｔｒａｎｓｆｏｒｍｅｒエンコーダによって学習された文書、対象、および単語の分散埋め込み表現とトピックをＮＴＦの初期値として与えて、学習を繰り返してもよい。

【0043】

［動作］
次に、図３のフローチャートを参照し、学習処理について説明する。

【0044】

ステップＳ１１にて、学習部１０は、データ保存部３０から文書群を読み出して、形態素解析によりテキスト群を単語に分割する。学習部１０は、ｐｒｅ－ｔｒａｉｎｅｄｍｏｄｅｌを利用し、そのトークナイザで分割し、かつその分散埋め込み表現を初期値としても良い。各文書における単語の出現頻度も求めておく。

【0045】

ステップＳ１２にて、学習部１０は、データ保存部３０から対象（ＩＤ）群と対象を参照する文書群を読み出して、ＮＴＦに、対象、文書、および単語を含むデータを入力し、対象、文書、および単語の分散埋め込み表現とトピックを学習する。

【0046】

ステップＳ１３にて、学習部１０は、ＮＴＦにより学習した対象、文書、および単語の分散埋め込み表現とトピックをＴｒａｎｓｆｏｒｍｅｒエンコーダに入力し、対象、文書、および単語の分散埋め込み表現とトピックを学習する。

【0047】

学習部１０は、ステップＳ１２，Ｓ１３を繰り返して、対象、文書、および単語の分散埋め込み表現とトピックの学習を繰り返す。

【0048】

得られた対象、文書、および単語の分散埋め込み表現は、計算結果記憶部４０に格納される。

【0049】

続いて、図４のフローチャートを参照し、検索処理について説明する。

【0050】

ステップＳ２１にて、検索部２０は、ユーザ端末５から検索内容（クエリ）を受信する。クエリは、単語でもよいし、対象でもよい。クエリは、単語と対象の演算を含んでもよい。例えば、「走っている犬の画像」＋「太陽」というように、画像と単語の足し算をクエリとしてもよい。

【0051】

ステップＳ２２にて、検索部２０は、受信したクエリをキーとして計算結果記憶部４０に問い合わせ、該当する分散ベクトル（分散埋め込み表現）を得る。例えば、上記のクエリの場合、検索部２０は、「走っている犬の画像」と「太陽」のそれぞれの分散ベクトルを得る。

【0052】

ステップＳ２３にて、検索部２０は、計算結果記憶部４０からステップＳ２２で得た分散ベクトルに近い分散ベクトルを検索し、検索された近い分散ベクトルに対応する対象または単語をデータ保存部３０から取得する。分散ベクトル間の距離はコサイン類似度を使って測定できる。上記のクエリの場合、検索部２０は、「走っている犬の画像」の分散ベクトルと「太陽」の分散ベクトルとを足した分散ベクトルに近い分散ベクトルを計算結果記憶部４０から検索する。例えば、クエリに近いものとして「犬が陽に向かって走る画像」の分散ベクトルが検索され、検索部２０は、データ保存部３０から「犬が陽に向かって走る画像」を取得する。

【0053】

ステップＳ２４にて、検索部２０は、ステップＳ２３で取得した対象または単語を検索結果としてユーザ端末５へ返却する。例えば、上記のクエリの例では、検索結果として「犬が陽に向かって走る画像」がユーザ端末５へ返却される。

【0054】

［検証］
次に、本実施形態の検索システムの検証結果の一例について説明する。

【0055】

次表１に、本実施形態の検索システムを映画配信サービスにおいて使用し、対象（映画）と単語の演算で表されるクエリで得られた結果を示す。表１では、「対象－単語」（ｉｔｅｍ－ｗｏｒｄ）、「対象＋単語」（ｉｔｅｍ＋ｗｏｒｄ）、「対象－対象」（ｉｔｅｍ－ｉｔｅｍ）、および「対象＋対象」（ｉｔｅｍ＋ｉｔｅｍ）のオペレーションのそれぞれについて、４つの映画と４つの単語を検索結果として示した。

【0056】

【表1】

【0057】

「ｉｔｅｍ－ｗｏｒｄ」では、映画の“Ｇｌａｄｉａｔｏｒ”から歴史的な要素を取り除いた映画および単語を検索した。「ｉｔｅｍ＋ｗｏｒｄ」では、映画の“Ｇｌａｄｉａｔｏｒ”に未来的な要素を追加した映画および単語を検索した。「ｉｔｅｍ－ｉｔｅｍ」では、映画の“Ｇｌａｄｉａｔｏｒ”から映画の“ＭａｒｙＰｏｐｐｉｎｓ”的な要素を取り除いた映画および単語を検索した。「ｉｔｅｍ＋ｉｔｅｍ」では、映画の“Ｇｌａｄｉａｔｏｒ”に映画の“ＭａｒｙＰｏｐｐｉｎｓ”的な要素を追加した映画および単語を検索した。いずれの場合も、オペレーションに合った映画および単語が得られている。

【0058】

次表２に、非特許文献１－３の方法と本実施形態の方法によるＦｌｉｃｋｒ３０での画像とテキストのマッチングの比較結果を示す。Ｉ２Ｔは画像からテキストを検索した結果であり、Ｔ２Ｉはテキストから画像を検索した結果である。Ｒ＠Ｎは、上位Ｎ件に正解が含まれている比率である。最もよい結果を太字で示している。

【0059】

【表2】

【0060】

表２から、本実施形態の検索システムは、非特許文献１－３の方法と比べて高い正答率であるといえる。

【0061】

以上説明したように、本実施形態の検索システム１は、対象のＩＤとその対象を参照する文書を入力し、文書から単語を抽出し、少なくとも対象と文書と単語をモードとするテンソルデータを生成する事前処理部１１と、ＮＴＦによりテンソルデータを分解して対象と文書と単語の分散埋め込み表現とトピックを学習するとともに、Ｔｒａｎｓｆｏｒｍｅｒエンコーダに対象と文書と単語の分散埋め込み表現とトピックを文書ごとに入力し、単語の一部を除いたときの除いた単語の予測精度を表す目的関数ＭＬＭと、対象を与えないときの対象の予測精度を表す目的関数ＭＩＤと、対象と単語のマッチング度合いを表す目的関数ＩＬＭの値を最小化するように対象と文書と単語の分散埋め込み表現とトピックを更新する計算処理部１２と、対象と単語との演算を含む検索式を入力し、対象と単語の分散埋め込み表現を得て、分散埋め込み表現の演算結果に対応する対象または単語を検索結果として出力する検索部２０を備える。本実施形態の検索システムは、異なる形式の特徴量を持つ対象、文書、および単語の分散埋め込み表現を同時に学習し、対象と単語を同じ意味空間で表現でき、単語と対象間の意味的な近さに基づいた検索結果を得ることができる。また、対象から特徴量を抽出しないので、特徴量が抽出できない対象の分散埋め込み表現を学習できる。

【0062】

本実施形態の検索システム１は、グローバルな観点のＮＴＦとローカルな観点のＴｒａｎｓｆｏｒｍｅｒエンコーダを結び付けて、対象、文書、および単語の分散埋め込み表現を学習することで、より精度よく分散埋め込み表現を学習できる。

【符号の説明】

【0063】

１検索システム
１０学習部
１１事前処理部
１２計算処理部
２０検索部
３０データ保存部
４０計算結果記憶部

【図1】

【図2】

【図3】

【図4】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版