IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

2024-13058データ管理装置、データ管理方法、及びデータ管理プログラム
<>
  • -データ管理装置、データ管理方法、及びデータ管理プログラム 図1
  • -データ管理装置、データ管理方法、及びデータ管理プログラム 図2
  • -データ管理装置、データ管理方法、及びデータ管理プログラム 図3
  • -データ管理装置、データ管理方法、及びデータ管理プログラム 図4
  • -データ管理装置、データ管理方法、及びデータ管理プログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024013058
(43)【公開日】2024-01-31
(54)【発明の名称】データ管理装置、データ管理方法、及びデータ管理プログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20240124BHJP
【FI】
G06F16/335
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022114975
(22)【出願日】2022-07-19
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り ・ウェブサイトのアドレス https://proceedings-of-deim.github.io/DEIM2022/papers/G21-1.pdf 掲載日 令和4年2月18日 ・研究集会名 第14回データ工学と情報マネジメントに関するフォーラム 開催場所 ウェブ開催 開催日 令和4年2月28日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「CyborgCrowdにおける人と計算機の高度連携方式およびミドルウェア」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(71)【出願人】
【識別番号】000001317
【氏名又は名称】株式会社熊谷組
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】伊藤 寛祥
(72)【発明者】
【氏名】渡邉 真悟
(72)【発明者】
【氏名】森嶋 厚行
(72)【発明者】
【氏名】松原 正樹
(72)【発明者】
【氏名】大本 晋士郎
(72)【発明者】
【氏名】伊藤 達也
(72)【発明者】
【氏名】山田 一郎
(72)【発明者】
【氏名】白井 公人
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HA01
5B175JA02
(57)【要約】
【課題】データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築する。
【解決手段】データ管理装置(1)のプロセッサ(10)は、データセット(DS0に含まれる各データを、データ間の関係に基づいて潜在空間(LS)に埋め込む埋込処理と(S111)と、データセットDSに含まれる各データが埋め込まれた潜在空間(LS)を、ディスプレイに表示する表示処理(S112)と、データセット(LS)に含まれる少なくとも1つのデータの潜在空間LSにおける位置を、ユーザ操作に応じて移動する移動処理(S113)と、データ間の関係を、移動処理(S113)において移動されたデータの潜在空間(LS)における位置に基づいて更新する更新処理(S114)と、を含む学習処理(S11)を実行する。
【選択図】図2
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを備え、
前記プロセッサは、
データセットに含まれる各データを、データ間の関係に基づいて潜在空間に埋め込む埋込処理と、
前記データセットに含まれる各データが埋め込まれた前記潜在空間を、ディスプレイに表示する表示処理と、
前記データセットに含まれる少なくとも1つのデータの前記潜在空間における位置を、ユーザ操作に応じて移動する移動処理と、
前記データ間の関係を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する更新処理と、を含む学習処理を実行する、
ことを特徴とするデータ管理装置。
【請求項2】
前記データは、異種混合ネットワークのノードであり、
前記埋込処理において、前記プロセッサは、データセットに含まれる各データを、各メタパスに対応する隣接行列、及び、各メタパスに対応する重みに基づいて潜在空間に埋め込み、
前記更新処理において、前記プロセッサは、各メタパスに対応する隣接行列を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する、
ことを特徴とする請求項1に記載のデータ管理装置。
【請求項3】
前記更新処理において、前記プロセッサは、各メタパスに対応する隣接行列を、(1)前記潜在空間において移動前のデータの位置に近い方から順に予め定められた個数のデータを選択し、(2)移動したデータと選択したデータとの間に前記メタパスが張られていた場合、これらのデータに対応する前記隣接行列の要素を0に設定し、(3)潜在空間において移動後のデータの位置に近い方から順に予め定められた個数のデータを選択し、(4)移動したデータと選択したデータとの間に前記メタパスが張られていた場合、これらのデータに対応する前記隣接行列の要素を1に設定する、
ことを特徴とする請求項2に記載のデータ管理装置。
【請求項4】
前記プロセッサは、
新たなデータが追加されたデータセットに含まれる各データを、前記更新処理により更新されたデータ間の関係に基づいて前記潜在空間に埋め込む埋込処理と、
前記新たなデータの前記潜在空間における位置に基づいて前記データセットに含まれる少なくとも1つのデータを選択する選択処理と、
前記選択処理により選択されたデータをユーザに提示する提示処理と、を含む推薦処理を実行する、
ことを特徴とする請求項1に記載のデータ管理装置。
【請求項5】
前記選択処理において、前記プロセッサは、前記潜在空間において前記新たなデータに近い方から順に予め定められた個数のデータを選択する、
ことを特徴とする請求項4に記載のデータ管理装置。
【請求項6】
少なくとも1つのプロセッサが、
データセットに含まれる各データを、データ間の関係に基づいて潜在空間に埋め込む埋込処理と、
前記データセットに含まれる各データが埋め込まれた前記潜在空間を、ディスプレイに表示する表示処理と、
前記データセットに含まれる少なくとも1つのデータの前記潜在空間における位置を、ユーザ操作に応じて移動する移動処理と、
前記データ間の関係を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する更新処理と、を含む学習処理を実行する、
ことを特徴とするデータ管理方法。
【請求項7】
コンピュータを請求項1~5の何れか一項に記載のデータ管理装置として動作させるためのデータ管理プログラムであって、前記コンピュータに前記各処理を実行させる、
ことを特徴とするデータ管理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データを管理するデータ管理装置、データ管理方法、及びデータ管理プログラムに関する。
【背景技術】
【0002】
研究者が管理する必要のある学術論文は、年々増加し、膨大な数になっている。これらの学術論文の管理は、EndNote(登録商標)やBibTexなどの文献管理ソフトを用いて管理することが多い(非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】ELSEVIER. Mendeley. https://www.mendeley.com/. (Accessed on 12/30/2021).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の文献管理ソフトでは、論文を書誌情報に従って管理する。このため、特定の著者の論文を検索したり、特定の用語が登場する論文を検索したりすることは容易であるが、特定の論文と関連性の高い論文を抽出することは困難であった。特に、どのような関係を有する論文を関連性の高い論文と考えるかは、ユーザ次第である。したがって、関連性の高い論文の抽出においては、ユーザの意向を反映させるべきところ、従来の文献管理ソフトにおいては、ユーザの意向を反映させることが不可能であった。なお、このような問題は、学術論文や特許文献などの文書データの管理に限らず、任意のデータの管理において生じ得る問題である。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的は、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができるデータ管理技術を実現することにある。また、そのような潜在空間を用いて、特定のデータと関連性の高いデータをユーザに推薦することが可能なデータ管理技術を実現することにある。
【課題を解決するための手段】
【0006】
本発明の態様1に係るデータ管理装置は、少なくとも1つのプロセッサを備え、前記プロセッサは、データセットに含まれる各データを、データ間の関係に基づいて潜在空間に埋め込む埋込処理と、前記データセットに含まれる各データが埋め込まれた前記潜在空間を、ディスプレイに表示する表示処理と、前記データセットに含まれる少なくとも1つのデータの前記潜在空間における位置を、ユーザ操作に応じて移動する移動処理と、前記データ間の関係を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する更新処理と、を含む学習処理を実行する。
【0007】
上記の構成によれば、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【0008】
本発明の態様2に係るデータ管理装置においては、態様1の構成に加えて、前記データは、異種混合ネットワークのノードであり、前記埋込処理において、前記プロセッサは、データセットに含まれる各データを、各メタパスに対応する隣接行列、及び、各メタパスに対応する重みに基づいて潜在空間に埋め込み、前記更新処理において、前記プロセッサは、各メタパスに対応する隣接行列を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する、という構成が採用されている。
【0009】
上記の構成によれば、各メタパスに対応する隣接行列、及び、各メタパスに対する重みに応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【0010】
本発明の態様3に係るデータ管理装置においては、態様2の構成に加えて、前記更新処理において、前記プロセッサは、各メタパスに対応する隣接行列を、(1)前記潜在空間において移動前のデータの位置に近い方から順に予め定められた個数のデータを選択し、(2)移動したデータと選択したデータとの間に前記メタパスが張られていた場合、これらのデータに対応する前記隣接行列の要素を0に設定し、(3)潜在空間において移動後のデータの位置に近い方から順に予め定められた個数のデータを選択し、(4)移動したデータと選択したデータとの間に前記メタパスが張られていた場合、これらのデータに対応する前記隣接行列の要素を1に設定する、という構成が採用されている。
【0011】
上記の構成によれば、各メタパスに対応する隣接行列、及び、各メタパスに対する重みに応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【0012】
本発明の態様4に係るデータ管理装置においては、態様1~3の何れかの構成に加えて、前記プロセッサは、新たなデータが追加されたデータセットに含まれる各データを、前記更新処理により更新されたデータ間の関係に基づいて前記潜在空間に埋め込む埋込処理と、前記新たなデータの前記潜在空間における位置に基づいて前記データセットに含まれる少なくとも1つのデータを選択する選択処理と、前記選択処理により選択されたデータをユーザに提示する提示処理と、を含む推薦処理を実行する、という構成が採用されている。
【0013】
上記の構成によれば、新たなデータがデータセットに追加されたときに、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間における位置に基づいて選択したデータをユーザに提示する(例えば、推薦する)ことができる。
【0014】
本発明の態様5に係るデータ管理装置においては、態様4の構成に加えて、前記選択処理において、前記プロセッサは、前記潜在空間において前記新たなデータに近い方から順に予め定められた個数のデータを選択する、という構成が採用されている。
【0015】
上記の構成によれば、新たなデータがデータセットに追加されたときに、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間において、新たなデータに近いデータをユーザに提示する(例えば、推薦する)ことができる。
【0016】
本発明の態様6に係るデータ管理方法は、少なくとも1つのプロセッサが、データセットに含まれる各データを、データ間の関係に基づいて潜在空間に埋め込む埋込処理と、前記データセットに含まれる各データが埋め込まれた前記潜在空間を、ディスプレイに表示する表示処理と、前記データセットに含まれる少なくとも1つのデータの前記潜在空間における位置を、ユーザ操作に応じて移動する移動処理と、前記データ間の関係を、前記移動処理において移動されたデータの前記潜在空間における位置に基づいて更新する更新処理と、を含む学習処理を実行する。
【0017】
上記の構成によれば、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【0018】
本発明の態様7に係るデータ管理プログラムは、コンピュータを態様1~5の何れかに記載のデータ管理装置として動作させるためのプログラムであって、前記コンピュータに前記各処理を実行させる、ことを特徴としている。
【0019】
上記の構成によれば、コンピュータを用いて、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【発明の効果】
【0020】
本発明の一態様によれば、データ間の関係に応じた位置にデータが埋め込まれる潜在空間であって、ユーザの意向を反映した潜在空間を構築することができる。
【図面の簡単な説明】
【0021】
図1】本発明の一実施形態に係るデータ管理装置の構成を示すブロック図である。
図2】本発明に一態様に係るデータ管理方法に含まれる学習方法の流れを示すフロー図である。
図3】本発明に一態様に係るデータ管理方法に含まれる推薦方法の流れを示すフロー図である。
図4】本発明の一実施例に関し、潜在空間におけるデータの移動をユーザに行わせるためにディスプレイに表示される画面を示す図である。
図5】本発明の一実施例に関し、学習処理の効果を示す評価指標のフィードバック回数依存性を示すグラフである。
【発明を実施するための形態】
【0022】
(データ管理装置の構成)
本発明の一実施形態に係るデータ管理装置1の構成について、図1を参照して説明する。図1は、データ管理装置1の構成を示すブロック図である。
【0023】
データ管理装置1は、汎用的なコンピュータを用いて実現されており、図1に示すように、プロセッサ11と、一次メモリ12と、二次メモリ13と、入出力インタフェース14と、バス15と、を備えている。プロセッサ11、一次メモリ12、二次メモリ13、及び入出力インタフェース14は、バス15を介して相互に接続されている。
【0024】
二次メモリ13には、データ管理プログラムP1と、データセットDSと、が格納されている。データ管理プログラムP1は、後述するデータ管理方法S1をコンピュータに実行させるためのプログラムである。データセットDSは、管理の対象となるデータの集合である。
【0025】
プロセッサ11は、二次メモリ13に格納されているデータ管理プログラムP1を一次メモリ12上に展開する。そして、プロセッサ11は、一次メモリ12上に展開されたデータ管理プログラムP1に含まれる命令に従って、後述するデータ管理方法S1に含まれる各ステップを実行する。この際、プロセッサ11は、二次メモリ13に格納されたデータセットDSを参照する。
【0026】
プロセッサ11として利用可能なデバイスとしては、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)を挙げることができる。また、一次メモリ12として利用可能なデバイスとしては、例えば、半導体RAM(Random Access Memory)を挙げることができる。また、二次メモリ13として利用可能なデバイスとしては、例えば、HDD(Hard Disk Drive)を挙げることができる。
【0027】
入出力インタフェース14には、入力デバイス及び/又は出力デバイスが接続される。入出力インタフェース14に接続される出力デバイスとしては、例えば、ディスプレイが挙げられる。このディスプレイは、例えば、後述する潜在空間LSを表示するために利用される。また、入出力インタフェース14に接続される入力デバイスとしては、例えば、マウスが挙げられる。このマウスは、例えば、後述する潜在空間LSに埋め込まれたデータの位置を移動するために利用される。
【0028】
入出力インタフェース14として利用可能なインタフェースとしては、例えば、PCI(Peripheral Component Interconnect)インタフェースやUSB(Universal Serial Bus)インタフェースなどを挙げることができる。
【0029】
なお、データ管理プログラムP1は、コンピュータ読み取り可能な記録媒体、例えば、一時的でない有形の記録媒体に記録され得る。このような記録媒体としては、上述した二次メモリ13の他に、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などが挙げられる。
【0030】
(異種混合ネットワーク)
データセットDSを構成するデータは、異種混合ネットワークのノードとして与えられているものとする。ここで、異種混合ネットワークとは、ノードの種類の数とエッジの種類の数の合計が2よりも大きいグラフにより表現されるネットワークのことを指す。
【0031】
例えば、データセットDSを構成するデータが学術論文を表す文書データである場合、文書データの他に、著者、用語、発表年などをノードとする異種混合ネットワークを考えることができる。例えば、文書データu,vの著者がいずれもAである場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に著者Aを介してパスが張られる。また、文書データu,vの両方に用語Tが含まれる場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に用語Tを介してパスが張られる。また、文書データu,vの発表年が何れもYである場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に発表年Yを介したパスが張られる。さらに、発表会議などをノードとして加えてもよい。
【0032】
或いは、データセットDSを構成するデータが特許文献を表す文書データである場合、文書データの他に、出願人(企業)、用語、出願年などをノードとする異種混合ネットワークを考えることができる。例えば、文書データu,vの出願人がいずれもAである場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に出願人Aを介してパスが張られる。また、文書データu,vの両方に用語Tが含まれる場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に用語Tを介してパスが張られる。また、文書データu,vの出願年が何れもYである場合、異種混合ネットワークにおいては、文書データuと文書データvとの間に出願年Yを介したパスが張られる。さらに、特許分類(例えばIPCやFタームなど)や発明者などをノードとして加えてもよい。
【0033】
また、データセットDSを、書籍を表すデータにより構成することもできる。この場合、書籍を表すノードの他に、例えば、著者を表すノード、出版社を表すノード、図書分類コード(例えばCコード)を表すノード、用語を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つの書籍の著者が同じであれば、それらの書籍を表すノードの間に、その著者を表すノードを介したパスが張られる。また、2つの書籍の出版社が同じであれば、それらの書籍を表すノードの間に、その出版社を表すノードを介したパスが張られる。また、2つの書籍の図書分類コードが同じであれば、それらの書籍を表すノードの間に、その図書分類コードを表すノードを介したパスが張られる。また、2つの著書(の全文、要約、又はタイトル)に同じ用語が用いられていれば、それらの書籍を表すノードの間に、その用語を介したパスが張られる。
【0034】
また、データセットDSを、SNS(Social Networking Service)におけるユーザを表すデータにより構成することもできる。この場合、ユーザを表すノードの他に、例えば、投稿記事を表すノード、用語を表すノード、タグを表すノード、URL(例えばリンク先のURL)を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つのユーザが同じ記事を投稿していれば、それらのユーザを表すノードの間に、その記事を表すノードを介したパスが張られる。また、2つのユーザが同じ用語を含む記事を投稿していれば、それらのユーザを表すノードの間に、その用語を表すノードを介したパスが張られる。また、2つのユーザが同じタグを含む記事を投稿していれば、それらのユーザの間に、そのタグを表すノードを介したパスが張られる。また、2つのユーザが同じURLを含む記事を投稿していれば、それらのユーザの間に、そのURLを表すノードを介したパスが張られる。
【0035】
また、データセットDSを、広告を表すデータにより構成することもできる。この場合、広告を表すノードの他に、例えば、出稿者(例えば企業)を表すノード、閲覧者を表すノード、コンテンツを表すノードを含む異種混合ネットワークを考えることができる。この場合、2つの広告の出稿者が同じであれば、それらの広告を表すノードの間に、その出稿者を表すノード介したパスが張られる。また、2つの広告が同じ閲覧者により閲覧されていれば、それらの広告を表すノードの間に、その閲覧者を表すノード介したパスが張られる。また、2つの広告が同じコンテンツを含んでいれば、それらの広告を表すノードの間に、そのコンテンツを表すノードを介したパスが張られる。
【0036】
また、データセットDSを、動画配信サイトにおける動画を表すデータにより構成することもできる。この場合、動画を表すノードの他に、例えば、作成者を表すノード、視聴者を表すノード、タイトルを表すノード、タグを表すノードを含む異種混合ネットワークを考えることができる。この場合、2つの動画の作成者が同じであれば、それらの動画を表すノードの間に、その作成者を表すノード介したパスが張られる。また、2つの動画が同じ視聴者により視聴されていれば、それらの動画を表すノードの間に、その視聴者を表すノード介したパスが張られる。また、2つの動画に同じタイトルが付与されていれば、それらの動画を表すノードの間に、そのタイトルを表すノードを介したパスが張られる。また、2つの動画に同じタグが付与されていれば、それらの動画を表すノードの間に、そのタグを表すノードを介したパスが張られる。
【0037】
また、データセットDSを、EC(E-Commerce)サイトにおける商品を表すデータにより構成することもできる。この場合、商品を表すノードの他に、例えば、商品分類コードを表すノード、用語を表すノード、購入者を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つの商品の商品分類コードが同じであれば、それらの商品を表すノードの間に、その商品分類コードを表すノードを介したパスが張られる。また、2つの商品の商品説明に同じ用語が含まれていれば、それらの商品を表すノードの間に、その用語を表すノードを介したパスが張られる。また、2つの商品が同じ購入者により購入されていれば、それらの商品を表すノードの間に、その購入者を表すノードを介したパスが張られる。
【0038】
また、データセットDSを、ニュースにおける記事を表すデータにより構成することもできる。この場合、記事を表すノードの他に、例えば、作成者(記者、寄稿者、投稿者など)を表すノード、用語を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つの記事の作成者が同じであれば、それらの記事を表すノードの間に、その作成者を表すノードを介したパスが張られる。また、2つの記事に同じ用語が含まれていれば、それらの記事を表すノードの間に、その用語を表すノードを介したバスが張られる。
【0039】
また、データセットDSを、WWW(World Wide Web)におけるウェブサイトを表すデータにより構成することもできる。この場合、ウェブサイトを表すノードの他に、例えば、用語を表すノード、ドメイン名を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つのウェブサイトのコンテンツに同じ用語が含まれていれば、それらのウェブサイトを表すノードの間に、その用語を表すノードを介したパスが張られる。また、2つのウェブサイトのURLに同じドメイン名が含まれていれば、それらのウェブサイトを表すノードの間に、そのドメイン名を表すノードを介したパスが張られる。
【0040】
また、データセットDSを、アプリを表すデータにより構成することもできる。この場合、アプリを表すノードの他に、例えば、プラットフォームを表すノード、ジャンルを表すノード、課金方法を表すノードを含む異種混合ネットワークを考えることができる。この場合、2つのアプリのプラットフォームが同じであれば、それらのアプリを表すノードの間に、そのプラットフォームを表すノードを介したパスが張られる。また、2つのアプリのジャンルが同じであれば、それらのアプリを表すノードの間に、そのジャンルを表すノードが張られる。また、2つのアプリの課金方法が同じであれば、それらのアプリを表すノードの間に、そのプラットフォームを表すノードを介したパスが張られる。
【0041】
スキーマレベルでみた異種混合ネットワークにおけるパスの種類のことを、メタパスという。上述した学術論文の異種混合ネットワークでは、文書データ間のメタパスとして、例えば、文書データ-著者-文書データというメタパスや、文書データ-用語-文書データというメタパスなどが考えられる。文書データ-用語-文書データ-用語-文章データのように、2個以上のノードが介在するメタパスを考えることもできる。同様に、上述した特許文献の異種混合ネットワークでは、文書データ間のメタパスとして、文書データ-出願人-文書データというメタパスや、文書データ-出願年-文書データというメタパスなどが考えられる。文書データ-出願人-文書データ-用語-文書データのように、2個以上のノードが介在するメタパスを考えることもできる。
【0042】
データセットDSを構成するデータが異種混合ネットワークのノードとして与えられている場合、データ間の関係は、例えば、データ間の各メタパスp∈Pに対応する隣接行列A、及び、データ間の各メタパスp∈Pに対応する重みwにより表現される。
【0043】
なお、データ管理装置1による管理の対象となるデータセットDSは、学術論文や特許文献などの文書(を表すデータ)の集合に限定されない。異種混合ネットワークのノードとなり得るデータの集合であれば、どのようなデータの集合であっても、データ管理装置1による管理の対象とすることができる。上述した書籍を表すデータの集合、SNSにおけるユーザを表すデータの集合、動画配信サイトにおける動画を表すデータの集合、ECサイトにおける商品を表すデータの集合、ニュースにおける記事を表すデータの集合、WWWにおけるウェブサイトを表すデータの集合、アプリを表すデータの集合なども、データ管理装置1における管理の対象とすることができる。
【0044】
(データ管理方法の流れ)
本発明の一実施形態に係るデータ管理方法S1について、図2及び図3を参照して説明する。図2は、データ管理方法S1に含まれる学習処理S11の流れを示すフロー図である。図3は、データ管理方法S1に含まれる推薦処理S12の流れを示すフロー図である。
【0045】
データ管理方法S1に含まれる学習処理S11は、図2に示すように、埋込処理S111と、表示処理S112と、移動処理S113と、更新処理S114と、を含んでいる。学習処理S11において、データ管理装置1のプロセッサ10は、まず埋込処理S111を実行し、次に表示処理S112と移動処理S113とを並列的に実行し、次に更新処理S114を実行する。
【0046】
埋込処理S111は、データセットDSに含まれる各データを、データ間の関係に基づいて潜在空間LSに埋め込む処理である。本実施形態においては、潜在空間LSとして、L次元のユークリッド空間Rを用いる。また、データ間の関係として、各メタパスp∈Pに対応する隣接行列A、及び、各メタパスp∈Pに対応する重みwを考える。すなわち、本実施形態では、埋込処理S111において、データセットDSに含まれる各データを、各メタパスp∈Pに対応する隣接行列A、及び、各メタパスp∈Pに対応する重みwに基づいて潜在空間に埋め込む。埋込処理S111において用いる埋込方法の具体例については、後述する。
【0047】
表示処理S112は、データセットDSに含まれる各データが埋め込まれた潜在空間LSを、ディスプレイに表示する処理である。なお、潜在空間LSの次元Lが2以上である場合、例えば、潜在空間LSの2次元空間への投影像又は射影像をディスプレイに表示する。
【0048】
移動処理S113は、データセットDSに含まれる少なくとも1つのデータの潜在空間LSにおける位置を、ユーザ操作に応じて移動する処理である。本実施形態においては、ユーザ操作として、ディスプレイに表示された潜在空間LSにおけるデータのドラック・アンド・ドロップ操作を利用する。なお、移動処理S113において、ユーザは、関連性の高いデータが互いに近づき、関連性の低いデータが互いに遠ざかるように、潜在空間LSにおけるデータの移動を行うものとする。
【0049】
更新処理S114は、埋込処理S111において参照するデータ間の関係を、移動処理S113によって移動されたデータの潜在空間LSにおける位置に基づいて更新する処理である。本実施形態では、各メタパスp∈Pに対応する隣接行列Aを、移動処理S113によって移動されたデータの潜在空間LSにおける位置に基づいて更新する。
【0050】
更新処理S114において用いる更新方法の具体例を挙げれば、以下のとおりである。すなわち、(1)潜在空間LSにおいて移動前のデータの位置に近い方から順にk個(kは任意の自然数)のデータを選択する。(2)移動したデータzと選択したデータzとの間にメタパスpが張られていた場合、すなわち、A zx=1である場合、A zxの値を1から0に変更する。(3)潜在空間LSにおいて移動後のデータの位置に近い方から順にk個のデータを選択する。(4)移動したデータzと選択したデータyとの間にメタパスpが張られていた場合、すなわち、A zy=0である場合、A zyの値を0から1に変更する。以上の処理を、ユーザにより移動された各データについて実行することによって、メタパスpに対応する隣接行列Aの更新が完了する。
【0051】
この場合、更新後の隣接行列Aは、下記の式(1)により与えられる。ここで、Zは、ユーザにより移動されたデータの集合である。また、Ne(Z)は、潜在空間LSにおいて移動前のデータの位置に近い方から順に選択したk個のデータの集合である。また、NE(Z^)は、潜在空間LSにおいて移動後のデータの位置に近い方から順に選択したk個のデータの集合である。
【数1】
【0052】
以上の学習処理S11によれば、データを潜在空間LSに埋め込む際に参照されるデータ間の関係が、潜在空間LSにおいてデータを移動するというユーザ操作により更新される。したがって、ユーザが、関連性の高いデータが互いに近づき、関連性の低いデータが互いに遠ざかるように、潜在空間LSにおけるデータの移動を行えば、データを潜在空間LSに埋め込む際に参照されるデータ間の関係に、ユーザが想定する関連性を反映させることができる。
【0053】
データ管理方法S1に含まれる推薦処理S12は、図3に示すように、埋込処理S121と、選択処理S122と、提示処理S123と、を含んでおり、データセットDSに新たなデータが追加されたときに実行される。推薦処理S12において、データ管理装置1のプロセッサ10は、まず埋込処理S121を実行し、次に選択処理S122を実行し、次に提示処理S123を実行する。以下、新たなデータxが追加されたデータセットDS∪{x}をデータセットDS’と記載する。
【0054】
埋込処理S121は、新たなデータが追加されたデータセットDS’に含まれる各データを、更新処理S114により更新されたデータ間の関係に基づいて潜在空間LSに埋め込む処理である。埋込処理S121において用いる埋込方法は、埋込処理S111において用いる埋込方法と同様である。
【0055】
選択処理S122は、新たなデータの潜在空間LSにおける位置に基づいて、データセットDSに含まれる少なくとも1つのデータを選択する処理である。本実施形態では、選択処理S122において、潜在空間LSにおいて新たなデータの位置に近い方から順にm個(mは任意の自然数)のデータを選択する。
【0056】
提示処理S123は、選択処理S122により選択されたデータをユーザに提示する処理である。本実施形態では、提示処理S123において、選択処理S122により選択されたm個のデータをユーザに提示する。提示処理S123において用いる提示方法は特に限定されない。例えば、選択処理S122により選択されたm個のデータのタイトルリストを、ディスプレイに表示する方法などが考えられる。
【0057】
以上の推薦処理S12によれば、データセットDSに新たなデータが追加された際に、潜在空間LSにおいて新たなデータの近傍に存在するデータを、ユーザに提示することができる。上述したように、データを潜在空間LSに埋め込む際に参照されるデータ間の関係には、ユーザが想定する関連性が反映されている。この点を考え合わせると、以上の推薦処理S12によれば、データセットDSに新たなデータが追加された際に、新たなデータと関連性が高いとユーザが判断するであろうデータを、ユーザに提示することができる。
【0058】
本実施形態に係るデータ管理方法S1を、学術論文からなるデータセットDSに適用した場合、データセットDSに追加した新たな学術論文と関連性の高い学術論文を推薦することができる。この際、異種混合ネットワークを構成する要素に「用語」が含まれていれば、内容的に関連性が高い学術論文を推薦することができるし、異種混合ネットワークを構成する要素に「発表年」が含まれていれば、時間的に関連性が高い学術論文を推薦することができる。特に、本実施形態に係るデータ管理方法S1においては、異種混合ネットワークとして表現された様々な関連性のなかでユーザが重視する関連性に高いウェイトを与えるよう、学習処理S11によって潜在空間が最適化されている。これにより、ユーザのニーズに適合した学術論文の推薦を行うことが可能になる。
【0059】
また、本実施形態に係るデータ管理方法S1を、特許文献からなるデータセットDSに適用した場合、データセットDSに追加した新たな特許文献と関連性の高い特許文献を推薦することができる。この際、異種混合ネットワークを構成する要素に「用語」が含まれていれば、内容的に関連性が高い特許文献を推薦することができるし、異種混合ネットワークを構成する要素に「出願人」が含まれていれば、同一出願人の特許文献や共願人の特許文献などを推薦することができる。特に、本実施形態に係るデータ管理方法S1においては、異種混合ネットワークとして表現された様々な関連性のなかでユーザが重視する関連性に高いウェイトを与えるよう、学習処理S11によって潜在空間が最適化されている。これにより、ユーザのニーズに適合した特許文献の推薦を行うことが可能になる。
【0060】
(埋込処理における埋込方法の具体例)
埋込処理S111において、プロセッサ11は、データセットDSに含まれる各データを、各メタパスp∈Pに対応する隣接行列A、及び、各メタパスp∈Pに対応する重みwに基づいて潜在空間LSに埋め込む。潜在空間LSは、上述したように、L次元のユークリッド空間Rである。以下、2層のGCNを用いた埋込処理S111の一具体例について説明する。
【0061】
データセットDSをD(数式においては花文字のD)と記載し、データセットDに含まれるデータをd1,d2,…,dnと記載する。また、データd1,d2,…,dnの埋込ベクトル(埋め込み先となる潜在空間LS上の点の位置ベクトル)をzd1,zd2,…,zdn(数式においてはzdiの上に矢印)と記載し、埋込ベクトルzd1,zd2,…,zdnを並べた行列をZと記載する。また、各ノードの特徴量をXと記載する。本具体例においては、各ノードの特徴量Xとして、データ番号のみを与える。なお、各データdiにタイトル(テキストデータ)が付与されている場合、そのタイトルをBag-of-Words化したものを、各ノードの特徴量Xとして与えてもよい。
【0062】
埋込ベクトルzd1,zd2,…,zdnを並べた行列Zは、下記の式(2)に示すように、GCNの出力GCNφ(X,A~)として与えられる。GCNの出力GCNφ(X,A~)は、下記の式(3)により与えられる。
【0063】
【数2】
【数3】
【0064】
ここで、φ={W,W}は、パラメータ集合である。Wは、GCNの一層目の重みを表し、Wは、GNCの二層目の重みを表す。また、ReLUは、ReLU(Reflected Linear Unit)関数を表す。また、A~(数式においてはAの上に~)は、下記の式(4)により定義される行列(重み付けられた隣接行列)であり、A・(数式においてはAの上に・)は、下記の式(5)により定義される行列である。
【0065】
【数4】
【数5】
【0066】
なお、上記の式(4)における重みwpは、例えば、下記の式(6)により定義される寄与率γpを用いて、下記の式(7)により定義される。また、上記の式(5)におけるDは、次数行列を表す。また、下記の式(6)におけるpθは、下記の式(8)により定義されるデコーダを表す。下記の(8)式において、σ(・)は、シグモイド関数であり、θ={a,b}は、パラメータセットである。
【0067】
【数6】
【数7】
【数8】
【0068】
(実施例)
ある研究者が保持していた50本の論文データを用いて、学習処理S11の効果を検証した。検証に際しては、メタパスとしては、論文-著者-論文、論文-用語-用語、論文-発表年-論文、論文-発表学会-論文を考え、これらのメタパスに加え、これらのメタパスでは抽出できなかった関係を取り入れた隣接行列を用いた。
【0069】
まず、これら50本の論文データに対して埋込処理S111を実施し、潜在空間LS0を構成した。次に、これら50本の論文データのうち10本の論文データ(テスト用データ)について、表示処理S112及び移動処理S113を実施し、潜在空間LS0における移動後の位置を記録した。このとき、ディスプレイに表示した画面を図4に示す。この画面では、論文データに対応する点上にマウスカーソルを移動させると、その論文データの書誌事項が表示されるようになっている。ユーザは、この書誌事項を確認しながら、関係が強い論文データ同士が互いに近づくように、且つ、関係が弱い論文データ同士が互いに遠ざかるように、潜在空間LS0における論文データの位置を移動した。
【0070】
次に、残り40本の論文データ(学習用データ)のそれぞれについて、順に、表示処理S112、移動処理S113、及び更新処理114を実施した。この際、1本目~10本目の論文データを移動することにより得られる潜在空間LS10、更に11本目~20本目の論文データを移動することにより得られる潜在空間LS20、更に21本目~30本目の論文データを移動することにより得られる潜在空間LS30、及び、更に31本目~40本目の論文データを移動することにより得られる潜在空間LS40の各々について、学習処理S11の効果を評価した。具体的には、潜在空間LS10,LS20,LS30,LS40の各々におけるテスト用データの位置と、最初の潜在空間LS0における移動後のテスト用データの位置とに基づき評価指標(recall@k)を算出した。この評価指標は、これら2つの位置が近いほど値が高くなり、これら2つの位置が遠いほど値が低くなる。
【0071】
図5は、このようにして得られたスコアのグラフである。移動する論文データの数が増えるほど、すなわち、ユーザによるフィードバック回数が増えるほど評価指標の値が高くなることが、このグラフから見て取れる。これにより、学習処理S11によって、ユーザの想定する論文間の関係を反映した潜在空間を作れることが確かめられた。
【0072】
(付記事項)
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、上述した実施形態に開示された各技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0073】
1 データ管理装置
11 プロセッサ
12 一次メモリ
13 二次メモリ
14 入出力インタフェース
15 バス
S1 データ管理方法
S11 学習処理
S111 埋込処理
S112 表示処理
S113 移動処理
S114 更新処理
S12 推薦処理
S121 埋込処理
S122 選択処理
S123 提示処理
図1
図2
図3
図4
図5