IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハーの特許一覧

特開2024-65037方法、装置、システム、プログラム及びコンピュータ可読記憶媒体
<>
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図1
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図2
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図3
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図4
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図5
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図6
  • 特開-方法、装置、システム、プログラム及びコンピュータ可読記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024065037
(43)【公開日】2024-05-14
(54)【発明の名称】方法、装置、システム、プログラム及びコンピュータ可読記憶媒体
(51)【国際特許分類】
   G06F 40/216 20200101AFI20240507BHJP
【FI】
G06F40/216
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023181092
(22)【出願日】2023-10-20
(31)【優先権主張番号】22204204
(32)【優先日】2022-10-27
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】517451940
【氏名又は名称】エヌイーシー ラボラトリーズ ヨーロッパ ゲーエムベーハー
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ブシャン・コトニス
(72)【発明者】
【氏名】アマール・シェイカー
(72)【発明者】
【氏名】ヨウミ・マ
(72)【発明者】
【氏名】ゴラン・グラヴァシュ
(57)【要約】
【課題】日本語のナレッジグラフを効率よく作成する。
【解決手段】方法は、複数の第1の名詞を含む第1の文字列を取得するステップと、第1の文字列と、第1の文字列中の第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップと、第1の文字列を和訳して複数の第2の名詞を含む第2の文字列を生成するステップと、複数の第1の名詞の順序に基づいて、第1の文字列の構造を変更し、第1の変換された第1の文字列を取得するステップと、第1の変換された第1の文字列に含まれる複数の第1の名詞それぞれの前に、複数の第1の名詞と複数の第2の名詞との対応関係に基づいて、日本語の助詞を付加し、第2の変換された第1の文字列を取得するステップと、第2の変換された第1の文字列と、学習済モデルとに基づいて、転移学習を実行することにより、更新された学習済モデルを生成するステップとを有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1言語によって記述された第1の文字列を取得するステップであって、前記第1の文字列は複数の第1の名詞を含むステップと、
前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップと、
前記第1の文字列を日本語に翻訳して第2の文字列を生成するステップであって、前記第2の文字列は複数の第2の名詞を含むステップと、
前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するステップと、
前記第1の変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するステップと、
前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するステップと
を有する、学習のための方法。
【請求項2】
前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記更新された前記学習済モデルを生成するステップは、不連続かつ反復的抽出及び学習に対応し、
前記不連続かつ反復的抽出において、
前記第1の主語及び前記第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、
前記複数の第2の名詞の各々に対応する助詞を反復的に抽出するステップを含む
請求項1に記載の方法。
【請求項3】
前記1つ又は複数の日本語の助詞は格助詞を含む
請求項1に記載の方法。
【請求項4】
日本語によって記述された第3の文字列を取得するステップと、
前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するステップをさらに有し、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
請求項1に記載の方法。
【請求項5】
前記複数の第3の助詞は格助詞を含む
請求項4に記載の方法。
【請求項6】
取得部と処理部とを備える装置であって、
前記取得部は、
第1言語によって記述された第1の文字列を取得し、
前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得する
ように構成され、
前記第1の文字列は複数の第1の名詞を含み、
前記処理部は、前記第1の文字列の日本語に翻訳して第2の文字列を生成するように構成され、前記第2の文字列は複数の第2の名詞を含み、
前記取得部は、
前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するように構成され、
前記変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するように構成され、
前記処理部は、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するように構成される
装置。
【請求項7】
前記取得部は、日本語によって記述された第3の文字列を取得するように構成され、
前記処理部は、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
請求項6に記載の装置。
【請求項8】
前記1つ又は複数の日本語の助詞は格助詞を含む
請求項6に記載の装置。
【請求項9】
取得部と処理部とを備える装置であって、
前記取得部は、日本語によって記述された第3の文字列と、学習済モデルとを取得するように構成され、
前記処理部は、前記第3の文字列及び前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、
前記学習済モデルは、第1言語によって記述された第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示し、
前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む
装置。
【請求項10】
請求項6に記載の装置と、請求項9に記載の装置とを含む
学習及び推定のためのシステム。
【請求項11】
コンピュータ上で実行されたとき、請求項1から5のいずれか一項に記載された方法を実行するためのプログラム。
【請求項12】
コンピュータ上で実行されたとき、請求項1から5のいずれか一項に記載された方法を前記コンピュータに実行させるためのプログラムを記憶したコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、方法、装置、システム、プログラム及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
さまざまな知識 (ナレッジ) を体系的に連結し、グラフ構造で表した知識のネットワークとして、ナレッジグラフが用いられている。ナレッジグラフの作成のために、自然言語によって記載されたテキストデータから機械可読データ構造の形態で情報を抽出することは効果的である。この場合、例えば、オープン情報抽出 (Open information extraction (IE)) という手法が用いられることがある。
【0003】
特許文献1において、高リソース言語からの転移学習を用いて、低リソース言語から機械可読データ構造の形態で情報を抽出することが記載されている。
【0004】
非特許文献1において、自然言語文から (主語、述語、目的語) のトリプルを抽出する際に、まず簡単なスロットを抽出し、次に簡単なスロットを条件として難しいスロットを抽出するというように、繰り返し抽出することが記載されている。
【0005】
非特許文献2において、教師ありOpenIEについて、英語以外の言語のOpenIEシステムを訓練するために、英語のテキストを自動的に変換する技術が記載されている。具体的に、英語文とそれに対応する抽出文を互いに一貫性を保ちながら翻訳するAlignment-Augmented Consistent Translation (AACTRANS) モデルが記載されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開第2022-151838号公報
【非特許文献】
【0007】
【非特許文献1】Kotnis, Bhushan, et al. “MILIE: Modular & Iterative Multilingual Open Information Extraction,”Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).2022.
【非特許文献2】Kolluru, K., Mohammed, M., Mittal, S., & Chakrabarti, S. (2022,May). “Alignment-Augmented Consistent Translation for Multilingual Open Information Extraction,” In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)(pp.2502-2517).
【発明の概要】
【発明が解決しようとする課題】
【0008】
日本語のナレッジグラフを効率よく作成する必要がある。
【0009】
本発明は、日本語のナレッジグラフを効率よく作成するための方法、装置、システム、プログラム及びコンピュータ可読記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る方法、装置、システム、プログラム及びコンピュータ可読記憶媒体は、上記の目的を達成するためのものであり、以下の構成を備える。
【0011】
(1) 本発明の一態様に係る学習のための方法は、第1言語によって記述された第1の文字列を取得するステップであって、前記第1の文字列は複数の第1の名詞を含むステップと、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップと、前記第1の文字列を日本語に翻訳して第2の文字列を生成するステップであって、前記第2の文字列は複数の第2の名詞を含むステップと、前記複数の第1の名詞の順序が前記複数の第2の名詞 の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するステップと、前記第1の変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するステップと、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するステップとを有する。
【0012】
(2) 上記 (1) の態様において、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記更新された前記学習済モデルを生成するステップは、不連続かつ反復的抽出及び学習に対応し、前記不連続かつ反復的抽出において、前記第1の主語及び前記第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、前記複数の第2の名詞の各々に対応する助詞を反復的に抽出するステップを含む。
【0013】
(3) 上記 (1) の態様において、前記1つ又は複数の日本語の助詞は格助詞を含む。
【0014】
(4) 上記 (1) の態様において、日本語によって記述された第3の文字列を取得するステップと、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するステップをさらに有し、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。
【0015】
(5) 上記 (4) の態様において、前記複数の第3の助詞は格助詞を含む。
【0016】
(6) 本発明の一態様に係る装置は、取得部と処理部とを備え、前記取得部は、第1言語によって記述された第1の文字列を取得し、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するように構成され、前記第1の文字列は複数の第1の名詞を含み、前記処理部は、前記第1の文字列の日本語に翻訳して第2の文字列を生成するように構成され、前記第2の文字列は複数の第2の名詞を含み、前記取得部は、前記複数の第1の名詞の順序が前記複数の第2の名詞の順序に対応するように、前記第1の文字列の構造を変更することにより、第1の変換された第1の文字列を取得するように構成され、前記変換された第1の文字列に含まれる前記複数の第1の名詞それぞれの前又は後に、前記複数の第1の名詞と前記複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、第2の変換された第1の文字列を取得するように構成され、前記処理部は、前記第2の変換された第1の文字列と、前記学習済モデルとに基づいて、転移学習を実行することにより、前記第1の文字列と、前記第2の文字列に含まれる少なくとも第2の主語及び第2の述語との対応関係を示す更新された前記学習済モデルを生成するように構成される。
【0017】
(7) 上記 (6) の態様において、前記取得部は、日本語によって記述された第3の文字列を取得するように構成され、前記処理部は、前記第3の文字列及び前記更新された前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、複数の第3の助詞とを抽出するように構成され、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。
【0018】
(8) 上記 (6) の態様において、前記1つ又は複数の日本語の助詞は格助詞を含む。
【0019】
(9) 本発明の一態様に係る装置は、取得部と処理部とを備える装置であって、前記取得部は、日本語によって記述された第3の文字列と、学習済モデルとを取得するように構成され、前記処理部は、前記第3の文字列及び前記学習済モデルに基づいて、前記第3の文字列に含まれる複数の第3の名詞と、第3の複数の助詞とを抽出するように構成され、前記学習済モデルは、第1言語によって記述された第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示し、前記複数の第3の助詞は、前記複数の第3の名詞のそれぞれに対応する助詞を含む。
【0020】
(10) 本発明の一態様に係る学習及び推定のためのシステムは、上記 (6) に記載の装置と、上記 (9) に記載の装置とを含む。
【0021】
(11) 本発明の一態様に係るプログラムは、コンピュータ上で実行されたとき、上記 (1) から (5) のいずれか一項に記載された方法を実行する。
【0022】
(12) 本発明の一態様に係るコンピュータ可読記憶媒体は、コンピュータ上で実行されたとき、上記 (1) から (5) のいずれか一項に記載された方法を前記コンピュータに実行させるためのプログラムを記憶する。
【発明の効果】
【0023】
(1) から (12) によれば、日本語のナレッジグラフを効率よく作成することが可能な方法、装置、システム、プログラム及びコンピュータ可読記憶媒体を提供することができる。
【図面の簡単な説明】
【0024】
図1】本発明の実施形態に係る推定システムSの構成例を示す図である。
図2】本発明の実施形態に係る学習及び推定の概要を示す図である。
図3】本発明の実施形態における学習装置10の機能構成例を示す図である。
図4】本発明の実施形態における推定装置30の機能構成例を示す図である。
図5】本発明の実施形態における学習処理のフローチャートである。
図6】本発明の実施形態における推定処理のフローチャートである。
図7】本実施形態に係る各装置のハードウェア構成を説明する説明図である。
【発明を実施するための形態】
【0025】
(第1実施形態)
以下、図面を参照し、本発明の方法、装置、システム、プログラム及びコンピュータ可読記憶媒体の実施形態について説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち2つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0026】
図1は、本発明の実施形態に係る推定システムSの構成例を示す図である。
【0027】
推定システムSは、学習装置10及び推定装置30を備える。学習装置10は、ネットワークNWを介して推定装置30に接続される。学習装置10は機械学習により学習済モデルを生成する。学習済モデルは、推定対象の日本語テキストと日本語のナレッジグラフとの対応関係を示す。学習装置10は、生成した学習済モデルを推定装置30に提供する。推定装置30は、日本語テキストを取得する。推定装置30は、取得した日本語テキストと学習済モデルとに基づいて日本語のナレッジグラフを推定及び出力する。学習装置10及び推定装置30の動作についての詳細は、別途説明される。
【0028】
図2は、本発明の実施形態に係る学習及び推定の概要を示す図である。まず、学習装置10は、英語テキストと、英語テキストの和訳を取得する。学習装置10は、取得した英語テキストに基づいて、英語テキストの対応する和訳を機械翻訳により生成してもよい。
【0029】
学習装置10は、テキストアラインメント処理を実行する。この処理は、英語テキストの語順を、対応する日本語のテキストの語順に並べ替える処理である。例えば、英文が “He loves a pizza.” であれば、対応する和訳は「彼はピザが大好きです。」となる。テキストアラインメント処理の結果、英文テキストに含まれる語順が変更され、英文テキストは “He a pizza loves.” となる。この「日本語風の英語テキスト」を、 “Japonized English text” と称してもよい。
【0030】
学習装置10は、アラインメント処理がされた日本語風の英語テキストに含まれる名詞の前に、対応する助詞を付加する。助詞が付加された結果、日本語風の英語テキストは、 “(ha) He (ga) pizza loves” となる。日本語風の英語テキストは、“(ha) He (wo) pizza loves” でもよいし、“(ga) He (wo) pizza loves” でもよい。詞が付加された日本語風の英語テキストを、「マーカ付き英語テキスト」と称してもよい。助詞が名詞の前に付加されることにより、助詞のそれぞれの後に続く対応する名詞のそれぞれが主語、述語又は目的語等のいずれの種類であるかを、学習装置10は精度良く効率的に識別及び学習することができる。
【0031】
もう少し複雑な例を挙げると、原文である英文は、 “He was awarded the Queen’s Police Medal in the 1957 New Year Honours.” でもよい。対応する日本語の機械翻訳は、例えば、「彼が1957年の新年栄誉賞で女王の警察メダルの授与を受けました。」でもよい。日本語風の英語テキストは、 “He was 1957 the New in Queen’s police Medal awarded.” でもよい。マーカ付き英語テキストは、「(が (ga)) He was (で (de)) 1957 the New in (を (wo)) Queen 's Police Medal awarded.」でもよい。
【0032】
さらに別の例を挙げると、原文である英文は、 “Blagoja ‘Billy’ Celeski is an Australian footballer who plays as a midfielder for the Newcastle Jets.” でもよい。対応する日本語の機械翻訳は、「ブラゴヤ “ビリー” セレスキーが、ニューカッスル・ジェッツでミッドフィルダーとしてプレイするオーストラリア人のフットボール選手です。」でよい。日本語風の英語テキストは、 “Blagoja ‘Billy’ Celeski is Newcastle Jets a plays Australian an footballer.” でもよく、マーカ付き英語テキストは「(が (ga)) Blagoja ‘Billy’ Celeski for (で (de)) the Newcastle Jets as a midfielder an Australian (の (no)) footballer who plays is.」でもよい。
【0033】
学習装置10は、不連続繰り返しOpenIE抽出学習 (discontinuous iterative Open IE extraction and learning) に基づく機械学習により学習済モデルを生成する。この機械学習は、英語テキストと、英語のナレッジグラフとの対応関係を教師データとして、転移学習により、マーカ付き英語テキストと、英語のナレッジグラフとの対応関係を学習する。転移学習は、既存の学習済みモデルのデータはそのままに、新たに追加したモデルのデータのみ学習する手法である。マーカ付き英語テキストに含まれる名詞の前に、対応する助詞が付加されているので、マーカ付き英文テキストに含まれる名詞の各々が主語、述語等のいずれの機能を担うかを推定することができる。したがって、推定装置30は、学習済モデルに基づいて、マーカ付き英語テキストの意味を適切な日本語に推定し、日本語の適切なナレッジグラフを推定することが可能になる。なお、教師データは英語以外に、フランス語、イタリア語、スペイン語といった他の言語についての同様の対応関係をさらに含んでもよい。
【0034】
従来、OpenIEシステムでは、主語、述語、目的語がそれぞれ連続するとしていた。しかしながら、日本語の語順は必ずしもそうではなく、不連続という場合もある。英語のテキストにおける最初の部分が文頭にあり、他の部分が文末にあるような述語もあり得る。目的語、主語についても同様である。例えば、日本語は、「その女の子は、驚くことに、奇妙な音を聞いた。」という表現を含みうる。この場合、「その女の子」と「聞いた」は、不連続である。不連続繰り返しOpenIEでは、主語、目的語及び述語を文内で分割することができる。ここで、学習は、連続抽出と反復抽出の2つの態様を含む。
【0035】
i) 不連続抽出により、主語、目的語及び述語が分離され、文中にわたって広がることになる。これは、これらの構成要素が近接していると推測される既存のOpenIEシステムとの重要な相違点である。
ii) 反復学習は、アスペクトを次々と予測することで実施し、その都度、予測したアスペクトをアノテーションに付加する。アスペクトとは、主語、目的語及び述語等を含む。反復学習は、欠落しているもの (主語、目的語又は述語) の予測を、すでに予測されたものに対して条件付けることによって達成される。
【0036】
推定装置30は、推定対象の日本語テキストを取得し、また、不連続繰り返しOpenIE抽出に基づく学習済モデルを取得する。この学習済モデルは学習装置10によって生成及び提供される。推定装置30は、取得した日本語テキストと、学習済モデルとに基づいて、機械学習処理によって日本語のナレッジグラフを推定及び出力する。推定装置30は、その後、リンク予測を実行してもよい。リンク予測とは、ナレッジグラフに基づく所定の予測処理を指す。
【0037】
リンク予測の例として、例えば、公共安全及び治安維持における自動意思決定を実行することが挙げられる。公共安全への適用例として、リンク予測により、洪水、地震、または原子力災害による到達不能地域へのドローン派遣を最適化することが考えられる。これらのドローンは、薬や水の散布、生存者の捜索など、人の命を守るために必要な作業を行う。
【0038】
推定装置30は、ソーシャルメディアや公的機関が作成した報告書などの日本語テキストを入力として、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定し、さらに、ドローンによる支援の量および種類を予測してもよい。具体的に、推定装置30は、支援する場所と、それぞれの場所で必要とされる援助の順序付きリストとを推定してもよい。
【0039】
公共安全への別の適用例として、日本語テキストにおけるヘイトスピーチについての有効な対処案を推定装置30によって推定してもよい。この場合、推定装置30は、新聞、ポータルサイト及びソーシャルメディア等に掲載される日本語テキストを取得し、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定する。その後、推定装置30は、取得したテキストを解析し、ナレッジグラフと比較することで誤情報およびヘイトスピーチを推定してもよい。そして、推定装置30は、削除対象となるニュース、投稿、スレッド、および訴訟対象となるユーザーの順序付きリストを推定及び出力してもよい。
【0040】
治安維持への適用例として、推定装置30によって警察とソーシャルワーカー等からの報告書を分析することで、犯罪行為の増加を予測してもよい。この場合、推定装置30は、警察署とソーシャルワーカー等からの日本語テキストを取得する。取得した日本語テキストは、例えば、犯罪歴がある等、素行の悪い人間のリストと、彼又は彼女らの住所、通学先又は勤務先の情報とを含んでもよい。推定装置30は、学習済モデルに基づく推定処理を実行することによってナレッジグラフを推定する。その後、推定装置30は、日本語テキストを解析する。推定装置30は、取得した日本語テキストを解析し、それらをナレッジグラフと比較することで犯罪に関する情報を推定してもよい。そして、推定装置30は、予測される犯罪の場所および種類をそのリスク発生度合い併せて推定してもよい。その結果、犯罪行為が発生する可能性の高い場所に、警察官によって組織される犯罪防止班を自動的に派遣することにつながりうる。
【0041】
推定装置30によるこれらの推定処理によって、当局は、公共安全及び/又は治安維持のために必要な措置について自動的な意思決定の支援を受けることができる。
【0042】
図3は、本発明の実施形態における学習装置10の機能構成例を示す図である。学習装置10
は、取得部110、処理部120、通信部130、学習データ記憶部140及び出力部150を備える。学習データ記憶部140は、マーカ付テキスト記憶部141、ナレッジグラフ記憶部142、学習結果記憶部143及び学習結果記憶部144を含む。
【0043】
取得部110は、学習対象となる学習済モデルを外部から取得する。学習済モデルは教師データであり、英語のテキストと、英語のテキストに対応するナレッジグラフとを含む。教師データは、英語のテキストと、ナレッジグラフとの対応関係を示す。英語のテキストを第1の文字列と称してもよい。第1の文字列は第1の主語及び第1の述語を含む。なお、英語は第1言語の一例である。つまり、第1言語はフランス語、イタリア語、スペイン語、中国語といった、日本語以外の言語であればよい。英語のテキストは複数の名詞を含む。英語のテキストに含まれる複数の名詞は、複数の第1の名詞の一例である。ナレッジグラフにもこれら複数の名詞は含まれる。したがって、教師データは、前記第1の文字列と、前記第1の文字列に含まれる少なくとも第1の主語及び第1の述語との対応関係を示す。
【0044】
処理部120は、外部から取得された情報やデータを処理及び加工する。通信部130は、外部の装置と情報及びデータの送受信を実行する。マーカ付テキスト記憶部141は、マーカ付き英語テキストを記憶する。ナレッジグラフ記憶部142は英語のナレッジグラフを記憶する。学習結果記憶部143は、学習済モデルを記憶する。学習結果記憶部144は学習結果を記憶する。学習結果は更新された学習済モデルを含む。なお、マーカ付き英語テキストの代わりに、他の第1言語のマーカ付きテキストをマーカ付テキスト記憶部141は記憶してもよい。ナレッジグラフ記憶部142は、英語のナレッジグラフの代わりに他の第1言語のナレッジグラフを記憶してもよい。出力部150は、外部から取得された情報やデータ、また、学習済モデル等を外部に出力する。
【0045】
図4は、本発明の実施形態における推定装置30の機能構成例を示す図である。推定装置30は、取得部310、処理部320、通信部330、実行データ記憶部340及び出力部350を含む。実行データ記憶部340は、日本語テキスト記憶部341、推定結果記憶部342及び学習済モデル記憶部343を含む。
【0046】
取得部310は、推定対象の日本語テキストと、学習済モデルとを取得する。取得される学習済モデルは、学習装置10によって生成された「更新された学習済モデル」であり、不連続繰り返しOpenIE抽出学習に基づいて生成されたものである。
【0047】
処理部320は、推定対象の日本語テキストと、学習済モデルとに基づいて推定処理を実行し、推定対象の日本語テキストに対応するナレッジグラフを推定する。処理部320は、前述のリンク予測をさらに実行してもよい。
【0048】
通信部330は、外部の装置と情報及びデータの送受信を実行する。日本語テキスト記憶部341は、推定対象の日本語テキストを記憶する。推定結果記憶部342は、推定対象の日本語テキストと学習済モデルとに基づく推定処理の結果を記憶する。学習済モデル記憶部343は学習済モデルを記憶する。出力部350は、外部から取得された情報やデータ、また、推定結果等を外部に出力する。出力部350は、リンク予測結果をさらに出力してもよい。
【0049】
図5は、本発明の実施形態における学習処理のフローチャートである。
【0050】
ステップS100において、取得部110は、英語のテキストを取得する。英語は第1言語の一例である。英文テキストを第1の文字列と称してもよい。英文テキストは複数の名詞を含む。英文テキストに含まれる複数の名詞を第1の名詞と称してもよい。
【0051】
ステップS101において、取得部110は、学習済モデルを取得する。学習済モデルは、英文テキストと、英文テキストに対応するナレッジグラフとの対応関係を含む教師データである。取得部110に代えて、通信部130は学習済モデルを外部の他の装置から受信してもよい。ナレッジグラフ記憶部142はナレッジグラフを記憶してもよく、学習済モデル記憶部143は学習済モデルを記憶してもよい。
【0052】
ステップS102において、処理部120は、英文テキストを機械翻訳エンジンに基づいて和訳し、日本語テキストを生成する。日本語テキストを第2の文字列と称してもよい。日本語テキストは複数の名詞を含む。日本語テキストに含まれる複数の名詞を第2の名詞と称してもよい。
【0053】
ステップS103において、処理部120は、英文テキストに含まれる複数の名詞の順序を、機械翻訳によって得られた和文テキストに含まれる名詞の順序に対応するようにして変更し、語順の変更された英文テキストを生成する。語順の変更された英文テキストを第1の変換された第1の文字列と称してもよく、また、日本語風の英語テキストと称してもよい。
【0054】
ステップS104において、処理部120は、語順の変更された英文テキストに含まれる複数の名詞のそれぞれの前に、英文テキストに含まれる複数の名詞と、和文テキストに複数の名詞との対応関係に基づいて、和文テキストに含まれる名詞の後に続く助詞のそれぞれを付加する。この結果得られる文字列を、第2の変換された第1の文字列と称してもよく、マーカ付き英文テキストと称してもよい。マーカ付テキスト記憶部141はマーカ付き英文テキストを記憶する。
【0055】
ステップS105において、処理部120は、マーカ付き英文テキストと、学習済モデルとに基づいて転移学習を実行することにより、学習済モデルのモデルパラメータを更新し、更新された学習済モデルを生成する。更新された学習済モデルは、英文テキストと、英文テキストに対応するナレッジグラフの日本語版との対応関係を示す。英文テキストには対応するマーカ付き英文テキストと、対応する日本語訳とがあるので、結果として、更新された学習済モデルは、日本語テキストと日本語ナレッジグラフとの対応関係を示す。英文テキストに対応するナレッジグラフの日本語版は、英文テキストに含まれる複数の名詞に対応する日本語の名詞を含む。学習結果記憶部144は、更新された学習済モデルを記憶する。
【0056】
ステップS106において、出力部150は、更新された学習済モデルを出力する。出力部150に代えて、又は出力部150に加えて、通信部130は更新された学習済モデルを他の装置に送信してもよい。この場合、通信部130は、更新された学習済モデルを推定装置30に送信してもよい。
【0057】
図6は、本発明の実施形態における推定処理のフローチャートである。
【0058】
ステップS300において、取得部310は推定対象の日本語テキストを取得する。推定対象の日本語テキストを第3の文字列と称してもよい。日本語テキスト記憶部341は推定対象の日本語テキストを記憶する。取得部310に代えて、通信部330が推定対象の日本語テキストを外部装置から受信してもよい。
【0059】
ステップS301において、取得部310は更新された学習済モデルを取得する。学習済モデル記憶部343は更新された学習済モデルを記憶する。取得部310に代えて、通信部330が更新された学習済モデルを受信してもよい。
【0060】
ステップS302において、処理部320は演算処理を実行する。具体的に、処理部320は、推定対象の日本語テキストと、更新された学習済モデルとに基づいて推定処理を実行し、推定対象の日本語テキストに含まれる複数の名詞と、推定対象の日本語テキストに含まれる複数の助詞とを抽出する。推定対象の日本語テキストに含まれる複数の助詞を複数の第3の助詞と称してもよい。この結果、処理部320は、日本語テキストに対応するナレッジグラフを推定し、得ることができる。
【0061】
ステップS303において、出力部350は日本語テキストに対応するナレッジグラフを出力する。出力部350に代えて通信部330は日本語テキストに対応するナレッジグラフを外部装置に送信してもよい。
【0062】
ステップS304において処理部320はさらにリンク予測を実行してもよい。
【0063】
以上説明したように、本発明の実施形態に係る学習のための方法は、英語 (第1言語) によって記述された英文テキスト (第1の文字列) を取得するステップであって、英文テキストは英語の複数の名詞 (複数の第1の名詞) を含むステップと、英文テキストと、英文テキストに含まれる少なくとも第1の主語及び第1の述語との対応関係を示す学習済モデルを取得するステップとを含み、ここで、第1の主語及び第1の述語は英語のナレッジグラフでもよいステップと、英文テキストを日本語に翻訳して日本語のテキスト (第2の文字列) を生成するステップであって、日本語のテキストは複数の第2の名詞を含むステップと、英文テキストに含まれる複数の名詞の順序が日本語のテキストに含まれる複数の第2の名詞の順序に対応するように、英文テキストの構造を変更することにより、語順の変更された英文テキスト (日本語風の英語テキスト、又は、第1の変換された第1の文字列) を取得するステップと、語順の変更された英文テキストに含まれる複数の第1の名詞それぞれの前に、英文テキストに含まれる複数の第1の名詞と和文テキストに含まれる複数の第2の名詞との対応関係に基づいて、1つ又は複数の日本語の助詞のそれぞれを付加し、マーカ付き英文テキスト (第2の変換された第1の文字列) を取得するステップと、マーカ付き英語テキストと、学習済モデルとに基づいて、転移学習を実行することにより、英文テキストと、和文テキストに含まれる複数の第2の名詞との対応関係を示す更新された学習済モデルを生成するステップであって、ここで、和文テキストに含まれる複数の第2の名詞はナレッジグラフの日本語版でもよいステップ、を有する。
【0064】
これにより、日本語テキストから効率よく日本語のナレッジグラフを推定及び生成することができる。
【0065】
また、本実施形態において、処理部120により、マーカ付き英文テキストと、学習済モデルとに基づいて、転移学習を実行することにより、更新された学習済モデルを生成する処理は、不連続かつ反復的抽出及び学習に対応し、不連続かつ反復的抽出において、英文テキストに含まれる第1の主語及び第1の述語の間に名詞及び動詞以外の1つ又は複数の他のキーワードが含まれ、処理部120は、日本語テキストに含まれる複数の第2の名詞の各々に対応する助詞を反復的に抽出してもよい。他のキーワードは、例えば、「その少女は、驚いたことに、奇妙な音を聞いた。」との文における「驚いたことに」といった語句でもよい。
【0066】
また、本実施形態において、マーカ付き英文テキストにおいて英文テキストに含まれる複数の第1の名詞の前に付加される助詞は格助詞を含んでもよい。
【0067】
また、本実施形態において、推定装置30が備える取得部310は、推定対象の日本語テキスト (第3の文字列) を取得し、更新された学習済モデルを取得し、処理部320は、推定対象の日本語テキストと、更新された前記学習済モデルとに基づいて、推定対象の日本語テキストに含まれる複数の第3の名詞と、複数の第3の助詞とを抽出することにより、推定対象の日本語テキストに対応するナレッジグラフを得る。ここで、複数の第3の助詞は、複数の第3の名詞のそれぞれに対応する助詞を含む。
【0068】
また、本実施形態において、複数の第3の助詞は格助詞を含んでもよい。
【0069】
また、学習装置10及び推定装置30の少なくとも1つは、ユーザ側の端末として構成されてもよい。学習装置10及び推定装置30の少なくとも1つに係る機能は、学習装置10及び推定装置30における各処理を実行するプログラムとして実現されてもよい。このプログラムの実行により、ユーザに対して課金処理が行われてもよい。
【0070】
学習装置10及び推定装置30における各処理を実行するプログラムの少なくとも1つが、他のサーバ装置からダウンロードされるように構成される場合、当該サーバ装置はプログラムを学習装置10及び推定装置30の少なくとも1つに自動的に送信するように構成されてもよく、この場合、学習装置10及び推定装置30の少なくとも1つのユーザによる別途の操作が無くても、プログラムが機能するように構成されてもよい。
【0071】
これにより、日本語テキストから効率よく日本語のナレッジグラフを推定及び生成することができる。
【0072】
なお、学習装置10及び推定装置30は1つの装置として構成されてもよい。
【0073】
<ハードウェア構成>
図7は、本実施形態に係る各装置のハードウェア構成を説明する説明図である。各装置とは、学習装置10及び推定装置30である。各装置は、入出力モジュールI、記憶モジュールM、及び制御モジュールPを含んで構成される。入出力モジュールIは、通信モジュールH11、接続モジュールH12、ポインティングデバイスH21、キーボードH22、ディスプレイH23、ボタンH3、マイクH41、スピーカH42、カメラH51、またはセンサH52の一部或いは全部を含んで実現される。
【0074】
記憶モジュールMは、ドライブH7を含んで実現される。記憶モジュールMは、さらに、メモリH8の一部或いは全部を含んで構成されてもよい。制御モジュールPは、メモリH8及びプロセッサH9を含んで実現される。これらのハードウェア構成要素は、バス (Bus) を介して、相互に通信可能に接続されるとともに、電源H6から電力を供給されている。
【0075】
接続モジュールH12は、USB (Universal Serial Bus) 等のデジタル入出力ポートである。携帯機器の場合、ポインティングデバイスH21、キーボードH22、およびディスプレイH23は、タッチパネルである。センサH52は、取得部としての画像センサである。電源H6は、各装置を動かすために必要な電気を供給する電源ユニットである。携帯機器の場合、電源H6は、バッテリーである。
【0076】
ドライブH7は、ハードディスクドライブやソリッドステートドライブ等の補助記憶媒体である。ドライブH7は、EEPROMやフラッシュメモリ等の不揮発性メモリ、又は、光磁気ディスクドライブやフレキシブルディスクドライブであってもよい。また、ドライブH7は、例えば、各装置に内蔵されるものに限らず、IFモジュールH12のコネクタに接続された外付け型の記憶装置でもよい。
【0077】
メモリH8は、ランダムアクセスメモリ等の主記憶媒体である。なお、メモリH8は、キャッシュメモリであってもよい。メモリH8は、1つ又は複数のプロセッサH9によって命令が実行されるときに、これらの命令を格納する。
【0078】
プロセッサH9は、CPU (中央演算装置) である。プロセッサH9は、MPU (マイクロプロセッシングユニット)又はGPU(グラフィックスプロセッシングユニット) であってもよい。プロセッサH9は、メモリH8を介してドライブH7から、プログラム及び各種データを読み出して演算を行うことで、一又は複数のメモリH8に格納した命令を実行する。
【0079】
入出力モジュールIは、取得部110、通信部130、出力部150、取得部310、通信部330及び出力部350を実現する。
【0080】
制御モジュールPは、処理部120及び処理部320を実現する。なお、本明細書等において、学習装置10及び推定装置30との記載は、それぞれ、制御部P10及びP30との記載に置き換えられてもよいし、これらの各装置との記載は、制御モジュールPとの記載に置き換えられてもよい。
【0081】
ドライブH7またはメモリH8は、学習データ記憶部140及び実行データ記憶部340を実現する。
【0082】
以上、本発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。
【0083】
例えば、上記各実施形態の一部又は全部を組み合わせることで本発明の一態様を実現してもよい。
【0084】
上記に開示されたプロセス/フローチャートにおける処理の特定の順序または階層構造は、例示である。適宜の設計に基づいて、フローチャートにおける処理の特定の順序または階層構造は、並べ替えられてもよい。さらに、いくつかの処理は組み合わされてよく、または省略されてよい。特許請求の範囲に記載された方法に係る開示は、様々な処理の要素を例示的な順序で提示したものであり、提示された特定の順序または階層構造に限定されるものではない。
【0085】
例えば、「A、B、またはCのうちの少なくとも1つ」、「A、B、またはCのうちの1つまたは複数」、「A、B、およびCのうちの少なくとも1つ」、「A、B、およびCのうちの1つまたは複数」、および「A、B、C、またはそれらの任意の組合せ」などの組合せは、A、B、および/またはCの任意の組合せを含み、複数のA、複数のB、または複数のCを含み得る。具体的には、「A、B、またはCのうちの少なくとも1つ」、「A、B、またはCのうちの1つまたは複数」、「A、B、およびCのうちの少なくとも1つ」、「A、B、およびCのうちの1つまたは複数」、および「A、B、C、またはそれらの任意の組合せ」などの組合せは、Aのみ、Bのみ、Cのみ、A及びB、AおよびC、BおよびC、またはA及びBおよびCであってもよく、任意のそのような組合せは、A、B、またはCのうちの1つまたは複数のメンバーを含み得る。
【符号の説明】
【0086】
S…推定システム、10…学習装置、30…推定装置、110…取得部、120…処理部、130…通信部、140…学習データ記憶部、150…出力部、310…取得部、320…処理部、330…通信部、340…実行データ記憶部、350…出力部
図1
図2
図3
図4
図5
図6
図7