IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社IDホールディングスの特許一覧

特許7513820機械学習用データの生成方法、機械学習用データ生成装置
<>
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図1
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図2
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図3
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図4
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図5
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図6
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図7
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図8
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図9
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図10
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図11
  • 特許-機械学習用データの生成方法、機械学習用データ生成装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】機械学習用データの生成方法、機械学習用データ生成装置
(51)【国際特許分類】
   G06F 21/62 20130101AFI20240702BHJP
   G06N 20/00 20190101ALI20240702BHJP
【FI】
G06F21/62 318
G06N20/00
【請求項の数】 6
(21)【出願番号】P 2023146468
(22)【出願日】2023-09-08
【審査請求日】2023-10-03
(73)【特許権者】
【識別番号】519355600
【氏名又は名称】株式会社IDホールディングス
(74)【代理人】
【識別番号】100111970
【弁理士】
【氏名又は名称】三林 大介
(72)【発明者】
【氏名】牧野 剛明
【審査官】塩澤 如正
(56)【参考文献】
【文献】特開2015-207043(JP,A)
【文献】特開2020-197959(JP,A)
【文献】国際公開第2021/250778(WO,A1)
【文献】特開2007-328650(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
機械学習によって推定モデルを生成するために使用される機械学習用データを、コンピュータによって生成する機械学習用データの生成方法であって、
前記機械学習の対象となる対象データを読み込む対象データ読込工程と、
前記対象データを前記機械学習に使用するための許諾の有無を表す許諾情報を読み込む許諾情報読込工程と、
前記対象データおよび前記許諾情報に基づいて前記機械学習用データを生成する生成工程と
を備えており、
前記対象データ読込工程は、
前記対象データ中で前記許諾が必要な内容が記載または表示された箇所である要許諾箇所を示す要許諾箇所情報と、
前記要許諾箇所についての前記許諾が得られていない場合に、前記要許諾箇所の前記対象データの代わりに差し替えられる差替データと
が付加された前記対象データを読み込む工程であり、
前記生成工程は、前記要許諾箇所の前記対象データを、前記許諾情報に従って前記差替データに差し替えることによって、前記機械学習用データを生成する工程である
ことを特徴とする機械学習用データの生成方法。
【請求項2】
請求項1に記載の機械学習用データの生成方法であって、
前記対象データ読込工程は、前記対象データに対して前記要許諾箇所情報が別レイヤーで記載された前記対象データを読み込む工程である
ことを特徴とする機械学習用データの生成方法。
【請求項3】
請求項2に記載の機械学習用データの生成方法であって、
前記対象データ読込工程は、前記要許諾箇所毎に前記差替データが付加された前記対象データを読み込む工程であり、
前記許諾情報読込工程は、前記要許諾箇所毎の前記許諾の有無を表す前記許諾情報を読み込む工程である
ことを特徴とする機械学習用データの生成方法。
【請求項4】
請求項1ないし請求項3の何れか一項に記載の機械学習用データの生成方法であって、
前記許諾情報読込工程は、部分的な前記許諾である部分許諾を含めた前記許諾情報を読み込む工程であり、
前記対象データ読込工程は、前記部分許諾が得られた前記要許諾箇所については、前記部分許諾が得られた場合の前記差替データが付加された前記対象データを読み込む工程である
ことを特徴とする機械学習用データの生成方法。
【請求項5】
請求項1ないし請求項3の何れか一項に記載の機械学習用データの生成方法であって、
前記機械学習用データを生成する際あるいは生成後に、前記対象データを特定可能な情報と、前記要許諾箇所情報と、前記要許諾箇所毎に差し替えられた前記差替データとを含んだ差替情報を生成して、分散台帳にブロックチェーン形式で保存する保存工程を備える
ことを特徴とする機械学習用データの生成方法。
【請求項6】
機械学習によって推定モデルを生成するための機械学習用データを生成する機械学習用データ生成装置であって、
前記機械学習の対象となる対象データを読み込む対象データ読込部と、
前記対象データを前記機械学習に使用するための許諾の有無を表す許諾情報を読み込む許諾情報読込部と、
前記対象データおよび前記許諾情報に基づいて前記機械学習用データを生成する機械学習用データ生成部と
を備えており、
前記対象データ読込部は、
前記対象データ中で前記許諾が必要な内容が記載または表示された箇所である要許諾箇所を示す要許諾箇所情報と、
前記要許諾箇所についての前記許諾が得られていない場合に、前記要許諾箇所の前記対象データの代わりに差し替えられる差替データと
が付加された前記対象データを読み込んでおり、
前記機械学習用データ生成部は、前記要許諾箇所の前記対象データを、前記許諾情報に従って前記差替データに差し替えることによって、前記機械学習用データを生成する
ことを特徴とする機械学習用データ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習によって推定モデルを生成するために使用される機械学習用データを生成する技術に関する。
【背景技術】
【0002】
機械学習に関する近年の技術の進歩は目覚ましいものがある。そのような目覚ましい進歩の一つとして、一般的な内容に関する大量のデータを用いて予備的な学習を行った後に、使用分野や使用目的等に対応した個別内容のデータを学習することによって、高い推定精度の推定モデルを作成する技術の実用化が挙げられる。尚、以下では、使用分野や使用目的等に対応した個別内容のデータを「個別データ」と称し、個別データを用いた学習を「個別学習」と称する。また、一般的な内容に関するデータを「一般データ」と称し、一般データを用いた予備的な学習を「予備学習」と称する。
【0003】
一般に、推定精度の高い推定モデルを作成するためには大量のデータを学習する必要があるが、個別データを大量に準備することは難しい。そこで、容易に入手可能な一般データを大量に用いて予備学習を行った後に、一般データよりも少量の個別データを用いて個別学習を行うことで、高い推定精度の推定モデルを比較的容易に作成することが可能となる。
【0004】
また、高い推定精度の推定モデルが得られた場合でも、その後の環境条件の変化によって少しずつ推定精度が低下することがある。そこで、推定モデルが得られた後も、継続的に新たな個別データを収集して個別学習を行うことによって、推定モデルの精度を維持する各種の技術が提案されている(例えば、特許文献1)。
【0005】
更には、継続的に個別学習を行っていると、推定モデルの精度が却って低下してしまうこともある。そこで、継続的な個別学習で学習したデータ(すなわち個別データ)を記憶しておき、推定モデルの精度が低下した場合には、学習した個別データを検証可能とする技術も提案されている(特許文献2)。
【0006】
ここで、これらの個別データは、予備学習で使用される一般データに比べて入手が困難であり、加えて、一般データに比べると、第三者の権利(例えば著作権や、プライバシー権や、営業秘密など)が付随した内容を含む可能性が高くなる。そして、学習した個別データに第三者の権利が付随した内容が含まれていた場合は、事後的に第三者の許諾を得る必要が生じ、許諾が得られない場合は推定モデルを破棄しなければならなくなる。このため、第三者の権利が付随した内容を含む個別データについては、学習前に許諾を得ておく必要がある。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2023-086053号公報
【文献】特開2022-150778号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、個別データのように第三者の許諾が必要な機械学習用データについては、必ず許諾が得られるとは限らないため、十分な量の機械学習用データを確保することが難しいという問題がある。そして、十分な量の機械学習用データを確保できない場合は、十分な精度の推定モデルを得ることが困難になる。
【0009】
この発明は、従来の技術が有する上述した課題を解決するために成されたものであり、第三者の権利が必要な機械学習用データについても、十分な量のデータを容易に確保することが可能な技術の提供を目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決するために、本発明の機械学習用データの生成方法は、次の構成を採用した。すなわち、
機械学習によって推定モデルを生成するために使用される機械学習用データを、コンピュータによって生成する機械学習用データの生成方法であって、
前記機械学習の対象となる対象データを読み込む対象データ読込工程と、
前記対象データを前記機械学習に使用するための許諾の有無を表す許諾情報を読み込む許諾情報読込工程と、
前記対象データおよび前記許諾情報に基づいて前記機械学習用データを生成する生成工程と
を備えており、
前記対象データ読込工程は、
前記対象データ中で前記許諾が必要な内容が記載または表示された箇所である要許諾箇所を示す要許諾箇所情報と、
前記要許諾箇所についての前記許諾が得られていない場合に、前記要許諾箇所の前記対象データの代わりに差し替えられる差替データと
が付加された前記対象データを読み込む工程であり、
前記生成工程は、前記要許諾箇所の前記対象データを、前記許諾情報に従って前記差替データに差し替えることによって、前記機械学習用データを生成する工程である
ことを特徴とする。
【0011】
また、上述した本発明の機械学習用データの生成方法は、機械学習用データを生成するための装置の態様で把握することもできる。すなわち、本発明の機械学習用データ生成装置は、
機械学習によって推定モデルを生成するための機械学習用データを生成する機械学習用データ生成装置であって、
前記機械学習の対象となる対象データを読み込む対象データ読込部と、
前記対象データを前記機械学習に使用するための許諾の有無を表す許諾情報を読み込む許諾情報読込部と、
前記対象データおよび前記許諾情報に基づいて前記機械学習用データを生成する機械学習用データ生成部と
を備えており、
前記対象データ読込部は、
前記対象データ中で前記許諾が必要な内容が記載または表示された箇所である要許諾箇所を示す要許諾箇所情報と、
前記要許諾箇所についての前記許諾が得られていない場合に、前記要許諾箇所の前記対象データの代わりに差し替えられる差替データと
が付加された前記対象データを読み込んでおり、
前記機械学習用データ生成部は、前記要許諾箇所の前記対象データを、前記許諾情報に従って前記差替データに差し替えることによって、前記機械学習用データを生成する
ことを特徴とする。
【0012】
このような本発明の機械学習用データの生成方法および機械学習用データ生成装置では、機械学習の対象となる対象データに対して、要許諾箇所情報と差替データとを予め付加しておく。ここで要許諾箇所情報とは、対象データ中で許諾が必要な内容(文言や文章や図形やグラフなど)が記載または表示された箇所である要許諾箇所を示す情報である。また、差替データとは、要許諾箇所についての許諾が得られていない場合に、要許諾箇所の対象データの代わりに差し替えられるデータである。機械学習用データを生成するに際しては、要許諾箇所情報および差替データが付加された対象データと、許諾情報とを読み込む。ここで許諾情報とは、対象データを機械学習に使用するための許諾の有無を表す情報である。そして、許諾情報に基づいて、要許諾箇所情報の要許諾箇所についての許諾が得られているか否かを判断し、許諾が得られていない場合には、要許諾箇所の対象データを差替データに差し替えることによって機械学習用データを生成する。
【0013】
こうすれば、要許諾箇所についての許諾が得られていない場合でも、第三者の権利を侵さない内容、あるいは許諾が得られる内容に修正した差替データを用意しておき、要許諾箇所の対象データを差替データに差し替えることで、機械学習用データを生成することができる。また、対象データ中に、許諾が得られた要許諾箇所と許諾が得られない要許諾箇所とが存在する場合でも、許諾が得られない要許諾箇所の対象データを差替データに差し替えることで、第三者の権利が必要な対象データからでも機械学習用データを生成することができる。更に、許諾が得られていない要許諾箇所の対象データを黒塗りするなどして秘匿化するのではなく、あらかじめ用意しておいた適切な差替データに差し替えることができるので、許諾が得られていない要許諾箇所を含んだ対象データからでも、十分に機械学習に用いることが可能な機械学習用データを生成することができる。その結果、十分な量の機械学習用データを容易に確保することが可能となる。
【0014】
また、上述した本発明の機械学習用データの生成方法および機械学習用データ生成装置では、対象データの別レイヤーとして要許諾箇所情報を記載することによって、対象データに要許諾箇所情報を付加するようにしてもよい。
【0015】
こうすれば、対象データ中で第三者の許諾が必要な箇所を、簡単に特定することができるので、対象データに要許諾箇所情報を容易に付加することができる。加えて、第三者の許諾が必要な箇所を、曖昧さを残さない状態で明確に特定することができるので、差替データを作成することも簡単となる。更に、対象データ自体に対しては改変する必要が無いので、改変に伴う著作権上の問題が生じることもない。
【0016】
また、上述した本発明の機械学習用データの生成方法および機械学習用データ生成装置では、機械学習用データを生成するに際して、要許諾箇所毎に差替データが付加された対象データと、要許諾箇所毎に許諾の有無を表した許諾情報とを読み込んでもよい。
【0017】
こうすれば、複数の要許諾箇所を有する対象データからでも、適切な機械学習用データを生成することが可能となる。
【0018】
また、上述した本発明の機械学習用データの生成方法および機械学習用データ生成装置では、機械学習用データを生成するに際して、部分許諾を含む許諾情報と、部分許諾に対応する差替データが付加された対象データとを読み込むようにしても良い。ここで部分許諾とは、要許諾箇所の対象データの内容に関して、あるいは許諾を受ける相手や、機械学習で生成した推定モデルの用途などに関しての制限が付された許諾である。そして、部分許諾が得られた要許諾箇所については、対象データを部分許諾用の差替えデータに差し替えることによって、機械学習用データを生成してもよい。
【0019】
こうすれば、無制限の許諾は得られないが、部分許諾なら得られる対象データからでも、機械学習用データを生成することが可能となる。
【0020】
また、上述した本発明の機械学習用データの生成方法および機械学習用データ生成装置では、機械学習用データを生成する際あるいは生成後に、対象データを特定可能な情報と、要許諾箇所情報と、要許諾箇所毎に差し替えられた差替データとを含んだ差替情報を生成して、その差替情報40を分散台帳にブロックチェーン形式で保存することとしても良い。
【0021】
こうすれば、機械学習用データが第三者の許諾を受けて生成されていることを、後日になっても容易に立証することが可能となる。このため、機械学習によって生成された推定モデルが、第三者の許諾を得ていない機械学習用データを学習したのではないかと疑われて、推定モデルを破棄しなければならなくなる事態を回避することが可能となる。
【図面の簡単な説明】
【0022】
図1】本実施例の機械学習用データ生成装置10の概要を示す説明図である。
図2】予備学習および個別学習を行う機械学習の概要を示した説明図である。
図3】本実施例の機械学習用データ生成装置10に読み込ませる対象データセット20のデータ構造を示した説明図である。
図4】対象データセット20の中の対象データ21と要許諾箇所情報22との関係を概念的に示した説明図である。
図5】対象データセット20の中の差替用レコードセット23を概念的に示した説明図である。
図6】機械学習用データを生成するために読み込ませる許諾情報30についての説明図である。
図7】機械学習用データを生成する処理の前半部分を示したフローチャートである。
図8】機械学習用データを生成する処理の後半部分を示したフローチャートである。
図9】差替情報40をブロックチェーン形式で保存する処理を示したフローチャートである。
図10】差替情報40のデータ構造を示した説明図である。
図11】差替情報40がブロックチェーン形式で保存される様子を示した説明図である。
図12】本実施例の機械学習用データ生成装置10を用いれば十分な量の個別データを容易に用意することが可能な理由を示した説明図である。
【発明を実施するための形態】
【0023】
図1は、本実施例の機械学習用データ生成装置10の概要を示す説明図である。図示されるように本実施例の機械学習用データ生成装置10は、サーバ50に記憶されている対象データや、予め設定しておいた許諾情報を読み込んで所定の処理を加えることによって、機械学習用データを生成する。ここで、対象データとは、機械学習の対象となるデータであり、文書データや、画像データや、これらを組み合わせたデータなどが含まれる。また、後述するように本実施例の機械学習用データ生成装置10は、対象データ単独ではなく、後述する要許諾箇所情報や差替データが付加された状態で、対象データを読み込んでいる。
【0024】
また、許諾情報とは、対象データを機械学習に使用するための許諾が得られているか否かを示す情報である。すなわち、対象データには第三者の権利(例えばプライバシー権や著作権など)が付随した内容が含まれていることがあり、第三者の許諾を得ないままで対象データを学習すると、最悪の場合は、機械学習によって得られた推定モデルを破棄しなければならなくなる。そこで、対象データに許諾が必要な内容が含まれているか否か、およびそのような内容が含まれている場合に許諾が得られているか否かを示す情報が、許諾情報として予め纏められている。許諾情報についても、後ほど詳しく説明する。
【0025】
また、機械学習用データ生成装置10は、対象データ読込部11や、許諾情報読込部12や、機械学習用データ生成部13や、差替情報保存部14などを備えている。尚、これらの「部」は、機械学習用データ生成装置10が、機械学習用データを生成するために備える機能を表す抽象的な概念であり、これらの「部」に対応する部品が存在することを示しているわけではない。これらの「部」は、コンピュータで実行されるソフトウェアプログラムとして実現することもできるし、LSIやICなどによるハードウェアとして実現することもできる。更には、ソフトウェアプログラムとハードウェアとを組み合わせることによって実現しても良い。
【0026】
対象データ読込部11は、対象データを読み込んで機械学習用データ生成部13に供給する。また、許諾情報読込部12は、許諾情報を読み込んで機械学習用データ生成部13に出力する。
【0027】
機械学習用データ生成部13は、対象データおよび許諾情報を受け取ると、許諾情報を参照することによって、必要な許諾が得られているか否かを確認する。そして許諾が得られている場合は対象データをそのまま用いて機械学習用データを生成する。これに対して、許諾が得られていない場合は、対象データ中で許諾が必要な部分を、予め設定しておいた差替データに差し替えることによって機械学習用データを生成する。機械学習用データを生成する処理については、後ほど詳しく説明する。
【0028】
差替情報保存部14は、対象データ中で差替データに差し替えた箇所を示す情報や、差し替えた差替データを示す情報などを機械学習用データ生成部13から取得することによって差替情報を生成し、ブロックチェーンネットワーク60上の分散台帳に保存する。ブロックチェーンネットワーク60は、複数のコンピュータノード(以下、ノード)が互いに通信可能に接続されており、複数のノードの1つにデータを保存すると、他のノードにも同じデータが保存されることによって分散台帳が形成されている。差替情報保存部14は、ブロックチェーン形式の差替情報を生成して、ブロックチェーンネットワーク60の1つのノードn1に送信することで、ブロックチェーンネットワーク60上の分散台帳に差替情報を保存する。ブロックチェーン形式の差替情報を生成する方法については、後ほど詳しく説明する。
【0029】
ここで、上述した機械学習用データ生成装置10が生成する機械学習用データは、機械学習の中の「個別学習」という学習段階で用いられる機械学習用データ(個別データ)である。すなわち、近年の機械学習では、初めに予備学習を行った後に個別学習を行うことが一般的となっており、本実施例の機械学習用データ生成装置10が生成する機械学習用データは、特に個別学習用の機械学習用データに適している。そこで、説明の準備として、予備学習および個別学習を行う機械学習の概要について説明しておく。
【0030】
図2は、予備学習および個別学習を行う機械学習の概要を示した説明図である。近年の主流となっている機械学習では、一段目の学習段階である予備学習で、一般的な内容に関するデータ(一般データ)を大量に学習する。いわゆる「大規模言語モデル」を生成するための機械学習も予備学習に該当する。たとえば、日本語の大規模言語モデルを生成するためには大量の日本語の文書データを学習する必要があるが、文書データの内容については一般的な内容で構わない。このように予備学習では大量のデータを機械学習するが、学習するデータは一般的な内容のデータであるため、大量のデータであっても比較的容易に入手することができる。
【0031】
予備学習が終了したら、二段目の学習段階である個別学習を行う。個別学習では、生成しようとする推定モデルに応じた内容のデータを用意して機械学習する。たとえば、金融分野で使用する推定モデルを生成するのであれば、経済学や金融などに関する内容の文献を、できるだけ最新のものまで含めて機械学習する。また、セキュリティー分野で使用する推定モデルを生成するのであれば、コンピュータや通信やセキュリティーなどに関する内容の文献を、できるだけ最新のものまで含めて機械学習する。更には、推定モデルを使用する現場の事情に合わせる必要がある場合には、現場で用いられる資料やデータなども機械学習する。このように、個別学習では使用分野や使用目的等に対応した個別内容のデータ(個別データ)を機械学習することによって推定モデルを生成する。高い推定精度の推定モデルを生成するためには、大量の個別データを機械学習する必要があるが、一般データに比べると少量のデータでも構わない。
【0032】
また、推定モデルが得られた後も、その後の環境条件の変化によって少しずつ推定精度が低下することがある。そこで、継続的に新たな個別データを収集して個別学習を行って推定モデルを更新することにより、推定精度を維持することも行われる。
【0033】
ここで、個別学習や継続的な個別学習で用いられる個別データは、推定モデルの目的や用途などに合わせた個別の内容のデータであるため、一般データのように大量のデータを用意することは難しい。更に、個別データは個別の内容のデータであるため、第三者の権利(著作権やプライバシー権や営業秘密など)が付随した内容を含んでいる可能性がある。加えて、高い推定精度の推定モデルを得ようとすると、できるだけ最新の内容の個別データも含めて学習する必要があるが、最新の内容の個別データでは第三者の権利が付随する内容を含む可能性が高くなる。このような理由から、個別データについては十分な量のデータを用意することが困難である。これに対して、上述した本実施例の機械学習用データ生成装置10を用いれば、十分な量の個別データを用意することが可能となる。以下、この理由について説明する。
【0034】
図3は、本実施例の機械学習用データ生成装置10に読み込ませる対象データセット20のデータ構造を示した説明図である。対象データセット20は、機械学習の対象となる対象データ21の後ろに要許諾箇所情報22が追加され、要許諾箇所情報22の後ろに差替用レコードセット23が追加されたデータ構造となっている。ここで、要許諾箇所情報22とは、対象データ21の中で許諾が必要な内容が記載または表示された箇所(以下、要許諾箇所)を示す情報である。
【0035】
図4は、対象データセット20の対象データ21と要許諾箇所情報22との関係を概念的に示した説明図である。図示されるように要許諾箇所情報22は、対象データ21に対して別レイヤーとして付加されており、別レイヤー上で要許諾箇所24を指定したデータとなっている。図示したように、対象データ21の別レイヤー上で要許諾箇所24を表示することで、対象データ21中に許諾の必要な記載あるいは表示が複数存在する場合でも、それらを容易に指定および認識することができる。尚、それぞれの要許諾箇所24には、「要許諾番号」と呼ばれる通し番号が付されている。
【0036】
図5は、対象データセット20に含まれる差替用レコードセット23を概念的に示した説明図である。図示したように差替用レコードセット23は、複数の差替用データレコード25が集まったものとなっており、差替用データレコード25は、要許諾番号と、想定許諾状況と、差替データとが、この順番で配列されることによって形成されている。ここで、想定許諾状況とは、後に記載された差替データが、どのような許諾状況を想定して作成されたものであるかを表している。たとえば、図5中で上から2番目の差替用データレコード25は、要許諾番号が2番の要許諾箇所24に対する差替用データレコード25であり、この差替データは許諾状況が「無」(すなわち許諾が得られない状況)を想定して作成されていることを表している。
【0037】
また、図5中で一番上に表示された差替用データレコード25は、差替データが空欄となっている。この理由は、要許諾番号が1番の要許諾箇所24については、許諾状況が「有」(すなわち許諾が得られている状況)なので、差替データを作成する必要が無いためである。
【0038】
更に、図5中で上から4番目および5番目の差替用データレコード25は、何れも要許諾番号が4番となっている。すなわち、要許諾番号が4番の要許諾箇所24に対しては2つの差替データが設定されていることになる。この理由は、要許諾番号が4番の要許諾箇所24に記載されている内容については、許諾が得られていない場合と、部分的な許諾が得られた場合の2つの状況が想定されており、許諾が得られていない場合(想定許諾状況が[無])と、部分的な許諾が得られた場合(想定許諾状況が[部分])のそれぞれについて差替データが必要となるためである。
【0039】
尚、上述した例では、「許諾が得られない状況」か「部分的な許諾が得られた状況」の二択であるものとして説明した。これに対して、「許諾が得られた状況」か「部分的な許諾が得られた状況」の二択の場合は、想定許諾状況が「有」の差替用データレコード25と、想定許諾状況が「部分」の差替用データレコード25とを設定しておけばよい。また、詳細には後述するが、同じ要許諾番号の差替用データレコード25が存在するのであれば、必ずしも想定許諾状況が「有」の差替用データレコード25については設定されていなくても良い。従って、「許諾が得られた状況」または「部分的な許諾が得られた状況」の二択の場合は、想定許諾状況が「部分」の差替用データレコード25のみを設定しておいても良い。
【0040】
更に、図5中で上から2番目と4番目と5番目の差替用データレコード25では、差替データがそのまま記載されている。しかし、上から3番目の差替用データレコード25のように、差替データが保存されているURI(Uniform Resource Identifier)を設定しておくこともできる。
【0041】
図6は、本実施例の機械学習用データ生成装置10が機械学習用データを生成するために読み込む許諾情報30についての説明図である。図示したように許諾情報30は、複数の許諾状況レコード31が集まったものとなっており、許諾状況レコード31は、要許諾番号と、許諾状況とが、この順番で配列されることによって形成されている。ここで、許諾状況とは、要許諾番号に対応する要許諾箇所24に対して、許諾が得られているか否かを表す状況である。
【0042】
本実施例の機械学習用データ生成装置10は、図3図5を用いて前述した対象データセット20と、図6を用いて前述した許諾情報30とを読み込んで、以下に説明する機械学習用データ生成処理を実行することによって、機械学習用データを生成する。
【0043】
図7および図8は、機械学習用データ生成処理のフローチャートである。機械学習用データ生成処理では、予め作成してサーバ50に記憶しておいた対象データセット20と、予め作成しておいた許諾情報30とを読み込む(STEP10)。そして、要許諾番号を1番に初期化した後(STEP11)、許諾情報30を参照することによって、現在の要許諾番号に対応する許諾状況を取得する(STEP12)。たとえば、STEP11で要許諾番号を初期化した直後であれば要許諾番号は1番であるから、図6に例示した許諾情報30中で、要許諾番号が1番の許諾状況レコード31に設定されている「有」という許諾状況を取得することになる。
【0044】
続いて、STEP12で取得した許諾状況が許諾「有」であるか否かを判断する(STEP13)。その結果、許諾「有」であった場合は(STEP13:yes)、現在の要許諾番号の要許諾箇所24については、対象データ21の内容を差替データに差替える必要が無い。そこで、この場合は、要許諾番号が最後の要許諾番号に達したか否かを判断し(図8のSTEP18)、最後の要許諾番号に達していない場合は(STEP18:no)、要許諾番号を1つ増加させた後(STEP19)、図7のSTEP12に戻って、許諾情報30の中から、要許諾番号が新たな要許諾番号の許諾状況レコード31に設定されている許諾状況を取得する。そして、取得した許諾状況が許諾「有」か否かを判断し(STEP13)、許諾「有」であった場合は(STEP13:yes)、再び最後の要許諾番号に達したか否かを判断して、最後の要許諾番号に達していない場合は要許諾番号を1つ増加させた後(図8のSTEP18およびSTEP19)、再び図7のSTEP12に戻って同様な操作を繰り返す。
【0045】
これに対して、STEP12で取得した許諾状況が許諾「有」では無かった場合は(STEP13:no)、今度は、対象データセット20の差替用レコードセット23を参照することにより、要許諾番号に対応する想定許諾状況を取得する(STEP14)。すなわち、図3および図5を用いて前述したように、差替用レコードセット23中の差替用データレコード25には、要許諾番号に対応付けて、想定許諾状況および差替データが設定されている。そこで、STEP14では、現在の要許諾番号に対応付けて設定されている想定許諾状況を取得する。このとき、同じ要許諾番号に対して複数種類の想定許諾状況が設定されている場合は、全ての想定許諾状況を取得する(図5参照)。
【0046】
そして、STEP14で取得した想定許諾状況の中に、STEP12で取得した許諾状況に合致する想定許諾状況があるか否かを判断する。たとえば、図6に示した許諾情報30中の4番の要許諾番号に対しては、部分的な許諾が得られていることを表す[部分]という許諾状況が設定されている。一方、図5に示した対象データセット20中の4番の要許諾番号に対しては、[無]という想定許諾状況と、[部分]という想定許諾状況とが設定されている。従って、[部分]という許諾状況に合致した[部分]という想定許諾状況が設定されていることになる。そして、想定状況に合致した想定許諾状況があると判断した場合は(STEP15:yes)、要許諾箇所24に記載された対象データ21の内容を、想定状況に合致した想定許諾状況に対応する差替データに変更する(STEP16)。
【0047】
以上のようにして、要許諾番号の要許諾箇所24について、対象データ21の内容を差替データに差し替えたら、最後の要許諾番号に達したか否かを判断し(図8のSTEP18)、最後の要許諾番号に達していない場合は(STEP18:no)、要許諾番号を1つ増加させた後(STEP19)、図7のSTEP12に戻って、上述した一連の操作を開始する。
【0048】
これに対して、STEP15で「no」と判断した場合、すなわち、STEP14で取得した想定許諾状況の中に、STEP12で取得した許諾状況に合致する想定許諾状況が無い場合は、所定のアラームを出力して(STEP17)、機械学習用データ生成処理を終了する。たとえば、STEP12で取得した許諾状況が、許諾が得られていないことを表す[無]であるにも拘わらず、STEP14で参照した差替用レコードセット23の中に、想定許諾状況が[無]の差替用データレコード25が存在しない場合は、対象データ21中の要許諾箇所24の内容を差替えることができない。そこで、そのことを示すアラームを出力して、機械学習用データを生成することなく、処理を終了する。
【0049】
また、図8のSTEP18で、要許諾番号が最後の場号に達したと判断した場合は(STEP18:yes)、対象データ21の中で許諾が得られていない記載を差替データに差し替えることによって機械学習用データが得られたことになる。そこで、得られた機械学習用データのデータ名を取得する(STEP20)。機械学習用データのデータ名は、図7のSTEP10で機械学習用データ生成装置10に対象データセット20および許諾情報30を読み込ませる際に設定しておいても構わないが、STEP20の段階でデータ名の入力を要求して、入力されたデータ名を読み込んでも良い。その後、取得したデータ名で機械学習用データを出力する(STEP21)。
【0050】
こうして機械学習用データを出力したら、今度は、差替情報をブロックチェーンネットワーク60上の分散台帳に保存するために、以下のような差替情報保存処理(STEP30)を開始する。図9は、差替情報保存処理(STEP30)のフローチャートである。また、差替情報40とは、機械学習用データを生成するために対象データ21に対して差し替えた内容を示す情報であり、図10に示したように、機械学習用データのデータ名に対して、使用した対象データ21のURI(Uniform Resource Identifier)と、対象データセット20中の要許諾箇所情報22および差替用レコードセット23と、許諾情報30とを付加した情報である。
【0051】
図9に示すように、差替情報保存処理では、機械学習用データのデータ名に対して、その機械学習用データを生成するために使用した対象データ21のURIと、対象データセット20中の要許諾箇所情報22および差替用レコードセット23と、許諾情報30とを付加することによって、差替情報40を生成する(STEP31)。ここで、機械学習用データのデータ名に付加するデータとして、対象データ21についてはデータ自体ではなくURIを用いている理由は、対象データ21はデータサイズが大きいためである。また、対象データ21は機械学習用データを生成するために独自に作成したものではなく、他の機関(多くの場合は公的機関)に記憶されている文献などであるから、URIが分かれば十分なためである。これに対して、対象データセット20中の要許諾箇所情報22および差替用レコードセット23や、許諾情報30は、機械学習用データを生成するために作成されたものであるため、データ自体を用いる必要がある。尚、STEP31で差替情報40を生成する際には、図8のSTEP21で機械学習用データを出力した日時を表す情報を取得して、その日時の情報を含めた差替情報40を生成しても良い。また、対象データ21のデータサイズが小さい場合は、(URIではなく)対象データ21自体を用いて差替情報40を生成しても良い。
【0052】
更には、対象データ21に付随した権利を有する第三者の中には、対象データ21を機械学習することは構わないが、少なくとも当分の間は、対象データ21の内容は公開したくないと考える権利者が存在する場合もある。この場合、機械学習によって得られた推定モデルを解析しても対象データ21の内容は分からないので問題とならないが、差替情報40の中に対象データ21のURI(あるいは対象データ21自体)が含まれていると、対象データ21の内容が公開される可能性があるため、そのことに権利者が難色を示す場合がある。このような場合は、対象データ21のURI(あるいは対象データ21自体)を暗号化、あるいは秘密計算を用いて秘匿化してもよい。更には、対象データ21のURIは通常通りに表示するが、URIによって特定される対象データ21自体を暗号化、あるいは秘密計算によって秘匿化しておいても良い。こうすれば、対象データ21の内容が公開されることが無いため、対象データ21の内容が公開されることに難色を示す権利者からでも、対象データ21を機械学習することに対する許諾を得ることが可能となる。
【0053】
続いて、記憶されているハッシュ値に、STEP31で得られた差替情報40を付加することによってブロックデータ41を作成する(STEP32)。ここで、記憶されているハッシュ値とは、以前に作成したブロックデータ41に対して、所定のハッシュ関数を適用することによって得られた値である。尚、ハッシュ関数は、どのようなサイズのデータであっても同じデータ長のハッシュ値に変換し、変換前のデータの一部でも異なれば変換したハッシュ値は全く異なる値となり、更に、ハッシュ値からは変換前のデータに戻すことが不可能であるという性質を有している。従って、ハッシュ値と元のデータとの間には必ず一対一の関係が成立することから、ハッシュ値は変換前のデータを一意的に代表すると考えて良い。
【0054】
こうしてブロックデータ41が得られたら、そのブロックデータ41に対してハッシュ関数を適用することによって新たなハッシュ値を算出して(STEP33)、記憶されているハッシュ値を新たなハッシュ値に変更する(STEP34)。このハッシュ値が、次にブロックデータ41を作成する際に使用されることになる。
【0055】
そして得られたブロックデータ41を、ブロックチェーンネットワーク60のノードn1に送信したら(STEP35)、図9の差替情報保存処理を終了して、図7および図8の機械学習用データ生成処理に復帰した後、そのまま機械学習用データ生成処理を終了する。ノードn1はブロックデータ41を受け取ると、ブロックチェーンネットワーク60の他のノードn2~n4にもブロックデータ41を送信する結果、ブロックチェーンネットワーク60の分散台帳にブロックデータ41が保存されることになる。
【0056】
図11は、ブロックチェーンネットワーク60の分散台帳にブロックデータ41が保存されている様子を示した説明図である。ブロックデータ41は前のブロックデータ41を示すハッシュ値を含んでいるので、複数のブロックデータ41が一列に繋がった形式(ブロックチェーン形式)で保存されている。このようにブロックチェーン形式で保存しておけば、1つのブロックデータ41の中の差替情報を改竄すると、そのブロックデータ41の後ろに繋がる全てのブロックデータ41のハッシュ値を変更する必要が生じるため、改竄が極めて困難なことが知られている。
【0057】
以上では、本実施例の機械学習用データ生成装置10を用いて機械学習用データを生成する方法について詳しく説明した。このような方法を用いて機械学習用データを生成すれば、以下に説明するような幾つもの利点を得ることができる。
【0058】
先ず、機械学習の個別学習と呼ばれる学習段階で使用される機械学習用データ(個別データ)は、一般的な内容のデータに比べてデータ数が少ないので入手は容易ではないことが通常である。加えて、個別な内容についてのデータであるため、機械学習で用いるに際して第三者の許諾が必要になることがあり、許諾が得られない場合は機械学習に使用することができなくなる。更に、複数人の許諾が必要な場合には、全員の許諾が得られなければ機械学習に使用することができない。このため、そもそもデータ数が少ないことに加えて、第三者の許諾が必要となるため、ますます入手が困難となっている。
【0059】
これに対して、上述した本実施例の方法では、機械学習させようとするデータ(対象データ21)の中で第三者の許諾が必要な箇所(要許諾箇所24)を特定し、要許諾箇所24毎に許諾を得ることができる。そして、許諾が得られない要許諾箇所24については、第三者の許諾が不要な内容(差替データ)に差し替えることができる。このため、許諾が得られない要許諾箇所24がある場合でも、その対象データ21を機械学習に用いることが可能となる。また、内容を少し修正すれば許諾が得られるような場合は、必要な修正を行った差替データに差し替えることで、その対象データ21を機械学習に用いることも可能となる。
【0060】
更に、差替データは要許諾箇所24毎に用意しておくことができるので、たとえ許諾が得られていない要許諾箇所24の対象データ21を差替データに差し替えた場合でも、その部分を含めた前後の文意が大きく変わらないようにすることができる。仮に、許諾が得られていない要許諾箇所24の対象データ21を黒塗りしたり、意味を成さない記号などに置き換えたりして秘匿化したとすると、その部分を含めた前後の文意が通らなくなってしまう。そのような学習用データは機械学習にとっては悪影響を与えるノイズであり、機械学習用データとしては使用できない。これに対して、上述した本実施例の方法では、許諾が得られない要許諾箇所24については、その箇所の対象データ21を予め用意しておいた差替データに差し替えることができるので、十分に機械学習に使用可能な機械学習用データを生成することが可能となる。
【0061】
また、要許諾箇所24は、対象データ21の別レイヤーで指定することができるので(図4参照)、対象データ21中の要許諾箇所24を、容易に且つ、曖昧さを残さない状態で特定することができる。加えて、対象データ21中の要許諾箇所24を厳密に特定することができるので、その部分に差し替えるための差替データも容易に準備することができる。加えて、対象データ21自体には改変を加える必要が無いので、対象データ21に要許諾箇所情報22を容易に付加することができる。
【0062】
更に、許諾が必要な第三者が複数人存在いる場合でも、全ての要許諾箇所24について全員の権利が存在しているとは限らない。従って、第三者の中に許諾を得るのが困難な第三者が存在する場合でも、許諾が得られた要許諾箇所24については、対象データ21をそのまま機械学習に使用することが可能となる。
【0063】
また、第三者の許諾が得られない場合でも、許諾を求める相手によって、あるいは機械学習の目的や用途によっては、許諾が得られる場合や、少しだけ内容を修正すれば許諾が得られる場合もある。上述した本実施例の方法では、許諾情報30に要許諾箇所24毎の許諾状況を設定しておくことができるので、このような場合にも柔軟に対応することができる。この点について、図12を用いて説明する。
【0064】
図12は、対象データ21から複数種類の機械学習用データを生成する様子を示した説明図である。図示した例では、1つの対象データ21から、大学Bで用いられる機械学習用データと、関連する企業Cで用いられる機械学習用データと、一般の企業Dで用いられる機械学習用データとを生成する場合が示されている。同じ対象データ21であっても、大学Bで研究に用いる場合には、営業秘密などを含んだ内容でない限り、多くの要許諾箇所24で許諾が得られると考えられる。また、関連する会社Cで商品開発に用いる場合には、営業秘密などを含んだ内容を含む要許諾箇所24であっても、許諾が得られると考えられる。更に、対象データ21が一般の会社Dで用いられる場合には、許諾が得られる要許諾箇所24は少なくなると考えられる。そこで、大学用の許諾情報30(許諾情報b)と、関連する企業用の許諾情報30(許諾情報c)と、一般の企業用の許諾情報30(許諾情報d)とを作成しておく。そして、大学Bに対しては、対象データ21の対象データセット20に、大学用の許諾情報30(許諾情報b)を適用することで、大学用の機械学習用データ(機械学習用データAb)を生成する。また、企業Cに対しては、関連する企業用の許諾情報30(許諾情報c)を適用することで、関連する企業用の機械学習用データ(機械学習用データAc)を生成する。更に、企業Dに対しては、一般の企業用の許諾情報30(許諾情報d)を適用することで、一般の企業用の機械学習用データ(機械学習用データAd)を生成する。このように、1つの対象データ21から複数種類の機械学習用データを生成することができる。
【0065】
以上のような理由から、本実施例の方法を用いれば、個別学習で用いられる機械学習用データ(個別データ)であっても、十分な量の個別データを容易に準備することができ、その結果、機械学習によって高い推定精度の推定モデルを得ることが可能となる。
【0066】
また、機械学習用データが生成される度に、その機械学習用データの差替情報40がブロックチェーンネットワーク60の分散台帳にブロックチェーン形式で保存される。周知のように、ブロックチェーンネットワーク60の分散台帳にブロックチェーン形式で保存されたデータは改竄が事実上は不可能であるから、後日になっても、機械学習用データが第三者の許諾の元で生成されたことを容易に立証することができる。更に、差替情報40中に、機械学習用データを出力した日時の情報が含まれている場合は、機械学習用データが生成された日時も特定することができるので、立証が更に容易となる。このため、機械学習によって生成した推定モデルを破棄しなければならない事態を回避することが可能となる。
【0067】
以上、本実施例の機械学習用データ生成装置10について説明したが、本発明は上記の実施例に限られるものではなく、その要旨を逸脱しない範囲において種々の態様で実施することが可能である。
【符号の説明】
【0068】
10…機械学習用データ生成装置、 11…対象データ読込部、
12…許諾情報読込部、 13…機械学習用データ生成部、
14…差替情報保存部、 20…対象データセット、 21…対象データ、
22…要許諾箇所情報、 23…差替用レコードセット、 24…要許諾箇所、
25…差替用データレコード、 30…許諾情報、 31…許諾状況レコード、
40…差替情報、 41…ブロックデータ、 50…サーバ、
60…ブロックチェーンネットワーク、 n1~n4…ノード。
【要約】
【課題】第三者の権利が必要な場合でも十分な量の機械学習用データを用意可能とする。
【解決手段】機械学習の対象となる対象データ(21)に対して、許諾が必要な箇所(要許諾箇所(24))を示す要許諾箇所情報(23)と、許諾が得られない要許諾箇所の対象データを差し替える差替データとを付加しておく。また、要許諾箇所についての許諾の有無を表す許諾情報(30)も作成しておく。機械学習用データを生成するに際しては対象データと許諾情報とを読み込んで、許諾が得られていない要許諾箇所については対象データを差替データに差し替えて機械学習用データを生成する。こうすれば、許諾が得られていない対象データからでも機械学習用データを生成することができるので、十分な量の機械学習用データを容易に用意することが可能となる。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12