IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7686919情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図6
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図7
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図8
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図9
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図10
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図11
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図12
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図13
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図14
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図15
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図16
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-26
(45)【発行日】2025-06-03
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20250527BHJP
【FI】
G06N20/00 130
【請求項の数】 10
(21)【出願番号】P 2023559323
(86)(22)【出願日】2021-11-11
(86)【国際出願番号】 JP2021041587
(87)【国際公開番号】W WO2023084712
(87)【国際公開日】2023-05-19
【審査請求日】2024-05-07
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】秋元 康佑
(72)【発明者】
【氏名】竹岡 邦紘
(72)【発明者】
【氏名】小山田 昌史
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2021-51589(JP,A)
【文献】特開2020-35039(JP,A)
【文献】特開2020-27540(JP,A)
【文献】中国特許出願公開第111931059(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
オブジェクトの集合を取得する取得手段と、
前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する評価手段と、
前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する予測手段と
を備え
前記予測手段は、
前記予測対象オブジェクトの修正前ラベルを前記予測モデルによって予測し、
前記類似ラベルを前記予測モデルによって予測し、
前記修正前ラベルを前記類似ラベルを参照して修正することによって得られる修正後ラベルを、前記予測対象オブジェクトに付与するラベルとして決定し、
前記複数の類似オブジェクトの各々に付与された複数の類似ラベルと各類似ラベルのスコアとを参照して、前記複数の類似オブジェクトに付与された複数の類似ラベルの並べ替えを行い、
前記予測対象オブジェクトに関する複数の修正前ラベルと各修正前ラベルのスコアとを参照して、前記予測対象オブジェクトに関する複数の修正前ラベルの並べ替えを行い、
並べ替えられた前記複数の類似ラベルと、並べ替えられた前記複数の修正前ラベルとを比較することによって、前記修正後ラベルを決定する
情報処理装置。
【請求項2】
前記評価手段は、前記類似ラベルの各々についてスコアを算出し、
前記予測手段は、前記スコアを更に参照して、前記予測対象オブジェクトに付与するラベルを決定する
請求項1に記載の情報処理装置。
【請求項3】
前記予測手段は
記予測対象オブジェクトに関する上位N番目(Nは自然数)までの修正前ラベルのうち、前記複数の類似オブジェクトに付与された上位M番目(Mは自然数)までの類似ラベルに含まれる修正前ラベルを、前記修正後ラベルとして決定する
請求項1又は2に記載の情報処理装置。
【請求項4】
前記予測手段は、
前記複数の類似オブジェクトに付与された複数の類似ラベルを、当該複数の類似ラベル間の階層関係を参照して更に並び替え、
前記予測対象オブジェクトに関する上位N番目(Nは自然数)までの修正前ラベルのうち、前記複数の類似オブジェクトに付与された上位M番目(Mは自然数)までの類似ラベルに含まれる修正前ラベルを、前記修正後ラベルとして決定する
請求項3に記載の情報処理装置。
【請求項5】
前記評価手段は、オブジェクト間の類似関係を表すグラフを出力することによって、前記1又は複数の類似オブジェクトを特定し、
前記予測手段は、
前記グラフを参照して、前記予測対象オブジェクトから所定のホップ数以内に存在する1又は複数の類似オブジェクトを抽出し、
抽出した1又は複数の類似オブジェクトの各々に付与された前記類似ラベルを参照して、前記予測対象オブジェクトに付与するラベルを決定する
請求項1から4の何れか1項に記載の情報処理装置。
【請求項6】
前記取得手段は、
文章集合を受け付ける受付手段と、
前記文章集合から複数のエンティティを抽出するエンティティ抽出手段と、
を備え、
前記エンティティ抽出手段によって抽出された複数のエンティティ、又は、
前記エンティティ抽出手段によって抽出された複数のエンティティと、当該複数のエンティティの抽出元の文章との組
を前記オブジェクトの集合として取得する
請求項1から5の何れか1項に記載の情報処理装置。
【請求項7】
前記予測対象オブジェクト、及び
前記類似オブジェクトの少なくとも何れか、又は、前記類似ラベルの少なくとも何れかを表示する表示手段
を備えている請求項1から6の何れか1項に記載の情報処理装置。
【請求項8】
前記予測対象オブジェクトの修正前ラベル、又は、前記予測対象オブジェクトに付与されたラベル、及び、
前記類似ラベル
を表示する表示手段
を備えている請求項1から7の何れか1項に記載の情報処理装置。
【請求項9】
1又は複数のプロセッサが、オブジェクトの集合を取得することと、
前記1又は複数のプロセッサが、前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定することと、
前記1又は複数のプロセッサが、前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定することとを含み、
前記予測対象オブジェクトに付与するラベルを決定する工程において、前記1又は複数のプロセッサが、
前記予測対象オブジェクトの修正前ラベルを前記予測モデルによって予測し、
前記類似ラベルを前記予測モデルによって予測し、
前記修正前ラベルを前記類似ラベルを参照して修正することによって得られる修正後ラベルを、前記予測対象オブジェクトに付与するラベルとして決定し、
前記複数の類似オブジェクトの各々に付与された複数の類似ラベルと各類似ラベルのスコアとを参照して、前記複数の類似オブジェクトに付与された複数の類似ラベルの並べ替えを行い、
前記予測対象オブジェクトに関する複数の修正前ラベルと各修正前ラベルのスコアとを参照して、前記予測対象オブジェクトに関する複数の修正前ラベルの並べ替えを行い、
並べ替えられた前記複数の類似ラベルと、並べ替えられた前記複数の修正前ラベルとを比較することによって、前記修正後ラベルを決定する
情報処理方法。
【請求項10】
コンピュータに、
オブジェクトの集合を取得する処理と、
前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する処理と、
前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する処理と
を実行させる情報処理プログラムであって、
前記決定する処理は、
前記予測対象オブジェクトの修正前ラベルを前記予測モデルによって予測し、
前記類似ラベルを前記予測モデルによって予測し、
前記修正前ラベルを前記類似ラベルを参照して修正することによって得られる修正後ラベルを、前記予測対象オブジェクトに付与するラベルとして決定し、
前記複数の類似オブジェクトの各々に付与された複数の類似ラベルと各類似ラベルのスコアとを参照して、前記複数の類似オブジェクトに付与された複数の類似ラベルの並べ替えを行い、
前記予測対象オブジェクトに関する複数の修正前ラベルと各修正前ラベルのスコアとを参照して、前記予測対象オブジェクトに関する複数の修正前ラベルの並べ替えを行い、
並べ替えられた前記複数の類似ラベルと、並べ替えられた前記複数の修正前ラベルとを比較することによって、前記修正後ラベルを決定す
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
機械学習モデルを学習するために必要となる教師データを作成する際、人手によって正解を付与するアノテーションという作業が必要になる。人手によるアノテーションは高コストであることが知られている。アノテーションのコストを下げるために、予測モデルを用いて正解を予測することでアノテーションを補助する技術がある。当該技術では、予測モデルにより、アノテーション対象に付与する正解を予測する際、予測モデルの精度を補うために予測結果を補正する。例えば非特許文献1には、予測対象の特徴量に対して複数の予測モデルで予測を行い、統計的なモデルを利用した処理によって予測結果を修正することが記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Ratner, Alexander, et al., "Snorkel: Rapid training data creation with weak supervision," Proceedings of the VLDB Endowment, International Conference on Very Large Data Bases, Vol. 11, No. 3, NIH Public Access, 2017
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1に記載の技術は、複数の予測モデルを必要とする。そのため、単一の予測モデルしか存在しない場合は、適切に予測結果を補正することができないという問題があった。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、単一の予測モデルしか存在しない場合であってもオブジェクトに付与するラベルを高精度に決定できる技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一側面に係る情報処理装置は、オブジェクトの集合を取得する取得手段と、前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する評価手段と、前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する予測手段とを備える。
【0007】
本発明の一側面に係る情報処理方法は、オブジェクトの集合を取得することと、前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定することと、前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定することとを含む。
【0008】
本発明の一側面に係る情報処理プログラムは、コンピュータに、オブジェクトの集合を取得する処理と、前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する処理と、前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する処理とを実行させる。
【発明の効果】
【0009】
本発明の一態様によれば、単一の予測モデルしか存在しない場合であってもオブジェクトに付与するラベルを高精度に決定できる。
【図面の簡単な説明】
【0010】
図1】例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
図2】例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
図3】例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
図4】例示的実施形態2に係る情報処理方法の流れの一例を示すフロー図である。
図5】例示的実施形態2に係る評価部と予測部の処理の具体例を説明するための図である。
図6】例示的実施形態2に係る情報処理方法の流れの一例を示すフロー図である。
図7】例示的実施形態2に係る評価部と予測部の処理を概略的に示す図である。
図8】例示的実施形態2に係る評価部と予測部の処理の具体例を示す図である。
図9】例示的実施形態2に係る情報処理方法の流れの一例を示すフロー図である。
図10】例示的実施形態2に係る情報処理方法の流れの一例を示すフロー図である。
図11】例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
図12】例示的実施形態3に係る情報処理方法の流れの一例を示すフロー図である。
図13】例示的実施形態3に係るクラスの階層関係と予測部による並べ替えの具体例を示す図である。
図14】例示的実施形態4に係る情報処理装置の構成を示すブロック図である。
図15】例示的実施形態4に係る画面例を示す図である。
図16】例示的実施形態4に係る画面例を示す図である。
図17】各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。
【発明を実施するための形態】
【0011】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0012】
<情報処理装置の概要>
本例示的実施形態に係る情報処理装置1は、オブジェクトに付与するラベルを決定する装置である。ここで、オブジェクトは、ラベルを付与する対象であり、一例として、分類対象である画像又はテキストを表すデータである。また、オブジェクトは、売上予測の対象の商品を表すデータであってもよい。また、オブジェクトは、自然言語で記された文章に含まれるエンティティであってもよく、また、自然言語で記された文章とその文章中に含まれるエンティティとのペアを表すデータであってもよい。ここで、エンティティは、特定の概念や物を表す文字列であり、一例として、固有名詞又は一般名詞である。
【0013】
ラベルは、オブジェクトに付与される値又は値の集合である。ラベルは、一例として、スカラー、ベクトル又は行列等の、数値を含むデータ構造を有する。また、ラベルは、文字列を含むデータ構造を有していてもよい。オブジェクトには複数のラベルが付与されてもよい。また、ラベルにはそのラベルの信頼度を表すスコアが付されていてもよい。オブジェクトに複数のラベルを付与することは、オブジェクトに付与するラベルが複数のラベルの値の組み合わせである、と表現することもできる。ラベルが付与されたオブジェクトは、一例として、機械学習モデルを学習させるための教師データとして用いられる。以下では、オブジェクトにラベルを付与することを「アノテーション」ともいう。
【0014】
<情報処理装置1の構成>
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。図1に示すように、情報処理装置1は、取得部11、評価部12及び予測部13を備える。
【0015】
(取得部11)
取得部11は、オブジェクトの集合を取得する。オブジェクトの集合は、一例として、画像データの集合、テキストデータの集合、又は商品を表すデータの集合である。また、オブジェクトの集合は、文章とその文章中に含まれるエンティティとのペアを表すデータの集合であってもよい。
【0016】
(評価部12)
評価部12は、オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する。ここで、予測対象オブジェクトは、ラベルを付与する対象のオブジェクトである。また、本明細書において、「オブジェクトが類似する」とは、オブジェクトが互いに似かよった特徴を有すること、及び、オブジェクトが同一の特徴を有することを含む。換言すると、本明細書において「オブジェクトが類似する」ことは、「オブジェクトが同一である」ことを含む。
【0017】
オブジェクト間の類似度は、オブジェクトの類似の度合いを表す。評価部12は、一例として、オブジェクト間の類似度を、オブジェクトの特徴量に基づき評価する。ここで、特徴量は、オブジェクトの特徴を表す値の集合である。特徴量は、一例として、スカラー、ベクトル又は行列等の、数値を含むデータ構造を有していてもよく、また、文字列を含むデータ構造を有していてもよい。特徴量は、一例として、画像のピクセル値の集合、テキストに含まれる単語の集合、又は商品の価格などの属性値を含む。
【0018】
評価部12が類似オブジェクトを特定する手法は限定されないが、例えば、評価部12が(i)予測対象オブジェクトに類似する類似オブジェクトの集合を出力する手法、及び、(ii)オブジェクト間の類似関係を表すグラフ又はハイパーグラフを出力する手法、が挙げられる。ただし、評価部12が類似オブジェクトを特定する手法はこれらの例に限られず、評価部12は他の手法により類似オブジェクトを特定してもよい。
【0019】
評価部12が(i)類似オブジェクトの集合を出力する場合、評価部12は、一例として、予測対象オブジェクトとの類似度が所定の閾値以上であるオブジェクトを特定する。また、評価部12は、オブジェクト間の類似度を用いたスペクトラルクラスタリング等のクラスタリング方法を用いてオブジェクトをクラスタリングし、予測対象オブジェクトと同じクラスタに属するオブジェクトを類似オブジェクトとして特定してもよい。類似オブジェクトには、類似度に応じた重み情報が付加情報として付与されてもよい。
【0020】
ここで、類似オブジェクトの集合における類似の関係は、双方向的である必要はない。例えば、予測対象オブジェクトがオブジェクトOBJ_Aであり、オブジェクトOBJ_Aの類似オブジェクトがオブジェクトOBJ_B、OBJ_C、OBJ_D、OBJ_Eである場合、オブジェクトOBJ_Bに類似する類似オブジェクトの集合に、オブジェクトOBJ_Aが含まれていなくてもよい。また、オブジェクトOBJ_Aの類似オブジェクトの集合に、オブジェクトOBJ_Aが含まれていてもよい。
【0021】
評価部12が(ii)オブジェクト間の類似関係を表すグラフ又はハイパーグラフを出力する場合、評価部12は、一例として、オブジェクトをノードとし、類似度を評価したノード間を結ぶエッジ又はハイパーエッジを有するグラフ又はハイパーグラフを出力する。これらのエッジ又はハイパーエッジには、対応するノード間の類似度に応じた重み情報が付与されていてもよい。
【0022】
(予測部13)
予測部13は、予測対象オブジェクトに付与するラベルを、評価部12が特定した1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する。類似ラベルは類似オブジェクトに予め付与されていてもよく、また、予測部13が予測モデルを用いて類似ラベルを予測してもよい。また、ひとつの類似オブジェクトに複数の類似ラベルが付与されてもよい。
【0023】
予測モデルは、オブジェクトのラベル又はラベルに含まれる値を予測するモデルである。予測モデルは、機械学習により生成された機械学習モデルであってもよく、また、ルールベースによるシステム、又は外部のデータベースを参照するシステムであってもよい。予測モデルの入力は、一例として、オブジェクトの特徴量である。予測モデルの出力は、一例として、入力された特徴量に対するラベル又はラベルに含まれる値である。ここで、ラベルに含まれる値とは、ラベルの全部又は一部を構成する値であり、一例として、ラベルがベクトルである場合のベクトルの各要素である。また、予測モデルの出力は、複数のラベルの値とそれぞれのラベルの信頼度などのスコアとのペアを含んでいてもよい。予測モデルは、情報処理装置1のメモリに記憶されていてもよいし、情報処理装置1と通信可能な他の装置に記憶されていてもよい。
【0024】
予測モデルにより予測されたラベルがそのまま類似ラベルとして類似オブジェクトに付与されてもよく、予測モデルにより予測されたラベルの一部が類似ラベルとして類似オブジェクトに付与されてもよい。一例として、複数のラベルの中から尤もらしい上位K個(Kは1以上の自然数)のラベルが、類似ラベルとして類似オブジェクトに付与されてもよい。
【0025】
予測部13が類似ラベルを参照して予測対象オブジェクトに付与するラベルを決定する手法は限定されないが、一例として、予測部13は、予測対象オブジェクトのラベルを予想モデルを用いて一旦予測したうえで、類似オブジェクトの類似ラベルを参照して得られるラベルで置き換えてもよい。また、予測部13は、予測対象オブジェクトのラベルの予測モデルによる予測を省略し、類似オブジェクトの類似ラベルを参照して得られるラベルを、当該対象オブジェクトに付与してもよい。また、予測部13が決定するラベルには、スコア等の付加情報が付されていてもよい。
【0026】
より具体的には、予測部13は、一例として、類似ラベルに付されたスコアを類似ラベル毎に合計し、スコアの合計値が最も大きい類似ラベルを、予測対象オブジェクトに付与するラベルとして決定してもよい。
【0027】
また、一例として、予測部13は、予測モデルにより予測対象オブジェクトのラベルを予測し、予測モデルにより予測されたラベルが類似ラベルの集合に含まれている場合、予測されたラベルをそのまま予測対象オブジェクトに付与するラベルとして決定してもよい。一方、予測部13は、予測モデルにより予測された予測対象オブジェクトのラベルが類似ラベルの集合に含まれていない場合、類似ラベルの集合から予測対象オブジェクトに付与するラベルを決定してもよい。この場合、予測部13は、一例として、類似ラベルの集合のうち最も尤もらしい類似ラベルを、付与するラベルとして決定してもよい。ここで、予測部13は、類似ラベルの尤もらしさを、類似ラベルに付されたスコア等の付加情報を参照して評価してもよく、また、類似ラベルの集合における類似ラベルの頻度(数)を参照して評価してもよい。
【0028】
なお、予測部13が予測対象オブジェクトに付与するラベルを決定する手法は上述した例に限られない。予測部13は、他の手法により予測対象オブジェクトに付与するラベルを決定してもよい。
【0029】
以上のように、本例示的実施形態に係る情報処理装置1においては、オブジェクトの集合を取得し、オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定し、予測対象オブジェクトに付与するラベルを、1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、単一の予測モデルしか存在しない場合であってもオブジェクトに付与するラベルを高精度に決定できるという効果が得られる。
【0030】
<情報処理方法の流れ>
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。
【0031】
ステップS11において、取得部11は、オブジェクトの集合を取得する。ステップS12において、評価部12は、オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する。ステップS13において、予測部13は、予測対象オブジェクトに付与するラベルを、1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する。
【0032】
以上のように、本例示的実施形態に係る情報処理方法S1においては、オブジェクトの集合を取得し、オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定し、予測対象オブジェクトに付与するラベルを、1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、単一の予測モデルしか存在しない場合であってもオブジェクトに付与するラベルを高精度に決定できるという効果が得られる。
【0033】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
【0034】
<情報処理装置1Aの構成>
図3は、本例示的実施形態に係る情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、制御部10A、記憶部20A、入出力部30A、及び通信部40Aを備える。
【0035】
(通信部40A)
通信部40Aは、情報処理装置1Aの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部40Aは、制御部10Aから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部10Aに供給したりする。
【0036】
(入出力部30A)
入出力部30Aには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部30Aは、接続された入力機器から情報処理装置1Aに対する各種の情報の入力を受け付ける。また、入出力部30Aは、制御部10Aの制御の下、接続された出力機器に各種の情報を出力する。入出力部30Aとしては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
【0037】
(制御部10A)
制御部10Aは、図3に示すように、取得部11、評価部12及び予測部13を備える。
【0038】
(取得部11)
取得部11は、オブジェクトの集合を取得する。取得部11は一例として、通信部40Aを介して他の装置からオブジェクトの集合を取得する。また、取得部11は一例として、入出力部30Aを介して入力されるオブジェクトの集合を取得してもよい。また、取得部11は、記憶部20A又は外部接続された記憶装置からオブジェクトの集合を読み出すことによりオブジェクトの集合を取得してもよい。
【0039】
(評価部12)
評価部12は、オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する。評価部12が類似オブジェクトを特定する処理の詳細については後述する。
【0040】
(予測部13)
予測部13は、予測対象オブジェクトに付与するラベルを、1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルM1によって予測されたラベルである類似ラベルを参照して決定する。予測部13がラベルを決定する処理の詳細については後述する。
【0041】
(記憶部20A)
記憶部20Aには、取得部11が取得するオブジェクトの集合であるオブジェクト集合OCが記憶される。また、記憶部20Aには、オブジェクトのラベルを予測するための予測モデルM1と、オブジェクト間の類似度を評価する評価モデルM2と、が記憶されている。ここで、記憶部20Aに予測モデルM1が記憶されているとは、予測モデルM1を規定するパラメータが記憶部20Aに記憶されていることを指す。また、記憶部20Aに評価モデルM2が記憶されているとは、評価モデルM2を規定するパラメータが記憶部20Aに記憶されていることを指す。
【0042】
(予測モデルM1)
予測モデルM1は、オブジェクトのラベル又はラベルに含まれる値を予測するモデルである。予測モデルM1は、一例として、オブジェクトの特徴量を入力とし、ラベルを出力するよう機械学習により構築された予測モデルである。予測モデルM1の学習は、情報処理装置1Aの制御部10Aが行ってもよく、また、他の装置が行ってもよい。予測モデルM1の機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。決定木ベースとしては、例えば、LightGBM(Light Gradient Boosting Machine)、ランダムフォレスト、及びXGBoostが挙げられる。線形回帰としては、例えば、ベイズ回帰、サポートベクター回帰、Ridge回帰、Lasso回帰、及びElasticNetが挙げられる。ニューラルネットワークとしては、例えばディープラーニングが挙げられる。
【0043】
予測モデルM1の出力は、複数のラベルを含んでもよく、また、各ラベルの信頼度を表すスコアを含んでいてもよい。
【0044】
予測モデルM1は、一例として、オブジェクトの特徴量とラベルとのペアを含む教師データを用いた機械学習により構築される。
【0045】
(評価モデルM2)
評価モデルM2は、オブジェクト間の類似度を評価するためのモデルである。評価モデルM2は、一例として、オブジェクトをクラスタリングするモデルである。オブジェクトのクラスタリングとしては、例えば、k平均法、又はスペクトラルクラスタリング等の技術を適用可能であるが、これに限られない。この場合、評価モデルM2によるクラスタリングの結果を利用して類似度を算出することができる。つまり、評価モデルM2のクラスタリングの結果に基づき、同一クラスタであるかどうかを類似度として算出することができる。
【0046】
評価モデルM2の学習は、情報処理装置1Aの制御部10Aが行ってもよく、また、他の装置が行ってもよい。オブジェクト間の類似度は、一例として、オブジェクトが埋め込まれる特徴量空間におけるオブジェクト間の距離、又は当該距離に基づき算出される値である。また、オブジェクトが文字列を含む場合、文字列が一致するかどうか、又は、文字列間に定義される類似度合いに関する指標(ハミング距離、編集距離、等)を、オブジェクト間の類似度として用いることもできる。また、オブジェクト間の類似度は、一例として、オブジェクトを表すノード間のエッジにより表現されてもよい。一例として、ノード間にエッジが有ることは、オブジェクトが類似していることを示し、ノード間にエッジが無いことは、オブジェクトが類似していないことを示す。このようなグラフ構造は、評価モデルM2の外部から与えられてもよく、また、評価モデルM2のパラメータとして記憶部20A等に予め記憶されていてもよい。ただし、オブジェクト間の類似度は上述した例に限られない。
【0047】
<情報処理装置1Aによる情報処理方法の流れ>
以上のように構成された情報処理装置1Aが実行する情報処理方法の流れについて、図面を参照して説明する。ここでは、情報処理装置1Aが実行する情報処理方法として、以下の情報処理方法S100~S400を説明する。
(i)情報処理方法S100:予測部13が類似ラベルを参照して予測対象オブジェクトに付与するラベルを決定する。このとき、予測部13は予測モデルM1を用いた予測対象オブジェクトのラベルの予測を行わない。
(ii)情報処理方法S200:予測部13が予測モデルM1を用いて予測対象オブジェクトの修正前ラベルを予測し、類似ラベルを参照して修正前ラベルを修正する。
(iii)情報処理方法S300:予測部13が予測対象オブジェクトに付与するラベルとして複数のラベルを決定する。
(iv)情報処理方法S400:評価部12がオブジェクト間の類似関係を表すグラフ又はハイパーグラフを出力し、予測部13がグラフ又はハイパーグラフを用いて、予測対象オブジェクトに付与するラベルを決定する。
【0048】
(情報処理方法S100の流れ)
図4は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S100の流れを示すフロー図である。なお、既に説明した内容についてはその説明を繰り返さない。
【0049】
(ステップS111)
ステップS111において、取得部11は、オブジェクト集合OCを取得する。取得部11は、一例として、通信部40Aを介して他の装置からオブジェクト集合OCを受信してもよく、また、入出力部30Aを介して入力されるオブジェクト集合OCを取得してもよい。また、取得部11は、記憶部20A又は外部記憶装置からオブジェクト集合OCを読み出すことにより、オブジェクト集合OCを取得してもよい。
【0050】
(ステップS112)
ステップS112において、評価部12は、オブジェクト集合OCに含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する。予測対象オブジェクトは、ユーザ操作により指定されてもよく、また、評価部12が所定の選択条件に基づきオブジェクト集合OCから予測対象オブジェクトを選択してもよい。
【0051】
この例で、評価部12は、評価モデルM2を用いてオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する類似オブジェクトの集合を出力する。評価部12が評価する類似度は、2つのオブジェクト間の類似度であってもよく、また、3以上のオブジェクト間の類似度であってもよい。評価部12は、一例として、予測対象オブジェクトとの類似度が所定の閾値以上であるオブジェクトを類似オブジェクトとして特定する。また、評価部12は、一例として、予測対象オブジェクトと同じクラスタに属するオブジェクトを類似オブジェクトとして特定してもよい。また、評価部12は、類似度に応じた重み情報を付加情報として類似オブジェクトに付与してもよい。
【0052】
(ステップS113)
ステップS113において、予測部13は、類似ラベルを予測モデルM1によって予測する。予測部13は、一例として、予測モデルM1に類似オブジェクトの特徴量を入力することにより得られるラベルを、その類似オブジェクトに付与するラベル、すなわち類似ラベルとする。類似オブジェクトに付与される類似ラベルには、ラベルの信頼度を表すスコアが付加情報として付与されてもよい。類似ラベルに付与されるスコアは、一例として、予測モデルM1から出力されるスコアである。
【0053】
また、ひとつの類似オブジェクトに対して単一のラベルの値が付与されてもよく、また、ひとつの類似オブジェクトに対して複数のラベルの値が付与されてもよい。一例として、予測部13は、予測モデルM1が予測した複数のラベルのうち信頼度が所定の条件を満たす1又は複数のラベルを類似ラベルとして決定してもよい。所定の条件は、一例として、信頼度の順位が上位K個(Kは1以上の自然数)に含まれる、といった条件である。
【0054】
(ステップS114)
ステップS114において、予測部13は、予測対象オブジェクトに付与するラベルを、類似ラベルを参照して決定する。予測部13は、一例として、複数の類似ラベルについて統計的な処理(多数決、平均、等)を行い、複数の類似ラベルのうち頻度が所定の条件を満たすものを、予測対象オブジェクトに付与するラベルとして決定する。ここで、所定の条件は、例えば、頻度が最も高い、頻度が閾値以上である、頻度が上位K個(Kは0以上の自然数)に含まれる、といった条件である。
【0055】
また、ステップS114において、評価部12が類似ラベルの各々についてスコアを算出し、予測部13が、評価部12が算出したスコアを更に参照して、予測対象オブジェクトに付与するラベルを決定してもよい。この場合、ステップS114においては、予測部13がステップS113で予測した類似ラベルとスコアとが評価部12に渡され、評価部12が類似度も考慮した上で類似ラベル毎のスコアを算出し、評価部12が算出したスコアが予測部13に渡され、予測部13がこのスコアを参照してラベルを決定する、という処理の流れになる。評価部12は、一例として、予測モデルM1が出力したラベル毎のスコアをそのまま類似ラベルのスコアとしてもよく、また、予測モデルM1が出力したラベル毎のスコアを参照して類似ラベルのスコアを算出してもよい。また、評価部12は、一例として、評価部12が類似オブジェクトに付与した付加情報を参照してスコアを算出してもよい。評価部12が算出するスコアは、一例として、類似度又は信頼度の順位を表す値であってもよい。また、評価部12は、予測モデルM1が出力したスコアと、類似オブジェクトに付与された付加情報との両方を参照して、類似ラベルのスコアを算出してもよい。換言すると、類似ラベルの各々について評価部12が算出するスコアは、ラベルに関する信頼度に応じた値であってもよく、また、予測対象オブジェクトと類似オブジェクトとの類似度に応じた値であってもよい。
【0056】
この場合、予測部13は、一例として、スコアの合計値が所定の条件を満たす類似ラベルを、予測対象オブジェクトに付与するラベルとして決定してもよい。ここで、所定の条件は、例えば、合計値が最も高い、合計値が閾値以上である、合計値が上位K個(Kは0以上の自然数)に含まれる、といった条件である。
【0057】
また、付加情報として順位を示す情報が付与されている場合、予測部13は、一例として、各類似オブジェクトに対する順位からMRR(Mean Reciprocal Rank)をラベル毎に求め、MRRが最も大きいラベルを、予測対象オブジェクトに付与するラベルとして決定してもよい。
【0058】
情報処理装置1Aが情報処理方法S100を実行することにより、ひとつの予測対象オブジェクトについて付与するラベルが決定される。情報処理装置1Aは、ひとつの予測対象オブジェクトについてラベルを決定するだけでなく、情報処理方法S100を繰り返し実行して、複数のオブジェクトについてラベルを決定してもよい。例えば、オブジェクトOBJ_Aを予測対象オブジェクトとして情報処理方法S100を実行してラベルを決定した後、決定したオブジェクトOBJ_Aのラベルを用いて、別のオブジェクトOBJ_Bを予測対象オブジェクトとして情報処理方法S100を実行してオブジェクトOBJ_Bのラベルを決定してもよい。
【0059】
(情報処理方法S100の具体例)
図5は、情報処理方法S100において評価部12及び予測部13が実行する処理の具体例を説明するための図である。なお、図中の矢印はあるデータの流れの方向を端的に示したもので、双方向性を排除するものではない。図5の例で、評価部12は、オブジェクトOBJ_Aの類似オブジェクトの集合G11を特定する(ステップS112)。集合G11は、類似オブジェクトOBJ_B~OBJ_Eを含む。類似オブジェクトOBJ_B、OBJ_C、OBJ_D、OBJ_Eにはそれぞれ、類似ラベルLBL_1、LBL_2、LBL_1、LBL_1が付与される(ステップS113)。
【0060】
予測部13は、類似オブジェクトOBJ_B~OBJ_Eに付されたラベルである類似ラベルLBL_1、LBL_2を参照して、オブジェクトOBJ_Aに付与するラベルを決定する(ステップS114)。予測部13は一例として、類似ラベルの集合である類似ラベル群G21に含まれる類似ラベルのうち、頻度が最も高い類似ラベルLBL_1を、オブジェクトOBJ_Aに付与するラベルとして決定する。
【0061】
(情報処理方法S200の流れ)
図6は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S200の流れを示すフロー図である。情報処理方法S200では、予測部13が、類似ラベルを参照して予測対象オブジェクトの修正前ラベルを修正する。情報処理方法S200は、ステップS111~ステップS113に加えて、ステップS211~S213を含む。なお、既に説明した内容についてはその説明を繰り返さない。また、情報処理方法S200に含まれるステップは、並行して又は順序を替えて実行されてもよい。例えば、ステップS211の処理がステップS112の前に実行されてもよい。
【0062】
(ステップS211)
ステップS211において、予測部13は、予測対象オブジェクトの修正前ラベルを予測モデルM1によって予測する。より具体的には、予測部13は、予測モデルM1に予測対象オブジェクトの特徴量を入力することにより修正前ラベルを予測する。修正前ラベルには、ラベルの信頼度を表すスコアが付加情報として付与されていてもよい。
【0063】
(ステップS212)
ステップS212において、評価部12は、複数の類似オブジェクトに付与された複数の類似ラベルから、1又は複数の類似ラベルを抽出する。一例として、評価部12は、複数の類似ラベルの中から、所定回数以上出現している類似ラベルを抽出する。このとき、評価部12は、類似ラベルの付加情報を参照して類似ラベルを抽出してもよい。一例として、評価部12は、MRRが閾値以上である類似ラベルを抽出してもよい。ただし、類似ラベルを抽出する手法は上述した例に限定されない。評価部12は他の手法により類似ラベルを抽出してもよい。以下では、評価部12が抽出した類似ラベルを「修正候補ラベル」ともいう。また、1又は複数の修正候補ラベルの集合を「修正候補ラベル集合」ともいう。修正候補ラベル集合に含まれる修正ラベルの数は1であってもよく、複数であってもよい。
【0064】
(ステップS213)
ステップS213において、予測部13は、修正前ラベルを類似ラベルを参照して修正することによって得られる修正後ラベルを、予測対象オブジェクトに付与するラベルとして決定する。一例として、予測部13は、修正前ラベルが類似ラベルの集合に含まれている場合、修正前ラベルをそのまま修正後ラベルとして決定する。一方、予測部13は、修正前ラベルが類似ラベルの集合に含まれていない場合、類似ラベルの中から所定の条件を満たす類似ラベルを修正後ラベルとして決定する。所定の条件は、一例として、頻度が最も高い、頻度が閾値以上である、頻度の順位が上位K個に含まれる、といった条件である。
【0065】
このとき、ステップS213において、予測部13は、ステップS212で抽出した1又は複数の類似ラベルと修正前ラベルとを比較することによって、修正後ラベルを決定してもよい。一例として、予測部13は、修正前ラベルが修正候補ラベル集合に含まれている場合、修正前ラベルを修正後ラベルとする。一方、予測部13は、修正前ラベルが修正候補ラベル集合に含まれていない場合、修正候補ラベルの中から所定の条件を満たす修正候補ラベルを修正後ラベルとして決定する。所定の条件は、一例として、頻度が最も高い、頻度が閾値以上である、頻度の順位が上位K個に含まれる、といった条件である。
【0066】
また、予測部13は、修正候補ラベルの付加情報を参照して予測対象オブジェクトに付与するラベルを決定してもよい。予測部13は、一例として、修正前ラベルが修正候補ラベル集合に含まれていない場合、修正候補ラベルのMRRを求め、MRRが最も大きい修正候補ラベルを予測対象オブジェクトに付与するラベルとして決定してもよい。
【0067】
情報処理装置1Aが情報処理方法S200を実行することにより、ひとつの予測対象オブジェクトについて付与するラベルが決定される。情報処理装置1Aは、情報処理方法S200を繰り返し実行して、複数のオブジェクトについてラベルを決定してもよい。
【0068】
図7は、情報処理方法S200において評価部12及び予測部13が実行する処理を概略的に示す図である。なお、図中の矢印はあるデータの流れの方向を端的に示したもので、双方向性を排除するものではない。図7の例で、予測部13は、オブジェクト集合OCに含まれるオブジェクトOBJ_1、OBJ_2、OBJ_3の特徴量x1、x2、x3を予測モデルM1に入力することにより、各オブジェクトのラベルを予測する。予測モデルM1により、オブジェクトOBJ_1、OBJ_2、OBJ_3のラベルはそれぞれ、LBL_A、LBL_B、LBL_Aと予測される。
【0069】
また、評価部12は、オブジェクト集合OCに含まれるオブジェクト間の類似関係を評価し、予測対象オブジェクトの類似オブジェクトを特定する。予測部13は、評価部12が特定した類似オブジェクトに付与された類似ラベルを参照し、予測対象オブジェクトに付与するラベルを決定する。図7の例では、オブジェクトOBJ_1及びOBJ_3のラベルは「LBL_A」のまま修正されないが、オブジェクトOBJ_2のラベルは「LBL_B」から「LBL_A」に修正される。
【0070】
(情報処理方法S200の具体例)
図8は、情報処理方法S200において評価部12及び予測部13が実行する処理の具体例を説明するための図である。なお、図中の矢印はあるデータの流れの方向を端的に示したもので、双方向性を排除するものではない。図8の例で、評価部12は、オブジェクトOBJ_Aの類似オブジェクトの集合G11を特定する(S112)。集合G11は、類似オブジェクトOBJ_B~OBJ_Eを含む。類似オブジェクトOBJ_B、OBJ_C、OBJ_D、OBJ_Eにはそれぞれ、類似ラベルLBL_1、LBL_2、LBL_1、LBL_1が付与される(ステップS113)。
【0071】
また、図8の例では、予測モデルM1によりラベルLBL_3がオブジェクトOBJ_Aのラベルとして予測される(ステップS211)。予測部13は、類似ラベル群G21から類似ラベルLBL_1、LBL_2を含む類似ラベル群G31を抽出し(ステップS212)、抽出した類似ラベル群G31からオブジェクトOBJ_Aに付与するラベルを決定する(ステップS213)。図8の例では、予測部13は、類似ラベル群に含まれる類似ラベルLBL_1を、予測対象オブジェクトOBJ_Aに付与するラベルとして決定する。
【0072】
(情報処理方法S300の流れ)
図9は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S300の流れを示すフロー図である。情報処理方法S300は、ステップS111~S113及びステップS211に加えて、ステップS311~S313を含む。なお、既に説明した内容についてはその説明を繰り返さない。また、情報処理方法S300に含まれるステップは、並行して又は順序を替えて実行されてもよい。例えば、ステップS211の処理がステップS112よりも前に実行されてもよい。
【0073】
(ステップS311)
ステップS311において、予測部13は、複数の類似オブジェクトの各々に付与された複数の類似ラベルと各類似ラベルのスコアとを参照して、複数の類似オブジェクトに付与された複数の類似ラベルの並べ替えを行う。予測部13は、一例として、各類似オブジェクトに対する順位(付加情報により示される順位)からMRRの値を計算し、計算した値を用いて類似ラベルの並べ替えを行う。なお、予測部13が類似ラベルの並べ替えに用いる値はMRRに限られず、他の値であってもよい。予測部13は例えば、類似ラベル(又は類似オブジェクト)のスコアの平均値を算出し、算出した平均値で並べ替えを行ってもよい。また、例えば、予測部13は、各類似オブジェクトごとに上位K個の類似ラベルを上位ラベル集合として取り出し、これらの上位ラベル集合に含まれる頻度によって類似ラベルを並び替えてもよい。
【0074】
ステップS311において、予測部13は、複数の類似オブジェクトに付与された複数の類似ラベルを、当該複数の類似ラベル間の階層関係を参照して更に並び替えてもよい。階層関係は、所定のデータベースにより与えられるものであってもよく、また、予測部13がオブジェクトから類似ラベル間の階層関係をオブジェクト等のデータから生成してもよい。階層関係を生成する手法としては、一例として「Wu, Wentao, et al. "Probase: A probabilistic taxonomy for text understanding." Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. 2012」の文献に記載された手法が用いられてもよい。この場合、予測部13は、上位の階層のものほど順位が高くなるよう類似ラベルを並べ替えてもよい。
【0075】
具体的には、例えば、予測部13が予測した複数の類似ラベルが「人物」、「大統領」、「政治家」及び「ビジネスマン」の類似ラベルを含む場合であって、「人物」という類似ラベルが「大統領」、「政治家」及び「ビジネスマン」よりも階層が高いという階層関係が与えられたとする。この場合、予測部13は一例として、「人物」の順位が「大統領」、「政治家」及び「ビジネスマン」の順位よりも高くなるよう類似ラベルを並べ替える。
【0076】
(ステップS312)
ステップS312において、予測部13は、対象オブジェクトに関する複数の修正前ラベルと各修正前ラベルのスコアとを参照して、対象オブジェクトに関する複数の修正前ラベルの並べ替えを行う。予測部13は、一例として、付加されたスコアの大きい順に修正前ラベルを並べ替える。なお、予測部13による並べ替えの手法は上述した例に限られず、他の手法であってもよい。また、ステップS312において、予測部13は、ステップS311と同様に、複数のラベル間の階層関係を参照して並べ替えを行ってもよい。
【0077】
(ステップS313)
ステップS313において、予測部13は、対象オブジェクトに関する上位N番目(Nは自然数)までの修正前ラベルのうち、複数の類似オブジェクトに付与された上位M番目(Mは自然数)までの類似ラベルに含まれる修正前ラベルを、修正後ラベルとして決定する。
【0078】
情報処理方法S300により、情報処理装置1Aは、ひとつの予測対象オブジェクトについて付与する複数のラベルを、より高精度に決定できる。
【0079】
ただし、ステップS313において、予測部13は、修正前ラベルを参照することなく、類似ラベルを参照して修正後ラベルを決定してもよい。この場合、予測部13は一例として、ステップS311で並べ替えた上位M番目までの類似ラベルの集合を、修正後ラベルとして決定してもよい。
【0080】
(情報処理方法S400の流れ)
図10は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S400の流れを示すフロー図である。情報処理方法S400において、評価部12はオブジェクト間の類似関係を表すグラフ又はハイパーグラフを出力し、予測部13はグラフ又はハイパーグラフを用いて、予測対象オブジェクトに付与するラベルを決定する。情報処理方法S400は、ステップS111及びステップS113に加えて、ステップS401~S403を含む。なお、既に説明した内容についてはその説明を繰り返さない。
【0081】
(ステップS401)
ステップS401において、評価部12は、オブジェクト間の類似関係を表すグラフを出力することによって、1又は複数の類似オブジェクトを特定する。評価部12が出力するグラフは、一例として、オブジェクトをノードとし、類似度を評価したノード間を結ぶエッジ又はハイパーエッジを有するグラフ又はハイパーグラフである。より具体的には、グラフ/ハイパーグラフは、一例として、類似関係を有するオブジェクト間にエッジ/ハイパーエッジを有し、類似関係が無いオブジェクト間にはエッジ/ハイパーエッジがないグラフである。また、これらのエッジ又はハイパーエッジには、対応するノード間の類似度に応じた重み情報が付与されてもよい。
【0082】
(ステップS402)
ステップS402において、予測部13は、評価部12が出力したグラフを参照して、オブジェクト集合OCから1又は複数の類似オブジェクトを抽出する。予測部13は、一例として、評価部12が出力したグラフを参照して、予測対象オブジェクトから所定のホップ数以内に存在する1又は複数の類似オブジェクトを抽出する。評価部12は、一例として、k個までのエッジ/ハイパーエッジを介して予測対象オブジェクトと繋がっている類似オブジェクトを抽出する。
【0083】
(ステップS403)
ステップS403において、予測部13は、抽出した1又は複数の類似オブジェクトの各々に付与された類似ラベルを参照して、予測対象オブジェクトに付与するラベルを決定する。
【0084】
ただし、予測部13がラベルを決定する方法は上述した例に限られない。予測部13は、一例として、グラフ又はハイパーグラフの構造を考慮した計算を行うことができるニューラルネットワーク(グラフニューラルネットワーク)を用いて、ラベルを決定してもよい。グラフニューラルネットワークとしては、例えば「Schlichtkrull, Michael, et al. "Modeling relational data with graph convolutional networks." European Semantic Web Conference. Springer, Cham, 2018」、又は「Feng, Yifan, et al. "Hypergraph neural networks." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019」の文献に記載されたニューラルネットワークが用いられてもよい。
【0085】
上記グラフニューラルネットワークの学習においては、各オブジェクトに対応するノードに対応するオブジェクトの特徴量を与えるとともに、各エッジ/ハイパーエッジに対応するオブジェクト間の類似度などを特徴量として与え、上記グラフニューラルネットワーク等のモデルをノードごとにラベルを予測させるように学習させる。この学習においては、修正前ラベルの一部又は全部をグラフニューラルネットワークが予測すべきラベルの訓練データとして利用してもよい。この場合、予測部13は、上記モデルによって予測されたラベルによって、各ノードに対応する予測対象オブジェクトのラベルを決定する。
【0086】
(情報処理装置1Aの効果)
以上のように、本例示的実施形態に係る情報処理装置1Aにおいては、類似ラベルの各々についてスコアを算出し、算出したスコアを更に参照して、予測対象オブジェクトに付与するラベルを決定する構成が採用されている。情報処理装置1Aが類似ラベルの信頼度又は類似オブジェクトの類似度等に応じてスコアを算出することにより、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、類似ラベルの信頼度等を加味したラベルの決定を行うことができるという効果が得られる。
【0087】
また、本例示的実施形態に係る情報処理装置1Aにおいては、予測対象オブジェクトの修正前ラベルを予測モデルによって予測し、修正前ラベルを類似ラベルを参照して修正するという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、修正前ラベルを高精度に修正できるという効果が得られる。
【0088】
〔例示的実施形態3〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1又は2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0089】
本例示的実施形態に係る情報処理装置1Bは、自然言語で記された文章中のエンティティを分類する。エンティティは、特定の概念や物を表す文字列であり、一例として、固有名詞又は一般名詞である。一例として、「ジョーテイラー氏は、アメリカ合衆国の大統領である。」という文章におけるエンティティは「ジョーテイラー氏」、「アメリカ合衆国」及び「大統領」である。エンティティはクラスに分類される。クラスはエンティティの分類結果を示すものであり、例えば「人物」、「会社」及び「国家」である。ひとつのエンティティに対して1又は複数のクラスがアノテーションされる。換言すると、ひとつのエンティティに対して複数のクラスがアノテーションされてもよい。
【0090】
<情報処理装置1Bの構成>
図11は、情報処理装置1Bの構成を示すブロック図である。情報処理装置1Bは、制御部10A、記憶部20A、入出力部30A、及び通信部40Aを備える。制御部10Aの取得部11は、受付部111B及びエンティティ抽出部112Bを備える。また、評価部12は、同一性評価部121Bを備える。また、記憶部20Aは、オブジェクト集合OC、及び評価モデルM2に加えて、予測モデルM1Bを記憶する。
【0091】
(受付部111B)
受付部111Bは、文章集合を受け付ける。文章集合は、1又は複数の文章を含む。受付部111Bは一例として、通信部40Aを介して他の装置から文章集合を受け付けてもよい。また、受付部111Bは一例として、入出力部30Aを介して入力される文章集合を取得してもよい。また、受付部111Bは、記憶部20A又は外部接続された記憶装置から文章集合を読み出すことにより文章集合を取得してもよい。
【0092】
(エンティティ抽出部112B)
エンティティ抽出部112Bは、文章集合から複数のエンティティを抽出する。エンティティ抽出部112Bは一例として、文章集合に含まれる文章に対して自然言語処理(形態素解析、N-gram解析、等)を行い、各文章に含まれるエンティティを抽出する。より具体的には、エンティティ抽出部112Bは、一例として、文章に対して構文解析を行い、名詞節や形容詞節など、所定の文法パターンに合致する文字列をエンティティとして抽出する。又は、エンティティ抽出部112Bは、予め定められた辞書中の文字列と照合した文字列をエンティティとして抽出してもよい。又は、エンティティ抽出部112Bは文献「Shang, Jingbo, et al. "Automated phrase mining from massive text corpora," IEEE Transactions on Knowledge and Data Engineering 30.10 (2018): 1825-1837」に記載された技術を用いてエンティティを抽出してもよい。
【0093】
(取得部11)
取得部11は、エンティティ抽出部112Bによって抽出された複数のエンティティと、当該複数のエンティティの抽出元の文章との組、をオブジェクトの集合として取得する。オブジェクトは、一例として、文章を表す文字列、及び、その文字列中でのエンティティの位置、という特徴量により表現される。例えば、文章dの文字列が「ジョーテイラー氏は、アメリカ合衆国の大統領である。」であり、エンティティが「ジョーテイラー氏」である場合、特徴量は、一例として、(文章d,<1文字目から8文字目>)と表現される。
【0094】
本例示的実施形態では、異なる文章に出現しているエンティティは、それらが同一の実体を表す文字列であっても、異なるオブジェクトとして扱われる。例えば、「ジョーテイラー氏が当選した。」という文章と、「ジョーテイラー氏は大統領である。」という2つの文章が存在した場合、これら2つの文字列「ジョーテイラー氏」に対してそれぞれオブジェクトが作成される。
【0095】
なお、取得部11が取得部するオブジェクトの集合は上述した例に限られない。オブジェクトの集合は、一例として、エンティティ抽出部112Bによって抽出された複数のエンティティであってもよい。
【0096】
(同一性評価部121B)
同一性評価部121Bは、オブジェクトの集合に含まれるオブジェクト間の同一性を評価し、予測対象オブジェクトと同一のオブジェクトを、類似オブジェクトとして特定する。同一性評価部121Bは、一例として、複数のオブジェクトの特徴量を参照し、オブジェクトに対応するエンティティが同一の実体(もの・こと)を指しているかを評価する。
【0097】
具体的には、同一性評価部121Bは、以下の手法によりオブジェクト間の同一性を評価する。同一性評価部121Bは、まず、オブジェクトの特徴量を参照して、オブジェクトに対応するエンティティの文字列を取得する。エンティティの文字列は、特徴量である文章と文字列位置とから取得可能である。同一性評価部121Bは、取得した文字列が同一であるオブジェクト間の類似度を「1」とし、同一でないオブジェクト間の類似度を「0」とする。
【0098】
ただし、同一性評価部121Bがオブジェクト間の同一性を評価する手法は、上述した例に限られず、他の手法が用いられてもよい。一例として、同一性評価部121Bは、各オブジェクトに対応するエンティティに対応する知識ベース中のインスタンスを「Wu, Ledell, et al., "Scalable zero-shot entity linking with dense entity retrieval," arXiv preprint arXiv:1911.03814 (2019)」の文献に記載の手法を用いて特定してもよい。この場合、同一性評価部121Bは、一例として、同一インスタンスが特定されたオブジェクト間の類似度を「1」とし、同一インスタンスが特定されなかったオブジェクト間の類似度を「0」とする。
【0099】
(予測モデルM1B)
予測モデルM1Bは、オブジェクトのラベルを予測するためのモデルである。本例示的実施形態において、オブジェクトに付与されるラベルは、オブジェクトが分類されるクラスの集合である。クラスは例えば文字列又は整数IDにより表現できる。例えば、オブジェクトの特徴量が上述した(文章d,<1文字目から8文字目>)である場合、ラベルは、一例として、{人物、大統領、政治家、男性、父、アメリカ人}のようなクラスの集合である。
【0100】
予測モデルM1Bは、一例として、教師なし学習により構築される言語モデルである。この場合、言語モデルは、一例として、入力された単語列に対してその自然言語文としての確度を出力するモデルである。また、このような言語モデルを用いることにより、入力された単語列を補う単語を予測することも可能である。単語列を補う単語とは、単語列にその単語を補うことにより補った後の単語列が自然言語文となり得る単語である。予測モデルM1Bとしては、例えば「Devlin, Jacob, et al., "Bert: Pre-training of deep bidirectional transformers for language understanding," arXiv preprint arXiv:1810.04805 (2018)」の文献に記載されたモデルを利用可能である。
【0101】
<情報処理装置1Bによる情報処理方法の流れ>
以上のように構成された情報処理装置1Bが実行する情報処理方法の一例である情報処理方法S500の流れについて、図12を参照して説明する。図12は、情報処理方法S500の流れを示すフロー図である。なお、既に説明した内容についてはその説明を繰り返さない。
【0102】
(ステップS501・S502)
ステップS501において、受付部111Bは、文章集合を受け付ける。ステップS502において、エンティティ抽出部112Bは、文章集合から複数のエンティティを抽出する。具体的には例えば、エンティティ抽出部112Bは、「ジョーテイラー氏は、アメリカ合衆国の大統領である。」という文章から「ジョーテイラー氏」、「アメリカ合衆国」、及び「大統領」をエンティティとして抽出する。
【0103】
(ステップS503)
ステップS503において、取得部11は、エンティティ抽出部112Bが抽出した複数のエンティティと、当該複数のエンティティの抽出元の文章とのペアを、オブジェクトの集合として取得する。
【0104】
(ステップS504)
ステップS504において、同一性評価部121Bは、オブジェクトの集合に含まれるオブジェクト間の同一性を評価し、予測対象オブジェクトと同一のオブジェクトを、類似オブジェクトとして特定する。
【0105】
(ステップS505)
ステップS505において、予測部13は、予測対象オブジェクトに付与するラベルを、類似オブジェクトに付与された類似ラベルを参照して決定する。本例示的実施形態に係る予測部13のラベルの決定方法の一例について以下に説明する。
【0106】
まず、予測部13は、予測対象オブジェクトの修正前ラベルを、予測モデルM1Bにより予測する。まず、予測部13は、オブジェクトの特徴量から、エンティティである文字列の部分が穴抜けした文字列を作成する。予測部13は、一例として「ジョーテイラー氏は、アメリカ合衆国の大統領である。」という文章dから「<MASK>は、アメリカ合衆国の大統領である。」という文字列を作成する。この文字列において「<MASK>」は穴抜けを表す。次いで、予測部13は、クラス名を単語として扱い、予測モデルM1Bを利用して、穴抜け部にそれぞれのクラス名が入る確信度をスコアとして計算する。一例として、「人物」と「国家」のそれぞれのクラスの確信度として、予測部13は、穴抜け部に「人物」が入るスコアを「0.9」と計算し、また、穴抜け部に「国家」が入るスコアを「0.1」と計算する。
【0107】
なお、予測部13は、エンティティである文字列の部分が穴抜けした文字列を作成する際に、単にエンティティを穴抜けさせるだけでなく、クラス名が穴抜け部分により入りやすくなるように文章の一部を修正してもよい。予測部13は例えば文章dから「その<MASK>は、アメリカ合衆国の大統領である。」という文字列を生成してもよい。予測部13は、クラス名が穴抜け部分により入りやすくなるように文章が修正される限り、必ずしもエンティティである文字列の部分を穴抜けさせる必要は無い。予測部13は例えば文章dから「ジョーテイラー氏などの<MASK>は、アメリカ合衆国の大統領である。」という文字列を生成してもよい。
【0108】
上述したように、予測部13は、予測モデルM1Bを用いて、クラス名とスコアとのペアの集合を修正前ラベルとして予測する。類似オブジェクトに付される類似ラベルも修正前ラベルと同様に予測モデルM1Bを用いて予測される。すなわち、本例示的実施形態において、類似ラベルは、クラス名とスコアとのペアの集合である。類似ラベルは、予測部13が予測してもよく、また、情報処理装置1B以外の他の装置が予測してもよい。
【0109】
予測部13は、類似ラベルを参照して修正前ラベルを決定する。類似ラベルを用いた修正前ラベルの決定方法は、上述の例示的実施形態2で説明した方法と同様である。
【0110】
予測部13は一例として、上述の情報処理方法S300により修正前ラベルを決定する。この場合、より具体的には、予測部13は、修正対象オブジェクトOBJ_Aの類似オブジェクトOBJ_B、OBJ_C、OBJ_D、OBJ_Eのそれぞれに対する類似ラベルに含まれるクラス(「国家」、「人物」、等)の順位を計算し、得られた順位から各クラスのMRRを計算し、MRRの値で類似ラベルの並べ替えを行う(ステップS311)。なお、予測部13がクラスの並べ替えに用いる値はMRRに限られず、他の値であってもよい。予測部13は例えば、各クラスに対応するスコアの平均値で並べ替えを行ってもよい。
【0111】
次いで、予測部13は、修正前ラベルに含まれる複数のクラスをスコアに基づき並べ替える処理を行う(ステップS312)。更に、予測部13は、ステップS312で並べ替えた上位N番目までのクラスのうち、ステップS311で並べ替えた上位M番目までのクラスの集合を、修正後ラベルとして決定する(ステップS313)。ただし、修正後ラベルの決定方法はこれに限られず、他の手法が用いられてもよい。一例として、予測部13は、修正前ラベルを参照することなく、ステップS311で並べ替えた上位M番目までのクラスの集合を、修正後ラベルとして決定してもよい。
【0112】
また、ステップS311及びステップS312において、予測部13は、上述したように、複数のクラスをクラス間の階層関係を参照して並び替えてもよい。例えば「人物」というクラスの下位クラスとして「大統領」、「政治家」、「ビジネスマン」等を挙げることができる。この場合、予測部13は一例として、各クラスのスコアをそのクラスの下位クラスのスコアの中で最大のものに置き換えて並べ替える。又は、予測部13は一例として、上位のクラスが下位のクラスよりも先にくるように並べ替えを行ってもよい。
【0113】
図13は、クラスの階層関係と予測部13による並べ替えの具体例を示す図である。図13において、階層関係TC1は、「人物」というクラスの下位に「大統領」及び「ビジネスマン」というクラスがあることを示す。また、図13において、修正前ラベルには「大統領」、「都市」、「ビジネスマン」、「人物」のクラスが含まれ、各クラスのスコアはそれぞれ「0.9」、「0.7」、「0.5」、「0.3」と算出されている。
【0114】
クラスの階層関係TC1において「人物」のクラスが「大統領」のクラスよりも上位であるため、予測部13は、「人物」のクラスのスコアを「0.3」から「0.9」に変更するとともに、「人物」のクラスの順位が「大統領」の順位よりも高くなるよう並べ替えを行う。
【0115】
(情報処理装置の効果)
以上のように、本例示的実施形態に係る情報処理装置1Bにおいては、文章集合から複数のエンティティを抽出し、抽出したエンティティを含むオブジェクトに付与するラベルを決定する。これにより、本例示的実施形態に係る情報処理装置1Bによれば、文章から抽出されるエンティティについて、当該エンティティを含むオブジェクトに付与するラベルを高精度に決定できる。
【0116】
また、本例示的実施形態に係る情報処理装置1Bにおいては、オブジェクト間の同一性を評価し、予測対象オブジェクトと同一のオブジェクトを、類似オブジェクトとして特定するという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、オブジェクト間の同一性を評価することにより、予測対象オブジェクトに付与するラベルをより高精度に決定できる。
【0117】
〔例示的実施形態4〕
本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0118】
図14は、本例示的実施形態に係る情報処理装置1Cの構成を示すブロック図である。情報処理装置1Cは、制御部10A、記憶部20A、入出力部30A及び通信部40Aを備える。制御部10Aは、取得部11、評価部12及び予測部13に加えて、表示部15Cを備える。
【0119】
表示部15Cは、入出力部30Aに接続された表示装置に表示画面を表すデータを出力することにより、各種画面を表示する。表示装置は一例として、液晶ディスプレイ、又はプロジェクタを含む。表示部15Cは、一例として、予測対象オブジェクトを表示する。表示部15Cはまた、類似オブジェクトの少なくとも何れか、又は、類似ラベルの少なくとも何れかを表示する。
【0120】
図15は、表示部15Cが表示する画面例である画面SC11を示す図である。画面SC11は、第1領域a111及び第2領域a112を含む。第1領域a111には、予測対象オブジェクトに含まれる文章及びエンティティが表示される。また、第1領域a111には、予測部13が決定したラベルに含まれるクラスであって、各エンティティに対応するクラスが表示される。具体的には、「ジョーテイラー氏」というエンティティE11のラベルLBL11として「人物」及び「大統領」が表示され、「アメリカ合衆国」というエンティティE12のラベルLBL12として「国家」及び「組織」が表示されている。また、「大統領」というエンティティE13のラベルLBL13として「役職名」が表示されている。
【0121】
第2領域a112には、類似オブジェクトに含まれる文章及びエンティティが表示される。また、第2領域a112には、類似オブジェクトの類似ラベルに含まれるクラスであって、類似オブジェクトに含まれるエンティティに対応するクラスが表示される。例えば「ジョーテイラー氏」というエンティティのクラスとして「人物」及び「政治家」が表示されている。
【0122】
また、画面SC11は、テキストボックスTB11及びボタンB11を含む。テキストボックスTB11は、情報処理装置1Cのユーザが入出力部30Aに接続された入力装置(マウス、キーボード、等)を用いてクラス名を入力するためのテキストボックスである。ユーザがポインタP11によりエンティティを選択してテキストボックスTB11に文字列を入力し、ボタンB11を選択する操作を行うと、情報処理装置1Cは、入力された文字列のクラス名を、予測対象オブジェクトに付与されたラベルに追加する。換言すると、ユーザは入出力部30Aに接続された入力装置を用いて、予測部13が予測対象オブジェクトに付与したラベルを変更することができる。
【0123】
また、表示部15Cは、予測対象オブジェクトの修正前ラベル、又は、対象オブジェクトに付与されたラベルを表示してもよい。また、このとき、表示部15Cは、類似ラベルを表示してもよい。
【0124】
図16は、表示部15Cが表示する画面例である画面SC21を示す図である。画面SC21は、第1領域a111、第4領域a212、及び第5領域a213を含む。第1領域a111には、画面S11と同様に、予測対象オブジェクトに含まれる文章及びエンティティが表示される。また、第1領域a111には、予測対象オブジェクトに付与されたラベル(すなわち、予測部13が決定したラベル)に含まれるクラスであって、各エンティティに対応するクラスが表示される。
【0125】
第4領域a212には、予測対象オブジェクトの修正前ラベルが表示される。第5領域a213には、類似ラベルが表示される。また、画面SC21には、画面SC11と同様に、テキストボックスTB11及びボタンB11が表示される。
【0126】
本例示的実施形態によれば、情報処理装置1Cのユーザは、図15に例示した画面を確認することにより、予測対象オブジェクトと、類似オブジェクト又は類似ラベルを把握することができる。また、入力装置を用いて予測対象オブジェクトのラベルを変更することもできる。
【0127】
また、本例示的実施形態によれば、図16に例示した画面を確認することにより、予測対象オブジェクトの修正前ラベル又は予測対象オブジェクトに付与されたラベルと、類似ラベルとを把握することができる。
【0128】
〔ソフトウェアによる実現例〕
情報処理装置1、1A、1B、1Cの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0129】
後者の場合、情報処理装置1、1A、1B、1Cは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図17に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1A、1B、1Cとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1A、1B、1Cの各機能が実現される。
【0130】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0131】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0132】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0133】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0134】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0135】
(付記1)
オブジェクトの集合を取得する取得手段と、
前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する評価手段と、
前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する予測手段と、
を備えている情報処理装置。
【0136】
上記の構成によれば、単一の予測モデルしか存在しない場合であっても予測対象オブジェクトに付与するラベルを高精度に決定できる。
【0137】
(付記2)
前記評価手段は、前記類似ラベルの各々についてスコアを算出し、
前記予測手段は、前記スコアを更に参照して、前記予測対象オブジェクトに付与するラベルを決定する、
付記1に記載の情報処理装置。
【0138】
上記の構成によれば、類似ラベルのスコアを加味して予測対象オブジェクトに付与するラベルを決定することができる。
【0139】
(付記3)
前記予測手段は、
前記予測対象オブジェクトの修正前ラベルを前記予測モデルによって予測し、
前記類似ラベルを前記予測モデルによって予測し、
前記修正前ラベルを前記類似ラベルを参照して修正することによって得られる修正後ラベルを、前記予測対象オブジェクトに付与するラベルとして決定する、
付記1又は2に記載の情報処理装置。
【0140】
上記の構成によれば、予測モデルによって予測した予測対象オブジェクトの修正前ラベルを高精度に修正することができる。
【0141】
(付記4)
前記評価手段は、複数の類似オブジェクトを特定し、
前記予測手段は、
前記複数の類似オブジェクトに付与された複数の類似ラベルから、1又は複数の類似ラベルを抽出し、
抽出した1又は複数の類似ラベルと前記修正前ラベルとを比較することによって、前記修正後ラベルを決定する、
付記3に記載の情報処理装置。
【0142】
上記の構成によれば、抽出した類似ラベルを用いることにより、予測モデルによって予測した予測対象オブジェクトの修正前ラベルをより高精度に修正することができる。
【0143】
(付記5)
前記予測手段は、
前記複数の類似オブジェクトの各々に付与された複数の類似ラベルと各類似ラベルのスコアとを参照して、前記複数の類似オブジェクトに付与された複数の類似ラベルの並べ替えを行い、
前記対象オブジェクトに関する複数の修正前ラベルと各修正前ラベルのスコアとを参照して、前記対象オブジェクトに関する複数の修正前ラベルの並べ替えを行い、
前記対象オブジェクトに関する上位N番目(Nは自然数)までの修正前ラベルのうち、前記複数の類似オブジェクトに付与された上位M番目(Mは自然数)までの類似ラベルに含まれる修正前ラベルを、前記修正後ラベルとして決定する、
付記3又は4に記載の情報処理装置。
【0144】
上記の構成によれば、予測対象オブジェクトに付与する複数のラベルを高精度に決定できる。
【0145】
(付記6)
前記予測手段は、
前記複数の類似オブジェクトに付与された複数の類似ラベルを、当該複数の類似ラベル間の階層関係を参照して更に並び替え、
前記対象オブジェクトに関する上位N番目(Nは自然数)までの修正前ラベルのうち、前記複数の類似オブジェクトに付与された上位M番目(Mは自然数)までの類似ラベルに含まれる修正前ラベルを、前記修正後ラベルとして決定する、
付記5に記載の情報処理装置。
【0146】
上記の構成によれば、予測対象オブジェクトに付与する複数のラベルを、階層関係を加味してより高精度に決定することができる。
【0147】
(付記7)
前記評価手段は、オブジェクト間の類似関係を表すグラフを出力することによって、前記1又は複数の類似オブジェクトを特定し、
前記予測手段は、
前記グラフを参照して、前記予測対象オブジェクトから所定のホップ数以内に存在する1又は複数の類似オブジェクトを抽出し、
抽出した1又は複数の類似オブジェクトの各々に付与された前記類似ラベルを参照して、前記予測対象オブジェクトに付与するラベルを決定する、
付記1から6の何れか1つの記載の情報処理装置。
【0148】
上記の構成によれば、オブジェクト間の類似関係を表すグラフを用いて予測対象オブジェクトに付与するラベルをより高精度に決定できる。
【0149】
(付記8)
前記取得手段は、
文章集合を受け付ける受付手段と、
前記文章集合から複数のエンティティを抽出するエンティティ抽出手段と、
を備え、
前記エンティティ抽出手段によって抽出された複数のエンティティ、又は、
前記エンティティ抽出手段によって抽出された複数のエンティティと、当該複数のエンティティの抽出元の文章との組、
を前記オブジェクトの集合として取得する、
付記1から7の何れか1つに記載の情報処理装置。
【0150】
上記の構成によれば、単一の予測モデルしか存在しない場合であっても、文章から抽出されるエンティティについて、当該エンティティを含むオブジェクトに付与するラベルを高精度に決定できる。
【0151】
(付記9)
前記評価手段は、
前記オブジェクトの集合に含まれるオブジェクト間の同一性を評価し、前記予測対象オブジェクトと同一のオブジェクトを、前記類似オブジェクトとして特定する同一性評価手段を備えている、
付記1から8の何れか1つに記載の情報処理装置。
【0152】
上記の構成によれば、オブジェクト間の同一性を評価することにより、予測対象オブジェクトに付与するラベルをより高精度に決定できる。
【0153】
(付記10)
前記予測対象オブジェクト、及び、
前記類似オブジェクトの少なくとも何れか、又は、前記類似ラベルの少なくとも何れかを表示する表示手段、
を備えている付記1から9の何れか1つに記載の情報処理装置。
【0154】
上記の構成によれば、情報処理装置のユーザは、予測対象オブジェクト、及び、類似オブジェクト又は類似ラベルを把握することができる。
【0155】
(付記11)
前記予測対象オブジェクトの修正前ラベル、又は、前記対象オブジェクトに付与されたラベル、及び、
前記類似ラベル、
を表示する表示手段、
を備えている付記1から9の何れか1項に記載の情報処理装置。
【0156】
上記の構成によれば、情報処理装置のユーザは、予測対象オブジェクトの修正前ラベル又は対象オブジェクトに付与されたラベルと、類似ラベルとを把握することができる。
【0157】
(付記12)
オブジェクトの集合を取得することと、
前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定することと、
前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定することとを含む情報処理方法。
【0158】
上記の情報処理方法によれば、上述した情報処理装置と同様の効果を奏する。
【0159】
(付記13)
コンピュータに、
オブジェクトの集合を取得する処理と、
前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する処理と、
前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する処理と、
を実行させる情報処理プログラム。
【0160】
上記の構成によれば、上述した情報処理装置と同様の効果を奏する。
【0161】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
【0162】
少なくとも1つのプロセッサを備え、前記プロセッサは、オブジェクトの集合を取得する取得処理と、前記オブジェクトの集合に含まれるオブジェクト間の類似度を評価し、予測対象オブジェクトに類似する1又は複数の類似オブジェクトを特定する評価処理と、前記予測対象オブジェクトに付与するラベルを、前記1又は複数の類似オブジェクトの各々に付与されたラベルであって予測モデルによって予測されたラベルである類似ラベルを参照して決定する予測処理とを実行する情報処理装置。
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記評価処理と、前記予測処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0163】
1、1A、1B、1C 情報処理装置
10A 制御部
11 取得部
12 評価部
13 予測部
15C 表示部
20A 記憶部
30A 入出力部
40A 通信部
111B 受付部
112B エンティティ抽出部
121B 同一性評価部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17