特許7384354 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特許7384354情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-13

(45)【発行日】2023-11-21

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06F 16/903 20190101AFI20231114BHJP

G06F 40/279 20200101ALI20231114BHJP

G06F 16/906 20190101ALI20231114BHJP

【ＦＩ】

G06F16/903

G06F40/279

G06F16/906

【請求項の数】 9

(21)【出願番号】P 2020017146

(22)【出願日】2020-02-04

(65)【公開番号】P2021124892

(43)【公開日】2021-08-30

【審査請求日】2022-10-12

【新規性喪失の例外の表示】特許法第３０条第２項適用１．掲載年月日：令和１年８月２８日掲載アドレス：ｈｔｔｐ：／／ｌｉｎｋ．ｓｐｒｉｎｇｅｒ．ｃｏｍ／ｂｏｏｋ／１０．１００７／９７８－３－０３０－２９８９４－４２．集会名：Ｔｈｅ１６ｔｈＰａｃｉｆｉｃＲｉｍＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＰＲＩＣＡＩ２０１９）開催日：令和１年８月２６日から令和１年８月３０日まで開催場所：フィジー共和国、ヤヌカ島、クヴ（ＹａｎｕｃａＩｓｌａｎｄ，Ｃｕｖｕ，Ｆｉｊｉ）

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(73)【特許権者】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】中野幹生

(72)【発明者】

【氏名】奥村学

(72)【発明者】

【氏名】胡晨龍

【審査官】長由紀子

(56)【参考文献】

【文献】特開２０１０－０６１２８４（ＪＰ，Ａ）

【文献】国際公開第２０１１／０７０９８０（ＷＯ，Ａ１）

【文献】水口弘紀外３名，Ｗｅｂ知識を利用したブートストラップによる辞書増殖手法 Construction of dictionaries from the web by bootstrapping method，電子情報通信学会第１８回データ工学ワークショップ論文集［ｏｎｌｉｎｅ］ DEWS2007 HIROSHIMA，日本，電子情報通信学会データ工学研究専門委員会，2007年06月01日，pp.1-7

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－９５８

Ｇ０６Ｆ４０／００－５８

(57)【特許請求の範囲】

【請求項1】

シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新部と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成部と、を備え、
前記更新部は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
情報処理装置。

【請求項2】

前記抽出部は、前記パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、
選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める
請求項１に記載の情報処理装置。

【請求項3】

前記抽出部は、前記パターンごとに抽出したインスタンスのうち前記シードリストに含まれるインスタンスである既知のインスタンスの数と、前記シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、前記既知のインスタンスの数の割合を前記信頼性として算出する
請求項２に記載の情報処理装置。

【請求項4】

前記抽出部は、前記シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、
選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める
請求項２または請求項３に記載の情報処理装置。

【請求項5】

前記抽出部は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択する
請求項４に記載の情報処理装置。

【請求項6】

前記再構成部は、前記シードリストに含まれるインスタンスを示す入力値に対する前記再構成値と、当該入力値との差が小さくなるように、前記中間値への変換ならびに前記再構成値への変換に係るパラメータを学習する
請求項１から請求項５のいずれか一項に記載の情報処理装置。

【請求項7】

前記再構成部は、前記入力値を入力する入力層と、前記中間値を出力する中間層と、前記再構成値を出力する出力層と、を備え、前記入力層と前記出力層のそれぞれのノード数よりも前記中間層のノード数が少ないオートエンコーダであり、
前記入力値として単語ベクトルが入力される
請求項１から請求項６のいずれか一項に記載の情報処理装置。

【請求項8】

情報処理装置における情報処理方法であって、
シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出過程と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新過程と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成過程と、を有し、
前記更新過程は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
情報処理方法。

【請求項9】

情報処理装置のコンピュータに、
シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出手順と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新手順と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成手順と、を有し、
前記更新手順は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

従来から取得された文から新たなインスタンス（例えば、語彙）を獲得するための手法としてブートストラップ法が提案されている。特許文献１に記載されているように、ブートストラップ法は、特定のパターンに属する少数のインスタンスを含んだシードリストから新たなパターンに属する新たなインスタンスを文から抽出し、抽出したインスタンスをシードリストに追加するという一連の処理の繰り返しを有する手法である。ブートストラップ法のうち、コーパスから意味辞書の構築に使用される手法としてバシリスク（Ｂａｓｉｌｉｓｋ）法が提案されている。バシリスク法は、インスタンスを抽出するためのパターンを複数用い、複数のパターンのそれぞれについて、抽出したインスタンスの抽出状況に基づいてスコアリングを行って、インスタンスの抽出に係るパターンを選択する処理を伴う。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１０－１９８２６９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来のブートストラップ法では、個々のインスタンスのスコアリングにおいて、そのインスタンスの抽出に係るパターンによるインスタンスの抽出能力が評価され、インスタンス自体の特性が直接評価されない。そのため、一般的なインスタンスや稀なパターンにしか属しない特定のインスタンスがシードリストに追加されることがある。また、処理結果として得られるシードリストは、初期のシードリストに大きく依存する傾向があった。そのため、シードリストには予期しないインスタンスが蓄積されがちであった。

【0005】

本発明は上記の点に鑑みてなされたものであり、より期待されるインスタンスを取得することができる情報処理装置、情報処理方法またはプログラムを提供することを課題とする。

【課題を解決するための手段】

【0006】

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部と、前記候補インスタンスのいずれかを前記シードリストに追加する更新部と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成部と、を備え、前記更新部は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する情報処理装置である。

【0007】

（２）本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。

【0008】

（３）本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに抽出したインスタンスのうち前記シードリストに含まれるインスタンスである既知のインスタンスの数と、前記シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、前記既知のインスタンスの数の割合を前記信頼性として算出してもよい。

【0009】

（４）本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。

【0010】

（５）本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択してもよい。

【0011】

（６）本発明のその他の態様は、上述の情報処理装置であって、前記再構成部は、前記シードリストに含まれるインスタンスを示す入力値に対する前記再構成値と、当該入力値との差が小さくなるように、前記中間値への変換ならびに前記再構成値への変換に係るパラメータを学習してもよい。

【0012】

（７）本発明のその他の態様は、上述の情報処理装置であって、前記再構成部は、前記入力値を入力する入力層と、前記中間値を出力する中間層と、前記再構成値を出力する出力層と、を備え、前記入力層と前記出力層のそれぞれのノード数よりも前記中間層のノード数が少ないオートエンコーダであり、前記入力値として単語ベクトルが入力されてもよい。

【0013】

（８）本発明のその他の態様は、情報処理装置における情報処理方法であって、シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出過程と、前記候補インスタンスのいずれかを前記シードリストに追加する更新過程と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成過程と、を有し、前記更新過程は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する情報処理方法である。

【0014】

（９）本発明のその他の態様は、情報処理装置のコンピュータに、シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出手順と、前記候補インスタンスのいずれかを前記シードリストに追加する更新手順と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成手順と、を有し、前記更新手順は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加するプログラムである。

【発明の効果】

【0015】

本発明の態様によれば、より期待されるインスタンスを取得することができる。

【図面の簡単な説明】

【0016】

【図1】本実施形態に係る情報処理装置の構成例を示す概略ブロック図である。

【図2】本実施形態に係るインスタンス抽出処理の例を示すフローチャートである。

【図3】本実施形態に係る再構成部の構成例を示す図である。

【図4】本実施形態に係るパターンスコアリングを説明するための説明図である。

【図5】候補スコアリングの実験例を示す表である。

【図6】パターンスコアリングの実験例を示す表である。

【図7】パターンスコアリングにおける信頼性、効率および合成法のセットを例示する図である。

【図8】信頼性、効率および合成法のセットごとの実験結果を示す表である。

【発明を実施するための形態】

【0017】

以下、図面を参照しながら本発明の実施形態について説明する。
図１は、本実施形態に係る情報処理装置１０の構成例を示す概略ブロック図である。
情報処理装置１０は、制御部１２と、記憶部１４と、を含んで構成される。制御部１２は、情報処理装置１０が有する機能を実現するための各種の処理を実行する。制御部１２の一部または全部の機能は、例えば、ＣＰＵ（Central Processing Unit）等のプロセッサを含んで構成されるコンピュータとして実現される。プロセッサは、予め記憶部１４に記憶させておいたプログラムを読み出し、読み出したプログラムに記述された指令で指示される処理を行って、その機能を奏する。本願では、プログラムに記述された指令で指示される処理を行うことを、プログラムを実行する、プログラムの実行、などと呼ぶことがある。制御部１２の一部または全部は、プロセッサなどの汎用のハードウェアに限られず、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）等の専用のハードウェアを含んで構成されてもよい。

【0018】

記憶部１４は、上記のプログラムの他、制御部１２が実行する処理に用いられる各種のデータ、制御部１２が取得した各種のデータを記憶する。記憶部１４には、例えば、テキストデータＴｄ、シードリストＳｌ、パターンリストＰｌ、パターンプールＰｐ、候補インスタンスプールＩｐ、インスタンスベクトルデータＩｖ、パラメータセットＰｓ、などが記憶される。各種のデータについては、制御部１２の機能構成とともに後述する。
記憶部１４は、例えば、ＲＯＭ（Read Only memory）、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）などの不揮発性の（非一時的）記憶媒体を含んで構成される。
記憶部１４は、例えば、ＲＡＭ（Random Access memory）、レジスタなどの揮発性の記憶媒体を含んで構成される。

【0019】

次に、制御部１２の機能構成例について説明する。制御部１２は、抽出部１２２、更新部１２４、および再構成部１２６を含んで構成される。制御部１２を構成する各部は、パラメータセットＰｓに含まれる各種のパラメータを用いて以下に説明する処理を実行する。
抽出部１２２は、記憶部１４からテキストデータＴｄとパターンリストＰｌを読み出す。テキストデータＴｄは、処理対象とする１個または複数の文を示すデータである。テキストデータは、例えば、コーパス（corpus）であってもよい。コーパスは、複数の文を示すデータを集積してなる。コーパスは、個々の文と関連付けて、その文の言語的な特性を示す言語情報をさらに含んでいてもよい。言語情報には、例えば、文を構成するインスタンス（instance）ごとの品詞や属性を示す情報、インスタンス間の結合関係（conjuncture，例えば、係り受け）を示す統語構造を示す情報などが含まれてもよい。インスタンスは、典型的には、単語である。インスタンスは、個々の単語に限られず、複数の単語から構成される句も該当しうる。以下の説明では、主にインスタンスが単語である場合を例にする。
新たに取得されるテキストデータに言語情報が含まれていない場合には、抽出部１２２は、そのテキストデータが示す文に対して公知の形態素解析を行って言語情報を取得し、その文と関連付けて取得した言語情報をテキストデータＴｄとして記憶部１４に記憶してもよい。

【0020】

パターンリストＰｌは、複数のパターン（pattern）を含んで構成されるリストである。個々のパターンは、文から、その文を構成する一部のインスタンスを抽出するための規則を示す。個々のパターンにより、インスタンスを抽出するための規則が異なる。パターンは、例えば、所定の語義(semantic)の属性を有する品詞のインスタンスを抽出するための規則、所定の統語構造をなす所定の品詞のインスタンスを抽出するための規則、などを示す。

【0021】

抽出部１２２は、読み出したテキストデータＴｄが示す文から、パターンリストＰｌが示す複数のパターンのそれぞれを用いて、それぞれのパターンｐ_ｉに属するインスタンスを候補インスタンスｃ_ｉとして抽出する（候補インスタンス抽出）。パターンｐ_ｉに属するインスタンスとは、そのパターンｐ_ｉが示す規則を満たすインスタンスを意味する。
抽出部１２２は、シードリストＳｌを記憶部１４から読み出し、候補インスタンスｃ_ｉの抽出に用いたパターンｐ_ｉごとに、抽出した候補インスタンスｃ_ｉとシードリストＳｌを参照して、そのパターンｐ_ｉによるインスタンスの抽出の信頼性（reliability）を、そのパターンｐ_ｉのスコアとして解析する（パターンスコアリング（pattern scoring））。信頼性は、同じインスタンスが繰り返し抽出される可能性とも捉えることができる。

【0022】

抽出部１２２は、信頼性に代えて、または信頼性とともに、そのパターンｐ_ｉによるインスタンス抽出の効率（productivity）をスコアとして解析してもよい。効率は、そのパターンにより抽出されるインスタンスのシードリストＳｌに格納されるインスタンスに対する比率とも捉えることができる。抽出部１２２は、信頼性と効率の両者を総合したスコアとして信頼性と効率の調和平均(harmonic mean)を算出してもよい。
抽出部１２２は、算出したスコアが示す評価が高いほど優先して所定の個数であるｋ＋ｌ個（ｋは、２以上の整数、ｌは、処理の繰り返し回数（iteration）を示す自然数）のパターンを選択し、選択したパターンを示すパターンプールＰｐを記憶部１４に記憶する。信頼性、効率の算出方法については後述する。
なお、抽出部１２２は、選択したパターンを用いて抽出した候補インスタンスｃ_ｉを、その候補インスタンスの抽出に用いたパターンｐ_ｉと関連付けて候補インスタンスプールＩｐに含めて記憶部１４に記憶する。

【0023】

更新部１２４は、候補インスタンスプールＩｐを記憶部１４から読み出し、読み出した候補インスタンスプールＩｐに示される候補インスタンスのそれぞれについて、再構成部１２６に再構成誤差（reconstruction loss）を算出させる（候補インスタンススコアリング（candidate instance scoring））。ここで、更新部１２４は、候補インスタンスプールＩｐを再構成部１２６に出力し、候補インスタンスプールＩｐに対する応答として、再構成部１２６から候補インスタンスプールＩｐが示す候補インスタンスのそれぞれについて再構成誤差を示す再構成誤差データが入力される。
更新部１２４は、算出させた再構成誤差が小さいほど優先して所定の個数であるＮ個（Ｎは、１以上の整数）の候補インスタンスを選択し、選択した候補インスタンスをシードリストＳｌに含めて記憶部１４に記憶する。

【0024】

再構成部１２６は、更新部１２４から入力される候補インスタンスプールＩｐが示す候補インスタンスのそれぞれについて、それぞれの候補インスタンスを示す入力値をより自由度が低い中間値に変換し、変換した中間値から入力値の再構成値に変換する。再構成部１２６は、候補インスタンスごとに入力値から再構成値を差し引いて再構成誤差を算出する。再構成部１２６は、候補インスタンスごとに算出した再構成誤差を示す再構成誤差データを更新部１２４に出力する。再構成部１２６は、例えば、オートエンコーダ（Auto Encoder）を含んで構成される。

【0025】

再構成部１２６は、例えば、記憶部１４に記憶されたインスタンスベクトルデータＩｖを参照し、候補インスタンスに対応するインスタンスベクトルを入力値として特定する。インスタンスベクトルデータは、インスタンスと、そのインスタンスのインスタンスベクトルとを含み、これらを対応付けてなるセットを複数個含んで構成されるベクトルである。個々のインスタンスベクトルとして、単語ベクトルが用いられてもよい。単語ベクトルは、多次元のベクトル空間で定義され、その単語の意味を示すベクトルである。個々の単語ベクトルが属するベクトル空間において、ある１つの単語の単語ベクトルと他の単語の単語ベクトルとは、その１つの単語の意味と他の単語の意味が類似するほど近似する関係にあればよい。再構成部１２６は、単語から単語ベクトルを定める手法として、例えば、ｗｏｒｄ２ｖｅｃなどを用いることができる。

【0026】

なお、情報処理装置１０は、さらに入出力部２２と表示部２６を含んで構成されてもよい。
入出力部２２は、他の機器との間で各種のデータを入出力する。制御部１２は、例えば、入出力部２２を用いて入力されたテキストデータＴｄを記憶部１４に記憶する。制御部１２は、下記のインスタンス生成処理を行って生成されたシードリストＳｌを辞書（lexicon）として他の機器に出力してもよい。入出力部２２は、例えば、入出力インタフェースである。
表示部２６は、各種の表示情報を視認可能に表示する。表示部２６は、情報処理装置１０の操作に用いられる操作画面を表示する。表示部２６は、制御部１２が生成した処理結果、例えば、シードリストＳｌの一部または全部を表示してもよい。
表示部２６は、例えば、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイなどのいずれであってもよい。

【0027】

（インスタンス抽出処理）
次に、本実施形態に係るインスタンス抽出処理の例について説明する。
図２は、本実施形態に係るインスタンス抽出処理の例を示すフローチャートである。
（ステップＳ１０２）抽出部１２２は、処理対象とするテキストデータＴｄが示す文から、パターンリストＰｌが示す複数のパターンのそれぞれを用いて、それぞれのパターンｐ_ｉに属するインスタンスを候補インスタンスｃ_ｉとして抽出する。
抽出部１２２は、候補インスタンスｃ_ｉの抽出に用いたパターンｐ_ｉごとに、そのパターンｐ_ｉのスコアを算出する（パターンスコアリング）。その後、ステップＳ１０４の処理に進む。

【0028】

（ステップＳ１０４）抽出部１２２は、算出したスコアが示す評価が高いほど優先してｋ＋ｌ個のパターンを選択し、選択したパターンを示すパターンプールＰｐに記憶する（パターン選択）。その後、ステップＳ１０６の処理に進む。
（ステップＳ１０６）抽出部１２２は、選択したパターンｐ_ｉを用いて抽出した候補インスタンスｃ_ｉを、そのパターンｐ_ｉと関連付けて候補インスタンスプールＩｐに記憶する。その後、ステップＳ１０８の処理に進む。

【0029】

（ステップＳ１０８）抽出部１２２は、候補インスタンスプールＩｐに示される候補インスタンスのそれぞれについて、再構成部１２６に再構成誤差を算出させる（候補インスタンススコアリング）。その後、ステップＳ１１０の処理に進む。
（ステップＳ１１０）更新部１２４は、算出させた再構成誤差が小さいほど優先してＮ個の候補インスタンスを選択し、選択した候補インスタンスをシードリストＳｌに追加する（候補選択）。その後、処理対象のテキストデータＴｄを変更し、繰り返し回数ｌを１増加させ、ステップＳ１０２の処理に戻る。更新部１２４は、処理対象のテキストデータＴｄがなくなるまで、ステップＳ１０２－Ｓ１１０の処理を繰り返す。
なお、図２の処理を実行する前に、初期値として予め所定の個数のインスタンスをシード（seed：種）として示すシードリストＳｌを記憶部１４に記憶しておく。また、繰り返し回数ｌの初期値を予め１と設定しておく。

【0030】

（再構成部）
次に、再構成部１２６の構成例について説明する。
図３は、本実施形態に係る再構成部１２６の構成例を示す図である。図３に示す例では、再構成部１２６は、オートエンコーダを含んで構成される。オートエンコーダは、入力層Ｉｎ、中間層Ｍｄ、および、出力層Ｏｔを含むニューラルネットワークを備える。入力層Ｉｎ、中間層Ｍｄ、出力層Ｏｔは、それぞれ複数のノードを備える。入力層Ｉｎの各ノードは、自部への入力値に対して所定の活性化関数を用いて算出される出力値を、中間層Ｍｄの各ノードに出力する。中間層Ｍｄの各ノードは、入力層Ｉｎの各ノードから自部への入力値に対して所定の活性化関数を用いて得られる出力値を、出力層Ｏｔの各ノードに出力する。出力層Ｏｔの各ノードは、中間層Ｍｄの各ノードから自部への入力値に対して所定の活性化関数を用いて得られる出力値を出力する。活性化関数として、例えば、シグモイド関数、ランプ関数などのいずれかが用いられる。各ノードにおける活性化関数の特性を示すパラメータ、それぞれの入力値に乗算される重み係数、それぞれの入力値から差し引かれるバイアス値などがオートエンコーダのモデルパラメータに含まれる。入力層Ｉｎのノード数と出力層Ｏｔのノード数は等しい一方、入力層Ｉｎのノード数と出力層Ｏｔのノード数は、それぞれ中間層Ｍｄのノード数よりも少ない。入力層Ｉｎのノード数、中間層Ｍｄのノード数は、それぞれ入力層Ｉｎ全体への入力値の自由度、中間層Ｍｄで得られる中間値の自由度に相当する。そのため、オートエンコーダは、入力値よりも自由度が低い中間値を算出するために用いられる。

【0031】

再構成部１２６は、入力層Ｉｎのノードへの入力値と、そのノードに対応する出力層Ｏｔのノードからの出力値との差が極力小さくなるようにオードエンコーダのモデルパラメータを予め学習しておく。その際、再構成部１２６は、例えば、入力層Ｉｎのノードへの入力値と、そのノードに対応する出力層Ｏｔのノードからの出力値との差（以下、再構成誤差（reconstruction error））の大きさの指標として、例えば、再構成損失値（reconstruction loss）が減少するようにモデルパラメータを再帰的に定める。従って、出力層Ｏｔのノードからの出力値は、対応する入力層Ｉｎのノードへの入力値に近似しうる。再構成損失値は、入力層Ｉｎのノードへの入力値と、そのノードに対応する出力層Ｏｔのノードからの出力値の差の平方和として算出される。
インスタンスに対応する入力値として、単語ベクトルを用いる場合、再構成部１２６は、単語ベクトルに含まれる各次元の要素値を入力層Ｉｎの各ノードへの入力値として入力する。出力層Ｏｔの各ノードからの出力値を各次元の要素値として含む出力ベクトルが再構成値に相当し、入力値から出力値の差分が再構成誤差に相当する。

【0032】

再構成部１２６は、ステップＳ１１０の処理の後、新たにシードリストＳｌに追加された候補シードリストのそれぞれに係る入力値と、その出力値との再構成誤差が十分に小さくなるようにモデルパラメータを学習してもよい。このように、再構成部１２６は、オートエンコーダを採用することで、累積的なモデルパラメータの学習が可能となる。
なお、再構成部１２６は、入力値からより自由度の低い中間値に変換し、変換した中間値を用いて入力値を再構成する手法として主成分分析を用いることも可能である。主成分分析は、分析対象とする入力値の相関行列を算出する過程、相関行列の固有値問題を解いて固有値と固有ベクトルを算出する過程、所定の個数の固有ベクトルを用いて入力値を中間値に変換する過程を有する。但し、中間値への変換に用いる固有ベクトルの算出の際、分析対象とする全ての入力値を用いて相関行列を算出することを要する。そのため、オートエンコーダとは異なり、モデルパラメータの累積的な学習は困難である。

【0033】

（候補スコアリング）
次に、更新部１２４による、候補スコアリングの例について説明する。
候補スコアリングにおいて、更新部１２４は、候補インスタンスｃ_ｉの入力値の再構成誤差の大きさを示す尺度として、再構成誤差の各要素の二乗和（二乗誤差）を算出してもよいが、式（１）に示す再構成スコアＡＥ（ｃ_ｉ）を算出してもよい。以下の説明では、再構成スコアＡＥ（ｃ_ｉ）をスコアＡＥと呼ぶことがある。

【0034】

【数1】

【0035】

式（１）において、ｓｏｆｔｍａｘ（…）は、ソフトマックス関数を示す。ソフトマックス関数ｓｏｆｔｍａｘ（ｘ_ｉ）は、式（２）で示される関数である。

【0036】

【数2】

【0037】

ソフトマックス関数ｓｏｆｔｍａｘ（ｘ_ｉ）は、実数ｘ_ｉの増加に対して単調増加する関数であり、実数ｘ_ｉが大きいほど関数値が最大値１に漸近し、実数ｘ_ｉが小さいほど関数値が最小値０に漸近する関数である。ｒｅｃｏｎｓｔｒｕｃｔ（ｃ_ｉ，ｃ_ｉ’）は、候補インスタンスｃ_ｉの入力値と、その再構成値ｃ_ｉ’との再構成誤差の大きさとして、例えば、再構成損失値を示す。再構成損失値は、上記のように、ベクトルである再構成誤差の各次元の要素値の二乗和に相当する。従って、再構成スコアＡＥ（ｃ_ｉ）は、再構成誤差の大きさを０から１までの値域内で正規化した確率値としての表現であり、再構成値が小さいほど再構成スコアＡＥ（ｃ_ｉ）が０に近似し、より評価が高いことを示す。従って、更新部１２４は、再構成スコアＡＥ（ｃ_ｉ）が小さい候補インスタンスｃ_ｉほど優先して、シードリストＳｌに追加すべき候補インスタンスを選択することができる。従って、種々の単語ベクトルが属するベクトル空間において、自由度を低下させても忠実に再構成できる単語ベクトルが追加される。そして、そのベクトル空間において偏在する単語ベクトル、つまり、意味が偏った単語の単語ベクトルは再構成誤差が大きいために排除されることになる。

【0038】

（パターンスコアリング）
次に、抽出部１２２による、パターンスコアリングの例について説明する。
図４は、本実施形態に係るパターンスコアリングを説明するための説明図である。
抽出部１２２は、パターンｐ_ｉのスコアとして信頼性を算出する。信頼性は、パターンｐ_ｉにより抽出したインスタンスが安定して選択される度合いを示す指標である。
そこで、抽出部１２２は、各パターンｐ_ｉについて、抽出したＮ_ｉ個の候補インスタンスのうち、シードリストＳｌが示すインスタンスを既知インスタンスと未知インスタンスに分類し、分類された既知インスタンスの数Ｆ_ｉと未知インスタンスの数Ｕｎｋ_ｉをそれぞれ計数する（図４）。抽出部１２２は、既知インスタンスと未知インスタンスとの分類の際、シードリストＳｌが示す複数のインスタンスのいずれかと共通のインスタンスであって、抽出に係るパターンが共通なインスタンスを既知インスタンスと判定する。他方、抽出部１２２は、シードリストＳｌが示す複数のインスタンスのいずれとも異なる、もしくは、抽出に係るパターンが異なるインスタンスを未知インスタンスと判定する。
そして、抽出部１２２は、式（３）に示すように、既知インスタンスの数Ｆ_ｉを、その数Ｆ_ｉと未知インスタンスｃ_ｉごとに算出される（１－ＡＥ（ｃ_ｉ））の総和で除算することにより正規化して、信頼度ａｕｔｏＲ_ｉを算出する。

【0039】

【数3】

【0040】

式（３）において、Ｕｎｋは、未知インスタンスの集合を示す。再構成スコアＡＥ（ｃ_ｉ）を１から減じて得られる実数値１－ＡＥ（ｃ_ｉ）は、候補インスタンスｃ_ｉの入力値をより自由度が低い中間値で表現しても、中間値から入力値をより忠実に再構成できる確度を示す指標とみなすことができる。実数値１－ＡＥ（ｃ_ｉ）は、再構成誤差が小さいほど大きい値をとり、１に近似する。従って、式（３）の右辺の分母に示す、既知インスタンスの数Ｆ_ｉと個々の未知インスタンスの寄与としての実数値１－ＡＥ（ｃ）の総和は、パターンｐ_ｉを用いて抽出された候補インスタンスの確度を加味した実効的なインスタンスの個数に相当する。
なお、抽出部１２２は、未知インスタンスｃ_ｉの再構成スコアＡＥ（ｃ_ｉ）を定める際、個々の未知インスタンスを示す未知インスタンスデータを再構成部１２６に出力することにより、再構成部１２６に未知インスタンスごとの再構成値ｃ_ｉ’を算出させる。

【0041】

抽出部１２２は、パターンｐ_ｉのスコアとして効率を算出してもよい。効率は、そのパターンによるインスタンスの抽出能力の高さを示す指標である。
抽出部１２２は、式（４）に示すように、効率Ｌ_ｉを、パターンｐ_ｉで抽出した既知インスタンスの数Ｆ_ｉを、シードリストＳｌの大きさＬで除算することにより正規化して算出する。以下の説明では、効率Ｌ_ｉをスコアＦ／Ｌと呼ぶことがある。

【0042】

【数4】

【0043】

なお、大きさＬは、更新後のシードリストＳｌが示すインスタンスの数、即ち、パターンｐ_ｉごとに新たに追加されたインスタンス数の総和と、更新前のシードリストＳｌが示すインスタンスの数との和となる。

【0044】

抽出部１２２は、パターンｐ_ｉのスコアとして信頼性と効率を合成したスコアとして、相加平均（もしくは和）または相乗平均（もしくは積）を算出してもよいが、式（５）に示す調和平均ａｕｔｏＲＬ（ｐ_ｉ）を算出してもよい。以下の説明では、調和平均ａｕｔｏＲＬ（ｐ_ｉ）をスコアａｕｔｏＲＬと呼ぶことがある。

【0045】

【数5】

【0046】

なお、調和平均ａｕｔｏＲＬ（ｐ_ｉ）の要素である信頼度ａｕｔｏＲ_ｉは、抽出された既知インスタンス数Ｆ_ｉの抽出された実効的インスタンス数に対する比である。そのため、新たに抽出されるインスタンス数が少ないほど信頼度ａｕｔｏＲ_ｉが高くなる傾向がある。
他方、効率Ｌ_ｉは、抽出された既知インスタンス数Ｆ_ｉのシードリストＳｌに含まれる全インスタンス数Ｌに対する比である。そのため、新たに抽出されるインスタンス数が少ないほど効率Ｌ_ｉが低くなる傾向がある。そのため、調和平均ａｕｔｏＲＬ（ｐ_ｉ）をパターンスコアリングのスコアとして用いることで、両者が相反する傾向（トレードオフ）のもとで両者を総合して評価することができる。これは、情報検索の評価指標として適合率（precision）と再現率（recall）の調和平均であるＦ１値が用いられる理由と類似する。

【0047】

なお、従来のバシリスク法では、パターンスコアリングにおいて式（６）に示すスコアＲｌｏｇＦ（ｐ_ｉ）をパターンｐ_ｉごとに算出し、このスコアＲｌｏｇＦ（ｐ_ｉ）を用いて上位ｋ個のパターンを選択していた。

【0048】

【数6】

【0049】

スコアＲｌｏｇＦ（ｐ_ｉ）は、因子Ｒ（＝Ｆ_ｉ／Ｎ_ｉ）と因子ｌｏｇＦ（＝ｌｏｇ（Ｆ_ｉ））との積と捉えることもできる。因子Ｒは、既知インスタンス数の全インスタンス数に対する比率を示すところ、本実施形態に係る信頼度ａｕｔｏＲ_ｉとは異なり、抽出された未知インスタンスはパターンｐ_ｉに対する抽出能力の評価にあたりシードリストＳｌに追加すべきインスタンス（以下、肯定的インスタンス（positive instance））として考慮されていない。因子ｌｏｇＦは、既知インスタンス数の対数値を示すところ、本実施形態に係る効率Ｌ_ｉとは異なり、他のパターンと共通して用いられる抽出に係るコストで正規化されていない。従って、因子ｌｏｇＦは、パターンｐ_ｉの効率を示す指標とは言い難い。

【0050】

また、従来のバシリスク法では、候補スコアリングにおいて式（７）に示すスコアＡｖｇｌｏｇＦ（ｃ_ｉ）をインスタンスｃ_ｉごとに算出し、このスコアを用いて上位Ｎ個のパターンを選択していた。

【0051】

【数7】

【0052】

但し、式（７）において、Ｐ_ｉはインスタンスｃ_ｉを抽出したパターンの数を示し、Ｆ_ｊはパターンｐ_ｊに係る既知インスタンスの数を示す。即ち、スコアＡｖｇｌｏｇＦ（ｃ_ｉ）は、既知インスタンスの数に１を加えて得られる値の対数値ｌｏｇ_２（Ｆ_ｊ＋１）のパターン間の平均値を示す。
また、従来の候補スコアリングでは、式（７）に示すスコアＡｖｇｌｏｇＦ（ｃ_ｉ）に代え、式（８）に示すスコアＡｖｇＦ（ｃ_ｉ）を用いることも提案されていた。スコアＡｖｇＦ（ｃ_ｉ）は、既知インスタンスの数のパターン間の平均値を示す。

【0053】

【数8】

【0054】

式（８）に示すスコアＡｖｇＦ（ｃ_ｉ）に対しては、他のパターンよりも大きな値となる特定の少数のパターンに係る既知インスタンスの数Ｆ_ｊの寄与に偏りがちである。式（７）に示すスコアＡｖｇｌｏｇＦ（ｃ_ｉ）は、その寄与を緩和するためにｌｏｇ（Ｆ_ｊ）がＦ_ｊに代えて用いられているが、特定の少数のパターンに係る既知インスタンスの数Ｆ_ｊが重視される傾向が残されていた。
候補スコアリングにおいて、より広範なパターンの寄与が反映されるように、式（９）に示すスコアＮｏｉｓｙＯＲ（ｃ_ｉ）を用いることが提案されていた。

【0055】

【数9】

【0056】

式（９）において、ｃｏｎｆ（ｐ_ｊ）は、パターンｐ_ｊの確実性（confidence）を示す。確実性ｃｏｎｆ（ｐ_ｊ）は、候補インスタンスｃ_ｉを抽出したパターンｐ_ｊによる既知インスタンスの数Ｆ_ｊを、抽出したインスタンスの数Ｎ_ｊで正規化して得られる商Ｆ_ｊ／Ｎ_ｊとして定義される。つまり、スコアＮｏｉｓｙＯＲ（ｃ_ｉ）は、パターンｐ_ｊにより抽出したインスタンスの数のうち、既知インスタンスの数の比率を、インスタンスｃ_ｉの抽出に係るパターンｐ_ｊ間で総合した指標といえる。そのため、スコアＮｏｉｓｙＯＲ（ｃ_ｉ）は、より多くのパターンにより抽出されるインスタンスほど高い値をとる傾向がある。しかしながら、スコアＮｏｉｓｙＯＲ（ｃ_ｉ）は、パターンスコアリングで用いられるスコアＡｖｇｌｏｇＦ（ｃ_ｉ）が高いパターンによる寄与に偏りがちであった。

【0057】

さらに、スコアＲｌｏｇＦ（ｐ_ｉ）、ＡｖｇｌｏｇＦ（ｃ_ｉ）、ＡｖｇＦ（ｃ_ｉ）、ＮｏｉｓｙＯＲ（ｃ_ｉ）は、あくまでインスタンスｃ_ｉを抽出したパターンとしての統計量であるため、本実施形態とは異なり、個々のインスタンスｃ_ｉの特性を必ずしも反映したものではない。なお、以下の説明では、スコアＡｖｇｌｏｇＦ（ｃ_ｉ）、ＮｏｉｓｙＯＲ（ｃ_ｉ）を、それぞれスコアＡｖｇｌｏｇＦ、ＮｏｉｓｙＯＲと呼ぶことがある。

【0058】

なお、機械学習モデルを用いて、候補インスタンスからシードリストＳｌに追加すべき肯定的インスタンスとシードリストＳｌから排除すべきインスタンス（以下、否定的インスタンス（negative instance））を区別することも考えられる。しかしながら、否定的インスタンスを判定することは一般的に困難である。その理由として、人手による識別とラベリングを要する点、言語体系においてごく一般的な単語（例えば、英語の冠詞”the”、”a”、等）を区別する必要がある点、ごく特定のパターンにしか属さない特定の単語を区別する必要がある点、否定的インスタンスに対して肯定的インスタンスとは別個の処理やシードリストＳｌを必要とする点、などが掲げられる。そのため、本実施形態のように候補インスタンスからシードリストＳｌに追加すべき肯定的インスタンスのみを定める方が、否定的インスタンスを考慮するよりも現実的である。

【0059】

なお、抽出部１２２は、パターンスコアリングにおいて上記の信頼度ａｕｔｏＲ_ｉ、効率Ｌ_ｉ、スコアａｕｔｏＲＬのいずれを用いてもよい。また、抽出部１２２は、候補スコアリングにおいてスコアＡＥを用いている場合でも、パターンスコアリングにおいて、既存のスコア、例えば、スコアＡｖｇｌｏｇＦまたはＮｏｉｓｙＯＲを用いてもよい。

【0060】

（実験例）
次に、本実施形態の有効性を検証するための実験例について説明する。本実験例では、上記に説明した従来方式、本実施形態のスコアを用いて実施した実験結果を収集し、相互に比較した。
実験では、１回のパターン選択に係るパターン数ｋを２０個とした。１回の候補選択に係る候補インスタンス数Ｎを５個とした。初期値とするシードリストＳｌに設定するインスタンス（初期シード）の数を１０個とした。但し、各方式について、５セットの実験をセットごとに異なる初期シードを用いて実施し、各セットでの実験結果を平均した。これにより、初期値に対する依存性を緩和した。

【0061】

なお、本実施形態の再構成部１２６は、単語ベクトル取得方式Ｇｌｏｖｅ（global vectors for word representation）を用いて、個々の単語の単語埋め込み（word embedding）ベクトルを予め生成しておいた。この過程で、各１つの単語について複数の単語埋め込みベクトルが得られる。再構成部１２６は、生成した単語埋め込みデータを単語ごとに平均して得られた平均値を、その単語をインスタンスとするインスタンスベクトルとして定め、定めたインスタンスごとのインスタンスベクトルを示すインスタンスベクトルデータＩｖを記憶部１４に記憶した。個々のインスタンスベクトルの次元数を３００次元とした。従って、再構成部１２６を構成するオートエンコーダの入力層、出力層それぞれのノード数は３００個となる。中間層のノード数を１００個とした。オードコーダの各ノードにおける出力値の算出に用いる活性化関数として、シグモイド関数を用いた。パラメータの学習においては、アダム最適化法（Adam optimizer）を用い、パラメータの収束判定において早期停止法（early stopping）を用いた。

【0062】

また、制御部１２は、処理対象のテキストデータとして、インターネット百科事典Ｗｉｋｉｐｅｄｉａの記事を構成するテキストデータを、入出力部２２を経由して取得し、自然言語ツールｓｐａＣｙｖ２．０を用いて、形態素解析を行い、名詞を含む名詞文を抽出した。制御部１２は、抽出した個々の名詞文について、各単語の品詞と統語構造を解析し、品詞と統語構造を示す言語情報を付加してなるテキストデータＴｄを生成し、生成したテキストデータＴｄを記憶部１４に記憶した。

【0063】

インスタンスの抽出に用いるパターンとして、食物を意味として有する名詞の抽出に係る単一のカテゴリに属するパターンを採用した。例えば、用いたパターンには、イタリア料理を示す単語を抽出するためのパターンが含まれる。抽出に係る新たに抽出されたインスタンスは、既に抽出された既知インスタンスとなり、その他のインスタンスは未知インスタンスとなる。例えば、既に抽出された単語“penne”（ペンネ）、“spaghetti”（スパゲティ）が既知インスタンスとなり。新たに抽出された単語“lasagne”（ラザニア）が未知インスタンスとなる。

【0064】

実験結果の評価値として、適合率、再現率、Ｆ１値を用いた。適合率として、抽出された目的物であるインスタンスのうち予め定めた既知のインスタンスである正しい目的物（以下、正解）の個数の割合を算出した。再現率として、テキストデータに含まれる食物を示すインスタンスのうち抽出されたインスタンスの個数の割合を算出した。但し、実験結果の評価において、２種類の評価値を用いた。２種類の評価値のうち、一方を再現率（小）、再現率（大）と呼ぶ。再現率（小）は、６８個を超えるインスタンスを含んで構成された辞書データ、再現率（大）は、４５７個を超えるインスタンスを含んで構成された辞書データを、それぞれ用いて算出した。Ｆ１値は、適合率と再現率の調和平均に相当する。但し、再現率（小）、再現率（大）のそれぞれと適合率との調和平均であるＦ１値（小）、Ｆ１値（大）を用いた。

【0065】

次に、個々の実験結果について説明する。図５は、候補スコアリングの実験例を示す表である。
図５は、スコアの算出方法として、従来のスコアＡｖｇｌｏｇＦ、ＮｏｉｓｙＯＲ、ＡＥ（本実施形態）のそれぞれについて得られた、Ｆ１値（小）、Ｆ１値（大）、適合率、再現率（小）、再現率（大）を示す。本実施形態に係るスコアＡＥを用いた場合、Ｆ１値（小）、Ｆ１値（大）、適合率、再現率（小）、再現率（大）は、それぞれ０．２５４、０．２８０、０．８７８、０．１５０、０．１７２となり、いずれもスコアＡｖｇｌｏｇＦ、ＮｏｉｓｙＯＲを採用した場合よりも良好な値を示す。

【0066】

図６は、パターンスコアリングの実験例を示す表である。
図６は、スコアの算出方法として、従来のスコアＡｖｇｌｏｇＦを用いた方法、候補スコアリングでスコアＡｖｇｌｏｇを用いたがパターンスコアリングでスコアａｕｔｏＲＬを用いた方法（ａｕｔｏＲＬ＋ＡｖｇｌｏｇＦ）、従来のＮｏｉｓｙＯＲを用いた方法、候補スコアリングでスコアＮｏｉｓｙＯＲを用いた方法を用いたがパターンスコアリングでスコアａｕｔｏＲＬを用いた方法（ａｕｔｏＲＬ＋ＮｏｉｓｙＯＲ）のそれぞれについて得られた、Ｆ１値（小）、Ｆ１値（大）、適合率、再現率（小）、再現率（大）を示す。

【0067】

図６によれば、パターンスコアリングにおいてスコアａｕｔｏＲＬを用いる方法の方が、総じて良好な値が得られる。例えば、ａｕｔｏＲＬ＋ＡｖｇｌｏｇＦでは、Ｆ１値（小）、Ｆ１値（大）、適合率、再現率（小）、再現率（大）は、それぞれ０．２３２．０．２１３．０．７７４、０．１３８、０．１２４となり、適合率が若干低下することを除けば、スコアＡｖｇｌｏｇＦを用いる方法よりも良好な値を示す。ａｕｔｏＲＬ＋ＮｏｉｓｙＯＲでは、Ｆ１値（小）、Ｆ１値（大）、適合率、再現率（小）、再現率（大）は、それぞれ０．２５９、０．２５３、０．８３８、０．１５３、０．１４９となり、適合率が若干低下することを除けば、スコアＮｏｉｓｙＯＲを用いる方法よりも良好な値を示す。但し、この適合率の低下は、スコアａｕｔｏＲＬを用いることで、複合名詞が従来の手法よりも多く抽出されることが一因と考えられる。

【0068】

次に、パターンスコアリングにおける信頼性と効率の合成方法に関する検証について説明する。この検証は、本実施形態に係る信頼性、効率のパラメータ、ならびにそれらの合成法として、適切な手法を見出すことを主目的とする。
図７は、検証に用いた信頼性、効率および合成法のセットを例示する図である。第１のセットは、信頼性Ｒと効率ｌｏｇＦの積をスコアとして定める方法である。第２のセットは、本実施形態に係る信頼性ａｕｔｏＲと効率ｌｏｇＦの積をスコアとして定める方法である。第３のセットは、信頼性Ｒと本実施形態に係る効率Ｆ／Ｌの積をスコアとして定める方法である。第４のセットは、信頼性Ｒと本実施形態に係る効率Ｆ／Ｌの調和平均をスコアとして定める方法である。第５のセットは、本実施形態に係る信頼性ａｕｔｏＲと本実施形態に係る効率Ｆ／Ｌの積をスコアとして定める方法である。第６のセットは、本実施形態に係る信頼性ａｕｔｏＲと本実施形態に係る効率Ｆ／Ｌの調和平均をスコアとして定める方法である。

【0069】

図８は、セットごとの実験結果を示す表である。但し、本検証では、評価値としてＦ１値（小）とＦ１値（大）を用いた。図８に示すように、第６のセット、即ち、スコアａｕｔｏＲＬを用いた場合に、Ｆ１値（小）、Ｆ１（大）がそれぞれ０、２３２、０．２１３となり、最も良好な値を示す。なお、調和平均を用いる第４のセットを用いた場合に、Ｆ１値（小）、Ｆ１（大）がそれぞれ０、２０５、０．１８２となり、積を用いる第３のセットの０．１４９、０．１４７よりも良好な値を示す。本実施形態に係るスコアａｕｔｏＲを信頼性の指標として用いる第２のセットを用いた場合に、Ｆ１値（小）、Ｆ１（大）がそれぞれ０、１７６、０．１９２となり、スコアＲを用いる第１のセットの０．１１９、０．１４７よりも良好な値を示す。本実施形態に係るスコアＦ／Ｌを効率の指標として用いる第３のセットを用いた場合に、Ｆ１値（小）、Ｆ１（大）がそれぞれ０、１４９、０．１４７となり、スコアｌｏｇＦを用いる第１のパターンの０．１１９、０．１４７よりも概ね良好な値を示す。従って、図８に示す実験結果は、パターンスコアリングにおいて、信頼性と効率の調和平均をとること、信頼性の指標としてスコアａｕｔｏＲを用いること、効率の指標としてスコアＦ／Ｌをとることが、ともに従来の手法よりも有効であることを示す。

【0070】

以上に説明した情報処理装置１０は、シードリストに含まれる１以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部１２２を備える。情報処理装置１０は、候補インスタンスのいずれかをシードリストに追加する更新部と、候補インスタンスを示す入力値をより自由度が低い中間値に変換し、中間値から入力値の再構成値に変換する再構成部１２６と、を備える。また、更新部は、再構成誤差が小さい候補インスタンスほど優先してシードリストに追加する。
この構成により、入力値よりも自由度が低い中間値から再構成される再構成値との再構成誤差が小さい候補インスタンスが、より再構成誤差が大きい候補インスタンスよりも優先してシードリストに追加される。入力値の再現性の高い候補インスタンスが優先して選択されるため、入力値の再現性が低い意味的に偏った候補インスタンスを排除し、より期待されるインスタンスの抽出に寄与することができる。

【0071】

また、抽出部１２２は、パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。
この構成により、安定してインスタンスを抽出する信頼性が高いパターンを用いて抽出されたインスタンスほど優先して、シードリストに追加されるインスタンスの候補となる。そのため、シードリストに対して、信頼性が低い特定のパターンの影響を低減し、不安定なインスタンスが蓄積される可能性を低減することができる。

【0072】

また、抽出部１２２は、パターンごとに抽出したインスタンスのうちシードリストに含まれるインスタンスである既知のインスタンスの数と、シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、既知のインスタンスの数の割合を信頼性として算出してもよい。
この構成により、既知のインスタンスのみならず、新たに抽出される未知のインスタンスに対しても、その再構成誤差に基づく確度を加味して信頼性として評価される。そのため、既知のインスタンスへの依存性を緩和することで、初期のシードリストへの依存性を低減することができる。

【0073】

また、抽出部１２２は、シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める。
この構成により、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択される。そのため、シードリストには、抽出能力の低い特定のパターンの影響を低減し、より効率が高いパターンを用いて抽出されたインスタンスの比率を多くすることができる。また、新たなインスタンスの追加を促し、初期のシードリストへの依存性を低減することができる。

【0074】

また、抽出部１２２は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択してもよい。
この構成により、相互に相反する特性を有する信頼性と効率の両者を総合したスコアが得られるため、信頼性と効率が総合的に優れるパターンを用いて抽出されたインスタンスの比率を多くして、シードリストの偏りを緩和することができる。

【0075】

また、再構成部１２６は、前記シードリストに含まれるインスタンスを示す入力値に対する再構成値と、当該入力値との差が小さくなるように、中間値への変換ならびに再構成値への変換に係るパラメータを学習してもよい。
この構成により、再構成部１２６は、学習されたパラメータを用いることで、抽出されたインスタンスの入力値に対する再構成値として、入力値に近似した値を得ることができる。そのため、シードリストに含まれない未知のインスタンスとして、再構成誤差が高いインスタンス、即ち、既知のインスタンスから大きく意味が異なる単語を排除することができる。

【0076】

また、再構成部１２６は、入力値を入力する入力層と、中間値を出力する中間層と、再構成値を出力する出力層と、を備え、入力層と出力層のそれぞれのノード数よりも前記中間層のノード数がないオートエンコーダであり、入力値として単語ベクトルが入力されてもよい。
この構成により、中間値への変換ならびに再構成値への変換に係るパラメータの累積的な学習に好都合である。パラメータの学習は、例えば、一連のインスタンスの選択ごとに、新たにシードリストに追加されるインスタンスについて実行すればよく、必ずしもシードリストのインスタンス全体について実行する必要はない。

【0077】

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、抽出部１２２は、パターン選択の際、処理の繰り返し（イテレーション）ごとに、選択するパターンの個数を増加させることができれば、その個数はｋ＋ｌ個に限られない。但し、抽出部１２２は、スコアが高いパターンほど優先して選択する。
また、抽出部１２２は、候補選択の際、Ｎ個の候補インスタンスの選択に代え、所定の再構成誤差以下となる再構成誤差が得られた候補インスタンスを選択してもよい。その場合には、選択される候補インスタンスの数は、処理の繰り返しごとに可変となりうる。

【0078】

なお、上述した実施形態における情報処理装置１０の一部、例えば、制御部１２をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、情報処理装置１０に内蔵されたＣＰＵ等の１以上のプロセッサを備えるコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における情報処理装置１０の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。情報処理装置１０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

【符号の説明】

【0079】

１０…情報処理装置、１２…制御部、１４…記憶部、１２２…抽出部、１２４…更新部、１２６…再構成部

【図1】