(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-13
(45)【発行日】2023-11-21
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
G06F 16/903 20190101AFI20231114BHJP
G06F 40/279 20200101ALI20231114BHJP
G06F 16/906 20190101ALI20231114BHJP
【FI】
G06F16/903
G06F40/279
G06F16/906
(21)【出願番号】P 2020017146
(22)【出願日】2020-02-04
【審査請求日】2022-10-12
【新規性喪失の例外の表示】特許法第30条第2項適用 1.掲載年月日: 令和1年8月28日 掲載アドレス: http://link.springer.com/book/10.1007/978-3-030-29894-4 2.集会名: The 16th Pacific Rim International Conference on Artificial Intelligence(PRICAI 2019) 開催日: 令和1年8月26日から令和1年8月30日まで 開催場所: フィジー共和国、ヤヌカ島、クヴ(Yanuca Island,Cuvu,Fiji)
(73)【特許権者】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】100165179
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】中野 幹生
(72)【発明者】
【氏名】奥村 学
(72)【発明者】
【氏名】胡 晨龍
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2010-061284(JP,A)
【文献】国際公開第2011/070980(WO,A1)
【文献】水口弘紀 外3名,Web知識を利用したブートストラップによる辞書増殖手法 Construction of dictionaries from the web by bootstrapping method,電子情報通信学会 第18回データ工学ワークショップ論文集 [online] DEWS2007 HIROSHIMA,日本,電子情報通信学会データ工学研究専門委員会,2007年06月01日,pp.1-7
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-958
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新部と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成部と、を備え、
前記更新部は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
情報処理装置。
【請求項2】
前記抽出部は、前記パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、
選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める
請求項1に記載の情報処理装置。
【請求項3】
前記抽出部は、前記パターンごとに抽出したインスタンスのうち前記シードリストに含まれるインスタンスである既知のインスタンスの数と、前記シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、前記既知のインスタンスの数の割合を前記信頼性として算出する
請求項2に記載の情報処理装置。
【請求項4】
前記抽出部は、前記シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、
選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める
請求項2または請求項3に記載の情報処理装置。
【請求項5】
前記抽出部は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択する
請求項4に記載の情報処理装置。
【請求項6】
前記再構成部は、前記シードリストに含まれるインスタンスを示す入力値に対する前記再構成値と、当該入力値との差が小さくなるように、前記中間値への変換ならびに前記再構成値への変換に係るパラメータを学習する
請求項1から請求項5のいずれか一項に記載の情報処理装置。
【請求項7】
前記再構成部は、前記入力値を入力する入力層と、前記中間値を出力する中間層と、前記再構成値を出力する出力層と、を備え、前記入力層と前記出力層のそれぞれのノード数よりも前記中間層のノード数が少ないオートエンコーダであり、
前記入力値として単語ベクトルが入力される
請求項1から請求項6のいずれか一項に記載の情報処理装置。
【請求項8】
情報処理装置における情報処理方法であって、
シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出過程と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新過程と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成過程と、を有し、
前記更新過程は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
情報処理方法。
【請求項9】
情報処理装置のコンピュータに、
シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出手順と、
前記候補インスタンスのいずれかを前記シードリストに追加する更新手順と、
前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成手順と、を有し、
前記更新手順は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
従来から取得された文から新たなインスタンス(例えば、語彙)を獲得するための手法としてブートストラップ法が提案されている。特許文献1に記載されているように、ブートストラップ法は、特定のパターンに属する少数のインスタンスを含んだシードリストから新たなパターンに属する新たなインスタンスを文から抽出し、抽出したインスタンスをシードリストに追加するという一連の処理の繰り返しを有する手法である。ブートストラップ法のうち、コーパスから意味辞書の構築に使用される手法としてバシリスク(Basilisk)法が提案されている。バシリスク法は、インスタンスを抽出するためのパターンを複数用い、複数のパターンのそれぞれについて、抽出したインスタンスの抽出状況に基づいてスコアリングを行って、インスタンスの抽出に係るパターンを選択する処理を伴う。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のブートストラップ法では、個々のインスタンスのスコアリングにおいて、そのインスタンスの抽出に係るパターンによるインスタンスの抽出能力が評価され、インスタンス自体の特性が直接評価されない。そのため、一般的なインスタンスや稀なパターンにしか属しない特定のインスタンスがシードリストに追加されることがある。また、処理結果として得られるシードリストは、初期のシードリストに大きく依存する傾向があった。そのため、シードリストには予期しないインスタンスが蓄積されがちであった。
【0005】
本発明は上記の点に鑑みてなされたものであり、より期待されるインスタンスを取得することができる情報処理装置、情報処理方法またはプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部と、前記候補インスタンスのいずれかを前記シードリストに追加する更新部と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成部と、を備え、前記更新部は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する情報処理装置である。
【0007】
(2)本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。
【0008】
(3)本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに抽出したインスタンスのうち前記シードリストに含まれるインスタンスである既知のインスタンスの数と、前記シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、前記既知のインスタンスの数の割合を前記信頼性として算出してもよい。
【0009】
(4)本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。
【0010】
(5)本発明のその他の態様は、上述の情報処理装置であって、前記抽出部は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択してもよい。
【0011】
(6)本発明のその他の態様は、上述の情報処理装置であって、前記再構成部は、前記シードリストに含まれるインスタンスを示す入力値に対する前記再構成値と、当該入力値との差が小さくなるように、前記中間値への変換ならびに前記再構成値への変換に係るパラメータを学習してもよい。
【0012】
(7)本発明のその他の態様は、上述の情報処理装置であって、前記再構成部は、前記入力値を入力する入力層と、前記中間値を出力する中間層と、前記再構成値を出力する出力層と、を備え、前記入力層と前記出力層のそれぞれのノード数よりも前記中間層のノード数が少ないオートエンコーダであり、前記入力値として単語ベクトルが入力されてもよい。
【0013】
(8)本発明のその他の態様は、情報処理装置における情報処理方法であって、シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出過程と、前記候補インスタンスのいずれかを前記シードリストに追加する更新過程と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成過程と、を有し、前記更新過程は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加する情報処理方法である。
【0014】
(9)本発明のその他の態様は、情報処理装置のコンピュータに、シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出手順と、前記候補インスタンスのいずれかを前記シードリストに追加する更新手順と、前記候補インスタンスを示す入力値をより自由度が低い中間値に変換し、前記中間値から前記入力値の再構成値に変換する再構成手順と、を有し、前記更新手順は、再構成誤差が小さい前記候補インスタンスほど優先して前記シードリストに追加するプログラムである。
【発明の効果】
【0015】
本発明の態様によれば、より期待されるインスタンスを取得することができる。
【図面の簡単な説明】
【0016】
【
図1】本実施形態に係る情報処理装置の構成例を示す概略ブロック図である。
【
図2】本実施形態に係るインスタンス抽出処理の例を示すフローチャートである。
【
図3】本実施形態に係る再構成部の構成例を示す図である。
【
図4】本実施形態に係るパターンスコアリングを説明するための説明図である。
【
図6】パターンスコアリングの実験例を示す表である。
【
図7】パターンスコアリングにおける信頼性、効率および合成法のセットを例示する図である。
【
図8】信頼性、効率および合成法のセットごとの実験結果を示す表である。
【発明を実施するための形態】
【0017】
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る情報処理装置10の構成例を示す概略ブロック図である。
情報処理装置10は、制御部12と、記憶部14と、を含んで構成される。制御部12は、情報処理装置10が有する機能を実現するための各種の処理を実行する。制御部12の一部または全部の機能は、例えば、CPU(Central Processing Unit)等のプロセッサを含んで構成されるコンピュータとして実現される。プロセッサは、予め記憶部14に記憶させておいたプログラムを読み出し、読み出したプログラムに記述された指令で指示される処理を行って、その機能を奏する。本願では、プログラムに記述された指令で指示される処理を行うことを、プログラムを実行する、プログラムの実行、などと呼ぶことがある。制御部12の一部または全部は、プロセッサなどの汎用のハードウェアに限られず、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)等の専用のハードウェアを含んで構成されてもよい。
【0018】
記憶部14は、上記のプログラムの他、制御部12が実行する処理に用いられる各種のデータ、制御部12が取得した各種のデータを記憶する。記憶部14には、例えば、テキストデータTd、シードリストSl、パターンリストPl、パターンプールPp、候補インスタンスプールIp、インスタンスベクトルデータIv、パラメータセットPs、などが記憶される。各種のデータについては、制御部12の機能構成とともに後述する。
記憶部14は、例えば、ROM(Read Only memory)、フラッシュメモリ、HDD(Hard Disk Drive)などの不揮発性の(非一時的)記憶媒体を含んで構成される。
記憶部14は、例えば、RAM(Random Access memory)、レジスタなどの揮発性の記憶媒体を含んで構成される。
【0019】
次に、制御部12の機能構成例について説明する。制御部12は、抽出部122、更新部124、および再構成部126を含んで構成される。制御部12を構成する各部は、パラメータセットPsに含まれる各種のパラメータを用いて以下に説明する処理を実行する。
抽出部122は、記憶部14からテキストデータTdとパターンリストPlを読み出す。テキストデータTdは、処理対象とする1個または複数の文を示すデータである。テキストデータは、例えば、コーパス(corpus)であってもよい。コーパスは、複数の文を示すデータを集積してなる。コーパスは、個々の文と関連付けて、その文の言語的な特性を示す言語情報をさらに含んでいてもよい。言語情報には、例えば、文を構成するインスタンス(instance)ごとの品詞や属性を示す情報、インスタンス間の結合関係(conjuncture,例えば、係り受け)を示す統語構造を示す情報などが含まれてもよい。インスタンスは、典型的には、単語である。インスタンスは、個々の単語に限られず、複数の単語から構成される句も該当しうる。以下の説明では、主にインスタンスが単語である場合を例にする。
新たに取得されるテキストデータに言語情報が含まれていない場合には、抽出部122は、そのテキストデータが示す文に対して公知の形態素解析を行って言語情報を取得し、その文と関連付けて取得した言語情報をテキストデータTdとして記憶部14に記憶してもよい。
【0020】
パターンリストPlは、複数のパターン(pattern)を含んで構成されるリストである。個々のパターンは、文から、その文を構成する一部のインスタンスを抽出するための規則を示す。個々のパターンにより、インスタンスを抽出するための規則が異なる。パターンは、例えば、所定の語義(semantic)の属性を有する品詞のインスタンスを抽出するための規則、所定の統語構造をなす所定の品詞のインスタンスを抽出するための規則、などを示す。
【0021】
抽出部122は、読み出したテキストデータTdが示す文から、パターンリストPlが示す複数のパターンのそれぞれを用いて、それぞれのパターンpiに属するインスタンスを候補インスタンスciとして抽出する(候補インスタンス抽出)。パターンpiに属するインスタンスとは、そのパターンpiが示す規則を満たすインスタンスを意味する。
抽出部122は、シードリストSlを記憶部14から読み出し、候補インスタンスciの抽出に用いたパターンpiごとに、抽出した候補インスタンスciとシードリストSlを参照して、そのパターンpiによるインスタンスの抽出の信頼性(reliability)を、そのパターンpiのスコアとして解析する(パターンスコアリング(pattern scoring))。信頼性は、同じインスタンスが繰り返し抽出される可能性とも捉えることができる。
【0022】
抽出部122は、信頼性に代えて、または信頼性とともに、そのパターンpiによるインスタンス抽出の効率(productivity)をスコアとして解析してもよい。効率は、そのパターンにより抽出されるインスタンスのシードリストSlに格納されるインスタンスに対する比率とも捉えることができる。抽出部122は、信頼性と効率の両者を総合したスコアとして信頼性と効率の調和平均(harmonic mean)を算出してもよい。
抽出部122は、算出したスコアが示す評価が高いほど優先して所定の個数であるk+l個(kは、2以上の整数、lは、処理の繰り返し回数(iteration)を示す自然数)のパターンを選択し、選択したパターンを示すパターンプールPpを記憶部14に記憶する。信頼性、効率の算出方法については後述する。
なお、抽出部122は、選択したパターンを用いて抽出した候補インスタンスciを、その候補インスタンスの抽出に用いたパターンpiと関連付けて候補インスタンスプールIpに含めて記憶部14に記憶する。
【0023】
更新部124は、候補インスタンスプールIpを記憶部14から読み出し、読み出した候補インスタンスプールIpに示される候補インスタンスのそれぞれについて、再構成部126に再構成誤差(reconstruction loss)を算出させる(候補インスタンススコアリング(candidate instance scoring))。ここで、更新部124は、候補インスタンスプールIpを再構成部126に出力し、候補インスタンスプールIpに対する応答として、再構成部126から候補インスタンスプールIpが示す候補インスタンスのそれぞれについて再構成誤差を示す再構成誤差データが入力される。
更新部124は、算出させた再構成誤差が小さいほど優先して所定の個数であるN個(Nは、1以上の整数)の候補インスタンスを選択し、選択した候補インスタンスをシードリストSlに含めて記憶部14に記憶する。
【0024】
再構成部126は、更新部124から入力される候補インスタンスプールIpが示す候補インスタンスのそれぞれについて、それぞれの候補インスタンスを示す入力値をより自由度が低い中間値に変換し、変換した中間値から入力値の再構成値に変換する。再構成部126は、候補インスタンスごとに入力値から再構成値を差し引いて再構成誤差を算出する。再構成部126は、候補インスタンスごとに算出した再構成誤差を示す再構成誤差データを更新部124に出力する。再構成部126は、例えば、オートエンコーダ(Auto Encoder)を含んで構成される。
【0025】
再構成部126は、例えば、記憶部14に記憶されたインスタンスベクトルデータIvを参照し、候補インスタンスに対応するインスタンスベクトルを入力値として特定する。インスタンスベクトルデータは、インスタンスと、そのインスタンスのインスタンスベクトルとを含み、これらを対応付けてなるセットを複数個含んで構成されるベクトルである。個々のインスタンスベクトルとして、単語ベクトルが用いられてもよい。単語ベクトルは、多次元のベクトル空間で定義され、その単語の意味を示すベクトルである。個々の単語ベクトルが属するベクトル空間において、ある1つの単語の単語ベクトルと他の単語の単語ベクトルとは、その1つの単語の意味と他の単語の意味が類似するほど近似する関係にあればよい。再構成部126は、単語から単語ベクトルを定める手法として、例えば、word2vecなどを用いることができる。
【0026】
なお、情報処理装置10は、さらに入出力部22と表示部26を含んで構成されてもよい。
入出力部22は、他の機器との間で各種のデータを入出力する。制御部12は、例えば、入出力部22を用いて入力されたテキストデータTdを記憶部14に記憶する。制御部12は、下記のインスタンス生成処理を行って生成されたシードリストSlを辞書(lexicon)として他の機器に出力してもよい。入出力部22は、例えば、入出力インタフェースである。
表示部26は、各種の表示情報を視認可能に表示する。表示部26は、情報処理装置10の操作に用いられる操作画面を表示する。表示部26は、制御部12が生成した処理結果、例えば、シードリストSlの一部または全部を表示してもよい。
表示部26は、例えば、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイなどのいずれであってもよい。
【0027】
(インスタンス抽出処理)
次に、本実施形態に係るインスタンス抽出処理の例について説明する。
図2は、本実施形態に係るインスタンス抽出処理の例を示すフローチャートである。
(ステップS102)抽出部122は、処理対象とするテキストデータTdが示す文から、パターンリストPlが示す複数のパターンのそれぞれを用いて、それぞれのパターンp
iに属するインスタンスを候補インスタンスc
iとして抽出する。
抽出部122は、候補インスタンスc
iの抽出に用いたパターンp
iごとに、そのパターンp
iのスコアを算出する(パターンスコアリング)。その後、ステップS104の処理に進む。
【0028】
(ステップS104)抽出部122は、算出したスコアが示す評価が高いほど優先してk+l個のパターンを選択し、選択したパターンを示すパターンプールPpに記憶する(パターン選択)。その後、ステップS106の処理に進む。
(ステップS106)抽出部122は、選択したパターンpiを用いて抽出した候補インスタンスciを、そのパターンpiと関連付けて候補インスタンスプールIpに記憶する。その後、ステップS108の処理に進む。
【0029】
(ステップS108)抽出部122は、候補インスタンスプールIpに示される候補インスタンスのそれぞれについて、再構成部126に再構成誤差を算出させる(候補インスタンススコアリング)。その後、ステップS110の処理に進む。
(ステップS110)更新部124は、算出させた再構成誤差が小さいほど優先してN個の候補インスタンスを選択し、選択した候補インスタンスをシードリストSlに追加する(候補選択)。その後、処理対象のテキストデータTdを変更し、繰り返し回数lを1増加させ、ステップS102の処理に戻る。更新部124は、処理対象のテキストデータTdがなくなるまで、ステップS102-S110の処理を繰り返す。
なお、
図2の処理を実行する前に、初期値として予め所定の個数のインスタンスをシード(seed:種)として示すシードリストSlを記憶部14に記憶しておく。また、繰り返し回数lの初期値を予め1と設定しておく。
【0030】
(再構成部)
次に、再構成部126の構成例について説明する。
図3は、本実施形態に係る再構成部126の構成例を示す図である。
図3に示す例では、再構成部126は、オートエンコーダを含んで構成される。オートエンコーダは、入力層In、中間層Md、および、出力層Otを含むニューラルネットワークを備える。入力層In、中間層Md、出力層Otは、それぞれ複数のノードを備える。入力層Inの各ノードは、自部への入力値に対して所定の活性化関数を用いて算出される出力値を、中間層Mdの各ノードに出力する。中間層Mdの各ノードは、入力層Inの各ノードから自部への入力値に対して所定の活性化関数を用いて得られる出力値を、出力層Otの各ノードに出力する。出力層Otの各ノードは、中間層Mdの各ノードから自部への入力値に対して所定の活性化関数を用いて得られる出力値を出力する。活性化関数として、例えば、シグモイド関数、ランプ関数などのいずれかが用いられる。各ノードにおける活性化関数の特性を示すパラメータ、それぞれの入力値に乗算される重み係数、それぞれの入力値から差し引かれるバイアス値などがオートエンコーダのモデルパラメータに含まれる。入力層Inのノード数と出力層Otのノード数は等しい一方、入力層Inのノード数と出力層Otのノード数は、それぞれ中間層Mdのノード数よりも少ない。入力層Inのノード数、中間層Mdのノード数は、それぞれ入力層In全体への入力値の自由度、中間層Mdで得られる中間値の自由度に相当する。そのため、オートエンコーダは、入力値よりも自由度が低い中間値を算出するために用いられる。
【0031】
再構成部126は、入力層Inのノードへの入力値と、そのノードに対応する出力層Otのノードからの出力値との差が極力小さくなるようにオードエンコーダのモデルパラメータを予め学習しておく。その際、再構成部126は、例えば、入力層Inのノードへの入力値と、そのノードに対応する出力層Otのノードからの出力値との差(以下、再構成誤差(reconstruction error))の大きさの指標として、例えば、再構成損失値(reconstruction loss)が減少するようにモデルパラメータを再帰的に定める。従って、出力層Otのノードからの出力値は、対応する入力層Inのノードへの入力値に近似しうる。再構成損失値は、入力層Inのノードへの入力値と、そのノードに対応する出力層Otのノードからの出力値の差の平方和として算出される。
インスタンスに対応する入力値として、単語ベクトルを用いる場合、再構成部126は、単語ベクトルに含まれる各次元の要素値を入力層Inの各ノードへの入力値として入力する。出力層Otの各ノードからの出力値を各次元の要素値として含む出力ベクトルが再構成値に相当し、入力値から出力値の差分が再構成誤差に相当する。
【0032】
再構成部126は、ステップS110の処理の後、新たにシードリストSlに追加された候補シードリストのそれぞれに係る入力値と、その出力値との再構成誤差が十分に小さくなるようにモデルパラメータを学習してもよい。このように、再構成部126は、オートエンコーダを採用することで、累積的なモデルパラメータの学習が可能となる。
なお、再構成部126は、入力値からより自由度の低い中間値に変換し、変換した中間値を用いて入力値を再構成する手法として主成分分析を用いることも可能である。主成分分析は、分析対象とする入力値の相関行列を算出する過程、相関行列の固有値問題を解いて固有値と固有ベクトルを算出する過程、所定の個数の固有ベクトルを用いて入力値を中間値に変換する過程を有する。但し、中間値への変換に用いる固有ベクトルの算出の際、分析対象とする全ての入力値を用いて相関行列を算出することを要する。そのため、オートエンコーダとは異なり、モデルパラメータの累積的な学習は困難である。
【0033】
(候補スコアリング)
次に、更新部124による、候補スコアリングの例について説明する。
候補スコアリングにおいて、更新部124は、候補インスタンスciの入力値の再構成誤差の大きさを示す尺度として、再構成誤差の各要素の二乗和(二乗誤差)を算出してもよいが、式(1)に示す再構成スコアAE(ci)を算出してもよい。以下の説明では、再構成スコアAE(ci)をスコアAEと呼ぶことがある。
【0034】
【0035】
式(1)において、softmax(…)は、ソフトマックス関数を示す。ソフトマックス関数softmax(xi)は、式(2)で示される関数である。
【0036】
【0037】
ソフトマックス関数softmax(xi)は、実数xiの増加に対して単調増加する関数であり、実数xiが大きいほど関数値が最大値1に漸近し、実数xiが小さいほど関数値が最小値0に漸近する関数である。reconstruct(ci,ci’)は、候補インスタンスciの入力値と、その再構成値ci’との再構成誤差の大きさとして、例えば、再構成損失値を示す。再構成損失値は、上記のように、ベクトルである再構成誤差の各次元の要素値の二乗和に相当する。従って、再構成スコアAE(ci)は、再構成誤差の大きさを0から1までの値域内で正規化した確率値としての表現であり、再構成値が小さいほど再構成スコアAE(ci)が0に近似し、より評価が高いことを示す。従って、更新部124は、再構成スコアAE(ci)が小さい候補インスタンスciほど優先して、シードリストSlに追加すべき候補インスタンスを選択することができる。従って、種々の単語ベクトルが属するベクトル空間において、自由度を低下させても忠実に再構成できる単語ベクトルが追加される。そして、そのベクトル空間において偏在する単語ベクトル、つまり、意味が偏った単語の単語ベクトルは再構成誤差が大きいために排除されることになる。
【0038】
(パターンスコアリング)
次に、抽出部122による、パターンスコアリングの例について説明する。
図4は、本実施形態に係るパターンスコアリングを説明するための説明図である。
抽出部122は、パターンp
iのスコアとして信頼性を算出する。信頼性は、パターンp
iにより抽出したインスタンスが安定して選択される度合いを示す指標である。
そこで、抽出部122は、各パターンp
iについて、抽出したN
i個の候補インスタンスのうち、シードリストSlが示すインスタンスを既知インスタンスと未知インスタンスに分類し、分類された既知インスタンスの数F
iと未知インスタンスの数Unk
iをそれぞれ計数する(
図4)。抽出部122は、既知インスタンスと未知インスタンスとの分類の際、シードリストSlが示す複数のインスタンスのいずれかと共通のインスタンスであって、抽出に係るパターンが共通なインスタンスを既知インスタンスと判定する。他方、抽出部122は、シードリストSlが示す複数のインスタンスのいずれとも異なる、もしくは、抽出に係るパターンが異なるインスタンスを未知インスタンスと判定する。
そして、抽出部122は、式(3)に示すように、既知インスタンスの数F
iを、その数F
iと未知インスタンスc
iごとに算出される(1-AE(c
i))の総和で除算することにより正規化して、信頼度autoR
iを算出する。
【0039】
【0040】
式(3)において、Unkは、未知インスタンスの集合を示す。再構成スコアAE(ci)を1から減じて得られる実数値1-AE(ci)は、候補インスタンスciの入力値をより自由度が低い中間値で表現しても、中間値から入力値をより忠実に再構成できる確度を示す指標とみなすことができる。実数値1-AE(ci)は、再構成誤差が小さいほど大きい値をとり、1に近似する。従って、式(3)の右辺の分母に示す、既知インスタンスの数Fiと個々の未知インスタンスの寄与としての実数値1-AE(c)の総和は、パターンpiを用いて抽出された候補インスタンスの確度を加味した実効的なインスタンスの個数に相当する。
なお、抽出部122は、未知インスタンスciの再構成スコアAE(ci)を定める際、個々の未知インスタンスを示す未知インスタンスデータを再構成部126に出力することにより、再構成部126に未知インスタンスごとの再構成値ci’を算出させる。
【0041】
抽出部122は、パターンpiのスコアとして効率を算出してもよい。効率は、そのパターンによるインスタンスの抽出能力の高さを示す指標である。
抽出部122は、式(4)に示すように、効率Liを、パターンpiで抽出した既知インスタンスの数Fiを、シードリストSlの大きさLで除算することにより正規化して算出する。以下の説明では、効率LiをスコアF/Lと呼ぶことがある。
【0042】
【0043】
なお、大きさLは、更新後のシードリストSlが示すインスタンスの数、即ち、パターンpiごとに新たに追加されたインスタンス数の総和と、更新前のシードリストSlが示すインスタンスの数との和となる。
【0044】
抽出部122は、パターンpiのスコアとして信頼性と効率を合成したスコアとして、相加平均(もしくは和)または相乗平均(もしくは積)を算出してもよいが、式(5)に示す調和平均autoRL(pi)を算出してもよい。以下の説明では、調和平均autoRL(pi)をスコアautoRLと呼ぶことがある。
【0045】
【0046】
なお、調和平均autoRL(pi)の要素である信頼度autoRiは、抽出された既知インスタンス数Fiの抽出された実効的インスタンス数に対する比である。そのため、新たに抽出されるインスタンス数が少ないほど信頼度autoRiが高くなる傾向がある。
他方、効率Liは、抽出された既知インスタンス数FiのシードリストSlに含まれる全インスタンス数Lに対する比である。そのため、新たに抽出されるインスタンス数が少ないほど効率Liが低くなる傾向がある。そのため、調和平均autoRL(pi)をパターンスコアリングのスコアとして用いることで、両者が相反する傾向(トレードオフ)のもとで両者を総合して評価することができる。これは、情報検索の評価指標として適合率(precision)と再現率(recall)の調和平均であるF1値が用いられる理由と類似する。
【0047】
なお、従来のバシリスク法では、パターンスコアリングにおいて式(6)に示すスコアRlogF(pi)をパターンpiごとに算出し、このスコアRlogF(pi)を用いて上位k個のパターンを選択していた。
【0048】
【0049】
スコアRlogF(pi)は、因子R(=Fi/Ni)と因子logF(=log(Fi))との積と捉えることもできる。因子Rは、既知インスタンス数の全インスタンス数に対する比率を示すところ、本実施形態に係る信頼度autoRiとは異なり、抽出された未知インスタンスはパターンpiに対する抽出能力の評価にあたりシードリストSlに追加すべきインスタンス(以下、肯定的インスタンス(positive instance))として考慮されていない。因子logFは、既知インスタンス数の対数値を示すところ、本実施形態に係る効率Liとは異なり、他のパターンと共通して用いられる抽出に係るコストで正規化されていない。従って、因子logFは、パターンpiの効率を示す指標とは言い難い。
【0050】
また、従来のバシリスク法では、候補スコアリングにおいて式(7)に示すスコアAvglogF(ci)をインスタンスciごとに算出し、このスコアを用いて上位N個のパターンを選択していた。
【0051】
【0052】
但し、式(7)において、Piはインスタンスciを抽出したパターンの数を示し、Fjはパターンpjに係る既知インスタンスの数を示す。即ち、スコアAvglogF(ci)は、既知インスタンスの数に1を加えて得られる値の対数値log2(Fj+1)のパターン間の平均値を示す。
また、従来の候補スコアリングでは、式(7)に示すスコアAvglogF(ci)に代え、式(8)に示すスコアAvgF(ci)を用いることも提案されていた。スコアAvgF(ci)は、既知インスタンスの数のパターン間の平均値を示す。
【0053】
【0054】
式(8)に示すスコアAvgF(ci)に対しては、他のパターンよりも大きな値となる特定の少数のパターンに係る既知インスタンスの数Fjの寄与に偏りがちである。式(7)に示すスコアAvglogF(ci)は、その寄与を緩和するためにlog(Fj)がFjに代えて用いられているが、特定の少数のパターンに係る既知インスタンスの数Fjが重視される傾向が残されていた。
候補スコアリングにおいて、より広範なパターンの寄与が反映されるように、式(9)に示すスコアNoisyOR(ci)を用いることが提案されていた。
【0055】
【0056】
式(9)において、conf(pj)は、パターンpjの確実性(confidence)を示す。確実性conf(pj)は、候補インスタンスciを抽出したパターンpjによる既知インスタンスの数Fjを、抽出したインスタンスの数Njで正規化して得られる商Fj/Njとして定義される。つまり、スコアNoisyOR(ci)は、パターンpjにより抽出したインスタンスの数のうち、既知インスタンスの数の比率を、インスタンスciの抽出に係るパターンpj間で総合した指標といえる。そのため、スコアNoisyOR(ci)は、より多くのパターンにより抽出されるインスタンスほど高い値をとる傾向がある。しかしながら、スコアNoisyOR(ci)は、パターンスコアリングで用いられるスコアAvglogF(ci)が高いパターンによる寄与に偏りがちであった。
【0057】
さらに、スコアRlogF(pi)、AvglogF(ci)、AvgF(ci)、NoisyOR(ci)は、あくまでインスタンスciを抽出したパターンとしての統計量であるため、本実施形態とは異なり、個々のインスタンスciの特性を必ずしも反映したものではない。なお、以下の説明では、スコアAvglogF(ci)、NoisyOR(ci)を、それぞれスコアAvglogF、NoisyORと呼ぶことがある。
【0058】
なお、機械学習モデルを用いて、候補インスタンスからシードリストSlに追加すべき肯定的インスタンスとシードリストSlから排除すべきインスタンス(以下、否定的インスタンス(negative instance))を区別することも考えられる。しかしながら、否定的インスタンスを判定することは一般的に困難である。その理由として、人手による識別とラベリングを要する点、言語体系においてごく一般的な単語(例えば、英語の冠詞”the”、”a”、等)を区別する必要がある点、ごく特定のパターンにしか属さない特定の単語を区別する必要がある点、否定的インスタンスに対して肯定的インスタンスとは別個の処理やシードリストSlを必要とする点、などが掲げられる。そのため、本実施形態のように候補インスタンスからシードリストSlに追加すべき肯定的インスタンスのみを定める方が、否定的インスタンスを考慮するよりも現実的である。
【0059】
なお、抽出部122は、パターンスコアリングにおいて上記の信頼度autoRi、効率Li、スコアautoRLのいずれを用いてもよい。また、抽出部122は、候補スコアリングにおいてスコアAEを用いている場合でも、パターンスコアリングにおいて、既存のスコア、例えば、スコアAvglogFまたはNoisyORを用いてもよい。
【0060】
(実験例)
次に、本実施形態の有効性を検証するための実験例について説明する。本実験例では、上記に説明した従来方式、本実施形態のスコアを用いて実施した実験結果を収集し、相互に比較した。
実験では、1回のパターン選択に係るパターン数kを20個とした。1回の候補選択に係る候補インスタンス数Nを5個とした。初期値とするシードリストSlに設定するインスタンス(初期シード)の数を10個とした。但し、各方式について、5セットの実験をセットごとに異なる初期シードを用いて実施し、各セットでの実験結果を平均した。これにより、初期値に対する依存性を緩和した。
【0061】
なお、本実施形態の再構成部126は、単語ベクトル取得方式Glove(global vectors for word representation)を用いて、個々の単語の単語埋め込み(word embedding)ベクトルを予め生成しておいた。この過程で、各1つの単語について複数の単語埋め込みベクトルが得られる。再構成部126は、生成した単語埋め込みデータを単語ごとに平均して得られた平均値を、その単語をインスタンスとするインスタンスベクトルとして定め、定めたインスタンスごとのインスタンスベクトルを示すインスタンスベクトルデータIvを記憶部14に記憶した。個々のインスタンスベクトルの次元数を300次元とした。従って、再構成部126を構成するオートエンコーダの入力層、出力層それぞれのノード数は300個となる。中間層のノード数を100個とした。オードコーダの各ノードにおける出力値の算出に用いる活性化関数として、シグモイド関数を用いた。パラメータの学習においては、アダム最適化法(Adam optimizer)を用い、パラメータの収束判定において早期停止法(early stopping)を用いた。
【0062】
また、制御部12は、処理対象のテキストデータとして、インターネット百科事典Wikipediaの記事を構成するテキストデータを、入出力部22を経由して取得し、自然言語ツールspaCy v2.0を用いて、形態素解析を行い、名詞を含む名詞文を抽出した。制御部12は、抽出した個々の名詞文について、各単語の品詞と統語構造を解析し、品詞と統語構造を示す言語情報を付加してなるテキストデータTdを生成し、生成したテキストデータTdを記憶部14に記憶した。
【0063】
インスタンスの抽出に用いるパターンとして、食物を意味として有する名詞の抽出に係る単一のカテゴリに属するパターンを採用した。例えば、用いたパターンには、イタリア料理を示す単語を抽出するためのパターンが含まれる。抽出に係る新たに抽出されたインスタンスは、既に抽出された既知インスタンスとなり、その他のインスタンスは未知インスタンスとなる。例えば、既に抽出された単語“penne”(ペンネ)、“spaghetti”(スパゲティ)が既知インスタンスとなり。新たに抽出された単語“lasagne”(ラザニア)が未知インスタンスとなる。
【0064】
実験結果の評価値として、適合率、再現率、F1値を用いた。適合率として、抽出された目的物であるインスタンスのうち予め定めた既知のインスタンスである正しい目的物(以下、正解)の個数の割合を算出した。再現率として、テキストデータに含まれる食物を示すインスタンスのうち抽出されたインスタンスの個数の割合を算出した。但し、実験結果の評価において、2種類の評価値を用いた。2種類の評価値のうち、一方を再現率(小)、再現率(大)と呼ぶ。再現率(小)は、68個を超えるインスタンスを含んで構成された辞書データ、再現率(大)は、457個を超えるインスタンスを含んで構成された辞書データを、それぞれ用いて算出した。F1値は、適合率と再現率の調和平均に相当する。但し、再現率(小)、再現率(大)のそれぞれと適合率との調和平均であるF1値(小)、F1値(大)を用いた。
【0065】
次に、個々の実験結果について説明する。
図5は、候補スコアリングの実験例を示す表である。
図5は、スコアの算出方法として、従来のスコアAvglogF、NoisyOR、AE(本実施形態)のそれぞれについて得られた、F1値(小)、F1値(大)、適合率、再現率(小)、再現率(大)を示す。本実施形態に係るスコアAEを用いた場合、F1値(小)、F1値(大)、適合率、再現率(小)、再現率(大)は、それぞれ0.254、0.280、0.878、0.150、0.172となり、いずれもスコアAvglogF、NoisyORを採用した場合よりも良好な値を示す。
【0066】
図6は、パターンスコアリングの実験例を示す表である。
図6は、スコアの算出方法として、従来のスコアAvglogFを用いた方法、候補スコアリングでスコアAvglogを用いたがパターンスコアリングでスコアautoRLを用いた方法(autoRL+AvglogF)、従来のNoisyORを用いた方法、候補スコアリングでスコアNoisyORを用いた方法を用いたがパターンスコアリングでスコアautoRLを用いた方法(autoRL+NoisyOR)のそれぞれについて得られた、F1値(小)、F1値(大)、適合率、再現率(小)、再現率(大)を示す。
【0067】
図6によれば、パターンスコアリングにおいてスコアautoRLを用いる方法の方が、総じて良好な値が得られる。例えば、autoRL+AvglogFでは、F1値(小)、F1値(大)、適合率、再現率(小)、再現率(大)は、それぞれ0.232.0.213.0.774、0.138、0.124となり、適合率が若干低下することを除けば、スコアAvglogFを用いる方法よりも良好な値を示す。autoRL+NoisyORでは、F1値(小)、F1値(大)、適合率、再現率(小)、再現率(大)は、それぞれ0.259、0.253、0.838、0.153、0.149となり、適合率が若干低下することを除けば、スコアNoisyORを用いる方法よりも良好な値を示す。但し、この適合率の低下は、スコアautoRLを用いることで、複合名詞が従来の手法よりも多く抽出されることが一因と考えられる。
【0068】
次に、パターンスコアリングにおける信頼性と効率の合成方法に関する検証について説明する。この検証は、本実施形態に係る信頼性、効率のパラメータ、ならびにそれらの合成法として、適切な手法を見出すことを主目的とする。
図7は、検証に用いた信頼性、効率および合成法のセットを例示する図である。第1のセットは、信頼性Rと効率logFの積をスコアとして定める方法である。第2のセットは、本実施形態に係る信頼性autoRと効率logFの積をスコアとして定める方法である。第3のセットは、信頼性Rと本実施形態に係る効率F/Lの積をスコアとして定める方法である。第4のセットは、信頼性Rと本実施形態に係る効率F/Lの調和平均をスコアとして定める方法である。第5のセットは、本実施形態に係る信頼性autoRと本実施形態に係る効率F/Lの積をスコアとして定める方法である。第6のセットは、本実施形態に係る信頼性autoRと本実施形態に係る効率F/Lの調和平均をスコアとして定める方法である。
【0069】
図8は、セットごとの実験結果を示す表である。但し、本検証では、評価値としてF1値(小)とF1値(大)を用いた。
図8に示すように、第6のセット、即ち、スコアautoRLを用いた場合に、F1値(小)、F1(大)がそれぞれ0、232、0.213となり、最も良好な値を示す。なお、調和平均を用いる第4のセットを用いた場合に、F1値(小)、F1(大)がそれぞれ0、205、0.182となり、積を用いる第3のセットの0.149、0.147よりも良好な値を示す。本実施形態に係るスコアautoRを信頼性の指標として用いる第2のセットを用いた場合に、F1値(小)、F1(大)がそれぞれ0、176、0.192となり、スコアRを用いる第1のセットの0.119、0.147よりも良好な値を示す。本実施形態に係るスコアF/Lを効率の指標として用いる第3のセットを用いた場合に、F1値(小)、F1(大)がそれぞれ0、149、0.147となり、スコアlogFを用いる第1のパターンの0.119、0.147よりも概ね良好な値を示す。従って、
図8に示す実験結果は、パターンスコアリングにおいて、信頼性と効率の調和平均をとること、信頼性の指標としてスコアautoRを用いること、効率の指標としてスコアF/Lをとることが、ともに従来の手法よりも有効であることを示す。
【0070】
以上に説明した情報処理装置10は、シードリストに含まれる1以上のインスタンスと、所定の複数のパターンの少なくともいずれかと共通なパターンに属するインスタンスを候補インスタンスとして、文から抽出する抽出部122を備える。情報処理装置10は、候補インスタンスのいずれかをシードリストに追加する更新部と、候補インスタンスを示す入力値をより自由度が低い中間値に変換し、中間値から入力値の再構成値に変換する再構成部126と、を備える。また、更新部は、再構成誤差が小さい候補インスタンスほど優先してシードリストに追加する。
この構成により、入力値よりも自由度が低い中間値から再構成される再構成値との再構成誤差が小さい候補インスタンスが、より再構成誤差が大きい候補インスタンスよりも優先してシードリストに追加される。入力値の再現性の高い候補インスタンスが優先して選択されるため、入力値の再現性が低い意味的に偏った候補インスタンスを排除し、より期待されるインスタンスの抽出に寄与することができる。
【0071】
また、抽出部122は、パターンごとに抽出したインスタンスのうち、抽出されるインスタンスの信頼性が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定めてもよい。
この構成により、安定してインスタンスを抽出する信頼性が高いパターンを用いて抽出されたインスタンスほど優先して、シードリストに追加されるインスタンスの候補となる。そのため、シードリストに対して、信頼性が低い特定のパターンの影響を低減し、不安定なインスタンスが蓄積される可能性を低減することができる。
【0072】
また、抽出部122は、パターンごとに抽出したインスタンスのうちシードリストに含まれるインスタンスである既知のインスタンスの数と、シードリストに含まれない未知のインスタンスそれぞれの再構成誤差に基づく確度との総和に対する、既知のインスタンスの数の割合を信頼性として算出してもよい。
この構成により、既知のインスタンスのみならず、新たに抽出される未知のインスタンスに対しても、その再構成誤差に基づく確度を加味して信頼性として評価される。そのため、既知のインスタンスへの依存性を緩和することで、初期のシードリストへの依存性を低減することができる。
【0073】
また、抽出部122は、シードリストに含まれるインスタンスのうち、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択し、選択したパターンを用いて抽出したインスタンスを候補インスタンスと定める。
この構成により、抽出したインスタンスの比率を示す効率が高いパターンほど優先して選択される。そのため、シードリストには、抽出能力の低い特定のパターンの影響を低減し、より効率が高いパターンを用いて抽出されたインスタンスの比率を多くすることができる。また、新たなインスタンスの追加を促し、初期のシードリストへの依存性を低減することができる。
【0074】
また、抽出部122は、前記パターンごとに前記信頼性と前記効率との調和平均をスコアとして算出し、前記スコアが高いパターンほど優先して選択してもよい。
この構成により、相互に相反する特性を有する信頼性と効率の両者を総合したスコアが得られるため、信頼性と効率が総合的に優れるパターンを用いて抽出されたインスタンスの比率を多くして、シードリストの偏りを緩和することができる。
【0075】
また、再構成部126は、前記シードリストに含まれるインスタンスを示す入力値に対する再構成値と、当該入力値との差が小さくなるように、中間値への変換ならびに再構成値への変換に係るパラメータを学習してもよい。
この構成により、再構成部126は、学習されたパラメータを用いることで、抽出されたインスタンスの入力値に対する再構成値として、入力値に近似した値を得ることができる。そのため、シードリストに含まれない未知のインスタンスとして、再構成誤差が高いインスタンス、即ち、既知のインスタンスから大きく意味が異なる単語を排除することができる。
【0076】
また、再構成部126は、入力値を入力する入力層と、中間値を出力する中間層と、再構成値を出力する出力層と、を備え、入力層と出力層のそれぞれのノード数よりも前記中間層のノード数がないオートエンコーダであり、入力値として単語ベクトルが入力されてもよい。
この構成により、中間値への変換ならびに再構成値への変換に係るパラメータの累積的な学習に好都合である。パラメータの学習は、例えば、一連のインスタンスの選択ごとに、新たにシードリストに追加されるインスタンスについて実行すればよく、必ずしもシードリストのインスタンス全体について実行する必要はない。
【0077】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、抽出部122は、パターン選択の際、処理の繰り返し(イテレーション)ごとに、選択するパターンの個数を増加させることができれば、その個数はk+l個に限られない。但し、抽出部122は、スコアが高いパターンほど優先して選択する。
また、抽出部122は、候補選択の際、N個の候補インスタンスの選択に代え、所定の再構成誤差以下となる再構成誤差が得られた候補インスタンスを選択してもよい。その場合には、選択される候補インスタンスの数は、処理の繰り返しごとに可変となりうる。
【0078】
なお、上述した実施形態における情報処理装置10の一部、例えば、制御部12をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、情報処理装置10に内蔵されたCPU等の1以上のプロセッサを備えるコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における情報処理装置10の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。情報処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0079】
10…情報処理装置、12…制御部、14…記憶部、122…抽出部、124…更新部、126…再構成部