IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7222402抽出方法、抽出プログラムおよび情報処理装置
<>
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図1
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図2
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図3
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図4
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図5
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図6
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図7
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図8
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図9
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図10
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図11
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図12
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図13
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図14
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図15
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図16
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図17
  • 特許-抽出方法、抽出プログラムおよび情報処理装置 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-07
(45)【発行日】2023-02-15
(54)【発明の名称】抽出方法、抽出プログラムおよび情報処理装置
(51)【国際特許分類】
   G06F 16/332 20190101AFI20230208BHJP
【FI】
G06F16/332
【請求項の数】 7
(21)【出願番号】P 2020565043
(86)(22)【出願日】2019-01-07
(86)【国際出願番号】 JP2019000083
(87)【国際公開番号】W WO2020144730
(87)【国際公開日】2020-07-16
【審査請求日】2021-05-06
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】大倉 清司
(72)【発明者】
【氏名】馬場 謙介
(72)【発明者】
【氏名】野呂 智哉
(72)【発明者】
【氏名】福田 茂紀
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2017-059255(JP,A)
【文献】FERRARI, Alessio et al.,"Detecting Domain-Specific Ambiguities: An NLP Approach Based on Wikipedia Crawling and Word Embeddi,2017 IEEE 25th International Requirements Engineering Conference Workshops (REW),IEEE,2017年09月04日,pp.393-399,<DOI: 10.1109/REW.2017.20>, <URL: https://ieeexplore.ieee.org/abstract/document/8054883>
【文献】LIN, Jing,"Using Distributional Similarity to Identify Individual Verb Choice",INLG '06 Proceedings of the Fourth International Natural Language Generation Conference,2006年07月15日,pp.33-40,<URL: https://dl.acm.org/citation.cfm?id=1706278>
【文献】PONNAMPERUMA, Kapila et al.,"Using distributional similarity for identifying vocabulary differences between individuals",Workshop on Computational approaches to the study of dialectal and typological variation, ESSLLI,2012年08月06日,<URL: http://www.sfs.uni-tuebingen.de/~gjaeger/conferences/essli_2012/>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する抽出方法であって、
第一のユーザが入力した第一の単語を取得し、
第二のユーザが入力した第二の単語を取得し、
前記第一の単語と前記第一のユーザを識別する文字列とを含む第一の文字列の第一の分散表現を算出し、
前記第二の単語と前記第二のユーザを識別する文字列とを含む第二の文字列の第二の分散表現を算出し、
前記第一の分散表現と前記第二の分散表現との類似度を算出し、
前記第二の文字列に含まれる第二の単語のうち、前記第一の単語と同一の第二の単語の出現回数を基にして前記類似度を補正し、補正した前記類似度を基にして、前記第二の分散表現に対応付けられた単語を抽出する
処理を実行することを特徴とする抽出方法。
【請求項2】
前記第一の分散表現を算出する処理は、前記第一の単語と前記第一のユーザを識別する文字列とを連結した第一の文字列の第一の分散表現を算出し、前記第二の分散表現を算出する処理は、前記第二の単語と前記第二のユーザを識別する文字列とを連結した第二の文字列の第二の分散表現を算出することを特徴とする請求項1に記載の抽出方法。
【請求項3】
前記第二の分散表現を算出する処理は、複数の前記第二の文字列に対応する複数の前記第二の分散表現を算出し、前記類似度を算出する処理は、前記第一の分散表現と、前記複数の第二の分散表現との類似度をそれぞれ算出し、
複数の前記類似度を基にして、前記複数の第二の分散表現に対応する前記複数の第二の文字列の順位を特定し、特定した順位を基にして、前記第二の文字列の類似度を補正する処理を更に実行することを特徴とする請求項1に記載の抽出方法。
【請求項4】
前記補正する処理は、前記順位を基にして、所定の順位よりも上位の第二の文字列を特定し、前記上位の第二の文字列に含まれる第二の単語の出現回数を基にして、前記類似度を補正することを特徴とする請求項3に記載の抽出方法。
【請求項5】
前記単語を抽出する処理は、補正された前記類似度を基にして、複数の第二の文字列を類似度の降順にソートし、上位の第二の文字列に含まれる単語を抽出することを特徴とする請求項2、3または4に記載の抽出方法。
【請求項6】
コンピュータに、
第一のユーザが入力した第一の単語を取得し、
第二のユーザが入力した第二の単語を取得し、
前記第一の単語と前記第一のユーザを識別する文字列とを連結した第一の文字列の第一の分散表現を算出し、
前記第二の単語と前記第二のユーザを識別する文字列とを連結した第二の文字列の第二の分散表現を算出し、
前記第一の分散表現と前記第二の分散表現との類似度を算出し、
前記第二の文字列に含まれる第二の単語のうち、前記第一の単語と同一の第二の単語の出現回数を基にして前記類似度を補正し、補正した前記類似度を基にして、前記第二の分散表現に対応付けられた単語を抽出する
処理を実行させることを特徴とする抽出プログラム。
【請求項7】
第一のユーザが入力した第一の単語を取得し、第二のユーザが入力した第二の単語を取得する取得部と、
前記第一の単語と前記第一のユーザを識別する文字列とを含む第一の文字列の第一の分散表現を算出し、前記第二の単語と前記第二のユーザを識別する文字列とを含む第二の文字列の第二の分散表現を算出する分散表現算出部と、
前記第一の分散表現と前記第二の分散表現との類似度を算出する類似度算出部と、
前記第二の文字列に含まれる第二の単語のうち、前記第一の単語と同一の第二の単語の出現回数を基にして前記類似度を補正し、補正した前記類似度を基にして、前記第二の分散表現に対応付けられた単語を抽出する抽出部と
を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、抽出方法等に関する。
【背景技術】
【0002】
ユーザの指定する条件に応じた会議室を調整する会議調整システムがある。従来の会議調整システムでは、ユーザによって予約条件が指定されると、予約条件を満たす会議室を検索し、検索結果を出力する。たとえば、ユーザは、予約条件として、会議の参加人数、希望する会議室の優先度、会議の機密性等を指定する。
【0003】
ここで、会議システムを利用する度に、ユーザが各種の予約条件を指定する作業は、ユーザに負担をかけるため、ユーザによって入力される情報を最小限にして、ユーザの希望にあう会議室を検索することが好ましい。
【0004】
たとえば、ユーザが指定(音声入力)した「ある単語」に類似する会議名を抽出することができれば、類似する会議名に関する履歴から、ユーザが過去に参加した会議室や参加人数を推定でき、ユーザの希望にあう会議室を予約することができる。
【0005】
単語の類似度を算出する従来技術として、word2vecに代表される単語分散表現の学習を用いる技術がある。この従来技術では、テキストデータを解析して、単語を分散表現化(単語ベクトル化)し、各単語のベクトルを比較して、単語間の類似度を算出する。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2014-127079号公報
【文献】特開2012-141752号公報
【文献】特開2006-252064号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述した従来技術では、単語の類似概念を抽出することができないという問題がある。
【0008】
たとえば、ユーザが「打ち合わせ」なる単語を指定した場合に、会議名の観点から、この「打ち合わせ」に対して類似概念となる単語(会議名)を抽出することが望ましい。しかし、従来技術のように、各単語の分散表現の単純な比較によって得られる類似度を基にして、類似度の高い単語を抽出すると多くのノイズが含まれてしまう。
【0009】
図18は、従来技術による類似度の算出結果の一例を示す図である。図18に示す例では、単語「打ち合わせ」と、他の各単語との類似度の一例を示す。図18において「’’」で示される単語が類似度を算出する際に比較された単語である。単語の横に示す数値が類似度である。たとえば、単語「打ち合わせ」と単語「検討」との類似度は「0.08011」となる。ここでは、単語「打ち合わせ」との類似度が大きいものから降順に各単語を示している。
【0010】
ここで、単語「打ち合わせ」の類似概念となる単語は、ユーザが判断すると、「ご相談、相談、抽出会、まとめの会、bu会」であるが、かかる単語と「打ち合わせ」との類似度は非常に小さくなってしまう。これに対して、単語「打ち合わせ」の類似概念とならない単語「検討、FUK、nmpj、小、最大」と、単語「打ち合わせ」との類似度は大きくなってしまう。すなわち、各単語の分散表現の単純な比較によって得られる類似度を算出し、類似度の高い単語を抽出すると多くのノイズが含まれてしまい、ユーザに指定された単語の類似概念を抽出することができない。
【0011】
1つの側面では、本発明は、単語の類似概念を抽出することができる抽出方法、抽出プログラムおよび情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0012】
第1の案では、コンピュータが次の処理を実行する。コンピュータは、第一のユーザが入力した第一の単語を取得し、第二のユーザが入力した第二の単語を取得する。コンピュータは、第一の単語と第一のユーザを識別する文字列とを連結した第一の文字列の第一の分散表現を算出する。コンピュータは、第二の単語と第二のユーザを識別する文字列とを連結した第二の文字列の第二の分散表現を算出する。コンピュータは、第一の分散表現と第二の分散表現との類似度を算出し、類似度を基にして、第二の分散表現に対応付けられた単語を抽出する。
【発明の効果】
【0013】
単語の類似概念を精度よく抽出することができる。
【図面の簡単な説明】
【0014】
図1図1は、本実施例にかかる情報処理装置の処理の一例を説明するための図である。
図2図2は、類似度の算出結果の一例を示す図である。
図3図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。
図4図4は、ユーザテーブルのデータ構造の一例を示す図である。
図5図5は、会議情報テーブルのデータ構造の一例を示す図である。
図6図6は、テキストデータのデータ構造の一例を示す図である。
図7図7は、分散表現リストのデータ構造の一例を示す図である。
図8図8は、第1類似度テーブルのデータ構造の一例を示す図である。
図9図9は、第1類似度テーブルに含まれるリストの一例を示す図である。
図10図10は、第2類似度テーブルのデータ構造の一例を示す図である。
図11図11は、第2類似度テーブルに含まれるリストの一例を示す図である。
図12図12は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。
図13図13は、テキスト生成処理の処理手順を示すフローチャートである。
図14図14は、類似度算出処理の処理手順を示すフローチャートである。
図15図15は、正規化処理の処理手順を示すフローチャートである。
図16図16は、検索処理部の処理手順を示すフローチャートである。
図17図17は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図18図18は、従来技術による類似度の算出結果の一例を示す図である。
【発明を実施するための形態】
【0015】
以下に、本願の開示する抽出方法、抽出プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例
【0016】
図1は、本実施例にかかる情報処理装置の処理の一例を説明するための図である。情報処理装置は、ユーザ(あるいは、会議の参加者)が入力した単語を取得し、単語とユーザとを連結した文字列を生成する。たとえば、ユーザ「OSA」が、単語「特許」を入力した場合に、情報処理装置は、文字列「特許^OSA」を生成する。ユーザ「MAS」が、単語「特許」を入力した場合に、情報処理装置は、文字列「特許^MAS」を生成する。情報処理装置は、他の各ユーザ、他の各単語に関して、上記処理を繰り返し実行することで、複数の文字列を生成する。なお、情報処理装置は、単語のみ取得した場合には、単語とユーザとの連結を行わないで、単語のみの文字列とする。
【0017】
情報処理装置は、word2vecに代表される単語分散表現の学習を基にして、各文字列の分散表現(ベクトル)をそれぞれ算出する。また、情報処理装置は、各文字列の分散表現を比較して、単語間の類似度を算出する。図1に示す例では、文字列「特許^OSA」と、他の各文字列との類似度を示す。図1において「’’」で示される文字列が類似度を算出する際に比較された分散表現に対応する文字列である。文字列の横に示す数値が類似度である。たとえば、文字列「特許^OSA」と文字列「特許^MAS」との類似度は「0.9893」となる。ここでは、文字列「特許^OSA」との類似度が大きいものから降順に各文字列を示している。順位は、値が小さいほど、基準となる文字列(たとえば「特許^OSA」)との類似度が高いことを示す。
【0018】
続いて、情報処理装置は、各文字列の類似度を基にして、各単語の類似度を算出する。単語の類似度は、文字列に含まれる単語の出現回数と、単語を含む文字列の順位に応じて算出される。たとえば、情報処理装置は、式(1)を基にして、基準となる文字列の単語「wX」と、比較対象の単語「wi」との類似度を算出する。
【0019】
単語wXと単語wiとの類似度(正規化前)=Vi×sqrt(sqrt(Ui))・・・(1)
【0020】
式(1)において、「Vi」は、上位kまでの文字列に含まれる単語wiについて、wiの順位を考慮した類似度の総計を示すものである。たとえば、順位i(i<k)の文字列に含まれる単語wiの類似度は、「順位i(i<k)の文字列の類似度×log(i+1)」とする。上位kまでに、複数の同一の単語wiが存在する場合には、各単語wiの類似度を総計したものが、Viの値となる。単語wiを含む文字列の順位が下位であるほど、単語wiの類似度は小さくなる。
【0021】
式(1)において、「Ui」は、上位kまでの文字列に関する、単語wiの出現回数を示すものである。
【0022】
なお、単語wXに連結されたユーザと、単語wiに連結されたユーザとが同一のユーザである場合、単語wXと単語wiとの類似度(正規化前)は、単語wiを含む文字列の類似度のままとする(第1条件)。
【0023】
式(1)によって算出される類似度は、式(2)に基づいて正規化される。normは、式(1)によって算出される単語Wxと同一の単語との類似度(正規化前)とする。なお、単語Wxと同一の単語との類似度が算出されていない場合には、norm=1となる。
【0024】
単語wXと単語wiとの類似度(正規化後)=式(1)の類似度/norm・・・(2)
【0025】
ここで、情報処理装置が、単語wX=特許(文字列「特許^OSA」の単語)と、単語wi=特許との類似度を算出する処理について説明する。k=20として説明を行う。Uiは次のようになる。図1に示す例では、上位k=20までの文字列に関する、単語「特許」の出現回数が「3」となるため、「Ui=3」となる。
【0026】
Viは、次のようになる。上位k=20の各文字列について、単語「特許」を含む文字列は、順位1、8、9の文字列となる。ここで、順位1の文字列「特許^MAS」に含まれる単語「特許」の類似度は「0.9893×1/log(1+1)=3.2867」となる。順位8の文字列「特許^FUU」に含まれる単語「特許」の類似度は「0.9691×1/log(8+1)=1.0156」となる。順位9の文字列「特許^MOO」に含まれる単語「特許」の類似度は「0.9689×1/log(9+1)=0.9690」となる。このため、Vi=3.2867+1.0156+0.9690=5.2713となる。式(1)に代入すると、単語「特許」の類似度(正規化前)は「6.9375」となる。
【0027】
また、単語wX=特許に対応するnormは、単語「特許」の類似度となる(wX=wi)ため、norm=6.9375となる。したがって、単語「特許」の類似度を正規化すると、類似度は「1」となる。
【0028】
続いて、情報処理装置が、単語wX=特許(文字列「特許^OSA」の単語)と、単語wi=まとめ会との類似度を算出する処理について説明する。また、k=20として説明を行う。Uiは次のようになる。図1に示す例では、上位kまでの文字列に関する、単語「まとめ会」の出現回数が「4」となるため、「Ui=4」となる。
【0029】
Viは次のようになる。上位k=20の各文字列について、単語「まとめ会」を含む文字列は、順位3、13、15、20の文字列となる。ここで、順位3の文字列「まとめ会^OSA」に含まれる単語「まとめ会」の類似度は「0.9826×1/log(3+1)=1.6320」となる。順位13の文字列「まとめ会」に含まれる単語「まとめ会」の類似度は「0.9675×1/log(13+1)=0.8442」となる。順位15の文字列「まとめ会」に含まれる単語「まとめ会」の類似度は「0.9674×1/log(15+1)=0.8034」となる。順位20の文字列「まとめ会」に含まれる単語「まとめ会」の類似度は「0.9630×1/log(20+1)=0.72983」となる。そうすると、Vi=1.6320+0.8442+0.8034+0.72983=4.008となる。式(1)に代入すると、単語「まとめ会」の類似度(正規化前)は「5.668」となる。
【0030】
また、上記より、norm=6.9375となる。このため、式(2)により、単語「まとめ会」の類似度(正規化後)は「0.8170」となる。なお、「まとめの会^OSA」については、基準となる文字列「特許^OSA」とユーザ名が同一となるため、第1条件により、類似度は「0.9825」となる。他の「まとめ会、まとめの会^II、まとめの会^SAI」については、ユーザ名が異なるので、各「まとめ会、まとめの会^II、まとめの会^SAI」の類似度は、「まとめ会」の類似度「0.8170」となる。
【0031】
各文字列について、上記の処理を繰り返し実行すると、各単語の類似度(正規化後)は、図2に示すものとなる。図2は、類似度の算出結果の一例を示す図である。図2に示すリスト10Aは、単語と、類似度との関係を示す。リスト10Bは、類似度の降順に単語と類似度とをソートした結果を示すテーブルである。図2のリスト10Bに示すように、基準となる単語「特許」と類似の概念となる「まとめの会^OSA」、「抽出会」の類似度が大きくなっている。また、多くのノイズを削減できる。すなわち、本実施例に示す情報処理装置によれば、図18で説明した従来技術の結果と比較して、指定された単語と類似の概念となる単語を検出する処理が改善される。
【0032】
次に、本実施例に係る情報処理装置の構成の一例について説明する。図3は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0033】
通信部110は、ネットワークを介して他の外部装置と通信を行う処理部である。たとえば、通信部110は、外部装置から後述する会議情報テーブル140bの情報を受信する。後述する制御部150は、通信部110を介して、外部装置と情報をやり取りする。通信部110は、通信装置の一例である。
【0034】
入力部120は、情報処理装置100に各種の情報を入力するための入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。たとえば、ユーザは、入力部120を操作して、ユーザID(identification)、会議名(単語)等を入力する。
【0035】
表示部130は、制御部150から出力される情報を表示する装置である。表示部130は、液晶ディスプレイやタッチパネル等に対応する。たとえば、表示部130は、ユーザに入力された単語(会議名)の類似概念となる複数の単語(会議名)を表示する。たとえば、表示部130は、図2に示した類似度リスト等を表示する。
【0036】
記憶部140は、ユーザテーブル140a、会議情報テーブル140b、テキストデータ140c、分散表現リスト140d、第1類似度テーブル140e、第2類似度テーブル140fを有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
【0037】
ユーザテーブル140aは、ユーザIDに対するユーザ名を定義するテーブルである。図4は、ユーザテーブルのデータ構造の一例を示す図である。図4に示すように、ユーザテーブル140aは、ユーザIDと、ユーザ名とを対応付ける。たとえば、ユーザID「user101」に対応するユーザ名は「OSA」となる。
【0038】
会議情報テーブル140bは、ユーザが過去に利用した会議に関する各種の情報を保持するテーブルである。図5は、会議情報テーブルのデータ構造の一例を示す図である。図5に示すように、会議情報テーブル140bは、会議室名と、打ち合わせ名と、参加者リストとを対応付ける。会議室名は、ユーザが利用した会議室の名称を示す。打ち合わせ名は、ユーザに入力される情報であり、ユーザが会議を行う場合に用いた打ち合わせに関連する情報(単語、文字列)である。参加者リストは、打ち合わせに参加した各ユーザのユーザ名である。
【0039】
たとえば、図5の1行目のレコードを参照すると、打ち合わせ名「XX/研究委託/テーマ/打合せ」の会議は、会議室名「C102」の会議室で行われ、参加者は「MURA、YAMA」である。ユーザが入力部120を操作して、会議情報テーブル140bに、会議室名、打ち合わせ名、参加者リストを入力してもよいし、情報処理装置100が、会議の使用履歴を管理する外部装置から、会議情報テーブル140bの情報を収集して、会議情報テーブル140bに登録してもよい。
【0040】
テキストデータ140cは、テキストの情報である。図6は、テキストデータのデータ構造の一例を示す図である。図6に示すテキストデータ140cの各文字列は、会議情報テーブル140bを基にして生成される。
【0041】
分散表現リスト140dは、各文字列の分散表現を保持するテーブルである。図7は、分散表現リストのデータ構造の一例を示す図である。図7に示すように、この分散表現リスト140dは、文字列と、分散表現とを対応付ける。文字列は、ユーザ(ユーザ名)と、図5の打ち合わせ名を形態素解析した結果得られる単語とを連結したものである。分散表現は、word2vecに代表される単語分散表現の学習を基にして、算出される分散表現である。
【0042】
第1類似度テーブル140eは、分散表現リスト140dに含まれる各文字列の類似度を保持するテーブルである。図8は、第1類似度テーブルのデータ構造の一例を示す図である。図8に示すように、この第1類似度テーブルは、基準文字列と、リストとを対応付ける。各リストはそれぞれ、基準となる文字列と、比較対象の各文字列との各類似度を示すリストである。基準となる文字列を、「基準文字列」と表記する。たとえば、基準文字列が、第一の文字列に対応し、比較対象の文字列が、第二の文字列に対応する。
【0043】
図9は、第1類似度テーブルに含まれるリストの一例を示す図である。図9に示すリストは、基準文字列、順位、文字列、類似度を有する。基準文字列は、類似度を算出する場合の基準となる文字列である。文字列は、基準文字列の比較対象となる文字列である。類似度は、基準文字列の分散表現と、文字列の分散表現との類似度を示す。順位は、基準文字列と文字列との組について、類似度の大きさに基づき順位付けしたものである。順位の数が小さいものほど、基準文字列と文字列との類似度が大きい。
【0044】
第2類似度テーブル140fは、第1類似度テーブル140eの各リストについて、図1で説明した処理を行うことで得られるテーブルである。図10は、第2類似度テーブルのデータ構造の一例を示す図である。図10に示すように、この第2類似度テーブル140fは、基準文字列と、リストとを対応付ける。各リストはそれぞれ、基準文字列と、比較対象の各文字列との各類似度を示すリストである。
【0045】
図11は、第2類似度テーブルに含まれるリストの一例を示す図である。図11に示すリストは、基準文字列、順位、文字列(単語)、類似度を有する。基準文字列は、類似度を算出する場合の基準となる文字列である。文字列は、基準文字列の比較対象となる文字列である。類似度は、図9に示した各文字列の類似度について、図1で説明した処理を行うことで得られる類似度である。順位は、基準文字列と文字列との組について、類似度の大きさに基づき順位付けしたものである。
【0046】
図3の説明に戻る。制御部150は、取得部150a、テキスト生成部150b、分散表現算出部150c、類似度算出部150d、抽出部150e、検索処理部150fを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
【0047】
取得部150aは、会議情報テーブル140bに関する情報を取得する処理部である。たとえば、取得部150aは、通信部110を介して外部装置から、会議室名、打ち合わせ名、参加者リストの情報を取得し、会議情報テーブル140bに格納する。外部装置は、会議の使用履歴を管理する装置である。また、ユーザが入力部120を操作して、会議室名、打ち合わせ名、参加者リストの情報を入力し、取得部150aは、入力された情報を取得して、会議情報テーブル140bに格納してもよい。
【0048】
テキスト生成部150bは、会議情報テーブル140bの打ち合わせ名および参加者リストを基にして、テキストデータ140cを生成する処理部である。たとえば、テキスト生成部150bは、会議情報テーブル140bのレコードを抽出し、レコードに含まれる会議室を配置する。また、テキスト生成部150bは、打ち合わせ名を形態素解析し、各形態素と参加者リストの各ユーザとを連結することで、テキストデータを生成する。
【0049】
たとえば、レコードの会議室名を「会議室A」とし、打ち合わせ名を形態素解析して得られる形態素(形態素リスト)を「w1,w2,w3,・・・,wn」とする。また、参加者リストに含まれるユーザを「p1,p2,・・・,pm」とする。この場合には、テキスト生成部150bは、次のようなテキストデータを生成する。
会議室A w1 w2・・・wn w1^p1 w2^p1・・・wn^p1
会議室A w1 w2・・・wn w1^p2 w2^p2・・・wn^p2
・・・
会議室A w1 w2・・・wn w1^pm w2^pm・・・wn^pm
【0050】
テキスト生成部150bは、会議情報テーブル140bの各レコードの各ユーザについて、上記処理を繰り返し実行することで、複数のテキストデータを生成し、生成した複数のテキストデータをまとめることで、テキストデータ140cを生成する。テキスト生成部150bは、テキストデータ140cを、記憶部140に格納する。
【0051】
分散表現算出部150cは、word2vecに代表される単語分散表現の学習に基づいて、テキストデータ140cに含まれる各文字列の分散表現(ベクトル)を算出(学習)する処理部である。分散表現算出部150cは、文字列と分散表現とを対応付けて、分散表現リスト140dに格納する。たとえば、分散表現算出部150cは、テキストデータ140cに含まれる単語とユーザとが連結された文字列(たとえば、w^p)について、分散表現を算出する。
【0052】
類似度算出部150dは、各文字列の類似度を算出する処理部である。類似度算出部150dは、分散表現リスト140dを基にして、第1類似度テーブル140eを生成する。また、類似度算出部150dは、第1類似度テーブル140eを基にして、第2類似度テーブル140fを生成する。
【0053】
類似度算出部150dが、第1類似度テーブル140eを生成する処理について説明する。類似度算出部150dは、分散表現リスト140dの各文字列から、基準文字列を選択し、選択した基準文字列の分散表現と、他の各文字列との分散表現とをそれぞれ比較して、文字列毎の類似度を算出する。たとえば、類似度算出部150dは、基準文字列の分散表現(ベクトル)と、他の文字列の分散表現(ベクトル)との距離を、類似度として算出する。類似度算出部150dは、上記の基準文字列と、他の各文字列との各類似度を、リストとして、第1類似度テーブル140eに格納する。たとえば、基準文字列を「特許^OSA」とした場合のリストは、図9に示すリストとなる。類似度算出部150dは、類似度の降順に、文字列と類似度とをソートして、順位を設定する。
【0054】
類似度算出部150dは、分散表現リスト140dの文字列から基準文字列を選択し、上記処理を繰り返し実行することで、選択した基準文字列に対応するリストを生成することで、第1類似度テーブル140eの情報を生成する。類似度算出部150dは、第1類似度テーブル140eを、記憶部140に格納する。
【0055】
続いて、類似度算出部150dが、第1類似度テーブル140eを基にして、第2類似度テーブル140fを生成する処理について説明する。係る類似度算出部150dの処理は、図1で説明した処理に対応するものとなる。
【0056】
すなわち、類似度算出部150dは、第1類似度テーブル140eのレコードを選択し、選択したレコードに含まれるリストについて、次の処理を行う。類似度算出部150dは、式(1)を基にして、基準文字列の単語wXと、比較対象の文字列の単語wiとの類似度(正規化前)を算出し、式(2)を基にして、類似度(正規化後)を算出する。
【0057】
類似度算出部150dは、リストに含まれる各文字列について上記処理を繰り返し実行することで、リストの類似度を算出し、第2類似度テーブル140fに登録する。類似度算出部150dは、第1類似度テーブル140eの各レコードについて上記処理を繰り返し実行することで、第2類似度テーブル140fの情報を算出し、記憶部140に格納する。
【0058】
まず、類似度算出部150dが、図9図1)に示した単語wX=特許(基準文字列「特許^OSA」の単語)と、単語wi=特許との類似度を算出する処理について説明する。k=20として説明を行う。
【0059】
類似度算出部150dは、Uiを次のように算出する。類似度算出部150dは、リストの文字列を走査し、文字列に単語「特許」が出現する回数をカウントする。図9に示す例では「Ui=3」となる。
【0060】
類似度算出部150dは、Viを次のように算出する。類似度算出部150dは、リストの文字列を走査し、上位k=20の各文字列について、単語「特許」を含む文字列の順位を特定する。図9に示す例では、単語「特許」を含む文字列は、順位1、8、9の文字列となる。
【0061】
類似度算出部150dは、順位1の文字列「特許^MAS」に含まれる単語「特許」の類似度を、「0.9893×1/log(1+1)=3.2867」により算出する。類似度算出部150dは、順位8の文字列「特許^FUU」に含まれる単語「特許」の類似度を、「0.9691×1/log(8+1)=1.0156」により算出する。類似度算出部150dは、順位9の文字列「特許^MOO」に含まれる単語「特許」の類似度を、「0.9689×1/log(9+1)=0.9690」により算出する。
【0062】
類似度算出部150dは、単語「特許」の各類似度の総計を算出することで、Viを算出する。具体的には、Vi=3.2867+1.0156+0.9690=5.2713となる。類似度算出部150dは、「Ui=3」と「Vi=5.2713」と、式(1)により、単語「特許」の類似度(正規化前)を「6.9375」として算出する。
【0063】
また、単語wX=特許に対応するnormは、単語「特許」の類似度となる(wX=wi)ため、norm=6.9375となる。したがって、類似度算出部150dは、式(2)に基づいて、単語「特許」の類似度を正規化すると、類似度は「1」となる。
【0064】
続いて、類似度算出部150dが、図9図1)に示した単語wX=特許(基準文字列「特許^OSA」の単語)と、単語wi=まとめ会との類似度を算出する処理について説明する。k=20として説明を行う。
【0065】
類似度算出部150dは、Uiを次のように算出する。類似度算出部150dは、リストの文字列を走査し、文字列に単語「まとめ会」が出現する回数をカウントする。図9に示す例では「Ui=4」となる。
【0066】
類似度算出部150dは、Viを次のように算出する。類似度算出部150dは、リストの文字列を走査し、上位k=20の各文字列について、単語「まとめ会」を含む文字列の順位を特定する。図9に示す例では、単語「まとめ会」を含む文字列は、順位3、13、15、20の文字列となる。
【0067】
類似度算出部150dは、順位3の文字列「まとめ会^OSA」に含まれる単語「まとめ会」の類似度を「0.9826×1/log(3+1)=1.6320」により算出する。類似度算出部150dは、順位13の文字列「まとめ会」に含まれる単語「まとめ会」の類似度を「0.9675×1/log(13+1)=0.8442」により算出する。類似度算出部150dは、順位15の文字列「まとめ会」に含まれる単語「まとめ会」の類似度を「0.9674×1/log(15+1)=0.8034」により算出する。類似度算出部150dは、順位20の文字列「まとめ会」に含まれる単語「まとめ会」の類似度を「0.9630×1/log(20+1)=0.72983」により算出する。
【0068】
類似度算出部150dは、単語「まとめ会」の各類似度の総計を算出することで、Viを算出する。具体的には、Vi=1.6320+0.8442+0.8034+0.72983=4.008となる。類似度算出部150dは、「Ui=4」と「Vi=4.008」と、式(1)により、単語「特許」の類似度(正規化前)を「5.668」として算出する。
【0069】
なお、特許の類似度を算出する場合において、類似度算出部150dは、norm=5.668である旨を算出済みである。類似度算出部150dは、式(2)により、単語「まとめ会」の類似度(正規化後)「0.8170」を算出する。
【0070】
なお、「まとめの会^OSA」については、基準となる文字列「特許^OSA」とユーザ名が同一となるため、第1条件に基づき、類似度は「0.9825」となる。他の「まとめ会、まとめの会^II、まとめの会^SAI」については、ユーザ名が異なるので、各「まとめ会、まとめの会^II、まとめの会^SAI」の類似度は、「まとめ会」の類似度「0.8170」となる。
【0071】
類似度算出部150dは、他の文字列の単語についても、上記処理を行うことで、図9に示した第1類似度テーブル140eのリストから、図11に示した第2類似度テーブル140fのリストを生成する。類似度算出部150dは、類似度の降順に、文字列と類似度とをソートして、順位を設定する。
【0072】
類似度算出部150dは、図8の第1類似度テーブル140eの各リストについて、上記処理を繰り返し実行することで、図10の第2類似度テーブル140fの各リストの情報を生成する。類似度算出部150dは、第2類似度テーブル140fの各リストの情報を、第2類似度テーブル140fに格納する。
【0073】
図3の説明に戻る。抽出部150eは、第2類似度テーブル140fを基にして、各基準文字列に類似する文字列(単語)を抽出する処理部である。たとえば、抽出部150eは、第2類似度テーブル140fを基にして、基準文字列毎に、順位L位までの文字列および類似度の情報を抽出し、抽出した抽出結果を表示部130に出力する。または、抽出部150eは、順位L位までの文字列および類似度の情報を外部装置に送信する。「L」は、適宜設定される1以上の自然数である。
【0074】
検索処理部150fは、入力部120からユーザIDおよび打ち合わせ名(X)の入力を受け付けた場合に、打ち合わせ名と、類似概念となる単語を検索する処理部である。検索処理部150fは、検索結果を表示部130に出力して表示させる。以下において、検索処理部150fの処理の一例について説明する。
【0075】
検索処理部150fは、ユーザIDと、ユーザテーブル140aとを比較して、ユーザIDに対応するユーザ名を取得する。検索処理部150fは、打ち合わせ名を形態素解析し、形態素リストを生成する。検索処理部150fは、形態素リストに含まれる各形態素について、形態素とユーザ名とを連結することで、検索文字列を作成する。たとえば、形態素「まとめ会」、ユーザ名を「OSA」とすると、検索処理部150fは、検索文字列「まとめ会^OSA」を生成する。形態素が複数存在する場合には、複数の検索文字列が生成される。
【0076】
検索処理部150fは、検索文字列と、第2類似度テーブル140fの基準文字列とを比較して、検索文字列と同一の基準文字列を含むレコードを特定し、特定したレコードに含まれるリストを取得する。検索処理部150fは、取得したリストに含まれる各文字列と、類似度とを取得する。以下の説明では、取得したリストに含まれる各文字列に含まれる単語を「類義語」と表記する。また、類義語を含む文字列の類似度を、類義語の「スコア」と表記する。
【0077】
検索処理部150fは、類義語と、会議情報テーブル140bの打ち合わせ名とを比較し、類義語を含む打ち合わせ名(Y)を特定し、特定した打ち合わせ名に対応するスコアに、類義語のスコアを加算する。各打ち合わせ名に対応するスコアの初期値を「0」とする。
【0078】
検索処理部150fは、打ち合わせ名に対するスコアを正規化してもよい。たとえば、式(3)に基づいて、打ち合わせ名に対応するスコアを正規化する。式(3)に含まれるNは、打ち合わせ名(X)の形態素の数を、打ち合わせ名(Y)の形態素の数で除算した値である。なお、Nが1よりも大きい場合には、Nの値を、打ち合わせ名(Y)の形態素の数を、打ち合わせ名(X)の形態素の数で除算した値に更新する。
【0079】
スコア(正規化後)=スコア(正規化前)/N・・・(3)
【0080】
検索処理部150fは、上記の処理を繰り返し実行することで、各打ち合わせ名(Y)に対するスコアを算出する。検索処理部150fは、各打ち合わせ名(Y)をスコアの降順にソートし、上位Mの打ち合わせ名を検索し、表示部130に出力する。
【0081】
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図12は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図12に示すように、情報処理装置100の取得部150aは、会議情報テーブル140bの情報を、外部装置または入力部120から取得する(ステップS10)。情報処理装置100のテキスト生成部150bは、テキスト生成処理を実行する(ステップS11)。
【0082】
情報処理装置100の分散表現算出部150cは、各文字列の分散表現(ベクトル)を算出し、分散表現リスト140dに格納する(ステップS12)。情報処理装置100の類似度算出部150dは、各文字列の類似度を算出し、第1類似度テーブル140eに格納する(ステップS13)。
【0083】
類似度算出部150dは、類似度算出処理を実行する(ステップS14)。類似度算出部150dは、正規化処理を実行する(ステップS15)。類似度算出部150dは、第2類似度テーブルの情報を生成する(ステップS16)。情報処理装置100の抽出部150eは、第2類似度テーブル140fの各リストの上位の文字列を抽出して出力する(ステップS17)。
【0084】
続いて、図12のステップS11に示したテキスト生成処理の一例について説明する。図13は、テキスト生成処理の処理手順を示すフローチャートである。図13に示すように、情報処理装置100のテキスト生成部150bは、会議情報テーブル140bから、レコードを取得する(ステップS101)。
【0085】
テキスト生成部150bは、記憶部140に出力バッファを設定する(ステップS102)。テキスト生成部150bは、レコードの打ち合わせ名を選択する(ステップS103)。テキスト生成部150bは、打ち合わせ名を形態素解析し、形態素リストを生成する(ステップS104)。テキスト生成部150bは、レコードの参加者リストを取得する(ステップS105)。
【0086】
テキスト生成部150bは、記憶部140に行バッファを設定する(ステップS106)。テキスト生成部150bは、形態素リストの各形態素(W)、参加者リストの各ユーザ(A)について、行バッファに「W^A W」を追加する処理を繰り返し実行する(ステップS107)。
【0087】
テキスト生成部150bは、出力バッファに行バッファの情報を追加し、改行する(ステップS108)。テキスト生成部150bは、全てのレコードを、会議情報テーブル140bから取得したか否かを判定する(ステップS109)。テキスト生成部150bは、全てのレコードを、会議情報テーブル140bから取得していない場合には(ステップS109,No)、ステップS101に移行する。
【0088】
一方、テキスト生成部150bは、全てのレコードを、会議情報テーブル140bから取得した場合には(ステップS109,Yes)、ステップS110に移行する。テキスト生成部150bは、出力バッファの情報をテキストデータ140cとして記憶部140に格納する(ステップS110)。
【0089】
続いて、図12のステップS14に示した類似度算出処理の一例について説明する。図14は、類似度算出処理の処理手順を示すフローチャートである。図14に示すように、類似度算出部150dは、第1類似度テーブルの各基準文字列の一覧を取得する(ステップS201)。
【0090】
類似度算出部150dは、基準文字列WAを選択し、基準文字列WAに対応するリストについて上位kの各文字列の単語(w1,w2,・・・,wk)を取得する(ステップS202)。類似度算出部150dは、各文字列の単語(w1,w2,・・・,wk)のカウントU、類似度Vを初期化する(ステップS203)。
【0091】
類似度算出部150dは、単語wiにユーザ(ユーザ名)が連結していない場合には(ステップS204,No)、ステップS205に移行する。一方、類似度算出部150dは、単語wiにユーザ(ユーザ名)が連結している場合には(ステップS204,Yes)、ステップS207に移行する。
【0092】
ステップS205の処理について説明する。類似度算出部150dは、カウントU[wi]に1を加算する処理を行う(ステップS205)。類似度算出部150dは、類似度V[wi]に、wiの類似度×1/log(i+1)を加算する処理を行い(ステップS206)、ステップS209に移行する。
【0093】
ステップS207の処理について説明する。類似度算出部150dは、基準文字列WAに含まれるユーザ(p)と、文字列wiに含まれるユーザ(pi)とが同一であるか否かを判定する(ステップS207)。類似度算出部150dは、基準文字列WAに含まれるユーザ(p)と、文字列wiに含まれるユーザ(pi)とが同一でない場合には(ステップS207,No)、ステップS205に移行する。
【0094】
一方、類似度算出部150dは、基準文字列WAに含まれるユーザ(p)と、文字列wiに含まれるユーザ(pi)とが同一である場合には(ステップS207,Yes)、wi^piの類似度(score(WA,wi))をそのまま登録し(ステップS208)、ステップS205に移行する。
【0095】
類似度算出部150dは、iに1を加算する(ステップS209)。類似度算出部150dは、iがk以下である場合には(ステップS210,Yes)、ステップS204に移行する。一方、類似度算出部150dは、iがkより大きい場合には(ステップS210,No)、ステップS211に移行する。
【0096】
類似度算出部150dは、基準文字列WAに対するwiの類似度を登録する(ステップS211)。類似度算出部150dは、全ての基準文字列を選択していない場合には(ステップS212,No)、ステップS202に移行する。一方、類似度算出部150dは、全ての基準文字列を選択した場合には(ステップS212,Yes)、処理を終了する。
【0097】
続いて、図12のステップS15に示した正規化処理の一例について説明する。図15は、正規化処理の処理手順を示すフローチャートである。図15に示すように、類似度算出部150dは、基準文字列WAの単語Wを選択する(ステップS301)。類似度算出部150dは、単語W(wX)と同一の単語の類似度をnormとして設定する(ステップS302)。
【0098】
類似度算出部150dは、単語Wの類似単語T(wi)を選択する(ステップS303)。類似度算出部150dは、類似単語Tの形式がw^pである場合には(ステップS304,Yes)、ステップS306に移行する。一方、類似度算出部150dは、類似単語Tの形式が、w^pでない場合には(ステップS304,No)、単語Wと類似単語TTとの類似度を正規化する(ステップS305)。
【0099】
類似度算出部150dは、全ての類似単語Tを選択していない場合には(ステップS306)、ステップS303に移行する。一方、類似度算出部150dは、全ての類似単語Tを選択した場合には(ステップS306,Yes)、ステップS307に移行する。
【0100】
類似度算出部150dは、全ての単語Wを選択していない場合には(ステップS307,No)、ステップS301に移行する。一方、類似度算出部150dは、全ての単語Wを選択した場合には(ステップS307,Yes)、処理を終了する。
【0101】
次に、本実施例に係る情報処理装置100の検索処理部150fが実行する処理手順の一例について説明する。図16は、検索処理部の処理手順を示すフローチャートである。図16に示すように、情報処理装置100の検索処理部150fは、入力部120からユーザIDを受け付け、ユーザテーブル140aから、ユーザ名を取得する(ステップS401)。検索処理部150fは、入力部120から打ち合わせ名の入力を受け付ける(ステップS402)。
【0102】
検索処理部150fは、打ち合わせ名を形態素解析し、形態素リストを生成する(ステップS403)。検索処理部150fは、検索文字列を生成する(ステップS404)。検索処理部150fは、全ての打ち合わせ名のスコアを0に初期化する(ステップS405)。
【0103】
検索処理部150fは、検索文字列に対応する類似度のリストを第2類似度テーブル140fから取得する(ステップS406)。検索処理部150fは、リストに含まれる類義を選択する(ステップS407)。検索処理部150fは、類義語とスコアを取得する(ステップS408)。
【0104】
検索処理部150fは、類義語を含む打ち合わせ名のリストを取得し、それぞれの打ち合わせ名について、類義語のスコアを加算する(ステップS409)。検索処理部150fは、各打ち合わせ名のスコアを正規化する(ステップS410)。
【0105】
検索処理部150fは、全ての類義語を選択していない場合には(ステップS411,No)、ステップS407に移行する。一方、検索処理部150fは、各打ち合わせ名をスコアの降順にソートし、上位の打ち合わせ名を表示部130に出力する(ステップS412)。
【0106】
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、会議の参加者リストの各ユーザ、各打ち合わせ名を基にして、打ち合わせ名の単語(形態素)とユーザ名とを連結した文字列の分散表現をそれぞれ比較して、類似度を算出する。これによって、ある打ち合わせの単語と類似の概念となる単語を検出することができる。
【0107】
たとえば、分散表現を割り当てる文字列には、ユーザ名、打ち合わせ名の形態素が含まれるため、同一の打ち合わせに参加したユーザが含まれる文字列同士は、同一の打ち合わせに参加していないユーザが含まれない文字列同士と比較して、分散表現が類似する傾向を利用して、ある打ち合わせの単語と類似の概念となる単語を検出している。
【0108】
たとえば、情報処理装置100により算出される類義語のリストは、上記の図2の10Bに示すものとなる。図2のリスト10Bに示すように、基準となる単語「特許」と類似の概念となる「まとめの会^OSA」、「抽出会」の類似度が大きくなっている。また、多くのノイズを削減できる。すなわち、本実施例に示す情報処理装置によれば、図18で説明した従来技術の結果と比較して、指定された単語と類似の概念となる単語を検出する処理が改善される。
【0109】
情報処理装置100は、基準文字列の分散表現と、比較対象の文字列の分散表現とを比較して、類似度を算出し、第1類似度テーブル140eを生成する。また、情報処理装置100は、基準文字列に対応するリストを第1類似度テーブル140eから取得し、リストに含まれる比較対象の文字列の順位を基にして、比較対象の文字列の類似度を算出(補正)する。これにより、順位が上であるほど、類似度を大きく設定でき、検出精度を向上できる。
【0110】
情報処理装置100は、リストに含まれる比較対象の文字列の上位kのうち、比較対象の文字列の単語の出現回数を基にして、比較対象の文字列の類似度を算出(補正)する。これにより、上位kの文字列に含まれる単語のうち、出現回数の多い単語の類似度を大きく設定でき、検出精度を向上できる。kは、予め設定される値である。
【0111】
図17は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0112】
図17に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る読み取り装置404と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置405とを有する。コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401~407は、バス408に接続される。
【0113】
ハードディスク装置407は、取得プログラム407a、テキスト生成プログラム407b、分散表現算出プログラム407c、類似度算出プログラム407d、抽出プログラム407e、検索プログラム407fを有する。CPU401は、取得プログラム407a、テキスト生成プログラム407b、分散表現算出プログラム407c、類似度算出プログラム407d、抽出プログラム407e、検索プログラム407fを読み出して、RAM406に展開する。
【0114】
取得プログラム407aは、取得プロセス406aとして機能する。テキスト生成プログラム407bは、テキスト生成プロセス406bとして機能する。分散表現算出プログラム407cは、分散表現算出プロセス406cとして機能する。類似度算出プログラム407dは、類似度算出プロセス406dとして機能する。抽出プログラム407eは、抽出プロセス406eとして機能する。検索プログラム407fは、検索プロセス406fとして機能する。
【0115】
取得プロセス406aの処理は、取得部150aの処理に対応する。テキスト生成プロセス406bの処理は、テキスト生成部150bの処理に対応する。分散表現算出プロセス406cの処理は、分散表現算出部150cの処理に対応する。類似度算出プロセス406dの処理は、類似度算出部150dの処理に対応する。抽出プロセス406eの処理は、抽出部150eの処理に対応する。検索プログラム407fの処理は、検索処理部150fの処理に対応する。
【0116】
なお、各プログラム407a~407fについては、必ずしも最初からハードディスク装置407に記憶させておかなくてもよい。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a~407fを読み出して実行するようにしてもよい。
【符号の説明】
【0117】
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a ユーザテーブル
140b 会議情報テーブル
140c テキストデータ
140d 分散表現リスト
140e 第1類似度テーブル
140f 第2類似度テーブル
150 制御部
150a 取得部
150b テキスト生成部
150c 分散表現算出部
150d 類似度算出部
150e 抽出部
150f 検索処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18