特許第6751188号(P6751188)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ DMG森精機株式会社の特許一覧

特許6751188情報処理装置、情報処理方法および情報処理プログラム
<>
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000002
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000003
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000004
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000005
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000006
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000007
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000008
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000009
  • 特許6751188-情報処理装置、情報処理方法および情報処理プログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6751188
(24)【登録日】2020年8月17日
(45)【発行日】2020年9月2日
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
   G06F 16/33 20190101AFI20200824BHJP
【FI】
   G06F16/33
【請求項の数】3
【全頁数】13
(21)【出願番号】特願2019-144071(P2019-144071)
(22)【出願日】2019年8月5日
【審査請求日】2019年12月20日
【早期審査対象出願】
(73)【特許権者】
【識別番号】000146847
【氏名又は名称】DMG森精機株式会社
(74)【代理人】
【識別番号】100134430
【弁理士】
【氏名又は名称】加藤 卓士
(74)【代理人】
【識別番号】100133639
【弁理士】
【氏名又は名称】矢野 卓哉
(74)【代理人】
【識別番号】100198960
【弁理士】
【氏名又は名称】奥住 忍
(72)【発明者】
【氏名】城下 了輔
(72)【発明者】
【氏名】大場 勇太
(72)【発明者】
【氏名】櫻井 努
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開平10−240759(JP,A)
【文献】 国際公開第2014/002774(WO,A1)
【文献】 特開2011−141892(JP,A)
【文献】 特開2008−242681(JP,A)
【文献】 特開2004−062893(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
機械の種類と、日程と、自由入力が可能なオプション欄とを含む仕様書データを取得する取得部と、
(a)文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる単語の意味を表すベクトルの積算結果としての第1ベクトルと、前記取得部が取得した前記仕様書データに含まれるオプション欄に記載された第1オプションに含まれる単語の意味を表すベクトルの積算結果としての第2ベクトルと、のコサイン距離を前記第1オプションの第1類似度として算出し、(b)前記第1ベクトルと、前記取得部が取得した仕様書のデータに含まれる前記オプション欄に記載された第2オプションに含まれる単語の意味を表すベクトルの積算結果としての第3ベクトルと、のコサイン距離を前記第2オプションの第1類似度として算出する第1算出部と、
(c)前記文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる文字列と、前記第1オプションに含まれる文字列との相違を距離として算出し、その距離の近さを前記第1オプションの第2類似度として算出し、(d)前記文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる文字列と、前記第2オプションに含まれる文字列との相違を距離として算出し、その距離の近さを前記第2オプションの第2類似度として算出する第2算出部と、
(e)前記第1オプションの前記第1類似度及び前記第2類似度に基づいて前記第1オプションに類似する文書を前記文書データベースに保存された複数の仕様書から選択し、(f)前記第2オプションの前記第1類似度及び前記第2類似度に基づいて前記第2オプションに類似する文書を前記文書データベースに保存された複数の仕様書から選択する選択部と、
を備えた情報処理装置。
【請求項2】
工作機械の仕様書のオプション欄に記載されているであろう単語を含む検索対象としての文書データをユーザから受信する受信部と、
前記文書データに含まれる複数の単語の意味をそれぞれベクトル化して積算して第1文書ベクトルを算出する算出部と、
過去の仕様書のオプション欄に自由に記載された文書を示すオプション欄データと、前記オプション欄データに含まれる単語の意味をそれぞれベクトル化して積算した結果としての第2文書ベクトルとを対応付けて記憶する仕様書データベースと、
前記第1文書ベクトルと前記第2文書ベクトルとのコサイン距離を第1類似度として算出する第1算出部と、
前記オプション欄データに含まれる文字と、前記文書データに含まれる文字とを比較し、文字列の相違を表す距離第2類似度として算出する第2算出部と、
前記第1類似度および前記第2類似度に基づいて、前記文書データに類似する前記オプション欄データを含む類似仕様書を前記仕様書データベースから選択する選択部と、
前記類似仕様書を前記ユーザに送信する送信部と、
を備えた情報処理装置。
【請求項3】
前記文字列の相違を表す距離は、レーベンシュタイン距離である請求項1または2に記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
上記技術分野において、特許文献1には、文書に含まれる単語に重要度を付し、単語の重要度を要素とする多次元ベクトルにより文書の特徴を表現し、文書間のベクトルの角度により類似度を判断する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015−219799号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記文献に記載の技術では、効率的に類似文書を発見することができなかった。
【0005】
本発明の目的は、上述の課題を解決する技術を提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明にかかる情報処理装置は、
工作機械の仕様書のオプション欄に記載されているであろう単語を含む検索対象としての文書データをユーザから受信する受信部と、
前記文書データに含まれる複数の単語の意味をそれぞれベクトル化して積算して第1文書ベクトルを算出する算出部と、
過去の仕様書のオプション欄に自由に記載された文書を示すオプション欄データと、前記オプション欄データに含まれる単語の意味をそれぞれベクトル化して積算した結果としての第2文書ベクトルとを対応付けて記憶する仕様書データベースと、
前記第1文書ベクトルと前記第2文書ベクトルとのコサイン距離を第1類似度として算出する第1算出部と、
前記オプション欄データに含まれる文字と、前記文書データに含まれる文字とを比較し、文字列の相違を表す距離第2類似度として算出する第2算出部と、
前記第1類似度および前記第2類似度に基づいて、前記文書データに類似する前記オプション欄データを含む類似仕様書を前記仕様書データベースから選択する選択部と、
前記類似仕様書を前記ユーザに送信する送信部と、
を備えた。
上記目的を達成するため、本発明にかかる他の情報処理装置は、
機械の種類と、日程と、自由入力が可能なオプション欄とを含む仕様書データを取得する取得部と、
(a)文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる単語の意味を表すベクトルの積算結果としての第1ベクトルと、前記取得部が取得した前記仕様書データに含まれるオプション欄に記載された第1オプションに含まれる単語の意味を表すベクトルの積算結果としての第2ベクトルと、のコサイン距離を前記第1オプションの第1類似度として算出し、(b)前記第1ベクトルと、前記取得部が取得した仕様書のデータに含まれる前記オプション欄に記載された第2オプションに含まれる単語の意味を表すベクトルの積算結果としての第3ベクトルと、のコサイン距離を前記第2オプションの第1類似度として算出する第1算出部と、
(c)前記文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる文字列と、前記第1オプションに含まれる文字列との相違を距離として算出し、その距離の近さを前記第1オプションの第2類似度として算出し、(d)前記文書データベースに保存された複数の仕様書データのそれぞれのオプション欄に含まれる文字列と、前記第2オプションに含まれる文字列との相違を距離として算出し、その距離の近さを前記第2オプションの第2類似度として算出する第2算出部と、
(e)前記第1オプションの前記第1類似度及び前記第2類似度に基づいて前記第1オプションに類似する文書を前記文書データベースに保存された複数の仕様書から選択し、(f)前記第2オプションの前記第1類似度及び前記第2類似度に基づいて前記第2オプションに類似する文書を前記文書データベースに保存された複数の仕様書から選択する選択部と、
を備えた。
【0007】
上記目的を達成するため、本発明にかかる情報処理方法は、
工作機械の仕様書のオプション欄に記載されているであろう単語を含む検索対象としての文書データをユーザから受信部が受信する受信ステップと、
前記文書データに含まれる複数の単語の意味をそれぞれベクトル化して積算して第1文書ベクトルを文書ベクトル算出部が算出する文書ベクトル算出ステップと、
過去の仕様書のオプション欄に自由に記載された文書を示すオプション欄データと、前記オプション欄データに含まれる単語の意味をそれぞれベクトル化して積算した結果としての第2文書ベクトルとを対応付けてを記憶する仕様書データベースを用いて、前記第1文書ベクトルと前記第2文書ベクトルとのコサイン距離を第1算出部が第1類似度として算出する第1算出ステップと、
前記オプション欄データに含まれる文字列と、前記文書データに含まれる文字列とを比較し、文字列の相違を表す距離を第2類似度として第2算出部が算出する第2算出ステップと、
前記第1類似度および前記第2類似度に基づいて、前記文書データに類似する前記オプション欄データを含む類似仕様書を前記仕様書データベースから選択部が選択する選択ステップと、
前記類似仕様書を前記ユーザに送信部が送信する送信ステップと、
を含む。
【0008】
上記目的を達成するため、本発明に係る情報処理プログラムは、
文書データベースに保存された複数の文書のそれぞれに含まれる単語の意味を表すベクトルの積算結果としての点と、新たに取得した文書に含まれる単語の意味を表すベクトルの積算結果としての点との距離を第1類似度として算出する第1算出ステップと、
複数の文書のそれぞれに含まれる文字と、新たに取得した文書に含まれる文字との相違を距離として算出し、その距離の近さを第2類似度として算出する第2算出ステップと、
前記第1類似度および前記第2類似度に基づいて、前記新たに取得した文書に類似する文書を前記複数の文書から選択する選択ステップと、
をコンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、より効率的に類似文書を発見することができる。
【図面の簡単な説明】
【0010】
図1】本発明の第1実施形態に係る情報処理装置の内部構成を説明する図である。
図2A】本発明の第2実施形態に係る情報処理装置の動作の概要を説明する図である。
図2B】本発明の第2実施形態に係る情報処理装置の類似検索アルゴリズムの一例を説明する図である。
図3A】本発明の第2実施形態に係る情報処理装置の構成を示すブロック図である。
図3B】本発明の第2実施形態に係る情報処理装置により返信される返信メールの内容の一例を説明する図である。
図4A】本発明の第2実施形態に係る情報処理装置が有するベクトル化テーブルの一例を示す図である。
図4B】本発明の第2実施形態に係る情報処理装置が有するベクトル変換テーブルの一例を示す図である。
図5】本発明の第2実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
図6】本発明の第2実施形態に係る情報処理装置の処理手順を説明するフローチャートである。
【発明を実施するための形態】
【0011】
以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。
【0012】
[第1実施形態]
本発明の第1実施形態に係る情報処理装置について、図1を用いて説明する。図1は、本実施形態に係る情報処理装置の内部構成を説明するための図である。
【0013】
情報処理装置100は、算出部101、算出部102および選択部103を有する。算出部101は、文書データベース160に保存された複数の文書161のそれぞれに含まれる単語の意味を表すベクトルの積算結果としての点162と、新たに取得した文書150に含まれる単語の意味を表すベクトルの積算結果としての点152との距離を類似度111として算出する。算出部102は、複数の文書161のそれぞれに含まれる文字163と、新たに取得した文書150に含まれる文字153との相違を距離として算出し、その距離の近さを類似度121として算出する。選択部103は、類似度111および類似度121に基づいて、新たに取得した文書150に類似する文書170を複数の文書141から選択する。
【0014】
本実施形態によれば、より効率的に類似文書を発見することができる。
【0015】
[第2実施形態]
次に本発明の第2実施形態に係る情報処理装置について、図2A乃至図6を用いて説明する。図2Aは、本実施形態に係る情報処理装置200の動作の概要を説明する図である。例えば、工作機械販売者210が、工作機械の購入希望者から工作機械の見積り依頼や工作機械の設計依頼を受けた場合、その種の依頼に基づいて、文書250(設計書または仕様書)を作成して、情報処理装置200に送信する。情報処理装置200は、受け取った文書250に類似する仕様書261をデータベース260から検索し、過去の類似事例の工作機械の仕様書261を工作機械販売者210に提示する。
【0016】
過去の類似事例の仕様書261を参照すれば、工作機械販売者210は、見積書を作成する際や、実際に受注して工作機械の設計をする際に、どんな部品を取り付けていたか、価格がいくらだったかなどをすぐに知ることができる。そのため、工作機械販売者210は、見積書の作成や設計を容易に行うことができ、見積書の作成の時間や設計の時間、部品の発注に要する時間を大幅に短縮することができる。
【0017】
工作機械の仕様書250,261には、工作機械の種類、日程(商談開始日、打ち合わせ日、発注日)、オプションなどの記入欄がある。ここで、オプション欄は、いわゆる自由入力欄に相当するものであり、各顧客の個別の事情に合わせた、工作機械の様々な仕様を指定するための情報を記入する欄である。つまり、オプション欄は、顧客の要望が自由な体裁で記載されている。例えば、ある工作機械販売者210は、部品の名称、個数などを箇条書き形式で記入し、また、他の工作機械販売者210は、顧客の要望を文章化して記入する。このように、オプション欄の記載は、自由度が高く、工作機械販売者210によっては、略称や略語、記号などを用いて記載することもあり、記載のための決まったフォーマットはない。
【0018】
そして、工作機械の見積書の作成や設計書の作成においては、オプション欄の記載が重要となる。つまり、例えば、工作機械の機種が同じであっても、どのようなオプションを設定するか応じて、見積内容や設計内容が大幅に異なってくる。そのため、工作機械販売者210は、オプション欄に記載されている内容に基づいて、過去の類似事例を検索する。
【0019】
ただし、工作機械販売者210が検索のためのキーワードを考え、そのキーワードを用いて検索を行う場合には、工作機械販売者210が考えたキーワードが適切でなければ、工作機械販売者210が望むような検索結果は返ってこない。
【0020】
そこで、工作機械販売者210は、過去の仕様書のオプション欄に記載されているであろう文章、用語、単語、記号、数値などを記載した送信メール20を作成し、情報処理装置200へ送信する。送信メール20を受信した情報処理装置200は、送信メール20に記載されている文章などに基づいて、データベース260から類似するオプション欄の記載を有する仕様書を検索し、抽出する。そして、情報処理装置200は、抽出した仕様書を返信メール230として工作機械販売者210に返信する。なお、工作機械の仕様書は、データベース260に保存され、管理されている。データベース260は、情報処理装置200の内部にあっても、外部にあってもよい。
【0021】
情報処理装置200は、データベース260の検索の際に、データベース260に保存されている仕様書の全てについて、工作機械販売者210が所望するオプション欄の記載との類似度を算出し、類似度の高い仕様書を抽出する。情報処理装置200は、類似度の算出において、図3Cに示すように、コサイン距離およびレーベンシュタイン距離の2つの指標を用いて類似度を算出する。コサイン距離を用いた算出手法は、言葉や単語の意味が似ているものは類似度として高い値を算出する手法であり、言葉の意味をベースとした算出手法である。
【0022】
また、レーベンシュタイン距離を用いた算出手法は、文字列自体がどの程度類似しているかで類似度を算出する手法であり、文字をベースとした算出手法である。例えば、文字列同士の相違が3文字以下であれば類似度として高い値を算出し、4文字以上であれば類似度として低い値を算出する手法である。情報処理装置200は、この2つの類似度の算出手法を組み合わせて過去の類似事例を検索する。情報処理装置200は、例えば、コサイン距離による類似度を50点満点、レーベンシュタイン距離による類似度を50点満点で算出し、両者の合計(100点満点)で全体としての類似度を算出する。
【0023】
情報処理装置200は、算出した類似度の値と所定の閾値とを比較して、所定の閾値よりも高い類似度の値を有する仕様書を類似事例と決定する。情報処理装置200は、類似事例と決定された仕様書を返信メール230に添付して工作機械販売者210に返信する。これにより、例えば、工作機械のある機種のオプション欄の記載については、返信メール230に添付されたような過去の仕様書、つまり、過去の類似事例があったことが分かる。
【0024】
図3Aは、本実施形態に係る情報処理装置の構成を示すブロック図である。図3Bは、本実施形態に係る情報処理装置により返信される返信メールの内容の一例を説明する図である。情報処理装置200は、算出部301、算出部302、選択部303および送受信部304を有する。まず、データベース260に保存された複数の仕様書241のうち1つの仕様書241に着目する。算出部301は、仕様書241に含まれる全ての単語の意味を表すベクトルを求め、求めたベクトルを積算し、その結果としての点を求める。
【0025】
次に、算出部301は、データベース260に保存されている仕様書の残りの仕様書の全てについて上述の計算を行い、それぞれの仕様書のベクトルの積算結果としての点を求める。
【0026】
次に、算出部301は、新たに取得した文書250に含まれる単語の意味を表す単語ベクトルを求め、求めた単語ベクトルの和を取り、の単語ベクトルの積算結果としての文書ベクトルを示すの座標を求める。
【0027】
そして、算出部301は、仕様書261の文書ベクトルとしての点262と、文書250の文書ベクトルとしての点252と、のコサイン距離を類似度311として算出する。算出された類似度311は、算出部301に一時的に保存される。
【0028】
このコサイン距離の類似度311は、コサイン類似度と呼ばれるものであり、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度計算手法であり、2本の文書ベクトルの向きがどれくらい同じ向きを向いているのかを表す指標となる。コサイン距離1に近ければ類似していることを、0に近ければ類似していないことを表す。
【0029】
算出部302は、データベース260に保存された複数の仕様書261のそれぞれに含まれる文字263と、新たに取得した文書250に含まれる文字253との相違を距離として算出する。算出部302は、算出された距離の近さを類似度321として算出する。
【0030】
ここで、算出部302が算出する距離は、レーベンシュタイン距離と呼ばれるものである。レーベンシュタイン距離とは、2つの文字列がどの程度異なっているかを示す距離の一種である。
【0031】
選択部303は、算出部301で算出した類似度311と算出部302で算出した類似度321とを合算して類似度331を生成する。選択部303は、生成した類似度331に基づいて、文書250に類似する仕様書をデータベース260に保存された仕様書261から類似仕様書270として選択する。
【0032】
類似度311と類似度321とを合算して生成された類似度331は、意味に基づく類似度と文字に基づく類似度との組み合わせとなっており、これら2つの類似度をバランスよく組み合わせることにより、文書250と類似する類似仕様書270を抽出できる。
【0033】
送受信部304は、選択された類似仕様書270を返信メールに添付して工作機械販売者210へ返信する。返信されるメールは、具体的には、図3Bに示したような内容のメールとなる。なお、送受信部304は、選択された類似仕様書270を添付して返信する代わりに、類似仕様書270へのリンク先のアドレスをユーザに返信メールとして返信してもよい。
【0034】
なお、選択された類似仕様書270について、工作機械販売者210の望むものであったか否かのフィードバックを工作機械販売者210から受けて、選択結果の良し悪しを学習させるようにしてもよい。
【0035】
なお、ここでは、工作機械の仕様書を例に説明をしたが、情報処理装置200が受信する、新たに取得した文書250は仕様書には限定されず、例えば、部品の発注書、製品が故障した場合のユーザからの問い合わせ文書などであってもよい。
【0036】
図4Aは、本実施形態に係る情報処理装置が有するベクトル化テーブルの一例を示す図である。仕様書ID(Identifier)411は、仕様書を識別するための識別子であり、データベース260に保存されている各仕様書に一意に割り当てられている。データベース260には、新たな仕様書が作成される度に、作成された仕様書が保存される。オプション欄412は、顧客要望を自由に表した文書であり、どのような部品を付け足したか、価格はいくらか、などが記入されている。文書ベクトル413は、仕様書(文書)に含まれる各単語のベクトルを足し合わせたものである。このように、各仕様書のオプション欄の文書ベクトルをあらかじめ計算しておくと、文書ベクトル同士のコサイン距離(コサイン類似度)を求めることにより、類似度の近い仕様書を迅速、確実に特定することができる。これらの他に、ベクトル化テーブル401は、例えば、工作機械の機種、日程、NC装置の種類などを記憶してもよい。ここで、日程は、例えば、商談開始日、商談打ち合わせ日、発注日などを含む。なお、ベクトル化テーブル401は、機種ごとにソートしてもよい。
【0037】
図4Bは、本実施形態に係る情報処理装置が有するベクトル変換テーブルの一例を示す図である。ベクトル変換テーブル402は、単語に421に関連付けてベクトル422を記憶する。単語421は、工作機械の仕様書に含まれる言葉である。なお、単語421には、一般用語の他に略語や外国語、専門用語なども含まれる。ベクトル422は、単語421の一つ一つのベクトルであり、単語421をベクトル化した場合に、どのようなベクトルとなるかを示している。つまり、ベクトル変換テーブル402は、単語とベクトルとの対応関係を表している。情報処理装置200は、各単語について、コサイン距離をあらかじめ算出しているので、ベクトル変換テーブル402を参照すれば、仕様書のオプション欄のコサイン距離を容易に算出することができる。
【0038】
図5は、本実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。CPU(Central Processing Unit)510は、演算制御用のプロセッサであり、プログラムを実行することで図3の情報処理装置200の機能構成部を実現する。CPU510は複数のプロセッサを有し、異なるプログラムやモジュール、タスク、スレッドなどを並行して実行してもよい。ROM(Read Only Memory)520は、初期データおよびプログラムなどの固定データおよびその他のプログラムを記憶する。また、ネットワークインタフェース530は、ネットワークを介して他の装置などと通信する。なお、CPU510は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPU(Graphics Processing Unit)を含んでもよい。また、ネットワークインタフェース530は、CPU510とは独立したCPUを有して、RAM(Random Access Memory)540の領域に送受信データを書き込みあるいは読み出しするのが望ましい。また、RAM540とストレージ550との間でデータを転送するDMAC(Direct Memory Access Controller)を設けるのが望ましい(図示なし)。さらに、CPU510は、RAM540にデータが受信あるいは転送されたことを認識してデータを処理する。また、CPU510は、処理結果をRAM540に準備し、後の送信あるいは転送はネットワークインタフェース530やDMACに任せる。
【0039】
RAM540は、CPU510が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM540には、本実施形態の実現に必要なデータを記憶する領域が確保されている。取得文書541は、工作機械販売者210が、情報処理装置200に対して送信した、類似する仕様書を検索するための文書である。コサイン距離542は、取得した文書250とデータベース260に保存されている複数の仕様書261とがどれくらい似通っているかを示す距離である。レーベンシュタイン距離543は、取得した文書250に含まれる文字と、データベース260に保存されている複数の仕様書261の文字とが文字ベースでどれくらい似通っているかを示す距離である。類似度544は、コサイン距離542およびレーベンシュタイン距離543に基づいて決定された、取得した文書250とデータベース260に保存されている複数の仕様書261とが類似している割合である。類似仕様書545は、類似度544に基づいて選択された取得した文書250に類似する文書である。
【0040】
送受信データ546は、ネットワークインタフェース530を介して送受信されるデータである。また、RAM540は、各種アプリケーションモジュールを実行するためのアプリケーション実行領域547を有する。
【0041】
ストレージ550には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。ストレージ550は、ベクトル化テーブル401および変換テーブル402を格納する。ベクトル化テーブル401は、図4Aに示した、仕様書ID411と文書ベクトル413などとを関連付けて記憶するテーブルである。変換テーブル402は、図4Bに示した、単語421とベクトル422とを関連付けて記憶するテーブルである。
【0042】
ストレージ550は、さらに、算出モジュール551、算出モジュール552、選択モジュール553および送受信モジュール554を格納する。算出モジュール551は、コサイン距離を算出するモジュールである。算出モジュール552は、レーベンシュタイン距離を算出するモジュールである。選択モジュール553は、コサイン距離とレーベンシュタイン距離とに基づいて、新たに取得した文書250と類似する類似仕様書270を選択するモジュールである。送受信モジュール554は、文書250を電子メールで受信し、類似仕様書270を電子メールで返信するモジュールである。これらのモジュール551〜554は、CPU510によりRAM540のアプリケーション実行領域547に読み出され、実行される。制御プログラム555は、情報処理装置200の全体を制御するためのプログラムである。
【0043】
入出力インタフェース560は、入出力機器との入出力データをインタフェースする。入出力インタフェース560には、表示部561、操作部562、が接続される。また、入出力インタフェース560には、さらに、記憶媒体564が接続されてもよい。さらに、音声出力部であるスピーカ563や、音声入力部であるマイク(図示せず)、あるいは、GPS位置判定部が接続されてもよい。なお、図5に示したRAM540やストレージ550には、情報処理装置200が有する汎用の機能や他の実現可能な機能に関するプログラムやデータは図示されていない。
【0044】
図6は、本実施形態に係る情報処理装置200の処理手順を説明するためのフローチャートである。このフローチャートは、図5のCPU510がRAM540を使用して実行し、図3の情報処理装置200の機能構成部を実現する。
【0045】
ステップS601において、情報処理装置200は、ユーザが知りたい過去の仕様書を検索するためのキーワードなどを記した文書をユーザから受信する。ステップS603において、情報処理装置200は、ユーザから受信した文書とデータベース260に保存されている仕様書とのコサイン距離を算出する。ステップS605において、情報処理装置200は、ユーザから受信した文書とデータベース260に保存されている仕様書とのレーベンシュタイン距離を算出する。ステップS607において、情報処理装置200は、算出したコサイン距離と算出したレーベンシュタイン距離との和をとり、保存仕様書の類似度を算出する。ステップS609において、情報処理装置200は、データベース260に保存されている全ての仕様書について、類似度の算出が完了したか否かを判断する。全ての保存仕様書について、類似度の算出が完了していない場合(ステップS609のNO)、情報処理装置200は、ステップS603以降の処理を繰り返す。全ての保存仕様書について、類似度の算出が完了している場合(ステップS609のYES)、情報処理装置200は、ステップS611へ進む。ステップS611において、情報処理装置200は、所定の閾値以上の類似度を持つ仕様書を類似仕様書として電子メールに添付してユーザに送信する。
【0046】
本実施形態によれば、コサイン距離とレーベンシュタイン距離とを組み合わせて類似度を判定するので、ユーザが探している文書に類似している過去の仕様書を迅速、確実に見つけ出すことができる。
【0047】
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の技術的範囲で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の技術的範囲に含まれる。
【0048】
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に供給され、内蔵されたプロセッサによって実行される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、プログラムを実行するプロセッサも本発明の技術的範囲に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の技術的範囲に含まれる。
【要約】      (修正有)
【課題】より効率的に類似文書を発見する情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置100は、文書データベースに保存された複数の文書のそれぞれに含まれる単語の意味を表すベクトルの積算結果としての点と、新たに取得した文書に含まれる単語の意味を表すベクトルの積算結果としての点との距離を第1類似度として算出する第1算出部101と、複数の文書のそれぞれに含まれる文字と、新たに取得した文書に含まれる文字との相違を距離として算出し、その距離の近さを第2類似度として算出する第2算出部102と、第1類似度および第2類似度に基づいて、新たに取得した文書に類似する文書を複数の文書から選択する選択部103と、を備える。
【選択図】図1
図1
図2A
図2B
図3A
図3B
図4A
図4B
図5
図6