特許第5779529号(P5779529)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立システムズの特許一覧

特許5779529類似設計書検索システム及び類似設計書検索方法
<>
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000002
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000003
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000004
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000005
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000006
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000007
  • 特許5779529-類似設計書検索システム及び類似設計書検索方法 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5779529
(24)【登録日】2015年7月17日
(45)【発行日】2015年9月16日
(54)【発明の名称】類似設計書検索システム及び類似設計書検索方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150827BHJP
   G06F 9/44 20060101ALI20150827BHJP
【FI】
   G06F17/30 350C
   G06F17/30 170Z
   G06F9/06 620K
【請求項の数】8
【全頁数】12
(21)【出願番号】特願2012-63878(P2012-63878)
(22)【出願日】2012年3月21日
(65)【公開番号】特開2013-196468(P2013-196468A)
(43)【公開日】2013年9月30日
【審査請求日】2014年9月22日
(73)【特許権者】
【識別番号】000233491
【氏名又は名称】株式会社日立システムズ
(74)【代理人】
【識別番号】100080001
【弁理士】
【氏名又は名称】筒井 大和
(74)【代理人】
【識別番号】100113642
【弁理士】
【氏名又は名称】菅田 篤志
(74)【代理人】
【識別番号】100117008
【弁理士】
【氏名又は名称】筒井 章子
(74)【代理人】
【識別番号】100147430
【弁理士】
【氏名又は名称】坂次 哲也
(72)【発明者】
【氏名】藤村 美和
【審査官】 早川 学
(56)【参考文献】
【文献】 特開平3−1230(JP,A)
【文献】 岸本康成、外4名,スコーピング支援のためのソフトウェア類似性分析手法の提案,ソフトウェアエンジニアリング最前線2010,株式会社近代科学社,2010年 8月31日,pp.51〜56
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 9/44
(57)【特許請求の範囲】
【請求項1】
複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを特徴とする類似設計書検索システム。
【請求項2】
前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項1記載の類似設計書検索システム。
【請求項3】
前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを特徴とする請求項1又は2記載の類似設計書検索システム。
【請求項4】
前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項1から3何れかに記載の類似設計書検索システム。
【請求項5】
複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを特徴とする類似設計書検索方法。
【請求項6】
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを特徴とする請求項5記載の類似設計書検索方法。
【請求項7】
前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを特徴とする請求項5又は6記載の類似設計書検索方法。
【請求項8】
前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを特徴とする請求項5から7何れかに記載の類似設計書検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータプログラムの設計書を作成する際に既存の設計書を検索することができる類似設計書検索システム及び類似設計書検索方法に関する。
【背景技術】
【0002】
一般にコンピュータプログラムは、メインプログラム及び該メインプログラムから分岐する個別機能を実現する複数のモジュール(サブルーチンプログラム)から構成するように構造化されており、このモジュール単位の設計書は細分化された個別機能であるために過去に作成された既存の設計書や他のグループで既に作成された設計書と類似する可能性がある。一般に、既設の設計書が在るにもかかわらず新たな設計書を作成することは効率的でないことから、前述の既存の設計書を再利用することが望まれるが、従来技術においては、既設の設計書が再利用に有効であるかの判断が困難なため、熟練者による手作業において探すことが行われてする。
【0003】
なお、類似度が高い文書を検索する技術が記載された文献としては下記の特許文献1が挙げられ、この特許文献1には、入力文字列と文書データベースの文書を二つの文字列とし、二つの文字列それぞれにおける順序に適合する部分文字列であって、前記二つの文字列に共通する部分文字列を複数求め、前記複数求めた部分文字列に対してそれぞれ重みを定め、該重みを総和することによって類似度を算出する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2001−67378号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
前述の特許文献1記載技術は、類似する文字列の出現頻度が大きい文書を検索することができるものの、両文書の類似箇所を表示することが考慮されていないために検索者による類似箇所の確認が困難であると共に、類似しているとした文書であっても、基になっている文書と類似する文字列の文字数とに極端な差がある場合では、同じ文字列が共通してとしても内容が異なり、参考にならない場合があるという不具合があった。
【0006】
特にコンピュータプログラムの設計書においては、設計書の記載方法が項目別に定型化され、この項目に記載される内容も専門用語や特定の用語が繰り返して多用されるため、単純に類似する文字列が多い場合であっても既存の設計書としては内容が異なり、参考にならないという不具合があった。
【0007】
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既存の設計書から類似する設計書を容易に検索することができる類似設計書検索システム及び類似設計書検索方法を提供することである。
【課題を解決するための手段】
【0008】
前記目的を達成するために本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えた類似設計書検索システムであって、
前記設計書解析処理ユニットが、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程と、
前記類似設計書出力ユニットが、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行することを第1の特徴とする。
【0009】
また、本発明は、第1特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第8工程と、
該第8工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第9工程と、
該第9工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第2の特徴とし、
前記何れかの特徴の類似設計書検索システムにおいて、前記類似設計書出力ユニットが、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行し、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行することを第3の特徴し、
前記何れかの特徴の類似設計書検索システムにおいて、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第4の特徴とする。
【0010】
更に、本発明は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムに接続され、入力した新設計書の文書構造を抽出する設計書文書抽出処理部及び該設計書文書抽出処理部により抽出した文書構造を解析する設計書解析処理部とを含む設計書解析処理ユニットと、該設計書解析処理ユニットにより解析した設計書の類似度判定結果ファイルを出力する類似設計書出力ユニットとを備えたコンピュータシステムにおける類似設計書検索方法であって、
前記設計書解析処理ユニットに、入力した新設計書に含まれる改行毎の文字列を抽出して前記汎用連想計算システムに出力する第1工程を実行させ、
前記類似設計書出力ユニットに、
前記汎用連想計算システムから出力された前記入力文字列と類似する既存設計書候補を入力する第2工程と、
該第2工程によって入力された既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上か否かを判定する第3工程と、
該第3工程によって既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でないと判定したとき、該判定した既存設計書候補を蓄積する第4工程と、
該第4工程によって蓄積した既存設計書候補の文字列と前記新設計書文字列とを比較し、該新設計書文字列と一致する既存設計書文字列の文字色を標準色に対して変化させる第5工程と、
該第5工程によって一致文字色を変化させた既存設計書候補を類似度判定結果ファイルとして出力する第6工程とを実行させることを第5の特徴とする。
【0011】
また、本発明は、第5の特徴の類似設計書検索方法において、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
前記類似設計書出力ユニットに、前記第5工程における新設計書文字列と一致する既存設計書文字列の判定を、
新設計書文字列の文字と既存設計書文字列に含まれる文字とを対象とし、新設計書文字と既存設計書の文字が一致するか否かを既存設計書の先頭文字から順に比較する第7工程と、
該第7工程において既存設計書に一致する文字が無いと判定したとき、新設計書文字列の文字を先頭から1文字ずつ除外する第工程と、
該第工程により先頭文字を除外した新設計書文字と既存設計書の文字が一致するか否かを先頭文字から順に比較する第工程と、
該第工程において先頭文字を除外した新設計書文字と既存設計書の文字が一致しないと判定したとき、新設計書文字列の文字を最後尾から1文字ずつ除外する第10工程と、
該第10工程により最後尾文字を除外した新設計書文字と既存設計書の文字が一致するか否かを最後尾文字から順に比較する第11工程と、
を含むことを第6の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記類似設計書出力ユニットに、前記第6工程によって出力された類似度判定結果ファイルを入力とし、該類似度判定結果ファイルに含まれる既存設計書候補に基づいて前記第1工程から第4工程とを実行する第12工程を実行させ、該第12工程により蓄積した既存設計書候補に前記第4工程により蓄積した既存設計書候補が含まれているか否かを判定する第13工程とを実行させることを第の特徴とし、
前記何れかの特徴の類似設計書検索方法において、前記第3工程における既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍を3倍にすることを第の特徴とする。
【発明の効果】
【0012】
本発明による類似設計書検索システム及び類似設計書検索方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書の文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。
【図面の簡単な説明】
【0013】
図1】本発明の一実施形態による類似設計書検索システムの構成図。
図2】本実施形態による類似設計書検索システムの全体流れ図。
図3】本実施形態の対象となる設計書を説明するための図。
図4】本実施形態による類似設計書検索フローを示す図。
図5】本実施例による設計書のサンプルを示す図。
図6】本実施形態による汎用連想検索エンジン辞書の項目を説明するための図。
図7】本実施形態による似設計書検索原理を説明するための図。
【発明を実施するための形態】
【0014】
以下、本発明の一実施形態による類似設計書検索システム及び類似設計書検索方法を図面を参照して説明する。
[構成]
まず、本発明による類似設計書検索方法及び類似設計書検索プログラムは、同様な機能を実行するモジュールのプログラムにおいては同様な設計書の記述内容に成り、設計書の最初の方の記述内容も同様になることを利用し、新設計書の最初(主要機能等の任意の箇所であっても良い)の記述内容を作成した段階で過去に作成した多数の既存設計書の中から類似する既存設計書を検索し、且つ、新設計書と既存設計書の類似箇所を色分け表示することによって、既存設計書を新設計書作成に利用するものである。
【0015】
この本実施形態による類似設計書検索方法及び類似設計書検索プログラムを実行する類似設計書検索システムは、図1に示す如く、表計算形式によって入力した設計書ファィル107に類似する既存の設計書を検索する類似設計書検索システム102と、文書間の類似度の連想を計算する汎用連想計算システム112とを備えたコンピュータサーバ101によって構成され、該汎用連想計算システム112は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって算出する機能を有する。
【0016】
前記類似設計書検索システム102は、入力された設計書ファイル107を入力として設計書の文書構造を抽出する設計書文書抽出処理部109及び該設計書文書抽出処理部109により抽出した文書構造を解析する設計書解析処理部106とを含む設計書解析処理ユニット104と、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を出力するための類似設計書出力ユニット103とから構成される。
【0017】
前記類似設計書出力ユニット103は、該設計書解析処理ユニット104によって解析した設計書の類似度判定結果を表示するための類似計算結果情報を作成する類似計算結果表示作成処理部105と、該類似計算結果表示作成処理部105によって表示部に表示された設計書の類似計算結果情報の類似度を操作者が出力するか否かの判定結果を判定するための出力可否判定処理部108及び該出力可否判定処理部108に出力されると判定したとき、該類似計算結果情報をブラウザ表示用のHTML文書に編集して類似度検索結果ファイル110として画面出力するHTML出力編集処理部111とから構成される。
【0018】
前記汎用連想計算システム112は、既存の複数の設計書及び単語間の類似度の連想を行うための連想辞書を格納した汎用連想計算エンジン辞書114と、該汎用連想計算エンジン辞書114をアクセスして入力された設計書の記述内容と類似する既存の設計書を検索する汎用連想計算エンジン113とから構成される。
【0019】
前記設計書ファイル107の設計文書(記述内容)は、複数文字から成る文字列を項目毎に改行して表されるものであって、例えば、図3(a)の符号207にサンプルとして示す如く、設計書ファイルのシステム毎の識別子であるシステムIDと、該システムIDに対応したシステム名と、当該設計書ファイルのシステム種別と、設計書ファイルのシステム概要との各項目とから構成され、具体的には、例えば、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「基本イベントフロー」、同システム概要「1.ファイルをオープンする。2.ファイルを読み込む。3.ファイルをクローズする。」の如く記載され、システムID「U−0−0−0−0−0」のシステム名「ファイルを読み込む」が、同システム種別「代替イベントフロー」、同システム概要が「1a.ファイルのオープンが失敗した場合、メッセージを出力する。」の如く記載され、図示の如く改行単位に構成されている。
【0020】
また、前記類似度検索結果ファイル110の類似計算結果情報のサンプルは、例えば図3(b)の符号208として示す如く、設計書ファイル107のシステム概要「ファイルをオープンする。」に類似する設計書分書情報が、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」、システム概要「ファイルオープン」と、システムID「U−0−0−0−0−1」のシステム名「ファイル検索」、システ概要「ファイルオープン」と、システムID「U−0−0−0−0−2」のシステム名「ファイル検索」、システム概要「ファイルクローズとであるとして出力される。
【0021】
前記汎用連想計算エンジン辞書114の連想辞書の項目は、図6(a)に示す如く、使用する辞書の項目は4項目であって、これら4項目は設計中のシステムを識別するための識別子に相当する記号番号であるシステムIDと、設計対象となるシステムの日本語名称であるシステム名と、設計対象となるシステムの流れ(処理フロー)の種別であるシステム種別との各項目情報とから成り、具体的には、図6(b)に示す如く、システムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「基本イベントフロー」として、システム概要が「1.ファルをオープンする。」と「2.ファイルを読み込む。」と「3.ファイルをクローズするル。」があり、同様にシステムID「U−0−0−0−0−0」のシステム名「ファイル読み込み」のシステム種別「代替イベントフロー」として、システム概要が「1a.ファルのオープンに失敗した場合、メッセージを出力する。」があることが辞書として登録されている。
【0022】
[動作]
このように構成された類似設計書検索システムの全体動作は、図2に示す如く、設計書解析処理ユニット104が、入力している設計書ファイルのサンプル207の内容で構成される設計書ファイル107を入力する工程と、該入力した設計書ファイル107を汎用連想計算エンジン113が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで出力する処理)する工程と、該汎用連想計算エンジン113が解析した解析結果を類似設計書出力ユニット103が類似度検索結果のサンプル208の形式で出力するために編集を行い、類似度検索結果110をHTML形式で出力する工程とを実行するように動作する。
【0023】
この図2に示した全体動作の詳細は、図4に示す如く、設計書解析処理ユニット104が、入力用に用意した記入済みの設計書ファイル(新たに作成した設計書の一部の記述内容)をオープンしてファイル読み込み準備を行うステップ303と、該ステップ303によりオープンした設計書ファイルから設計文書(記述内容)を抽出するステップ301と、該ステップ301により抽出した設計文書を改行単位に分解して内容を項目毎に仕分けるステップ304と、汎用連想計算システム112が汎用連想計算エンジン辞書114を参照して解析(汎用連想計算エンジン辞書114に格納された連想辞書及び既存設計書の記述内容とを比較し、文字列の頻出度合いにより設計書の類似度を計算してランキングで類似候補の既存設計書を出力する処理)を行うステップ305と、該ステップ305により解析した解析結果(ランキングされた類似候補の既存設計書)を類似設計書出力ユニット103に出力するステップ306と、類似設計書出力ユニット103が、前記解析結果(ランキングされた類似候補の既存設計書)を受信するステップ307と、該受信した解析結果(ランキングされた類似候補の既存設計書)に含まれる類似候補の既存設計書に含まれる文字列を1行ずつ後述するチェックに回すステップ308と、前記解析結果全行のチェックが完了したか否かを判定するステップ310と、該ステップ310において解析結果全行のチェックが完了していないと判定したとき、候補文字列長さが元文字列の長さの3倍以上か否かを判定し、3倍以上でないと判定したときに前記ステップ308に戻るステップ312と、該ステップ312において3倍以上と判定したとき、候補を出力対象として図示しないメモリに蓄積して前記ステップ308に戻るステップ314と、前記ステップ310において解析結果全行のチェックが完了したと判定したとき、比較対象の設計文書と類似検索結果を比較するステップ309と、該ステップ309により類似検索結果と設計文書文字とが一致するか否かを判定し、一致していないと判定したときに前記ステップ309に戻るステップ311と、該ステップ311においてひと判定したとき、一致した対象文字色を赤色にHTMLタグの埋め込みにより行う(例えば、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)ステップ313と、該ステップ313に続いて全文字列のチェックが完了したか否かを判定し、完了していないと判定したときに前記ステップ309に戻るステップ315と、該ステップ315において全文字列のチェックが完了したと判定したとき、HTML形式の類似度検索結果ファイル110を出力して処理を終了するステップ317とを実行することによって、設計書のサンプル207に書かれている項目の中で、図6(a)にて説明した汎用連想計算エンジン辞書項目で挙げている項目と一致する項目の既存設計書候補を類似度検索結果ファイル110に格納するように動作する。なお、前記ステップ312における候補文字列長さが元文字列の長さの3倍以上か否かの判定は、一般に新設計書の元文字列長さに比較して既存設計書の長さが3倍以上の場合は、元文字列に対して情報が極めて多く、類似しているとは言い難いためであり、この倍数は3倍に限られるものではなく、2倍〜4倍の範囲で適宜設定しても良い。
【0024】
前記ステップ311による比較対象の新設計書と類似索結果(既存設計書候補)の文字列とが一致するかどうかを判定方法は、まず比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元の文字列を1文字ずつ減らし、同様に比較先の文字列を1文字目から順に文章同士の比較をしていく方法であって、文字列を先頭から一文字ずつ減らして全文と比較し、減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。
【0025】
この文字列比較の方法を図7を参照して説明する。本例は、新設計書に含まれる文字列と類似候補として選択された既存設計書に含まれる文字列とを比較をして、どこが一致していたのか、また文字列の一部が一致しているかもしれないが、類似と言えるかどうかの判断をする処理の例である。
【0026】
前記文字列比較の方法は、図7(a)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、既存設計書の比較対象文書(記述内容)が「明日は晴れる」であり、新設計書の5文字が既存設計書の7文字中の5文字に対して順番と共に一致した場合、一致した5文字に色づけ(図面では太枠描写)表示するように動作し、図7(b)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと東京はれ」であり、新設計書の5文字が比較対象文書7文字中の3文字に対して一致し、設計書の文書と類似計算結果の文字列の一部が一致する場合、一致した3文字に色づけ(図面では太枠描写)表示するように動作し、図7(c)に示す如く、新設計書の文書が「明日は晴れ」の5文字であり、前記比較対象文書が「きっと明日の気分は晴れ晴れしている」であり、新設計書の5文字が比較対象文書7文字中の5文字に対して一致し、設計書の文書と類似計算結果の文字列が多く一致しているが、設計書文書の文字数が比較対象の基の文字数より極めて多い(3倍以上)ために、一致した5文字に色づけ(図面では太枠描写。具体的には、標準で白背景に黒文字の場合、赤文字に表示色を変化させる)表示するものの、類似しているとする候補の中から除外するように動作する。
【0027】
すなわち、本実施形態による類似設計書出力ユニット103による文字列比較の方法は、比較元(新設計書)の文字列と比較先(既存設計書)の文字列が一致する箇所があるか否かを比較先の先頭文字列から順に比較し、比較先に一致する箇所が無かった場合、比較元(新設計書)の文字列を1文字ずつ減らし、比較先の文字列を1文字目から順に文章同士の比較し、比較元(新設計書)の減らす文字列が最後まで行ったら、もう一度比較対象の文章を、文字列の最後尾から一文字ずつ減らして全文と比較をすることによって行う。なお、前述の文字列比較の方法に、類似度検索結果110から汎用連想計算エンジンの検索処理(301〜307)を行い、その結果に最初に検索した設計書が含まれていれば、類似性が向上するため、この見直し処理を加えても良い。
【0028】
このように本実施形態による類似設計書検索システム及び方法は、複数文字から成る文字列を項目毎に改行して表される設計書間の類似度を文字列の頻出度合いによって計算する汎用連想計算システムを用い、該汎用連想計算システムから出力された新設計書に含まれる入力文字列と類似する既存設計書候補の文字列長さが前記新設計書文字列長さの所定数倍以上でない既存設計書候補を選択し、この選択した既存設計書候補と新設計書文字列と一致する文字色を標準色に対して変化させることによって、作成過程の新設計書のむ文字列に基づいて過去の類似する既存設計書を検索し、一致文字を色分け表示することができる。
【符号の説明】
【0029】
101 コンピュータサーバ、102 類似設計書検索システム、
103 類似設計書出力ユニット、104 設計書解析処理ユニット、
105 類似計算結果表示作成処理部、106 設計書解析処理部
107 設計書ファィル、108 出力可否判定処理部、
109 設計書文書抽出処理部、110 類似度検索結果、
110 類似度検索結果ファイル、111 出力編集処理部、
112 汎用連想計算システム、113 汎用連想計算エンジン、
114 汎用連想計算エンジン辞書
図1
図2
図3
図4
図5
図6
図7