特開2023-157600 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱重工業株式会社の特許一覧

特開2023-157600閾値設定方法、類似文字列判定方法、閾値設定装置、類似文字列判定装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4A
4B
5
6
7
8A
8B
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023157600

(43)【公開日】2023-10-26

(54)【発明の名称】閾値設定方法、類似文字列判定方法、閾値設定装置、類似文字列判定装置及びプログラム

(51)【国際特許分類】

G06F 16/35 20190101AFI20231019BHJP

G21C 17/00 20060101ALI20231019BHJP

G06Q 10/20 20230101ALI20231019BHJP

G06N 20/00 20190101ALI20231019BHJP

【ＦＩ】

G06F16/35

G21C17/00 110

G06Q10/00 300

G06N20/00 130

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022067608

(22)【出願日】2022-04-15

(71)【出願人】

【識別番号】000006208

【氏名又は名称】三菱重工業株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100162868

【弁理士】

【氏名又は名称】伊藤英輔

(74)【代理人】

【識別番号】100161702

【弁理士】

【氏名又は名称】橋本宏之

(74)【代理人】

【識別番号】100189348

【弁理士】

【氏名又は名称】古都智

(74)【代理人】

【識別番号】100196689

【弁理士】

【氏名又は名称】鎌田康一郎

(72)【発明者】

【氏名】網谷達輝

(72)【発明者】

【氏名】尾▲崎▼ 和基

(72)【発明者】

【氏名】平井俊輔

(72)【発明者】

【氏名】森田克明

【テーマコード（参考）】

2G075

5B175

5L049

【Ｆターム（参考）】

2G075AA01

2G075BA01

2G075CA02

2G075EA03

2G075GA18

2G075GA19

5B175DA01

5B175FA03

5L049CC15

(57)【要約】

【課題】文字列の類似度を判定する基準を算出することができる。
【解決手段】閾値設定方法は、複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、
複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、
前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、
前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、
を有する閾値設定方法。

【請求項2】

複数の前記組合せにおける前記距離の標準偏差と前記コサイン類似度の標準偏差を算出するステップ、
をさらに有し、
前記閾値を算出するステップでは、前記距離の閾値と前記コサイン類似度の閾値に加えて、前記距離の標準偏差の閾値と前記コサイン類似度の標準偏差の閾値を算出する、
請求項１に記載の閾値設定方法。

【請求項3】

評価対象の文字列の文字列ベクトルを算出するステップと、
参照用の１又は複数の文字列について、請求項１または請求項２に記載の閾値設定方法を用いて算出された前記参照用の１又は複数の文字列の文字列ベクトルと、前記閾値と、前記評価対象の文字列の文字列ベクトルとに基づいて、前記評価対象の文字列と前記参照用の文字列のうちの少なくとも１つが類似するかどうかを判定するステップと、
を有する類似文字列判定方法。

【請求項4】

評価対象の文字列の文字列ベクトルを算出するステップと、
参照用の１又は複数の文字列について、請求項１または請求項２に記載の閾値設定方法を用いて算出された前記参照用の１又は複数の文字列の文字列ベクトルと、前記閾値と、前記評価対象の文字列の文字列ベクトルとに基づいて、前記評価対象の文字列と前記参照用の文字列を類似するもの同士のグループに分類するステップと、
を有する類似文字列判定方法。

【請求項5】

前記判定するステップの結果に対する妥当性の評価を受け付けるステップと、
前記妥当性の評価に基づいて、前記評価対象の文字列および前記評価対象の文字列と類似度の評価がなされた前記組合せに対して前記ラベル設定を行い、追加の前記教師データを作成するステップ、
をさらに有し、
前記閾値を算出するステップでは、前記教師データと前記追加の教師データとに基づいて、前記閾値を算出する、
請求項３に記載の類似文字列判定方法。

【請求項6】

前記参照用の１又は複数の文字列が、評価済みのＰＲＡ（Probabilistic Risk Assessment）モデルから抽出されたカットセットを表す文字列であり、
前記評価対象の文字列が、評価対象のＰＲＡモデルから抽出したカットセットを表す文字列である、
請求項３に記載の類似文字列判定方法。

【請求項7】

文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、
評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、
前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、
を有する類似文字列判定方法。

【請求項8】

複数の文字列のそれぞれについて文字列ベクトルを算出する手段と、
複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出する手段と、
前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成する手段と、
前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出する手段と、
を有する閾値設定装置。

【請求項9】

文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得する手段と、
評価対象の文字列と参照用の文字列の文字列ベクトルを算出する手段と、
前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定する手段と、
を有する類似文字列判定装置。

【請求項10】

コンピュータに、
複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、
複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、
前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、
前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、
を実行させるプログラム。

【請求項11】

コンピュータに、
文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、
評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、
前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、
を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、閾値設定方法、類似文字列判定方法、閾値設定装置、類似文字列判定装置及びプログラムに関する。

【背景技術】

【0002】

原子力発電プラントのリスク評価に確率論的リスク評価（Probabilistic Risk Assessment:ＰＲＡ）モデル（以下、ＰＲＡモデルと記載する。）が用いられることがある（特許文献１）。リスク評価の精度を保つため、ＰＲＡモデルに基づいて生成される頂上事象のカットセットの妥当性を確認する必要がある。カットセットは、プラントの系統や機器、故障の種類などを表すコードを組み合わせた文字列として表される。原子力発電プラントのＰＲＡモデルから出力される頂上事象のカットセットの数は、１プラントあたり数万から数十万になることがあり、膨大な数のカットセットを効率よく確認する方法が求められている。例えば、既に妥当性の確認が済んだカットセット群を正として、評価対象のカットセット群を確認済みのカットセット群と比較して評価する方法が考えられる。この方法では、確認済みのカットセット群と比較して、評価対象のカットセット群に類似するカットセットが存在すれば、そのカットセットは妥当であると判断し、妥当性の確認が済んだカットセット群に存在するカットセットが評価対象のカットセット群に無い場合、評価対象のカットセット群には、本来存在すべきはずのカットセットが無い可能性があるといった判断を行う。確認済みのカットセット群を参照しながら確認を行うことで、評価対象のカットセット群の妥当性を効率よく確認することができる。このような方法で確認を行う場合、確認済みのカットセットと評価対象のカットセットが類似するかどうかを判定する必要がある。特許文献２には、文字データの関連性（類似するかどうか）を、文字データから生成した特徴ベクトルを用いて判定する方法が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第５４８００３３号公報

【特許文献2】特開２０１４－１１２３５８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

文字列が類似するかどうかを判定するためには、類似度を判定する基準を定める必要がある。

【0005】

本開示は、上記課題を解決することができる閾値設定方法、類似文字列判定方法、閾値設定装置、類似文字列判定装置及びプログラムを提供する。

【課題を解決するための手段】

【0006】

本開示の閾値設定方法は、複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、を有する。

【0007】

本開示の類似文字列判定方法は、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、を有する。

【0008】

また、本開示の閾値設定装置は、複数の文字列のそれぞれについて文字列ベクトルを算出する手段と、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出する手段と、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成する手段と、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出する手段と、を有する。

【0009】

また、本開示の類似文字列判定装置は、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得する手段と、評価対象の文字列と参照用の文字列の文字列ベクトルを算出する手段と、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定する手段と、を有する。

【0010】

また、本開示のプログラムは、コンピュータに、複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、を実行させる。

【0011】

また、本開示のプログラムは、コンピュータに、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、を実行させる。

【発明の効果】

【0012】

本開示の閾値設定方法、閾値設定装置及びプログラムによれば、文字列の類似を判定する為の閾値（基準）を算出することができる。本開示の類似文字列判定方法、類似文字列判定装置及びプログラムによれば、文字列の類似を判定することができる。

【図面の簡単な説明】

【0013】

【図1】実施形態に係る文字列分類装置の一例を示すブロック図である。

【図2】実施形態に係る頂上事象のカットセットを説明するための図である。

【図3A】実施形態に係るカットセットの一例を示す第１の図である。

【図3B】実施形態に係るカットセットの一例を示す第２の図である。

【図3C】実施形態に係るカットセットの一例を示す第３の図である。

【図4A】実施形態に係るベクトル空間における文字列ベクトルの分布の一例を示す図である。

【図4B】実施形態に係るベクトル間距離とコサイン類似度の分布の一例を示す図である。

【図5】実施形態に係る学習処理の概要を示す図である。

【図6】実施形態に係る分類結果の一例を示す図である。

【図7】実施形態に係る文字列分類処理の一例を示す図である。

【図8A】実施形態に係る処理対象のカットセット群の一例を示す図である。

【図8B】図８Ａに例示するカットセット群の分類結果の一例を示す図である。

【図9】実施形態の文字列分類装置のハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0014】

＜実施形態＞
以下、本開示の文字列分類装置について、図１～図９を参照しながら説明する。
（構成）
図１は、実施形態に係る文字列分類装置の一例を示すブロック図である。
文字列分類装置１０は、ある文字列が他の文字列に類似するかどうかを判定する。また、複数の文字列について互いの類似・非類似を判定することによって、文字列分類装置１０は、複数の文字列を類似するもの同士のグループに分類することができる。文字列分類装置１０は、ＰＲＡモデルを構成する頂上事象のカットセットの妥当性を確認する作業に活用することができる。

【0015】

文字列分類装置１０は、文字列取得部１１と、入力受付部１２と、制御部１３と、記憶部１８とを備える。

【0016】

文字列取得部１１は、文字列(テキストデータ）を取得する。例えば、文字列取得部１１は、評価対象のＰＲＡモデルから抽出されたカットセットを取得する。

【0017】

ここで、カットセットについて説明する。図２は、頂上事象のカットセットを説明するための図である。図２にＰＲＡモデルに含まれるＦＴ（Fault Tree）の一例を示す。図２の円で示したＡ～Ｅは基事象を示し、四角で示したＰ～Ｑは中間事象を示す。ＯＲゲートは、基事象Ａ、Ｃ、中間事象Ｐの何れかが発生すると、頂上事象が発生することを示す。上のＡＮＤゲートは、基事象Ｂと中間事象Ｑが発生すると、中間事象Ｐが発生することを示す。下のＡＮＤゲートは、基事象Ｄと基事象Ｅが発生すると、中間事象Ｑが発生することを示す。図２のＦＴの場合、頂上事象を引き起こすカットセットは、（１）基事象Ａ、（２）基事象Ｂ、基事象Ｄ、基事象Ｅの組合せ、（３）基事象Ｃである。文字列取得部１１は、例えば、図２のＦＴに基づいて抽出された、カットセット１（基事象Ａ）、カットセット２（基事象Ｂ、基事象Ｄ、基事象Ｅ）、カットセット３（基事象Ｃ）を取得する。

【0018】

カットセットの一例を図３Ａ～３Ｃに示す。図３Ａに示すカットセットは１つの基事象で構成されるカットセットの例である。１つの基事象を表すテキストデータは、３文字、２文字、２文字、４文字ごとに意味上の区切りが存在し、区切られた各文字列は、先頭から順に、系統、故障機器、故障の種類、機器番号、その他(共通原因故障、人的過誤など)を表す。このようなルールに基づいた構成される文字列は、類似の文字列が、類似の意味を持つ。図３Ｂに故障の種類が異なるものの、同じ系統で同じ機器が故障していることを示す２つのカットセットを示す。例えば、図３Ｂのカットセット１は基事象「AFWOC01003」と基事象「IASPQADAE1A」の組合せであり、カットセット２は基事象「AFWOC01003」と基事象「IASPQCSAE1A」の組合せである。カットセット１とカットセット２では、２つ目の基事象の３つ目の区切りの文字のみが異なる（「AD」と「CS」）。このような場合、技術者の視点では、同種のカットセットであるとみなせるため、これらを同じグループに分類する。一方、共通の原因による故障により、複数の機器が故障する場合には、図３Ｃのカットセット１に示すように、文字列の接尾辞として”-ALL”が付与される。このような意味を持つ図３Ｃのカットセット１と、共通ではない個別の原因による故障を示す図３Ｃのカットセット２は、技術者の視点では異なる種類のカットセットであるとみなせることから、これらのカットセットは別のグループと分類する。
文字列取得部１１は、文字列の一例として、図３Ａ～図３Ｃに例示するようなカットセットを取得する。

【0019】

入力受付部１２は、キーボード、マウス、タッチパネル、ボタン等の入力装置を用いて入力された各種の設定情報、処理の実行を指示する指示情報などを受け付ける（取得する）。入力受付部１２は、受け付けた情報を記憶部１８に記録したり、制御部１３へ出力したりする。例えば、入力受付部１２は、図３Ｂのカットセット１とカットセット２について類似するとの設定、図３Ｃのカットセット１とカットセット２については非類似であるとの設定を受け付ける。

【0020】

制御部１３は、文字列が類似するかどうかを判定するための閾値を算出する処理、その閾値を用いて、ある評価対象の文字列が、他の文字列（例えば、基準となる参照用の文字列）に類似するかどうかを判定する処理、複数の文字列（例えば、評価対象の文字列と参照用の文字列）を類似するもの同士のグループに分類する処理などを実行する。制御部１３は、特徴量演算部１４と、学習部１５と、評価部１６と、出力部１７と、を備える。

【0021】

特徴量演算部１４は、文字列の特徴量を演算する。例えば、文字列がカットセットの場合、カットセットに含まれる基事象は、図３Ａに例示するような所定のルールに従ってコード化されているが、コード化されたテキストデータを所定の単位に分節し、分節された文字列を単語、カットセットを文書のように扱って、ｔｆｉｄｆやｗｏｒｄ２ｖｅｃ等のテキスト分析技術を用いて、カットセットに出現する単語に基づく特徴量を演算する。演算結果の特徴量は、ベクトルとして表される。このベクトルを文字列ベクトルと称する。文字列がカットセットの場合、文字列ベクトルの各要素は、基事象のテキストデータから分節して得られる文字列（単語）についてテキスト分析した値である。

【0022】

ベクトル空間上の文字列ベクトルの分布を図４Ａに示す。この例では、文字列ベクトルは３次元のベクトルである。図４Ａの各点は、それぞれ１つの文字列ベクトルである。ｇ１で囲った文字列ベクトルは、意味が類似する文字列から生成された文字列ベクトルである。ｇ２～ｇ４についても同様である。つまり、意味が類似する文字列から生成された文字列ベクトルは、ベクトル空間上で近い位置に存在する。この性質を利用して、特徴量演算部１４は、２つの文字列ベクトルの位置の近さを表す特徴量を算出する。具体的には、特徴量演算部１４は、２つの文字列ベクトルのベクトル間距離とコサイン類似度を算出する。簡単な２次元ベクトルの例として、文字列ベクトル１を（ａ１、ａ２）、文字列ベクトル２を（ｂ１、ｂ２）とすると、文字列ベクトル１と文字列ベクトル２のベクトル間距離は、以下の式（１）で計算することができる。

【0023】

【数1】

【0024】

文字列ベクトル１と文字列ベクトル２のコサイン類似度は以下の式（２）で計算することができる。

【0025】

【数2】

【0026】

意味が類似する文字列の文字列ベクトルのベクトル間距離およびコサイン類似度の分布と、類似しない文字列の文字列ベクトルのベクトル間距離およびコサイン類似度の分布の一例を図４Ｂに示す。図４Ｂの縦軸はコサイン類似度（“ベクトル間のｃｏｓθ”）を示し、横軸はベクトル間距離を示している。また、点ｐ１～ｐ３は、意味が類似する２つの文字列から生成された文字列ベクトルのベクトル間距離およびコサイン類似度を示し、点ｐ４～ｐ６は、意味が類似しない２つの文字列から生成された文字列ベクトルのベクトル間距離およびコサイン類似度を示す。２つの文字列ベクトルが完全に一致する場合、ベクトル間距離は“０”、コサイン類似度は“１”となる。例えば、図４Ｂの点ｐ１は、このような関係にある２つの文字列ベクトルを示している。意味が類似する場合の他の点ｐ２、ｐ３についても、ベクトル間距離は比較的小さく、コサイン類似度は１に近い傾向があることが確認できる。一方、意味が類似しない場合の点ｐ４～ｐ６については、点ｐ４は、コサイン類似度は“１”に近いもののベクトル間距離が比較的大きい。点ｐ５は、ベクトル間距離はそれほど大きくはないがコサイン類似度は意味が類似する場合の点ｐ１～ｐ３と比べて“１”から離れている。点ｐ６は、ベクトル間距離が大きく、コサイン類似度は“１”から離れている。これらのことから、２つの文字列ベクトルのコサイン類似度が“１”に近く、ベクトル間距離が“０”に近ければ、それらは意味が類似する可能性が高いと考えられる。本実施形態では、次に説明する学習部１５が、意味が類似する２つの文字列の文字列ベクトルのコサイン類似度、ベクトル間距離と、意味が類似しない２つの文字列の文字列ベクトルのコサイン類似度、ベクトル間距離を機械学習により学習し、意味が類似する文字列ベクトルとそうでない文字列ベクトルを隔てるベクトル間距離、コサイン類似度の境界（閾値）を算出する。

【0027】

また、特徴量演算部１４は、ベクトル間距離の標準偏差とコサイン類似度の標準偏差を算出する。例えば、処理対象の文字列が１０個ある場合、特徴量演算部１４は、１０個の文字列の文字列ベクトルを算出し、これら１０個の文字列ベクトルによる_１０Ｃ_２通りの組合せの数分（即ち、_１０Ｃ_２＝４５個）のベクトル間距離とコサイン類似度を算出する。そして、そして、特徴量演算部１４は、４５個のベクトル間距離の標準偏差と、４５個のコサイン類似度の標準偏差を算出する。これは、特徴量演算部１４が算出するベクトル間距離およびコサイン類似度は、「類似」又は「非類似」のラベルが付されて、どのようなベクトル間距離やコサイン類似度であれば２つの文字列が類似するかの閾値を算出するための教師データとして用いるが、その際、全サンプル（この例の場合１０個の文字列）のベクトル間距離およびコサイン類似度のばらつきの程度が、ベクトル間距離およびコサイン類似度の閾値の算出に影響を与える可能性があると考えられるためである。特徴量演算部１４は、参照用の文字列（教師データとして用いる文字列）と評価対象の文字列について、文字列ベクトルを算出し、２つの文字列ベクトルのベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差を算出する。

【0028】

学習部１５は、参照用の文字列について算出されたベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差に「類似」又は「非類似」のラベルが付された教師データを学習し、２つの文字列が類似すると判定するための閾値を算出する。閾値には、ベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差が含まれる。図５に、教師データから機械学習により、コサイン類似度と、ベクトル間距離の閾値を算出する様子を示す。例えば、閾値Ｔｈ１は、ベクトル間距離の閾値、閾値Ｔｈ２はコサイン類似度の閾値である。

【0029】

評価部１６は、学習部１５が算出した閾値に基づいて、評価対象の文字列が参照用の文字列と類似するかどうかを判定する。あるいは、評価部１６は、評価対象の文字列と参照用の文字列を類似する文字列のグループごとに分類する。文字列ベクトルが２次元の場合を例として、複数の文字列を意味が類似する文字列のグループに分類した分類結果の一例を図６に示す。評価部１６は、ベクトル空間上で、ある文字列ベクトルに対し、学習部１５が算出した閾値の範囲内にある文字列ベクトルを意味が類似する文字列ベクトルと判定する。例えば、図６の例では、範囲ｅ１内の文字列ベクトルｖ１～ｖ２は互いに類似する文字列ベクトル、範囲ｅ２内の文字列ベクトルｖ３～ｖ７は互いに類似する文字列ベクトル、範囲ｅ３内の文字列ベクトルｖ８～ｖ１０は互いに類似する文字列ベクトルである。また、文字列ベクトルｖ１１、ｖ１２は、文字列ベクトルｖ１～ｖ１０とは類似しない文字列ベクトルである。技術者が確認して評価部１６による分類が妥当ではないと判断された場合には、適切に分類されなかった文字列の組合せについて、再度、技術者が「類似」又は「非類似」のラベリングを適切に行い、教師データとして与えて学習部１５に学習させることで、閾値の精度を向上させることができる。

【0030】

出力部１７は、各種の情報、例えば、評価対象の文字列が、参照用の文字列と類似するかどうかの判定結果、図６に例示する複数の文字列の類似グループへの分類結果などを表示装置に表示したり、電子データとして出力したりする。
記憶部１８は、カットセット等の文字列、処理中のデータなどを記憶する。

【0031】

（動作）
次に図７～図８Ｂを用いて、文字列がカットセットの場合を例に、文字列分類装置１０の動作について説明する。図７は、実施形態に係る文字列分類処理の一例を示す図である。まず、技術者が、確認済みのカットセットを類似する意味をもつカットセットごとに分類する。図８Ａに処理対象のカットセット群の一例を示す。プラント１～３のＰＲＡモデルは、既に確認済みであるとする。つまり、プラント１のカットセット１１～１３、プラント２の２１～２３、プラント３の３１～３３は参照用の文字列である。技術者は、参照用の文字列について類似する意味を持つカットセット同士に分類する。例えば、技術者は、カットセット１１、１２、２１、２２、３１、３２を１つのグループ、カットセット１３、２３、３３を１つのグループに分類する。図８Ｂに分類結果の一例を示す。技術者は、分類結果を文字列分類装置１０へ入力する。入力受付部１２は、類似する意味をもつ文字列（カットセット）の分類結果の情報を取得し（ステップＳ１）、記憶部１８に記録する。

【0032】

次に技術者が、閾値の算出を指示する。入力受付部１２は、この指示を受け付け、閾値算出の指示情報を制御部１３へ出力する。すると、制御部１３では、特徴量演算部１４が、文字列ベクトル、ベクトル間距離、類似度などを算出し、教師データを作成する（ステップＳ２）。まず、特徴量演算部１４は、文字列ベクトルの算出を行う。特徴量演算部１４は、ｗｏｒｄ２ｖｅｃ等のテキスト分析技術を用いて、カットセット１１～１３、２１～２３、３１～３３それぞれの文字列ベクトルを生成する。特徴量演算部１４は、算出した文字列ベクトルを記憶部１８に記録する。次に、特徴量演算部１４は、カットセット１１の文字列ベクトルとカットセット１２の文字列ベクトルのベクトル間距離、コサイン類似度を算出する。同様に、特徴量演算部１４は、カットセット１１の文字列ベクトルと、カットセット１３、２１～２３、３１～３３（以下、カットセット１３～３３のように記載する。）それぞれの文字列ベクトルとのベクトル間距離、コサイン類似度を算出する。特徴量演算部１４は、他の２つのカットセットの文字列ベクトルの組合せについてもベクトル間距離、コサイン類似度を算出する。また、特徴量演算部１４は、算出した全てのベクトル間距離の標準偏差を算出し、算出した全てのコサイン類似度の標準偏差を算出する。特徴量演算部１４は、算出した各種のデータを記憶部１８に記録する。

【0033】

次に、制御部１３は、２つの文字列ベクトルについて算出されたベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差に対して、技術者による分類結果に基づいて、「類似」又は「非類似」のラベルを設定する。例えば、カットセット１１とカットセット１２の文字列ベクトルや、カットセット１１とカットセット３２の文字列ベクトルについて、制御部１３は「類似」のラベルを設定する。例えば、カットセット１１とカットセット１３の文字列ベクトルや、カットセット１１とカットセット３３の文字列ベクトルについて、制御部１３は「非類似」のラベルを設定する。これにより、教師データが生成される。教師データには、ベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差、ラベルが含まれる。教師データは、カットセット１１～３３の組合せの数だけ生成される。

【0034】

制御部１３（特徴量演算部１４）は、同じカットセット群（例えば、カットセット１１～３３）に対して、上記の処理（ベクトル間距離等を算出し、「類似」又は「非類似」のラベルを付して教師データを生成する処理）を複数回行ってもよい。ｗｏｒｄ２ｖｅｃ等を用いて文字列ベクトルを生成すると、元の文字列が同じであっても、実行のたびに異なる文字列ベクトルが生成される可能性がある。異なる文字列ベクトルが生成されれば、算出されるベクトル間距離、コサイン類似度も変動し、それらのばらつきも異なったものとなる。データ全体のベクトル間距離、コサイン類似度のばらつきは、ベクトル間距離およびコサイン類似度の閾値算出に影響する可能性があるため、ベクトル間距離の標準偏差、コサイン類似度の標準偏差を算出し、これらを教師データに含めるようにしている。同じカットセット群について、上記の処理を複数回実行することで、教師データを増やすことができる。

【0035】

また、制御部１３（特徴量演算部１４）は、異なるカットセット群に対して、上記の処理（ベクトル間距離等を算出し、「類似」又は「非類似」のラベルを付して教師データを生成する処理）を行って教師データを生成してもよい。例えば、最初にプラント１～３のカットセットに基づいて教師データを生成し、後にプラント４～５のカットセット群を追加して、プラント４～５のカットセットに基づいて教師データを生成し、これらの教師データを追加してもよい。また、プラント４～５のカットセットを追加する場合、元々のプラント１～３にプラント４～５のカットセットを追加して、プラント１～５の全カットセットを対象にして上記の処理を行い、教師データを生成してもよい。

【0036】

次に学習部１５が、作成された教師データを任意の機械学習手法により学習し、閾値を算出する（ステップＳ３）。例えば、学習部１５は、決定木によって、２つの文字列ベクトルが類似するかどうかを判定するためのベクトル間距離の閾値Ｔｈ１、コサイン類似度の閾値Ｔｈ２、ベクトル間距離の標準偏差の閾値Ｔｈ３、コサイン類似度の標準偏差の閾値Ｔｈ４を算出する。学習部１５は、算出した閾値を記憶部１８に記録する。

【0037】

次に、技術者が、評価対象のプラントＡのカットセットＡ１～Ａ３を文字列分類装置１０へ入力する。入力受付部１２は、評価対象文字列（カットセットＡ１～Ａ３）を取得し（ステップＳ４）、記憶部１８に記録する。次に、技術者が評価対象の文字列を類似する文字列のグループへ分類するよう指示する。すると、制御部１３は、評価対象のカットセットＡ１～Ａ３およびカットセット１１～３３の文字列ベクトルを、ステップＳ３で算出された閾値に基づいて、類似するもの同士のグループに分類する（ステップＳ５）。

【0038】

まず、特徴量演算部１４は、ｗｏｒｄ２ｖｅｃ等を用いて評価対象のカットセットＡ１～Ａ３と、参照用のカットセット１１～３３の文字列ベクトルを算出し、記憶部１８に記録する。カットセット１１～３３については、過去に算出した文字列ベクトルを利用してもよい。次に、特徴量演算部１４は、カットセットＡ１の文字列ベクトルと、カットセットＡ２～Ａ３およびカットセット１１～３３の文字列ベクトルのベクトル間距離、コサイン類似度を算出する。同様に、特徴量演算部１４は、カットセットＡ２、Ａ３の文字列ベクトルについても、それらの文字列ベクトルと、他のカットセットＡ１等およびカットセット１１～３３の文字列ベクトルのベクトル間距離、コサイン類似度を算出する。また、特徴量演算部１４は、カットセットＡ１～Ａ３、１１～３３全体でのベクトル間距離の標準偏差、コサイン類似度の標準偏差を算出する。カットセット１１～３３のベクトル間距離、コサイン類似度については過去に算出した値を使用してもよい。

【0039】

次に評価部１６が、ステップＳ３で算出された閾値に基づいて、カットセットＡ１の文字列ベクトルが、他のカットセットＡ２～Ａ３およびカットセット１１～３３の文字列ベクトルの何れに類似するかを判定する。

【0040】

例えば、カットセットＡ１の文字列ベクトルとカットセット１１の文字列ベクトルのベクトル間距離がｒ１、コサイン類似度がθ１、全サンプルのベクトル間距離の標準偏差がｄ１、コサイン類似度の標準偏差がｄ２であるとする。例えば、評価部１６は、ベクトル間距離ｒ１が閾値Ｔｈ１以下、コサイン類似度θ１が閾値Ｔｈ２以上、ベクトル間距離の標準偏差ｄ１と閾値Ｔｈ３の差が所定の範囲内、コサイン類似度の標準偏差ｄ２と閾値Ｔｈ４の差が所定の範囲内であれば、カットセットＡ１の文字列ベクトルとカットセット１１の文字列ベクトルは類似すると判定する。（ベクトル間距離とコサイン類似度の標準偏差があまりに異なる教師データによって算出された閾値によって類似の判定を行うことは適切では無い可能性があるため、ベクトル間距離の標準偏差とコサイン類似度の標準偏差は、評価対象のカットセットの文字列の類似を、現在の閾値で判定することが適切かどうかを判断する為に使用される。）評価部１６は、カットセットＡ１～Ａ３、１１～３３の全組合せについて算出されたベクトル間距離とコサイン類似度（カットセット１１～３３間のベクトル間距離とコサイン類似度については、ステップＳ５で改めて算出してもよいし、ステップＳ２で算出したものを用いてもよい。）を算出し、各組合せについて、ベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度の標準偏差を、上記の閾値Ｔｈ１～Ｔｈ４に基づいて判定し、類似するもの同士をグルーピングする。

【0041】

出力部１７は、分類結果を表示装置等へ出力する（ステップＳ６）。表示装置は、例えば、図６に例示する分類結果を表示する。技術者は、分類結果を見て、カットセットＡ１～Ａ３が分類されたグループを確認し、その分類が妥当かどうかを確認する（ステップＳ７）。分類結果が妥当ではない場合（ステップＳ７；Ｎｏ）、技術者は、妥当な分類がなされていない文字列を正しく分類する（ステップＳ８）。例えば、図６において、文字列ベクトルｖ１２（ｖ１２は評価対象の文字列ベクトルであるとする。）が、文字列ベクトルｖ８～ｖ１０と意味が類似するカットセットに由来する文字列ベクトルである場合、文字列ベクトルｖ８と文字列ベクトルｖ１２、文字列ベクトルｖ９と文字列ベクトルｖ１２、文字列ベクトルｖ１０と文字列ベクトルｖ１２に対してそれぞれ「類似」のラベルを付す。これらのデータは新たな教師データとして追加される。そして、ステップＳ２からの処理を再度行って、閾値を算出し直す。

【0042】

一方、分類結果が妥当な場合（ステップＳ７；Ｙｅｓ）、出力部１７は、類似する意味をもつ文字列のリストを出力する（ステップＳ９）。例えば、図８ＡのカットセットＡ１～Ａ２が図８Ｂのグループ１に分類され、図８ＡのカットセットＡ３が図８Ｂのグループ２に分類される場合、グループ１として、図８Ｂのグループ１にカットセットＡ１～Ａ２を加え、グループ２にカットセットＡ３を加えたリストが出力される。

【0043】

評価対象のプラントＡと同様のカットセットを有することが予想される（例えば、プラントの構成が類似しているなど）確認済みプラントのカットセット（この例の場合、プラント１～３のカットセット１１～３３）を用意して、これらに基づいて閾値を算出し（ステップＳ３）、この閾値に基づいて、評価対象のプラントＡのカットセットを分類する（ステップＳ６）。仮に、プラント１～３、プラントＡのカットセットが全て類似するものであれば、各プラントのカットセットが均等に含まれるグループだけが生成されるはずである。例えば、あるグループにおいて、プラントＡのカットセットが含まれていない場合、プラントＡのＰＲＡモデルには、そのカットセットが抜けている可能性がある。また、プラントＡのカットセットに、他のプラント１～３には無いカットセットが含まれているような場合、プラントＡのカットセットだけのグループが生成される。技術者は、ステップＳ９で出力されたリストを参照して、プラントＡとプラント１～３のカットセットの分布の違いに着目することで、プラントＡのＰＲＡモデルとプラント１～３のＰＲＡモデルの差を見つけ、プラント１～３のＰＲＡモデルを参考にして、プラントＡのＰＲＡモデルの欠陥を速やかに修正することができる。

【0044】

なお、上記の実施形態では、文字列の一例として、ＰＲＡモデルから抽出されるカットセットを取り挙げたが、本実施形態は、任意の文字列の類似評価、同種の文字列の分類に用いることができる。例えば、表記ゆれを考慮して、類似する意味を持つ文字列を分類する処理等に用いることができる。また、上記実施形態では、閾値として、ベクトル間距離、コサイン類似度、ベクトル間距離の標準偏差、コサイン類似度離の標準偏差を用いることとしたが、ベクトル間距離、コサイン類似度だけを用いる構成でも良い。また、教師データとして「類似」又は「非類似」のラベルを付すこととしたが、「類似度が高い」、「類似度が中程度」、「類似度が低い」、「非類似」など類似の程度に応じてラベリングし、「類似度が高い」と判定するための閾値、「類似度が中程度」と判定するための閾値、「類似度が低い」と判定するための閾値を学習により算出するようにしてもよい。例えば、カットセットの確認に本実施形態を用いる場合、「類似度が中程度」と判定されるカットセットに特に注力して確認を行うといった取り組みが可能になり、ＰＲＡモデルの確認作業をさらに効率化することができる。また、図７の説明では、プラント１～３のカットセットを用いて閾値を算出することとしたが、閾値の算出に用いるプラントの数は２以下であってもよいし、４以上であってもよい。

【0045】

（効果）
以上、説明したように、本実施形態によれば、ある文字列が他の文字列と類似するか否かを客観的に評価することができる。また、文字列の類似度を判定するためには、類似度を判定する基準を定める必要があるが、本実施形態によれば、文字列の類似を判断する為の閾値を算出することができる。また、新規の評価対象の文字列に対しても、教師データを与えて、図７の処理を実行することで、評価対象の文字列の分類が可能となる。

【0046】

ＰＲＡモデルから出力されるカットセットは、１プラントあたり数十万規模で生成されることがある。そのすべての妥当性や必要なカットセットが得られていることを技術者が手作業で確認することは困難である。本実施形態の文字列分類方法を用いることにより、本来は出現すべきカットセットの不足を他のプラントとの比較により効率的に検知することができる。また、プラント間のカットセットの比較により、ＰＲＡモデルの入力条件（ＦＴ，ＥＴおよびそれらの構成）の不備の有無を相互に確認でき、プラント間で整合性のとれた評価を行うことができる。また、カットセットの確認作業は、安全性向上の観点から技術者によって継続的に実行される作業である。本実施形態の文字列分類装置１０を導入して、確認済みのＰＲＡモデルから抽出されるカットセットを追加して、ベクトル間距離やコサイン類似度などの閾値を更新することにより、あるいは、プラントの種類や構成別（ＰＲＡモデルの内容別）にベクトル間距離やコサイン類似度などの閾値を算出しておくことで、ＰＲＡモデルの確認作業の効率化、省力化の効果を長期的に享受することができる。

【0047】

上記実施形態では、原子力発電プラントにおいて作成されたＰＲＡモデルのカットセットの確認作業を省力化・効率化するについて述べた。上述の通り、原子力発電プラントでは、カットセットの数が数万～数十万に達することがあり、本実施形態のＰＲＡモデルの妥当性確認方法は有効である。しかし、文字列分類装置１０の適用分野は、原子力プラントに限定されない。ＰＲＡモデルを用いてリスク評価を行うどのような産業分野にも適用が可能である。

【0048】

図９は、文字列分類装置のハードウェア構成の一例を示す図である。
コンピュータ９００は、ＣＰＵ９０１、主記憶装置９０２、補助記憶装置９０３、入出力インタフェース９０４、通信インタフェース９０５を備える。
上述の文字列分類装置１０は、コンピュータ９００に実装される。そして、上述した各機能は、プログラムの形式で補助記憶装置９０３に記憶されている。ＣＰＵ９０１は、プログラムを補助記憶装置９０３から読み出して主記憶装置９０２に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ９０１は、プログラムに従って、記憶領域を主記憶装置９０２に確保する。また、ＣＰＵ９０１は、プログラムに従って、処理中のデータを記憶する記憶領域を補助記憶装置９０３に確保する。

【0049】

なお、文字列分類装置１０の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各機能部による処理を行ってもよい。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、ＣＤ、ＤＶＤ、ＵＳＢ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、このプログラムが通信回線によってコンピュータ９００に配信される場合、配信を受けたコンピュータ９００が当該プログラムを主記憶装置９０２に展開し、上記処理を実行しても良い。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0050】

以上のとおり、本開示に係るいくつかの実施形態を説明したが、これら全ての実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これらの実施形態及びその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【0051】

＜付記＞
実施形態に記載の閾値設定方法、類似文字列判定方法、閾値設定装置、類似文字列判定装置及びプログラムは、例えば以下のように把握される。

【0052】

（１）第１の態様に係る閾値設定方法は、複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離（ベクトル間距離）とコサイン類似度を算出するステップと、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、を有する。
これにより、文字列の類似を判定する基準（閾値）を算出することができる。

【0053】

（２）第２の態様に係る閾値設定方法は、（１）の閾値設定方法であって、複数の前記組合せにおける前記距離の標準偏差と前記コサイン類似度の標準偏差を算出するステップ、をさらに有し、前記閾値を算出するステップでは、前記距離の閾値と前記コサイン類似度の閾値に加えて前記距離の標準偏差の閾値と前記コサイン類似度の標準偏差の閾値を算出する。
これにより、閾値の算出に使用した文字列群におけるベクトル間距離やコサイン類似度のばらつき具合に応じて、同様のばらつきを有する教師データから学習により設定された閾値を用いて文字列の類似判定を行うことができる。

【0054】

（３）第３の態様に係る類似文字列判定方法は、評価対象の文字列の文字列ベクトルを算出するステップと、参照用の１又は複数の文字列について、（１）～（２）の何れかに記載の閾値設定方法を用いて算出された前記参照用の１又は複数の文字列の文字列ベクトルと、前記閾値と、前記評価対象の文字列の文字列ベクトルとに基づいて、前記評価対象の文字列と前記参照用の文字列のうちの少なくとも１つが類似するかどうかを判定するステップと、を有する。
これにより、文字列が類似するかどうかを判定することができる。

【0055】

（４）第４の態様に係る類似文字列判定方法は、評価対象の文字列の文字列ベクトルを算出するステップと、参照用の１又は複数の文字列について、請求項１または請求項２に記載の閾値設定方法を用いて算出された前記参照用の１又は複数の文字列の文字列ベクトルと、前記閾値と、前記評価対象の文字列の文字列ベクトルとに基づいて、前記評価対象の文字列と前記参照用の文字列を類似するもの同士のグループに分類するステップと、を有する。
これにより、類似する文字列を同一のグループに分類することができる。

【0056】

（５）第５の態様に係る類似文字列判定方法は、（３）～（４）の類似文字列判定方法であって、前記判定するステップの結果に対する妥当性の評価を受け付けるステップと、前記妥当性の評価に基づいて、前記評価対象の文字列および前記評価対象の文字列と類似度の評価がなされた前記組合せに対して前記ラベル設定を行い、追加の前記教師データを作成するステップ、をさらに有し、前記閾値を算出するステップでは、前記教師データと前記追加の教師データとに基づいて、前記閾値を算出する。
これにより、閾値の精度を向上することができる。

【0057】

（６）第６の態様に係る類似文字列判定方法は、（３）～（５）の類似文字列判定方法であって、前記参照用の１又は複数の文字列が、評価済みのＰＲＡ（Probabilistic Risk Assessment）モデルから抽出されたカットセットを表す文字列であり、前記評価対象の文字列が、評価対象のＰＲＡモデルから抽出したカットセットを表す文字列である。
これにより、ＰＲＡモデルの欠陥を速やかに見つけ出し、修正することができる。

【0058】

（７）第７の態様に係る類似文字列判定方法は、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、を有する。
これにより、文字列が類似するかどうかを判定することができる。

【0059】

（８）第８の態様に係る閾値設定装置は、複数の文字列のそれぞれについて文字列ベクトルを算出する手段と、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出する手段と、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成する手段と、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出する手段と、を有する。

【0060】

（９）第９の態様に係る類似文字列判定装置は、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得する手段と、評価対象の文字列と参照用の文字列の文字列ベクトルを算出する手段と、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定する手段と、を有する。

【0061】

（１０）第１０の態様に係るプログラムは、コンピュータに、複数の文字列のそれぞれについて文字列ベクトルを算出するステップと、複数の前記文字列ベクトルから２つを選択する組合せを複数作成し、前記組合せごとに選択した２つの前記文字列ベクトルの距離とコサイン類似度を算出するステップと、前記組合せの各々について、選択した２つの前記文字列ベクトルが類似するか否かのラベル設定を行って、前記組合せの数の教師データを作成するステップと、前記教師データに基づいて、前記文字列の類似度を判定するための前記距離の閾値および前記コサイン類似度の閾値を算出するステップと、を実行させる。

【0062】

（１１）第１１の態様に係るプログラムは、コンピュータに、文字列の類似度を判定するための文字列ベクトルの距離及びコサイン類似度の閾値を取得するステップと、評価対象の文字列と参照用の文字列の文字列ベクトルを算出するステップと、前記評価対象の文字列の文字列ベクトルと前記参照用の文字列の文字列ベクトルの差が前記距離の閾値および前記コサイン類似度の閾値の範囲に収まるかどうかによって、前記評価対象の文字列と前記参照用の文字列の類似度を判定するステップと、を実行させる。

【符号の説明】

【0063】

１０・・・文字列分類装置
１１・・・文字列取得部
１２・・・入力受付部
１３・・・制御部
１４・・・特徴量演算部
１５・・・学習部
１６・・・評価部
１７・・・出力部
１８・・・記憶部
９００・・・コンピュータ
９０１・・・ＣＰＵ
９０２・・・主記憶装置
９０３・・・補助記憶装置
９０４・・・入出力インタフェース
９０５・・・通信インタフェース

【図1】