IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社カネカの特許一覧

特開2022-184348文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム
<>
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図1
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図2
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図3
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図4
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図5
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図6
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図7
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022184348
(43)【公開日】2022-12-13
(54)【発明の名称】文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム
(51)【国際特許分類】
   G06F 16/38 20190101AFI20221206BHJP
【FI】
G06F16/38
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021092137
(22)【出願日】2021-06-01
(71)【出願人】
【識別番号】000000941
【氏名又は名称】株式会社カネカ
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100134359
【弁理士】
【氏名又は名称】勝俣 智夫
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(74)【代理人】
【識別番号】100178847
【弁理士】
【氏名又は名称】服部 映美
(72)【発明者】
【氏名】竹田 有也
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175HB03
(57)【要約】
【課題】化学物質に関する製品に関し、問題を予防又は解決する情報を提供する。
【解決手段】データ収集部は、化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得する。第1学習部は、文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成すると、第2学習部は、文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する。第3学習部は、文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する。検索部は、第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルに基づいて、検索文字列に関連する文書を検索する。検索入出力部は、製品識別情報に基づいて、検索部が検索した文書の少なくとも一部の情報を出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集部と、
前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する第1学習部と、
前記文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する第2学習部と、
前記文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する第3学習部と、
前記化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記第1学習済みモデル、前記第2学習済みモデル、及び前記第3学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索部と、
前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力部と、
を備える文書検索システム。
【請求項2】
前記文書には、複数の者によって、前記製造工程における物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力された文書が含まれ、
前記第1学習済みモデルは、同じ意味の単語であっても前記複数の者に応じて表現が異なる単語を、類似度が高い単語として評価するためのモデルである
請求項1に記載の文書検索システム。
【請求項3】
前記文書には、問題が発生した場合の前記製造状況情報に対して、前記問題への対策を示す対策情報が入力された文書が含まれ、
前記出力部は、前記製造状況情報と対策情報を含む情報を出力する
請求項2に記載の文書検索システム。
【請求項4】
前記検索部は、前記第1学習済みモデルによる第1評価、及び、前記第2学習済みモデルによる第2評価を、前記第3学習済みモデルによる第3評価よりも、高い重みを付した評価結果を用いて、前記文書を検索する
請求項1から請求項3のいずれか一項に記載の文書検索システム。
【請求項5】
前記特定単位は、工場又は製造ラインに応じて設定可能である
請求項1から請求項4のいずれか一項に記載の文書検索システム。
【請求項6】
前記製品識別情報と、当該製品識別情報が示す製品の製造に用いられる複数の製造装置を示す装置識別情報と、を対応付けて記憶する設定記憶部と、
前記出力部は、前記装置識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する
請求項1から請求項5のいずれか一項に記載の文書検索システム。
【請求項7】
前記データ収集部は、前記製品識別情報が付された文書を取得し、
前記第1学習部は、前記製品識別情報ごとに、当該製品識別情報が付された文書を中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成し、
前記第2学習部は、前記製品識別情報ごとに、当該製品識別情報が付された文書を中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する
請求項1から請求項6のいずれか一項に記載の文書検索システム。
【請求項8】
化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書であって前記文書中の単語に基づいて機械学習が行われて生成された第1学習済みモデルであって単語或いは文章の類似度を評価するための第1学習済みモデルと、前記文書中の単語に基づいて機械学習が行われて生成された第2学習済みモデルであって当該文書中の単語の重要度を評価するための第2学習済みモデルと、文書中の文字列が特定単位で切りだされた第3学習済みモデルであって、文字列との一致を評価するための第3学習済みモデルとに基づいて、検索文字列に関連する前記文書を検索する検索部を備え、
前記検索部が検索した文書の少なくとも一部の情報は、前記製品識別情報に基づいて出力される
文書検索装置。
【請求項9】
データ収集部が、化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集過程と、
第1学習部が、前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する第1学習過程と、
第2学習部が、前記文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する第2学習過程と、
第3学習部が、文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する第3学習過程と、
検索部が、前記化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記第1学習済みモデル、前記第2学習済みモデル、及び前記第3学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索過程と、
出力部が、前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力過程と、
を有する文書検索方法。
【請求項10】
コンピュータに、
化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書であって前記文書中の単語に基づいて機械学習が行われて生成された第1学習済みモデルであって単語或いは文章の類似度を評価するための第1学習済みモデルと、前記文書中の単語に基づいて機械学習が行われて生成された第2学習済みモデルであって当該文書中の単語の重要度を評価するための第2学習済みモデルと、文書中の文字列が特定単位で切りだされた第3学習済みモデルであって、文字列との一致を評価するための第3学習済みモデルとに基づいて、検索文字列に関連する前記文書を検索する検索手順を実行させ、
前記検索手順で検索された文書の少なくとも一部の情報は、前記製品識別情報に基づいて出力されるための文書検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラムに関する。
【背景技術】
【0002】
近年、製品の製造等において、手順書を解析するシステムが知られてきている。
例えば、特許文献1には、過去に行なわれた作業に関する注意事項の中から対象作業に関する注意事項を抽出することにより、抽出した注意事項を含む対象作業の作業手順書を生成することが可能な手順書生成することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-135611号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1記載の技術では、構造物の製造について、手順に沿った作業を行う際の注意事項を抽出するに留まっている。例えば、化学やバイオ等の化学物質に関する製品の場合、物質の生産においては、その時々の物質、部品或いは製品の状態、製造装置の状況、又は環境によって、発生する問題や問題への対処方法が異なる。したがって、化学物質に関する製品に関し、問題を予防又は解決する情報を提供することが求められている。
【0005】
本開示は上記の点に鑑みてなされたものであり、化学物質に関する製品に関し、問題を予防又は解決する情報を提供することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本開示は上記の課題を解決するためになされたものであり、本開示の一態様は、化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集部と、前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する第1学習部と、前記文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する第2学習部と、前記文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する第3学習部と、前記化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記第1学習済みモデル、前記第2学習済みモデル、及び前記第3学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索部と、前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力部と、を備える文書検索システムである。
【0007】
(2)また、本開示の一態様は、化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書であって前記文書中の単語に基づいて機械学習が行われて生成された第1学習済みモデルであって単語或いは文章の類似度を評価するための第1学習済みモデルと、前記文書中の単語に基づいて機械学習が行われて生成された第2学習済みモデルであって当該文書中の単語の重要度を評価するための第2学習済みモデルと、文書中の文字列が特定単位で切りだされた第3学習済みモデルであって、文字列との一致を評価するための第3学習済みモデルとに基づいて、検索文字列に関連する前記文書を検索する検索部を備え、前記検索部が検索した文書の少なくとも一部の情報は、前記製品識別情報に基づいて出力される文書検索装置である。
【0008】
(3)また、本開示の一態様は、データ収集部が、化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集過程と、第1学習部が、前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する第1学習過程と、第2学習部が、前記文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する第2学習過程と、第3学習部が、文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する第3学習過程と、検索部が、前記化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記第1学習済みモデル、前記第2学習済みモデル、及び前記第3学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索過程と、出力部が、前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力過程と、を有する文書検索方法である。
【0009】
(4)また、本開示の一態様は、コンピュータに、化学物質に関する製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書であって前記文書中の単語に基づいて機械学習が行われて生成された第1学習済みモデルであって単語或いは文章の類似度を評価するための第1学習済みモデルと、前記文書中の単語に基づいて機械学習が行われて生成された第2学習済みモデルであって当該文書中の単語の重要度を評価するための第2学習済みモデルと、文書中の文字列が特定単位で切りだされた第3学習済みモデルであって、文字列との一致を評価するための第3学習済みモデルとに基づいて、検索文字列に関連する前記文書を検索する検索手順を実行させ、前記検索手順で検索された文書の少なくとも一部の情報は、前記製品識別情報に基づいて出力されるための文書検索プログラムである。
【発明の効果】
【0010】
本発明によれば、化学物質に関する製品に関し、問題を予防又は解決する情報を提供することができる。
【図面の簡単な説明】
【0011】
図1】本開示の実施形態に係る検索画面の一例を示す図である。
図2】本実施形態に係る文書検索システムの構成を示す概念図である。
図3】本実施形態に係るサーバの構成を示す概略ブロック図である。
図4】本実施形態に係るサーバの処理の一例を示すフロー図である。
図5】本実施形態に係るサーバの処理の別の一例を示すフロー図である。
図6】本実施形態に係るサーバの処理の別の一例を示すフロー図である。
図7】本実施形態に係る端末装置の構成を示す概略ブロック図である。
図8】本実施形態に係る実施例のデータを表す概略図である
【発明を実施するための形態】
【0012】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本開示の実施形態に係る検索画面の一例を示す図である。この検索画面は、検索文字列(キーワードのみや不完全な文の場合も含む)に対して文書を検索する画面であり、情報端末2に表示されている。情報端末2は、タブレット端末であるが、パーソナルコンピュータとディスプレイ、又はスマートフォン等であってもよい。
【0013】
検索対象となる文書は、製品の製造工程で、作業員(作業管理者を含む)に入力された文章を含む文書である。文書は、電子ファイルであり、例えば、製造引継書、操作報告書、作業標準書、変更提案書、連絡書である。製造引継書は、製造現場(工場等)において、交代した作業員ごとに、作業員の識別情報とともに、物質(製品、中間物質、又は素材)、部品或いは製品の状態、製造装置の状況、製造環境(工場名、ライン名、工程名、作業者名、工場内の温度、湿度等)等の製造状況情報、問題が発生した場合の製造状況情報と問題への対策情報及び対策の結果情報が入力されている。つまり、製造引継書は、作業員間で情報を引き継ぐために用いられる文書であり、例えば引継ぎ事項として問題(品質の低下、トラブル等)が入力されている。化学物質に関する製品である場合、文書には、時刻、化学反応等の反応時間、物質の視認情報、物質の容積、物質の温度、反応器内の圧力、製造装置の問題箇所、問題の内容、問題への対策、対策の結果の物質、部品或いは製品の状態等を表す単語や文章が入力される。
【0014】
検索画面は、ブラウザ上に表示され、画面G11、画面G12、ポップアップ画面G13の順に遷移する。
画面G11は、検索文字列を入力する画面である。画面G11には、ユーザ名G111、対象製品の選択欄G112、キーワードの入力欄G113、及び検索ボタンBT11が表示されている。ユーザは、選択欄G112で対象製品を選択し、入力欄G113に検索文字列を入力できる。検索ボタンBT11が押下された場合、対象製品について検索文字列に関連する文書が検索される。
なお、本実施形態では、ユーザ名G111のユーザがログインしている状態であるが、ログインしていなくてもよい。また、選択欄G112において、対象製品は1又は複数を選択されてもよいし、対象製品を選択しなくてもよい。また、ユーザがログインしている場合、当該ユーザに予め対応付けられた製品が対象製品として選択されていてもよいし、選択しない場合でも検索対象を当該対象製品の文書に絞り込んでもよい。
【0015】
画面G12は、検索結果の文書一覧を表示する画面である。画面G12には、関連キーワードG121、及び、検索結果の文書一覧G122が表示されている。各関連キーワード及び検索結果の各文書は、リンクを付した文字列が表示されている。関連ワードG121の関連キーワードのリンクがタップ(クリック)された場合、関連キーワードを用いた再検索又は絞り込み検索が実行される。ユーザが検索結果の文書の一つを選択し、その文字列がユーザにタップされた場合、画面G13がポップアップ表示される。
【0016】
画面G13には、ユーザが選択した文書の内容が詳細に表示される。この文書は、例えば製造引継書であり、製造装置の問題箇所、問題の内容、問題への対策、対策の結果の物質、部品或いは製品の状態も記入されている。このように、情報端末2は、化学物質に関する製品に関し、問題を予防又は解決する情報を提供することができる。
【0017】
<システム構成>
図2は、本実施形態に係る文書検索システムSの構成を示す概念図である。
元データは、文書の電子ファイルである。サーバ1(文書検索装置の一例)は、データ処理を行うアプリケーションがインストールされている。アプリケーションは、文書の電子ファイルから文書を抽出して、検索DBに記憶させる。また、アプリケーションは、文書の電子ファイルに基づいて機械学習を行い、生成した学習済みモデルを検索DBに記憶させる。検索DBの文書は、情報端末2の検索画面G(図1の画面G11~G13)をインターフェースとして、ユーザに参照される。
【0018】
<サーバの構成>
図3は、本実施形態に係るサーバ1の構成を示す概略ブロック図である。
サーバ1は、入出力部I1、記憶部M1、及び処理部P1を具備する。
【0019】
入出力部M1は、データ収集部111、及び検索入出力部112を含んで構成される。
データ収集部111は、複数の文書の電子ファイルを収集する。検索入出力部112は、通信インターフェースであり、端末装置2からの要求を受信し、受信した要求に対して、図1の画面等を生成するためのデータを出力する。
【0020】
記憶部M1(図2の検索DBに相当)は、データ記憶部121、第1学習結果記憶部122、第2学習結果記憶部123、第3学習結果記憶部124、重み情報記憶部125、及びログ記憶部126を含んで構成される。
データ記憶部121は、複数の文書の電子データ(「文書データ」とも称する)及び各種設定情報を記憶する。第1学習結果記憶部122は、第1学習処理の結果の学習済みモデル(第1学習済みモデル)を記憶する。第2学習結果記憶部123は、第2学習処理の結果の学習済みモデル(第2学習済みモデル)を記憶する。第3学習結果記憶部124は、第3学習処理の結果の学習済みモデル(第3学習済みモデル)を記憶する。
重み情報記憶部125は、検索結果を評価する際に用いる重み情報を記憶する。重みは、第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルによる評価値に対して、乗算する重みである。ログ記憶部126は、検索の要求に対して、検索日時、検索をしたユーザの識別情報、検索文字列、検索結果、ユーザが選択した選択結果、及び、検索結果のユーザによる評価結果(例えば役に立ったか否か等)を記憶する。
【0021】
処理部P1は、図2のアプリケーションとして、前処理部131、第1学習部132、第2学習部133、及び第3学習部134を含んで構成される。
前処理部131は、文書に対して、特定の文字(ノイズ及びストップワード)の除去を行う。
【0022】
第1学習部132は、第1学習処理として、Word2Vecによる機械学習処理を行う。Word2Vecは、単語の言語コンテキストを再構築するように学習された2層ニューラルネットワークであり、コーパスを受け取ってベクトル空間を生成する手法である。コーパスの各単語は、ベクトル空間内の個々のベクトルに割り当てられる。ベクトル同士の角度が小さい程、それらのベクトルに割り当てられた単語又は文章の類似度が高くなる(コサイン類似度)。なお、各単語又は文章(のベクトル)は、その単語又は文章が含まれる文書の文書ID(IDは識別情報、以下同じ)に対応付けられる。
第2学習部132は、第2学習処理として、TF-IDF(Term Frequency ― Inverse Document Frequency)法による機械学習処理を行う。TF-IDF法は、文書中の単語の重要度を評価するための手法である。TF-IDFで法の評価値(tf-idf)は、単語の出現頻度(TF)と文書数に基づく逆文書頻度(IDF)の2つの指標に基づいて計算される。
第3学習部134は、第3学習処理として、N-gram法による機械学習処理を行う。N-gram法は、部分一致を行う手法であり、検索対象文書を全てN-gramに分解し、分解された文字列1つ1つを検索インデックスとして登録する。N-gramとは、テキストを連続するN個の文字単位で切り出したものをいう。本実施形態では、N=2のN-gram法(bi-gramとも呼ばれる)を用いる。
【0023】
処理部P1は、さらに、設定部135、検索部136、及び表示制御部137を含んで構成される。
設定部135は、ユーザ操作に基づいて、学習や検索の設定情報を更新する。検索の設定情報としては、各学習済みモデルに対する重みがある。
検索部136は、端末装置2から検索の要求があった場合に、第1学習済みモデル、第2学習済みモデル、第3学習済みモデルの各々に重みを乗算し、加算した評価値(スコア)を算出する。検索部136は、評価値が高い順に、各文書の一部を並べた文書一覧(例えば、図1の文書一覧G122)を生成する。また、検索部136は、特定の文書の詳細情報の要求があった場合、詳細情報を抽出する。
表示制御部137は、画面を生成するための画面データを生成して、要求に対して応答する。例えば、表示制御部137は、検索部136が生成した文書一覧の画面(例えば図1の画面G12)データ、及び、検索部136が抽出した詳細情報を含む画面(例えば図1の画面G13)データを、各要求に対して応答する。これにより、端末装置2では、画面データに基づいて、ブラウザを用いて画面が表示される。
【0024】
<サーバの処理>
以下、サーバ1の処理について、図3の各部を処理主体として説明する。
図4は、本実施形態に係るサーバ1の処理の一例を示すフロー図である。この図の処理は、文書の電子ファイルを取得し、文書データに加工する処理である。
【0025】
(ステップS101)前処理部131は、文書の電子ファイルを収集して、データ記憶部121に記憶させる。その後、ステップS102の処理が行われる。
(ステップS102)前処理部131は、S101で抽出された電子ファイルから文字列(単語又は文章を含む)を抽出し、加工処理を行う。加工処理として、前処理部131は、予め定めたフォーマットで文書データを生成する。例えば、製造引継書の場合、前処理部131は、文書ID、製品ID、作業日時、文書の収集日時、作業員ID、装置ID、製造ラインID、工場ID、各項目と当該項目記載内容のフォーマットで文書データを生成する。その後、ステップS103の処理が行われる。
(ステップS103)前処理部131は、ステップS102で生成された文書データを、文書IDごとにデータ記憶部121に記憶(保存)させる。
【0026】
図5は、本実施形態に係るサーバ1の処理の別の一例を示すフロー図である。この図の処理は、検索の準備処理であり、検索文字列と各文書データの類似度を評価するための情報を生成する処理である。
【0027】
(ステップS201)前処理部131は、複数の各文書の文書データを読み出し、前処理を行う。前処理において、前処理部131は、文書ごとに、文書データから単語及び文章を抽出して形態素解析を行い、単語及び文章を形態素に分解する。なお、文書が英語で記載されている場合、文においてスペースで区切られる単語を形態素とする。前処理部131は、文書及び文ごとの形態素から、ノイズ及びストップワードの除去を行う。ノイズの除去とは、予め設定されたノイズワード、例えば句読点や記号、数字を、文書から除去することである。ストップワードの除去とは、予め設定されたストップワード、例えば単体では意味のない語を、文書から除去することである。前処理部131は、ノイズ及びストップワードの除去が行われた形態素を、文書及び文ごとの単語として、データ記憶部121に記憶させる。その後、ステップS202の処理が行われる。なお、文書及びストップワードには、日本語だけでなく、外国語が含まれる。
【0028】
(ステップS202)第1学習部132は、ステップS201で記憶された文書及び文ごとの単語を用いて、Word2Vecによる学習処理を行う。その後、ステップS203の処理が行われる。
この学習処理によって、サーバ1は、同義語・類義語等の辞書を用意しなくても類語を評価できる。例えば作業員が交代するような製造工程では、作業員ごとに専門用語や単語の表記ゆれが多くなることがある。サーバ1は、同じ意味の単語について、作業員によって表現が異なる場合であっても、意味が近い(類似度が高い)単語として取り扱うことができる。実施例として、reactorと類似度が高い単語として、その略称(rx)や反応器の名称が挙げられた。
【0029】
(ステップS203)第2学習部132は、ステップS201で記憶された文書及び文ごとの単語を用いて、TF-IDF法による学習処理を行う。その後、ステップS204の処理が行われる。
(ステップS204)第3学習部133は、ステップS201で記憶された文書及び文ごとの単語を用いて、N-gram法による学習処理を行う。その後、ステップS205の処理が行われる。
【0030】
図6は、本実施形態に係るサーバ1の処理の別の一例を示すフロー図である。この図の処理は、ユーザによる検索が行われた場合の処理であり、検索文字列に対して類似度の高い文書の文書一覧を生成する処理である。
【0031】
(ステップS301)検索入出力部112は、端末装置2から検索の要求を受信する。この要求には、1又は複数の検索文字列が含まれる。なお、検索文字列において、空白が含まれている場合、検索入出力部112は、空白を除き、空白の前後の文字列に分割する。その後、ステップS302の処理が行われる。
(ステップS302)検索部136は、検索文字列を、第1学習済みモデルのベクトル空間にマッピングする。検索部136は、マッピングされた検索文字列のベクトルに対して、第1学習済みモデルの単語又は文章のベクトルとの類似度を算出する。検索部136は、各文書に含まれる単語又は文章で最も高い類似度を、各文書の第1評価値とする。その後、ステップS303の処理が行われる。
【0032】
(ステップS303)検索部136は、検索文字列を第2学習済みモデルのベクトル空間にマッピングする。検索部136は、マッピングされた検索文字列のベクトルに対して、第2学習済みモデルの各文書のベクトルとの類似度(コサイン類似度)を算出し、各文書の第2評価値とする。その後、ステップS304の処理が行われる。
(ステップS304)検索部136は、検索文字列に対して、第3学習済みモデルの検索インデックス(N-gramに分解された文字列)と一致するか否かを判定する。検索部136は、検索文字列が検索インデックスと一致した回数を、各文書の第3評価値として算出する。その後、ステップS305の処理が行われる。
【0033】
(ステップS305)検索部136は、各文書について、設定部135により設定された重み情報のうち、第1重みを第1評価値に乗算し、第2重みを第2評価値に乗算し、第3重みを第3評価値に乗算して、乗算後の値を合算する(合算された値を「検索スコア」とも呼ぶ)。第1評価値の重み:第2評価値の重み:第3評価値の重みは、例えば1:1.5:0.2である。その後、ステップS306の処理が行われる。
【0034】
(ステップS306)検索部136は、検索スコアの高いものから順に、文書IDを並び替える。表示制御部137は、検索スコアの高いものから所定の件数(例えば20件、設定情報により変更可能)の文書IDと当該文書IDの文書の一部を含む、画面データを生成する。表示制御部137は、検索要求に製品IDが含まれる場合、当該製品IDに対応付けられた文書IDのみの文書、又は当該文書IDの文書を優先して並べた画面データを生成する。優先して並べたとは、順序を先に並べたこと、又は、絞り込んで並べたことをいう。また表示制御部137は、検索文字列と類似する単語(例えば、第1学習済みモデルで類似度の高い所定数の単語)を関連キーワード(図1の関連キーワードG121)として表示させる画面データを生成する。また、表示制御部137は、ユーザがログインしている場合、ユーザ名(図1のユーザ名G111)を表示させる画面データを生成する。
検索入出力部112は、表示制御部137が生成した画面データを、検索要求の返信として端末装置2へ送信する。これにより、端末装置2は、検索結果画面(例えば図1の画面G12)を表示する。
【0035】
<端末装置の構成>
図7は、本実施形態に係る端末装置2の構成を示す概略ブロック図である。
端末装置2は、入出力部I2、記憶部M2、及び処理部P2を具備する。
【0036】
入出力部I2は、通信部211、入力部212及び表示部213を含んで構成される。
通信部211は、サーバ1等の外部装置と通信を行う。
入力部212は、ユーザによるキー操作等のユーザ操作を受け付ける。
表示部213は、図1の画面等を表示するディスプレイである。
【0037】
記憶部M2は、端末設定記憶部221及びログ記憶部222を含んで構成される。
端末設定記憶部221は、ユーザID及び端末側の設定情報(端末設定情報とも称する)を記憶する。端末設定情報としては、例えば製品ID、作業員ID、装置ID、製造ラインID、又は工場IDがある。
ログ記憶部222は、ユーザが入力した検索文字列の情報を記憶する。
【0038】
処理部P2は、設定要求部231、検索要求部232、及び結果表示制御部233を含んで構成される。
設定要求部231は、サーバ1に設定情報を設定させる要求を行う。
検索要求部232は、ユーザが入力した検索文字列を含む検索要求を生成し、サーバ1へ送信させる。ここで、検索要求部232は、ユーザが製品を選択した場合、選択した製品の製品IDを含む検索要求を生成し、サーバ1へ送信させる。
結果表示制御部233は、サーバ1から受信した画面データが表す画面を表示部213に表示させる。
【0039】
なお、検索要求部222は、端末設定情報の製品ID、装置ID、製造ラインID、又は工場IDをさらに含む検索要求を生成し、結果表示制御部223は、製品ID、製造ラインID、又は工場IDが付与された文書を、文書一覧において優先して表示してもよい。文書一覧において優先して表示とは、文書一覧において、これらのIDが付与された文書のみが表示される、又は、これらのIDが付与されていない文書と比較して先に表示されることをいう。これにより、ユーザが所望の文書を検索できる。例えば、ユーザは、自身が製造に携わる製品、製造ライン、又は工場の文書を優先して参照できる。
【0040】
<実施例>
図8は、本実施形態に係る実施例のデータを表す概略図である。
本実施例では、4個の評価パターンで重み情報を設定して検索した。検索文字列(検索キーワード)としては、3個の文字列パターン(「セルカット ワレ」、「ストリンガー インコネ ハガレ」、「封止 溶着不良」)を入力して検索をした。各評価パターン及び各文字列パターンに対して、適合率を算出した。適合率とは、検索結果の精度の指標であり、検索対象の文書群の中から正しく検索された文書の割合である。
【0041】
テスト1(図では丸数字1)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、1:0:0であり、第1評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.7、0.6、0.9であり、ややばらつきがあった。テスト1では、頻出単語と意味の近い別の単語が高く評価された。この場合、関係性の低い文書が上位になる場合があった。
テスト2(図では丸数字2)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、0:1:0であり、第2評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.85、0.75、0.75であった。テスト2では、バランスよく検索できているものの、検索文字列と異なる単語(同義語・類義語や表記ぶれ)の検索ができない場合があった。
テスト3(図では丸数字3)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、0:0:1であり、第3評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.3、0、0.85であり、ばらつきが大きかった。テスト3では、特定のbi-gramが登場した回数が多いほど評価値が高くなるため、長い文章ほど評価値が高くなってしまう傾向がある。一方、出現頻度が低い単語の検索では、精度が高くなる。
【0042】
テスト4(図では丸数字4)は、本実施形態と同じく、第1評価値の重み:第2評価値の重み:第3評価値の重みは、1:1.5:0.2である。各文字列パターンの評価結果は、0.7、0.85、0.75であった。テスト4では、どの検索文字列に対してもバランスよく高い精度で検索を行えていた。また、この重みでは、検索文字列と異なる単語(同義語・類義語や表記ぶれ)の検索ができていた。
このように、文書検索システムSでは、複数の手法を組み合わせることで、高い精度を保持しつつ、類語や部分一致の検索にも対応できる。
【0043】
このように、本実施形態によれば、データ収集部111は、化学物質に関する製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得する。第1学習部132は、文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する。第2学習部133は、文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する。第3学習部134は、文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する。
検索部136は、製品ID(化学物質に関する製品を示す製品識別情報の一例)と検索文字列が入力された場合に、第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルに基づいて、検索文字列に関連する文書を検索する。検索入出力部112(出力部の一例。表示部213であってもよい。以下同じ)は、製品IDに基づいて、検索部136が検索した文書の少なくとも一部の情報を出力する。
【0044】
これにより、文書検索システムSは、化学物質に関する製品に関し、製品の製造工程で入力された文章を含む文書のうち、検索文字列に関連する文書の少なくとも一部の情報を出力する。したがって、ユーザは、出力された情報を参照することで、問題を予防又は解決することができる。
化学物質に関する製品では、機械製品と比較して、1つの工程(反応等)に時間を要し、また製造条件による影響を受けやすい。文書検索システムSは、過去に製品の製造工程で入力された文章を検索するので、ユーザは、検索された文章において、同様の現象を見つけることによって過去の経験を活用することができる。また、文書検索システムSは、上記学習済みモデルを用いて文書を検索するので、同義語・類義語等の辞書を用意しなくても類語を評価でき、文書中の単語の重要度を評価でき、さらに、文字列との一致を評価できる。
【0045】
なお、第1学習部132は、Bag of Words等、Word2Vec以外により、単語又は文書の類似度を評価できる学習済みモデルを生成する機械学習処理を行ってもよい。また、第2学習部133は、Okapi BM25等、TF-IDF法以外により、文書中の単語の重要度を評価するための第2学習済みモデルを生成する機械学習処理を行ってもよい。第3評価値は、複数のNについてのN-gramにおいて、検索インデックスと一致した回数について、重み付け(例えばBinary Weight、TFウェイト、IDFウェイト)をしたものであってもよい。学習部134は、N-gram法以外により、文字列との一致を評価するための第3学習済みモデルを生成してもよい。
化学物質に関する製品には、医薬品、サプリメント、樹脂、食品素材、材料、生体物質及びこれらを用いた製品も含まれる。化学物質に関する製品の製造工程には、反応、分解等が含まれる。
【0046】
また、文書検索システムSでは、文書には、複数の者によって、製造工程における物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力された文書が含まれ、第1学習済みモデルは、同じ意味の単語であっても複数の者に応じて表現が異なる単語を、類似度が高い単語として評価するためのモデルである。
化学物質に関する製品では、反応等の時間を要するため、1つの製造工程であっても作業員が交代する。製造引継帳には、作業員(交代番)ごとに、物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力されるが、作業員によって、同じ物や現象であっても、異なる用語、正式名称と略称、ぶれた表記が用いられることが発生し易い。文書検索システムSは、同じ意味の単語であっても前記複数の者に応じて表現が異なる単語を、類似度が高い単語として評価する第1学習済みモデルも用いるので、複数の作業員が異なる用語等を用いても同じ意味の用語が含まれる文書を検索できる。
物質、部品或いは製品の状態とは、液体、固体、気体、温度、濃度、比重、圧力、モル濃度、モル比、従量比、粘度、硬度、強度、ひずみ、ひび、はがれ、欠損、割れの程度、外観(色、泡立ち等)等である。製造環境とは、溶着の状況、封止の状況、反応器の内部圧力、菅の状況(流量やつまり)、摩耗の状況、(レーザー等の)照射の状況等である。製造状況情報は、工場名、ライン名、工程名、作業者名、工場内の温度や湿度、天気等である。
【0047】
また、文書検索システムSでは、文書には、問題が発生した場合の製造状況情報に対して、問題への対策を示す対策情報が入力された文書が含まれ、検索入出力部112は、製造状況情報と対策情報を含む情報を出力する。
これにより、文書検索システムSは、製造状況情報に関する検索文字列が入力された場合に、その対策情報を提供することができる。
【0048】
また、文書検索システムSでは、検索部136部は、第1学習済みモデルによる第1評価値、及び、第2学習済みモデルによる第2評価値を、第3学習済みモデルによる第3評価値よりも、高い重みを付した評価結果を用いて、文書を検索する。
実施例(図8参照)のとおり、第1評価値の重み(1)と第2評価値の重み(1.5)を、第3評価値(0.2)とした場合に、適合率が高く、かつ、同義語・類義語を含む文書も検索結果に含まれた。また、第3評価値の適合率は低い検索文字列が多かったが、特定の検索文字列で適合率が高くなった(テスト3)。
なお、第2評価値は、第1評価値よりも高い重み付けをした。これにより、同義語・類義語よりも、文書において重要な単語を優先して検索対象として、文書を抽出できる。
【0049】
また、文書検索システムSでは、特定単位は、工場又は製造ラインに応じて設定可能であってもよい。例えば、N-gramのNは、工場又は製造ラインに応じて設定可能である。これにより、文書検索システムSでは、工場又は製造ラインに応じて、検索条件を設定できる。
【0050】
また、文書検索システムSでは、データ記憶部121は、設定情報として、製品ID(製品識別情報の一例)と、当該製品IDが示す製品の製造に用いられる複数の製造装置を示す装置ID(装置識別情報の一例)とを対応付けて記憶する。検索入出力部112は、装置IDに基づいて、検索部136が検索した文書の少なくとも一部の情報を出力する。
文書検索システムSでは、検索入出力部112は、装置IDごとに分類して一覧を作成してもよい。また検索入出力部112は、文書一覧の各文書に装置IDを付してもよく、この場合、表示部213は、装置IDで並び替えを可能な画面を表示してもよい。
これにより、ユーザは、製品ごとに、所望の装置についての文書を見つけ易くなる。
【0051】
また、文書検索システムSでは、データ収集部111は、製品IDが付された文書を取得し、第1学習部132は、製品IDごとに、当該製品IDが付された文書を中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成し、第2学習部133は、製品IDごとに、当該製品IDが付された文書を中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成してもよい。
これにより、文書検索システムSでは、製品ごとに学習済みモデルを生成でき、各製品に特化した検索を行うことができる。
【0052】
同様に、文書検索システムSでは、製品ID及び装置ID、製造ラインID、或いは工場IDが付された文書を取得し、第1学習部132は、製品ID及び装置ID、製造ラインID、或いは工場IDごとに、当該製品ID及び装置ID、製造ラインID、或いは工場IDが付された文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成し、第2学習部133は、製品ID及び装置ID、製造ラインID、或いは工場IDごとに、当該製品ID及び装置ID、製造ラインID、或いは工場IDが付された文書を中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成してもよい。
【0053】
また、文書検索システムSでは、ユーザIDごとに、製品ID及び装置ID、製造ラインID、或いは工場IDを予め対応付け、検索入出力部112は、製品ID及び装置ID、製造ラインID、或いは工場IDに基づいて、検索部136が検索した文書の少なくとも一部の情報を出力してもよい。
また、文書検索システムSでは、各文書又は各文章について入力したユーザのユーザIDを対応付けてもよく、文書一覧等において、各文書又は各文章を選択した場合に、入力したユーザの情報(ユーザ名、又は連絡先)を表示してもよい。これにより、文書検索をしたユーザは、各文書又は各文章について入力したユーザへ連絡して、当該ユーザに詳細を聞くことや当該ユーザを呼び出すことができる。
【0054】
上記実施形態において、文書検索システムSでは、問題が発生した場合の文書については、複製した文書を用いて問題が発生しない場合の文書よりも、より多くの文書を機械学習処理に用いてもよい。これにより、文書検索システムSでは、問題が発生した場合の文書の評価値が高くなり、当該文書を優先してユーザに提供できる場合がある。
【0055】
なお、上述した実施形態におけるサーバ1又は端末装置2の一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、サーバ1又は端末装置2に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態におけるサーバ1及び端末装置2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。サーバ1及び端末装置2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0056】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0057】
S・・・文書検索システム、I1・・・入出力部、M1・・・記憶部、P1・・・処理部、111・・・データ収集部、112・・・検索入出力部、121・・・データ記憶部、122・・・第1学習結果記憶部、123・・・第2学習結果記憶部、124・・・第3学習結果記憶部、125・・・重み情報記憶部、126・・・ログ記憶部、131・・・前処理部、132・・・第1学習部、133・・・第2学習部、134・・・第3学習部、135・・・設定部、136・・・検索部、137・・・表示制御部、I2・・・入出力部、M2・・・記憶部、P2・・・処理部、211・・・通信部、212・・・入力部、213・・・表示部、221・・・端末設定記憶部、222・・・ログ記憶部、221・・・設定要求部、222・・・検索要求部、223・・・結果表示制御部
図1
図2
図3
図4
図5
図6
図7
図8