IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社カネカの特許一覧

特開2023-140715文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム
<>
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図1
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図2
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図3
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図4
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図5
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図6
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図7
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図8
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図9
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図10
  • 特開-文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023140715
(43)【公開日】2023-10-05
(54)【発明の名称】文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230928BHJP
   G06Q 50/04 20120101ALI20230928BHJP
   G06F 16/33 20190101ALI20230928BHJP
【FI】
G06F16/35
G06Q50/04
G06F16/33
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022046692
(22)【出願日】2022-03-23
(71)【出願人】
【識別番号】000000941
【氏名又は名称】株式会社カネカ
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100134359
【弁理士】
【氏名又は名称】勝俣 智夫
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(74)【代理人】
【識別番号】100178847
【弁理士】
【氏名又は名称】服部 映美
(72)【発明者】
【氏名】津川 城
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FA03
5B175HA01
5L049CC04
(57)【要約】
【課題】化学物質による処理を経て製造される製品に関し、製造上の問題を予防又は解決する情報を提供する。
【解決手段】データ収集部は、化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得する。学習部は、文書に基づいて機械学習を行い、検索文字列に関連する文書を検索するための学習済みモデルを生成する。分類部は、文書に基づいて機械学習を行い、文書同士の内容の類似性に応じた分類を行う。検索部は、化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、学習済みモデルに基づいて、検索文字列に関連する文書を検索する。出力部は、製品識別情報に基づいて、検索部が検索した文書の少なくとも一部の情報を出力する。出力部は、分類の結果に基づいて、検索部が検索した文書と内容の類似する文書に関する情報を出力する。
【選択図】図4
【特許請求の範囲】
【請求項1】
化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集部と、
前記文書に基づいて機械学習を行い、検索文字列に関連する前記文書を検索するための学習済みモデルを生成する学習部と、
前記文書に基づいて機械学習を行い、前記文書同士の内容の類似性に応じた分類を行う分類部と、
前記化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索部と、
前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力部と、
を備え、
前記出力部は、前記分類の結果に基づいて、前記検索部が検索した文書と内容の類似する文書に関する情報を出力する
文書検索システム。
【請求項2】
前記学習部は、
前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する第1学習部と、
前記文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する第2学習部と、
前記文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する第3学習部と、
を備える請求項1に記載の文書検索システム。
【請求項3】
分類部は、前記文書に基づいて機械学習を行い、前記文書同士の内容の類似性に応じた分類を行う第4学習済みモデルを生成し、前記第4学習済みモデルに基づいて、前記文書の各々に、内容の類似性に応じた分類を示す分類情報を付加し、
前記出力部は、前記分類情報に基づいて、前記検索部が検索した文書と内容の類似する文書に関する情報を出力し、
前記第4学習済みモデルは、トピックモデルであり、
前記分類部は、前記文書の各々の少なくとも1つに対して、複数の分類情報を付加する
請求項1又は請求項2に記載の文書検索システム。
【請求項4】
前記文書は、同一事象に起因する内容が入力された第1文書と第2文書を含み、
前記分類部は、前記第1文書と前記第2文書を、類似性がある文書とする分類を行い、
前記出力部は、前記第1文書の少なくとも一部の情報と、前記第2文書に関する情報をあわせて出力する
請求項1から請求項3のいずれか一項に記載の文書検索システム。
【請求項5】
前記文書には、複数の者によって、前記製造工程における物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力された文書が含まれ、
前記第2文書は、少なくとも一部が前記第1文書を入力した者と異なる者によって入力された文書である
請求項4に記載の文書検索システム。
【請求項6】
前記第1文書は、問題が発生した場合の前記製造状況情報が入力された文書であり、
前記第2文書は、第1文書に入力された前記製造状況情報に対して、少なくとも一部に前記問題への対策を示す対策情報が入力された文書であり、
前記出力部は、前記製造状況情報が入力された前記第1文書の少なくとも一部の情報と、対策情報が入力された前記第2文書に関する情報を出力する
請求項5に記載の文書検索システム。
【請求項7】
前記データ収集部は、日付が付された文書を取得し、
前記出力部は、前記分類に紐づく情報が選択された場合に、当該情報に紐づく分類に属する文書を、当該文書に付された日付に基づいて並べて表示する
請求項1から請求項6いずれか一項に記載の文書検索システム。
【請求項8】
前記検索部は、前記分類ごとに、当該分類に属する各文書の検索スコアに基づいて、当該分類の検索スコアを算出し、
前記出力部は、前記分類ごとの検索スコアに基づく順序で並べて、前記分類に関する情報を出力する
請求項1から請求項7いずれか一項に記載の文書検索システム。
【請求項9】
前記分類部は、工場又は製造ラインに応じて文書の分類を行い、
前記出力部は、前記分類の結果に基づいて、前記工場又は前記製造ラインについての文書であって、前記検索部が検索した文書と内容の類似する文書に関する情報を出力する
請求項1から請求項8のいずれか一項に記載の文書検索システム。
【請求項10】
前記製品識別情報と、当該製品識別情報が示す製品の製造に用いられる複数の製造装置を示す装置識別情報と、を対応付けて記憶する設定記憶部と、
前記出力部は、前記装置識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報と、前記検索部が検索した文書と内容の類似する文書に関する情報を出力する
請求項1から請求項9のいずれか一項に記載の文書検索システム。
【請求項11】
化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、
前記化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書に基づいて機械学習が行われて生成された学習済みモデルに基づいて、前記検索文字列に関連する前記文書が検索され、前記検索された文書の少なくとも一部の情報を、前記製品識別情報に基づいて出力する出力部
を備え、
前記出力部は、前記文書に基づいて機械学習が行われ、前記文書同士の内容の類似性に応じた分類が行われた結果に基づいて、前記検索された文書と内容の類似する文書に関する情報を出力する
文書検索装置。
【請求項12】
データ収集部が、化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集過程と、
学習部が、前記文書に基づいて機械学習を行い、検索文字列に関連する前記文書を検索するための学習済みモデルを生成する学習過程と、
分類部が、前記文書に基づいて機械学習を行い、前記文書同士の内容の類似性に応じた分類を行う分類過程と、
検索部が、前記化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索過程と、
出力部が、前記製品識別情報に基づいて、前記検索過程で検索された文書の少なくとも一部の情報を出力する出力過程と、
を有し、
前記出力過程において、出力部が、前記分類の結果に基づいて、前記検索過程で検索された文書と内容の類似する文書に関する情報を出力する
文書検索方法。
【請求項13】
コンピュータに、
化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、
前記化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書に基づいて機械学習が行われて生成された学習済みモデルに基づいて、前記検索文字列に関連する前記文書が検索され、前記検索された文書の少なくとも一部の情報を、前記製品識別情報に基づいて出力させる出力手順を実行させ、
前記出力手順において、前記文書に基づいて機械学習が行われ、前記文書同士の内容の類似性に応じた分類が行われた結果に基づいて、前記検索された文書と内容の類似する文書に関する情報を出力させる
文書検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書検索システム、文書検索装置、文書検索方法、及び文書検索プログラムに関する。
【背景技術】
【0002】
近年、製品の製造等において、手順書等の文書を解析して、文書から必要な事項を抽出するシステムが知られてきている。
例えば、特許文献1には、過去に行なわれた作業に関する注意事項の中から対象作業に関する注意事項を抽出し、抽出した注意事項を含む対象作業の作業手順書を生成する装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-135611号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1記載の技術では、二以上の部品から成る構造物の製造にあたって、手順に沿った作業を行う際の注意事項を抽出するに留まっている。例えば、化学やバイオ等の化学物質による処理を経て製造される製品の場合、その時々の物質、部品或いは製品の状態、製造装置の状況、又は環境によって、発生する問題や問題への対処方法が異なる。したがって、化学物質による処理を経て製造される製品に関しては、より多くのファクターを考慮した上で、製造上の問題を予防又は解決する情報を提供することが求められる。
【0005】
本開示は上記の点に鑑みてなされたものであり、化学物質による処理を経て製造される製品に関し、製造上の問題を予防又は解決する情報を提供することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
(1)本開示は上記の課題を解決するためになされたものであり、本開示の一態様は、化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集部と、前記文書に基づいて機械学習を行い、検索文字列に関連する前記文書を検索するための学習済みモデルを生成する学習部と、前記文書に基づいて機械学習を行い、前記文書同士の内容の類似性に応じた分類を行う分類部と、前記化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索部と、前記製品識別情報に基づいて、前記検索部が検索した文書の少なくとも一部の情報を出力する出力部と、を備え、前記出力部は、前記分類の結果に基づいて、前記検索部が検索した文書と内容の類似する文書に関する情報を出力する文書検索システムである。
【0007】
(2)また、本開示の一態様は、化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書に基づいて機械学習が行われて生成された学習済みモデルに基づいて、前記検索文字列に関連する前記文書が検索され、前記検索された文書の少なくとも一部の情報を、前記製品識別情報に基づいて出力する出力部を備え、前記出力部は、前記文書に基づいて機械学習が行われ、前記文書同士の内容の類似性に応じた分類が行われた結果に基づいて、前記検索部が検索した文書と内容の類似する文書に関する情報を出力する文書検索装置である。
【0008】
(3)また、本開示の一態様は、データ収集部が、化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得するデータ収集過程と、学習部が、前記文書に基づいて機械学習を行い、検索文字列に関連する前記文書を検索するための学習済みモデルを生成する学習過程と、分類部が、前記文書に基づいて機械学習を行い、前記文書同士の内容の類似性に応じた分類を行う分類過程と、検索部が、前記化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記学習済みモデルに基づいて、前記検索文字列に関連する前記文書を検索する検索過程と、出力部が、前記製品識別情報に基づいて、前記検索過程で検索された文書の少なくとも一部の情報を出力する出力過程と、を有し、前記出力過程において、出力部が、前記分類の結果に基づいて、前記検索過程で検索された文書と内容の類似する文書に関する情報を出力する文書検索方法である。
【0009】
(4)また、本開示の一態様は、コンピュータに、化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、前記化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書に基づいて機械学習が行われて生成された学習済みモデルに基づいて、前記検索文字列に関連する前記文書が検索され、前記検索された文書の少なくとも一部の情報を、前記製品識別情報に基づいて出力させる出力手順を実行させ、前記出力手順において、前記文書に基づいて機械学習が行われ、前記文書同士の内容の類似性に応じた分類が行われた結果に基づいて、前記検索部が検索した文書と内容の類似する文書に関する情報を出力させる文書検索プログラムである。
【発明の効果】
【0010】
本発明によれば、化学物質による処理を経て製造される製品に関し、製造上の問題を予防又は解決する情報を提供することができる。
【図面の簡単な説明】
【0011】
図1】本開示の実施形態に係る検索画面の一例を示す図である。
図2】本実施形態に係るトピックグループの文書一覧の一例を示す図である。
図3】本実施形態に係る文書検索システムの構成を示す概念図である。
図4】本実施形態に係るサーバの構成を示す概略ブロック図である。
図5】本実施形態に係るサーバの処理の一例を示すフロー図である。
図6】本実施形態に係るサーバの処理の別の一例を示すフロー図である。
図7】本実施形態に係るサーバの処理の別の一例を示すフロー図である。
図8】本実施形態に係る端末装置の構成を示す概略ブロック図である。
図9】本実施形態に係る実施例のデータを表す概略図である。
図10】本実施形態に係る実施例及び比較例のデータを表す概略図である。
図11】本実施形態の変形例に係るトピックグループの一覧の一例を示す図である。
【発明を実施するための形態】
【0012】
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本開示の実施形態に係る検索画面の一例を示す図である。この検索画面は、検索文字列(キーワードのみや不完全な文の場合も含む)に対して文書を検索する画面であり、端末装置2に表示されている。端末装置2は、タブレット端末であるが、パーソナルコンピュータとディスプレイ、又はスマートフォン等であってもよい。
【0013】
検索対象となる文書は、製品の製造工程で、作業員(作業管理者を含む)に入力された文章を含む文書である。文書は、電子ファイルであり、例えば、製造引継書、操作報告書、作業標準書、変更提案書、連絡書である。製造引継書は、製造現場(工場等)において、交代した作業員ごとに、作業員の識別情報及び日付(作業日時又は報告日等)とともに、物質(製品、中間物質、又は素材)、部品或いは製品の状態、製造装置の状況、製造環境(工場名、ライン名、工程名、作業者名、工場内の温度、湿度等)等の製造状況情報、問題が発生した場合の製造状況情報と問題への対策情報及び対策の結果情報が入力されている。つまり、製造引継書は、作業員間で情報を引き継ぐために用いられる文書であり、例えば引継ぎ事項として問題(品質の低下、トラブル等)が入力されている。化学物質による処理を経て製造される製品である場合、文書には、時刻、化学反応等の反応時間、物質の視認情報、物質の容積、物質の温度、反応器内の圧力、製造装置の問題箇所、問題の内容、問題への対策、対策の結果の物質、部品或いは製品の状態等を表す単語や文章が入力される。
【0014】
検索画面は、ブラウザ上に表示され、画面G11、画面G12、ポップアップ画面G13の順に遷移する。
画面G11は、検索文字列を入力する画面である。画面G11には、ユーザ名G111、対象製品の選択欄G112、キーワードの入力欄G113、及び検索ボタンBT11が表示されている。ユーザは、選択欄G112で対象製品を選択し、入力欄G113に検索文字列を入力できる。検索ボタンBT11が押下された場合、対象製品について検索文字列に関連する文書が検索される。
なお、本実施形態では、ユーザ名G111のユーザがログインしている状態であるが、ログインしていなくてもよい。また、選択欄G112において、対象製品は1又は複数を選択されてもよいし、対象製品を選択しなくてもよい。また、ユーザがログインしている場合、当該ユーザに予め対応付けられた製品が対象製品として選択されていてもよいし、選択しない場合でも検索対象を当該対象製品の文書に絞り込んでもよい。
【0015】
画面G12は、検索結果の文書一覧を表示する画面である。画面G12には、関連キーワードG121、及び、検索結果の文書一覧G122が表示されている。各関連キーワード及び検索結果の各文書は、リンクを付した文字列である。関連ワードG121の関連キーワードのリンクがタップ(クリック)された場合、関連キーワードを用いた再検索又は絞り込み検索が実行される。
ユーザが検索結果の文書の一つを選択し、その文字列がユーザにタップされた場合、画面G13がポップアップ表示される。
【0016】
画面G13には、ユーザが選択した文書の内容が詳細に表示される。この文書は、例えば製造引継書であり、製造装置の問題箇所、問題の内容、問題への対策、対策の結果の物質、部品或いは製品の状態も記入されている。このように、端末装置2は、化学物質による処理を経て製造される製品に関し、製造上の問題を予防又は解決する情報を提供することができる。
【0017】
検索画面において、検索結果の各文書に対して、トピックグループに紐づく情報(「トピック情報」とも称する)が表示される文書も含まれる。トピックグループとは、トピックグループID(IDは識別情報、以下同じ)が同じ文書のグループであり、トピックが類似する文書のグループである。トピックが類似する文書とは、文書内のトピックが類似するものであり、例えば同一のトピックに関する単語等を含む文書である。
例えば、文書一覧G122では、トピック情報として、ハイパーリンクが付された文字列L21、及びボタンBT21、BT22などが表示されている。画面G13では、ハイパーリンクが付された文字列L31、及びボタンBT31などが表示されている。ここで、文字列L21及びボタンBT21は、トピックグループ「1」(Gr.1)に紐づけられている。文字列L31及びボタンBT31も、トピックグループ「1」)に紐づけられている。文字列L22及びボタンBT22は、トピックグループ「2」に紐づけられている。
【0018】
ユーザがトピック情報を選択(クリック又はタップ等)した場合、当該トピック情報と紐づくトピックグループに関する情報、及び、当該トピックグループに属する文書に関する情報が、ポップアップ表示される(図2参照)。
なお、文字列L21及び文字列L31は、第1文書(タイトルが「TC1_脱着…」)と同じトピックグループ「1」に属する第2文書(タイトルが「搬送 TRB…」)中のキーワードであって、トピックとして抽出された(特徴づけられた)単語である。文字列L21又は文字列L31が選択された場合、第2文書の詳細が表示されてもよいし、本文字列をトピックとする単語を含む、文書一覧が表示されてもよい。
【0019】
図2は、本実施形態に係るトピックグループの文書一覧の一例を示す図である。
この図は、トピックグループIDが「1」であるトピックグループ1(図中のGr.1)の文書が選択された場合の文書一覧であり、例えば、図1の文字列L21、ボタンBT21、文字列L31、又はボタンBT31いずれかが選択された場合に表示される。
トピックグループ1には、トピックが類似する複数の文書が属しており、文書一覧にはこれらの文書が一覧で表示されている。一覧の各文書には、文書ID(No.)が付されており、タイトルと本文、サブ工程、カテゴリ、作業員、検索スコアが表示されている。ここで、トピックグループの表示には、トピックグループに属する文書の件数と、トピックグループに属する文書に付された日付(作業日時、文書の収集日時、又は報告日等)の期間(最も古い日付と最も新しい日付)が表されている。
これにより、ユーザは、関連する文書をまとめて認識することができる。例えば、文書には、同一事象に起因するトピックが、数日に跨って記入される等、別の文書に記入される場合がある。本検索一覧では、トピックグループに属する文書、つまり、トピックが類似する文書を関連付けて表示するので、ユーザは、関連する文書をまとめて認識することができる。また、各トピックグループの文書の期間を表示するので、ユーザは、所望の製造状況を見つけやすくなる。
【0020】
<システム構成>
図3は、本実施形態に係る文書検索システムSの構成を示す概念図である。
元データは、文書の電子ファイルである。サーバ1(文書検索装置の一例)は、データ処理を行うアプリケーションがインストールされている。アプリケーションは、文書の電子ファイルから文書を抽出して、検索DBに記憶させる。また、アプリケーションは、文書の電子ファイルに基づいて機械学習を行い、生成した学習済みモデルを検索DBに記憶させる。検索DBの文書は、端末装置2の検索画面G(図1の画面G11~G13)をインターフェースとして、ユーザに参照される。
【0021】
<サーバの構成>
図4は、本実施形態に係るサーバ1の構成を示す概略ブロック図である。
サーバ1は、入出力部I1、記憶部M1、及び処理部P1を具備する。
【0022】
入出力部M1は、データ収集部111、及び検索入出力部112を含んで構成される。
データ収集部111は、複数の文書の電子ファイルを収集する。検索入出力部112は、通信インターフェースであり、端末装置2からの要求を受信し、受信した要求に対して、図1の画面等を生成するためのデータを出力する。
【0023】
記憶部M1(図3の検索DBに相当)は、データ記憶部121、第1学習結果記憶部122、第2学習結果記憶部123、第3学習結果記憶部124、第4学習結果記憶部125、分類結果記憶部126、重み情報記憶部127、及びログ記憶部128を含んで構成される。
【0024】
データ記憶部121は、複数の文書の電子データ(「文書データ」とも称する)及び各種設定情報を記憶する。第1学習結果記憶部122は、第1学習処理の結果の学習済みモデル(第1学習済みモデル)を記憶する。第2学習結果記憶部123は、第2学習処理の結果の学習済みモデル(第2学習済みモデル)を記憶する。第3学習結果記憶部124は、第3学習処理の結果の学習済みモデル(第3学習済みモデル)を記憶する。
【0025】
第4学習結果記憶部125は、第4学習処理の結果の学習済みモデル(第4学習済みモデル)を記憶する。第4学習済みモデルは、トピックモデルである。トピックモデルとは、文書中に出現している単語の種類と出現頻度に基づいて、その文書の潜在的な意味(トピック)を解析するモデルの一つである。
分類結果記憶部126は、各文書を識別する文書IDに対して、第4学習済みモデルにより推定されたトピックグループIDが付与された分類情報を記憶する。
なお、トピックモデルでは、1つの文書に対して、複数のトピックグループIDが付与され得る。ただし、第4学習済みモデルは、内容の類似する文書を分類する学習済みモデルであってもよく、例えばk平均法のように教師なし学習の学習済みモデルであってもよい。この場合、1つの文書に対して1つのトピックグループIDが付与されてもよい。
【0026】
重み情報記憶部127は、検索結果を評価する際に用いる重み情報を記憶する。重みは、第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルによる評価値に対して、乗算する重みである。ログ記憶部128は、検索の要求に対して、検索日時、検索をしたユーザの識別情報、検索文字列、検索結果、ユーザが選択した選択結果、及び、検索結果のユーザによる評価結果(例えば役に立ったか否か等)を記憶する。
【0027】
処理部P1は、図3のアプリケーションとして、前処理部131、第1学習部132、第2学習部133、及び第3学習部134を含んで構成される。
前処理部131は、文書に対して、特定の文字(ノイズ及びストップワード)の除去を行う。
【0028】
第1学習部132は、第1学習処理として、Word2Vecによる機械学習処理を行う。Word2Vecは、単語の言語コンテキストを再構築するように学習された2層ニューラルネットワークであり、コーパスを受け取ってベクトル空間を生成する手法である。コーパスの各単語は、ベクトル空間内の個々のベクトルに割り当てられる。ベクトル同士の角度が小さい程、それらのベクトルに割り当てられた単語又は文章の類似度が高くなる(コサイン類似度)。なお、各単語又は文章(のベクトル)は、その単語又は文章が含まれる文書の文書IDに対応付けられる。
第2学習部133は、第2学習処理として、TF-IDF(Term Frequency ― Inverse Document Frequency)法による機械学習処理を行う。TF-IDF法は、文書中の単語の重要度を評価するための手法である。TF-IDFで法の評価値(tf-idf)は、単語の出現頻度(TF)と文書数に基づく逆文書頻度(IDF)の2つの指標に基づいて計算される。
第3学習部134は、第3学習処理として、N-gram法による機械学習処理を行う。N-gram法は、部分一致を行う手法であり、検索対象文書を全てN-gramに分解し、分解された文字列1つ1つを検索インデックスとして登録する。N-gramとは、テキストを連続するN個の文字単位で切り出したものをいう。本実施形態では、N=2のN-gram法(bi-gramとも呼ばれる)を用いる。
【0029】
処理部P1は、さらに、第4学習部135、及びデータ分類部136を含んで構成される。
第4学習部135は、第4学習処理として、例えばLDA(潜在的ディリクレ配分法)による機械学習処理を行うことで、トピックモデルを生成する。ただし、第4学習部135は、他の手法により、トピックモデルを生成してもよい。なお、第4学習部135が行う機械学習処理は、LDAに限らず、LSI(潜在的意味インデックス法)、動的トピックモデル法など、その他のトピックモデルを生成する機械学習処理であってもよい。また、第4学習部135が行う機械学習処理は、その他、内容の類似する文書を分類する機械学習処理であってもよく、例えばk平均法のように、教師なしの機械学習処理であってもよい。
データ分類部136は、トピックモデルを用いて、各文書IDに対してトピックグループIDを対応付けた分類情報を生成する。同一のトピックグループIDが付与された文書群の文書同士は、文書中のトピックが類似する。なお、データ分類部136は、類似するトピックの文書が存在しない文書に対しては、トピックグループIDは存在しないことを示す情報(例えばnull値又は特定の値)が付与される。
【0030】
処理部P1は、さらに、設定部137、検索部138、及び表示制御部139を含んで構成される。
設定部137は、ユーザ操作に基づいて、学習や検索の設定情報を更新する。検索の設定情報としては、各学習済みモデルに対する重みがある。
検索部138は、端末装置2から検索の要求があった場合に、第1学習済みモデル、第2学習済みモデル、第3学習済みモデルの各々に重みを乗算し、加算した評価値(スコア)を算出する。検索部138は、評価値が高い順に、各文書の一部を並べた文書一覧(例えば、図1の文書一覧G122)を生成する。また、検索部138は、特定の文書の詳細情報の要求があった場合、詳細情報を抽出する。
表示制御部139は、画面を生成するための画面データを生成して、要求に対して応答する。例えば、表示制御部139は、検索部138が生成した文書一覧の画面(例えば図1の画面G12)データ、及び、検索部138が抽出した詳細情報を含む画面(例えば図1の画面G13)データを、各要求に対して応答する。これにより、端末装置2では、画面データに基づいて、ブラウザを用いて画面が表示される。
【0031】
<サーバの処理>
以下、サーバ1の処理について、図4の各部を処理主体として説明する。
図5は、本実施形態に係るサーバ1の処理の一例を示すフロー図である。この図の処理は、文書の電子ファイルを取得し、文書データに加工する処理である。
【0032】
(ステップS101)前処理部131は、文書の電子ファイルを収集して、データ記憶部121に記憶させる。その後、ステップS102の処理が行われる。
(ステップS102)前処理部131は、S101で抽出された電子ファイルから文字列(単語又は文章を含む)を抽出し、加工処理を行う。加工処理として、前処理部131は、予め定めたフォーマットで文書データを生成する。例えば、製造引継書の場合、前処理部131は、文書ID、製品ID、作業日時、文書の収集日時、作業員ID、装置ID、製造ラインID、工場ID、各項目と当該項目記載内容のフォーマットで文書データを生成する。その後、ステップS103の処理が行われる。
(ステップS103)前処理部131は、ステップS102で生成された文書データを、文書IDごとにデータ記憶部121に記憶(保存)させる。
【0033】
図6は、本実施形態に係るサーバ1の処理の別の一例を示すフロー図である。この図の処理は、検索の準備処理であり、検索文字列と各文書データの類似度を評価するための情報を生成する処理である。
【0034】
(ステップS201)前処理部131は、複数の各文書の文書データを読み出し、前処理を行う。前処理において、前処理部131は、文書ごとに、文書データから単語及び文章を抽出して形態素解析を行い、単語及び文章を形態素に分解する。なお、文書が英語で記載されている場合、文においてスペースで区切られる単語を形態素とする。前処理部131は、文書及び文ごとの形態素から、ノイズ及びストップワードの除去を行う。ノイズの除去とは、予め設定されたノイズワード、例えば句読点や記号、数字を、文書から除去することである。ストップワードの除去とは、予め設定されたストップワード、例えば単体では意味のない語を、文書から除去することである。前処理部131は、ノイズ及びストップワードの除去が行われた形態素を、文書及び文ごとの単語として、データ記憶部121に記憶させる。その後、ステップS202の処理が行われる。なお、文書及びストップワードには、日本語だけでなく、外国語が含まれる。
【0035】
(ステップS202)第1学習部132は、ステップS201で記憶された文書及び文ごとの単語を用いて、Word2Vecによる学習処理を行う。その後、ステップS203の処理が行われる。
この学習処理によって、サーバ1は、同義語・類義語等の辞書を用意しなくても類語を評価できる。例えば作業員が交代するような製造工程では、作業員ごとに専門用語や単語の表記ゆれが多くなることがある。サーバ1は、同じ意味の単語について、作業員によって表現が異なる場合であっても、意味が近い(類似度が高い)単語として取り扱うことができる。実施例として、reactorと類似度が高い単語として、その略称(rx)や反応器の名称が挙げられた。
【0036】
(ステップS203)第2学習部133は、ステップS201で記憶された文書及び文ごとの単語を用いて、TF-IDF法による学習処理を行う。その後、ステップS204の処理が行われる。
(ステップS204)第3学習部134は、ステップS201で記憶された文書及び文ごとの単語を用いて、N-gram法による学習処理を行う。その後、ステップS205の処理が行われる。
(ステップS205)第4学習部135は、ステップS201で記憶された文書及び文ごとの単語を用いて、LDAによる学習処理を行う。
【0037】
図7は、本実施形態に係るサーバ1の処理の別の一例を示すフロー図である。この図の処理は、ユーザによる検索が行われた場合の処理であり、検索文字列に対して類似度の高い文書の文書一覧を生成する処理である。
【0038】
(ステップS301)検索入出力部112は、端末装置2から検索の要求を受信する。この要求には、1又は複数の検索文字列が含まれる。なお、検索文字列において、空白が含まれている場合、検索入出力部112は、空白を除き、空白の前後の文字列に分割する。その後、ステップS302の処理が行われる。
(ステップS302)検索部138は、検索文字列を、第1学習済みモデルのベクトル空間にマッピングする。検索部138は、マッピングされた検索文字列のベクトルに対して、第1学習済みモデルの単語又は文章のベクトルとの類似度を算出する。検索部138は、各文書に含まれる単語又は文章で最も高い類似度を、各文書の第1評価値とする。その後、ステップS303の処理が行われる。
【0039】
(ステップS303)検索部138は、検索文字列を第2学習済みモデルのベクトル空間にマッピングする。検索部138は、マッピングされた検索文字列のベクトルに対して、第2学習済みモデルの各文書のベクトルとの類似度(コサイン類似度)を算出し、各文書の第2評価値とする。その後、ステップS304の処理が行われる。
(ステップS304)検索部138は、検索文字列に対して、第3学習済みモデルの検索インデックス(N-gramに分解された文字列)と一致するか否かを判定する。検索部138は、検索文字列が検索インデックスと一致した回数を、各文書の第3評価値として算出する。その後、ステップS305の処理が行われる。
【0040】
(ステップS305)検索部138は、各文書について、設定部137により設定された重み情報のうち、第1重みを第1評価値に乗算し、第2重みを第2評価値に乗算し、第3重みを第3評価値に乗算して、乗算後の値を合算する(合算された値を「検索スコア」とも呼ぶ)。第1評価値の重み:第2評価値の重み:第3評価値の重みは、例えば1:1.5:0.2である。その後、ステップS306の処理が行われる。
【0041】
(ステップS306)検索部138は、検索スコアの高い文書から順に、文書IDを並び替える。検索部138は、検索部138は、並び替えられた各文書IDの文書について、各文書に付与されたトピックグループIDを抽出する。検索部138は、各文書IDに対して、トピックグループID又は同一のトピックグループIDが付与された文書に基づいて、トピック情報を生成して追加する。その後、ステップS307の処理が行われる。
【0042】
(ステップS307)表示制御部139は、検索スコアの高い文書から所定の件数(例えば20件、設定情報により変更可能)の文書一覧の画面データを生成する。文書一覧の各文書には、文書ID、当該文書IDの文書の一部、トピック情報が含まれる。表示制御部139は、検索要求に製品IDが含まれる場合、当該製品IDに対応付けられた文書IDのみの文書、又は当該文書IDの文書を優先して並べた画面データを生成する。同様に、表示制御部139は、検索要求にトピックグループIDが含まれる場合、当該トピックグループIDに対応付けられた文書IDのみの文書、又は当該文書IDの文書を優先して並べた画面データを生成する。優先して並べたとは、順序を先に並べたこと、又は、絞り込んで並べたことをいう。また表示制御部139は、検索文字列と類似する単語(例えば、第1学習済みモデルで類似度の高い所定数の単語)を関連キーワード(図1の関連キーワードG121)として表示させる画面データを生成する。また、表示制御部139は、ユーザがログインしている場合、ユーザ名(図1のユーザ名G111)を表示させる画面データを生成する。
【0043】
表示制御部139は、トピック情報が選択された場合、当該トピック情報に紐づくトピックグループに関する情報、又は、同一のトピックグループIDの文書(「同一トピック文書」とも称する)に関する情報を表示させる。トピックグループに関する情報とは、例えば、トピックグループの識別情報、トピックグループに付されたタグ、トピックグループの文書一覧(図2参照)、トピックグループに属する文書の件数、又は、トピックグループに属する文書に付された日付の期間である。同一のトピックグループIDの文書に関する情報とは、例えば、文書ID、文書の日付、文書の内容(本文等)、工程、問題のカテゴリ、担当者(作業者)、検索スコア等である。ここで、同一トピック文書に関する情報には、トピックが含まれてもよく、例えば、トピックの単語が強調表示されてもよい。
【0044】
検索部138又は表示制御部139は、トピックグループの文書一覧において、文書の順序を、文書に付与された日付に基づく順序で並び替える。例えば、表示制御部139は、トピックグループに属する文書を、日付の新しい順序又は日付の古い順序で表示する。これにより、ユーザは、関連する報告をまとめて参照できるとともに、時系列で情報を参照することができる。
なお、検索部138又は表示制御部139は、トピックグループの各文書に付された日付に基づいて、当該トピックグループの文書一覧を生成してもよい。検索部138又は表示制御部139は、例えば同一トピック文書から、他の文書と日付が離れている文書を除外してもよいし、優先度を下げて表示してもよい。優先度を下げて表示するとは、例えば順序を後にすること、又は他の文書と比較して目立たないように表示することである。目立たないように表示することには、例えば文字を小さくすることや、文字色の輝度を下げることなどがある。
【0045】
また、表示制御部139は、ユーザがログインしている場合、ユーザ名(図1のユーザ名G111)を表示させる画面データを生成する。
検索入出力部112は、表示制御部139が生成した画面データを、検索要求の返信として端末装置2へ送信する。これにより、端末装置2は、検索結果画面(例えば図1の画面G12)を表示する。
【0046】
<端末装置の構成>
図8は、本実施形態に係る端末装置2の構成を示す概略ブロック図である。
端末装置2は、入出力部I2、記憶部M2、及び処理部P2を具備する。
【0047】
入出力部I2は、通信部211、入力部212及び表示部213を含んで構成される。
通信部211は、サーバ1等の外部装置と通信を行う。
入力部212は、ユーザによるキー操作等のユーザ操作を受け付ける。
表示部213は、図1の画面等を表示するディスプレイである。
【0048】
記憶部M2は、端末設定記憶部221及びログ記憶部222を含んで構成される。
端末設定記憶部221は、ユーザID及び端末側の設定情報(端末設定情報とも称する)を記憶する。端末設定情報としては、例えば製品ID、作業員ID、装置ID、製造ラインID、工場ID、又はトピックIDがある。
ログ記憶部222は、ユーザが入力した検索文字列の情報を記憶する。
【0049】
処理部P2は、設定要求部231、検索要求部232、及び結果表示制御部233を含んで構成される。
設定要求部231は、サーバ1に設定情報を設定させる要求を行う。
検索要求部232は、ユーザが入力した検索文字列を含む検索要求を生成し、サーバ1へ送信させる。ここで、検索要求部232は、ユーザが製品を選択した場合、選択した製品の製品IDを含む検索要求を生成し、サーバ1へ送信させる。
結果表示制御部233は、サーバ1から受信した画面データが表す画面を表示部213に表示させる。なお、結果表示制御部233は、検索部138又は表示制御部139が行う処理の一部(例えば、文書のグループ化や、文書或いはトピックグループの並び替え)を行って、画面を表示してもよい。
【0050】
なお、検索要求部232は、端末設定情報の製品ID、装置ID、製造ラインID、工場ID、又はトピックIDをさらに含む検索要求を生成し、結果表示制御部233は、製品ID、製造ラインID、工場ID、又はトピックIDが付与された文書を、文書一覧において優先して表示してもよい。文書一覧において優先して表示とは、文書一覧において、これらのIDが付与された文書のみが表示される、又は、これらのIDが付与されていない文書と比較して先に表示されることをいう。これにより、ユーザが所望の文書を検索できる。例えば、ユーザは、自身が製造に携わる製品、製造ライン、又は工場の文書を優先して参照できる。
【0051】
<実施例>
図9は、本実施形態に係る実施例のデータを表す概略図である。
本実施例では、4個の評価パターンで重み情報を設定して検索した。検索文字列(検索キーワード)としては、3個の文字列パターン(「セルカット ワレ」、「ストリンガー インコネ ハガレ」、「封止 溶着不良」)を入力して検索をした。各評価パターン及び各文字列パターンに対して、適合率を算出した。適合率とは、検索結果の精度の指標であり、検索対象の文書群の中から正しく検索された文書の割合である。
【0052】
テスト1(図では丸数字1)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、1:0:0であり、第1評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.7、0.6、0.9であり、ややばらつきがあった。テスト1では、頻出単語と意味の近い別の単語が高く評価された。この場合、関係性の低い文書が上位になる場合があった。
テスト2(図では丸数字2)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、0:1:0であり、第2評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.85、0.75、0.75であった。テスト2では、バランスよく検索できているものの、検索文字列と異なる単語(同義語・類義語や表記ぶれ)の検索ができない場合があった。
テスト3(図では丸数字3)は、第1評価値の重み:第2評価値の重み:第3評価値の重みは、0:0:1であり、第3評価値のみで検索結果を評価するパターンである。各文字列パターンの評価結果は、0.3、0、0.85であり、ばらつきが大きかった。テスト3では、特定のbi-gramが登場した回数が多いほど評価値が高くなるため、長い文章ほど評価値が高くなってしまう傾向がある。一方、出現頻度が低い単語の検索では、精度が高くなる。
【0053】
テスト4(図では丸数字4)は、本実施形態と同じく、第1評価値の重み:第2評価値の重み:第3評価値の重みは、1:1.5:0.2である。各文字列パターンの評価結果は、0.7、0.85、0.75であった。テスト4では、どの検索文字列に対してもバランスよく高い精度で検索を行えていた。また、この重みでは、検索文字列と異なる単語(同義語・類義語や表記ぶれ)の検索ができていた。
このように、文書検索システムSでは、複数の手法を組み合わせることで、高い精度を保持しつつ、類語や部分一致の検索にも対応できる。
【0054】
図10は、本実施形態に係る実施例及び比較例のデータを表す概略図である。
本実施例では、検索文字列(検索キーワード)としては、6個の文字列パターンを入力して検索をした。この図では、各検索文字列に対して、本来表示されるべき文書の数(報告数)が対応付けられており、比較例と本実施例の検索結果が示されている。
比較例は、図7のステップS306の処理を行わない実施例であり、本実施例は、本実施例としてトピックモデルを用いた実施例である。比較例と本実施例の検索結果には、それぞれ、検索の結果として抽出された文書数(HIT数)、及び、再現率が示されている。再現率は、HIT数を、表示されるべき報告数で除算した値である。再現率は、検索漏れの少なさを表す指標であり、再現率が高い程、検索漏れが少ないことを示す。
【0055】
例えば、テスト5では、検索キーワードが「トレイ」、「走行モータ」、又は「異常」で検索した場合、表示されるべき報告数は「18」個であることを表す。比較例の場合、これらの検索キーワードを入力すると、HIT数は「17」個であり、再現率は「94%」となった。一方、本実施例の場合、同じ検索キーワードを入力すると、HIT数は「18」個であり、再現率は「100%」となった。
このように、トピックモデルを用いた場合(本実施例)、用いなかった場合(比較例)と比較して、検索漏れの少なさを示す再現率が改善した。同一トピック文書が多いほど、再現率が良い値、つまり、検索漏れが少なくなった。
【0056】
このように、本実施形態によれば、データ収集部111は、化学物質による処理を経て製造される製品の各々に関し、当該製品の製造工程で入力された文章を含む文書を複数取得する。第1学習部132、第2学習部133、及び第3学習部134(「学習部」の一例)は、文書に基づいて機械学習を行い、検索文字列に関連する文書を検索するための第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルを生成する。データ分類部136は、文書に基づいて機械学習を行い、分類情報(例えばトピックグループID)を付与することで、文書同士の内容の類似性に応じた分類を行う。検索部138は、化学物質による処理を経て製造される製品を示す製品識別情報と検索文字列が入力された場合に、第1学習済みモデル、第2学習済みモデル、及び第3学習済みモデルに基づいて、検索文字列に関連する文書を検索する。検索入出力部112(出力部の一例。表示部213であってもよい。以下同じ)は、製品識別情報に基づいて、検索部138が検索した文書の少なくとも一部の情報を出力する。検索入出力部112は、分類の結果に基づいて、検索部138が検索した文書と内容の類似する文書に関する情報を出力する。
【0057】
これにより、文書検索システムSは、化学物質による処理を経て製造される製品に関し、製品の製造工程で入力された文章を含む文書のうち、検索文字列に関連する文書の少なくとも一部の情報を出力するとともに、検索部138が検索した文書と内容の類似する文書に関する情報を出力する。したがって、ユーザは、出力された情報を参照することで、製造上の問題を予防又は解決することができる。
また例えば、同一事象に起因する報告等の文書の中には、検索文字列との関連性が高い第1文書の他に、関連性が低い第2文書も存在する。文書検索システムSは、検索部138が検索した第1文書が検索文字列との関連性が高いので、検索文字列との関連性が低い第2文書であるが第1文書とトピックが類似する第2文書、例えば第1文書と同一事象に起因する報告等の第2文書を出力することができる。
また例えば、化学物質による処理を経て製造される製品では、機械製品と比較して、1つの工程(反応等)に時間を要し、また製造条件による影響を受けやすい。文書検索システムSは、過去に製品の製造工程で入力された文章を検索するので、ユーザは、検索された文章において、同様の現象を見つけることによって過去の経験を活用することができる。また、同一事象に起因する報告等が、数日に跨って記入される等、別の文書に記入される場合がある。文書検索システムSは、分類に従って同一分類の文書に関する情報を出力するので、ユーザは、例えば同一事象に起因する文書をまとめて参照すること、又は、これらの文書を関連付けて参照することができる場合がある。
【0058】
なお、検索文字列に関連する文書を検索するための学習済みモデルは、第1学習済みモデル、第2学習済みモデル、第3学習済みモデルのいずれか或いは組み合わせであってもよく、これらを生成するための機械学習処理は、第1学習部132、第2学習部133、及び第3学習部134が行う機械学習処理のいずれか或いは組み合わせであってもよい。また、機械学習処理は、別の機械学習処理であってもよく、学習済みモデルも、別の学習済みモデルであってもよい。
化学物質による処理を経て製造される製品には、医薬品、サプリメント、樹脂、食品素材、材料、生体物質及びこれらを用いた製品も含まれる。化学物質による処理を経て製造される製品の製造工程には、反応、分解等が含まれる。
【0059】
また、文書検索システムSでは、第1学習部132は、前記文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成する。第2学習部133は、文書中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成する。第3学習部134は、文書中の文字列を特定単位で切りだし、文字列との一致を評価するための第3学習済みモデルを生成する。
これにより、文書検索システムSは、同義語・類義語等の辞書を用意しなくても類語を評価でき、文書中の単語の重要度を評価でき、さらに、文字列との一致を評価できる。
【0060】
なお、第1学習部132は、Bag of WordsやFastText等、Word2Vec以外により、単語又は文書の類似度を評価できる学習済みモデルを生成する機械学習処理を行ってもよい。また、第2学習部133は、Okapi BM25等、TF-IDF法以外により、文書中の単語の重要度を評価するための第2学習済みモデルを生成する機械学習処理を行ってもよい。第3評価値は、複数のNについてのN-gramにおいて、検索インデックスと一致した回数について、重み付け(例えばBinary Weight、TFウェイト、IDFウェイト)をしたものであってもよい。学習部134は、N-gram法以外により、文字列との一致を評価するための第3学習済みモデルを生成してもよい。
【0061】
また、第4学習部135及びデータ分類部136(分類部の一例)のうち、第4学習部135は、文書に基づいて機械学習を行い、文書同士の内容の類似性に応じた分類を行う第4学習済みモデルを生成する。データ分類部136は、第4学習済みモデルに基づいて、文書の各々に、内容の類似性に応じた分類を示すトピックグループID(分類情報の一例)を付加する。検索入出力部112は、トピックグループIDに基づいて、検索部138が検索した文書と内容の類似する文書に関する情報を出力する。第4学習済みモデルは、トピックモデルであり、データ分類部136は、文書の各々の少なくとも1つに対して、複数の分類情報を付加する。
これにより、文書検索システムSは、トピックモデルを用いて、トピックが類似する文書に関する情報、又は、トピックグループに関する情報を提供できる。
【0062】
また、文書は、同一事象に起因する内容が入力された第1文書(例えば、図2のNo.5の文書)と第2文書(図2のNo.1~4、6~7)を含み、第4学習部135及びデータ分類部136は、第1文書と第2文書にトピックグループIDを付与することで、第1文書と第2文書を、類似性がある文書とする分類を行う。検索入出力部112は、第1文書の少なくとも一部の情報と、第2文書に関する情報をあわせて出力する。
これにより、同一事象に起因するトピックが、数日に跨って記入される等、別の文書に記入される場合でも、文書検索システムSは、第1文書の少なくとも一部の情報と、第1文書とトピックが類似する第2文書に関する情報をあわせて出力できる。したがって、ユーザは、例えば同一事象に起因する文書をまとめて参照すること、又は、これらの文書を関連付けて参照することができる場合がある。
【0063】
また、文書には、複数の者によって、製造工程における物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力された文書が含まれ、第2文書は、少なくとも一部が第1文書を入力した者と異なる者によって入力された文書である。
化学物質による処理を経て製造される製品では、1つの製造工程であっても、問題把握や対策の進捗途中で作業員が交代する。製造引継帳には、作業員(交代番)ごとに、物質、部品或いは製品の状態、製造装置の状況、又は製造環境を表す製造状況情報が入力されるが、進捗状況に応じて記入される内容が異なり、また、物や現象であっても、異なる用語、正式名称と略称、ぶれた表記が用いられることが発生し易い。
文書検索システムSは、第1文書の少なくとも一部の情報と、第1文書とトピックが類似する第2文書に関する情報をあわせて出力できるので、複数の作業員が、問題把握や対策の進捗に応じて異なる内容を記入した場合、また、異なる用語等を用いた場合でも、同一事象に起因する文書をまとめて参照すること、又は、これらの文書を関連付けて参照することができる場合がある。
なお、物質、部品或いは製品の状態とは、液体、固体、気体、温度、濃度、比重、圧力、モル濃度、モル比、従量比、粘度、硬度、強度、ひずみ、ひび、はがれ、欠損、割れの程度、外観(色、泡立ち等)等である。製造環境とは、溶着の状況、封止の状況、反応器の内部圧力、菅の状況(流量やつまり)、摩耗の状況、(レーザー等の)照射の状況等である。製造状況情報は、工場名、ライン名、工程名、作業者名、工場内の温度や湿度、天気等である。
【0064】
また、第1文書は、問題が発生した場合の製造状況情報に対して、問題が発生した場合の製造状況情報が入力された文書である。第2文書は、製造状況情報に対して問題への対策を示す対策情報が入力された文書である。検索入出力部112は、製造状況情報が入力された第1文書の少なくとも一部の情報と、対策情報が入力された第2文書に関する情報を出力する。
問題が発生した場合の製造状況情報とその問題への対策情報は、同一事象に起因する場合、トピックスが類似する。文書検索システムSは、製造状況情報が記入された第1文書に関する情報と、対策情報が記入された第2文書に関する情報をあわせて出力できるので、製造状況情報と対策情報をまとめて参照すること、又は、これらの文書を関連付けて参照することができる場合がある。
【0065】
また、データ収集部111は、日付が付された文書を取得する。検索入出力部112は、特定のトピックグループに紐づくトピック情報を、トピックグループに属する各文書の検索スコアに基づくスコア(トピックグループの検索スコア)に基づいて出力する。検索入出力部112は、トピック情報が選択された場合に、当該トピック情報に紐づくトピックグループに属する文書を、文書に付された日付に基づいて並べて表示する(図2参照)。
これにより、ユーザは、トピックグループ単位で文書をまとめて参照でき、また、特定のトピックグループについて、文書群を文書の日付で時系列にならべて参照できる。よって、ユーザは、時間経過に沿って、作業員等の対応を確認することができる。
【0066】
また、第4学習部135及びデータ分類部136は、工場又は製造ラインに応じて文書の分類を行う。検索入出力部112は、分類の結果に基づいて、工場又は製造ラインについての文書であって、検索部138が検索した文書と内容の類似する文書に関する情報を出力する。
これにより、文書検索システムSでは、工場又は製造ラインに応じて、検索部138が検索した文書とトピックが類似する文書に関する情報を出力できる。
例えば、各文書には工場ID又は製造ラインIDが付与されており、第4学習部135又はデータ分類部136は、各文書IDに対して、工場ID又は製造ラインIDを対応付けた分類情報を生成して記憶させる。検索部138は、検索要求部232から工場ID又は製造ラインIDを検索条件として取得し、検索条件と一致する工場ID又は製造ラインIDに対応付けられた文書IDの文書と、当該文書とトピックグループIDが同一の文書に関する情報を抽出する。表示制御部139は、これらの情報を合わせて表示させる画面データを生成し、結果表示制御部233がこの画面データを表示する。なお、表示制御部139は、同一トピックス文書について、検索条件と一致する工場又は製造ラインについての文書を優先して表示させてもよく、優先して並べてもよい。逆に、表示制御部139は、同一トピックス文書について、検索条件と一致しない工場又は製造ラインについての文書を目立たないように表示させてもよく、目立たないように並べてもよい。
なお、検索入出力部112は、工場ID又は製造ラインIDごとに分類して一覧を作成してもよい。また検索入出力部112は、文書一覧の各文書に工場ID又は製造ラインIDを付してもよく、この場合、表示部213は、工場ID又は製造ラインIDで並び替えを可能な画面を表示してもよい。
【0067】
また、データ記憶部121は、設定情報として、製品ID(製品識別情報の一例)と、当該製品IDが示す製品の製造に用いられる複数の製造装置を示す装置ID(装置識別情報の一例)とを対応付けて記憶する。検索入出力部112は、装置IDに基づいて、前記検索部が検索した文書の少なくとも一部の情報と、検索部138が検索した文書と内容の類似する文書に関する情報を出力する。
これにより、ユーザは、製品ごとに、所望の装置についての文書を見つけ易くなる。
なお、検索入出力部112は、装置IDごとに分類して一覧を作成してもよい。また検索入出力部112は、文書一覧の各文書に装置IDを付してもよく、この場合、表示部213は、装置IDで並び替えを可能な画面を表示してもよい。
【0068】
<変形例>
文書検索システムSは、トピックグループ単位で文書をまとめて検索結果を表示してもよい。文書検索システムSは、例えば、図1の画面G12において、トピックグループの一覧(「トピックグループ一覧」とも称する)が表示させてもよい。
【0069】
図11は、本実施形態の変形例に係るトピックグループの一覧の一例を示す図である。
画面G21には、トピックグループ一覧が表示されている。トピックグループ一覧は、各トピックグループに属する文書群が1レコード(1行)としてグループ化されている。ここで、トピックグループ一覧における各トピックグループの順序は、各トピックグループの検索スコア(「グループ検索スコア」とも称する)の高い順序である。各トピックグループのグループ検索スコアは、当該トピックグループに属する文書の検索スコアの合計値である。ただし、グループ検索スコアは、トピックグループに属する文書の検索スコアの最大値であってもよいし、平均値であってもよく、その他、トピックグループに属する文書の検索スコアに基づいて算出されてもよい。
【0070】
検索結果の各レコードには、トピックグループを識別する情報、トピックグループに属する文書の件数、トピックグループに属する文書に付された日付の期間、トピック(トピックグループを特徴づける単語)、及び、グループ検索スコアが表示されている。例えば、トピックグループ「1」(Gr.1)のレコードは、トピックグループに属する文書が「18件」、トピックグループに属する文書に付された日付の期間が「2021年5月21日から2021年6月12」、トピックが「トレイ」、「モータ」などであり、トピックが「1285.32点」である。
【0071】
画面G22は、画面G21おいて、トピックグループ1が選択された場合の画面である。画面G22では、トピックグループ1の文書一覧が表示されている。ここで、この一覧では、文書の順序を、文書に付与された日付に基づく順序で並び替えられている。例えば、表示制御部139は、トピックグループに属する文書を日付の古い順序で表示しているが、日付の新しい順序で表示してもよい。
【0072】
以下、本変形例に係るサーバ1の構成について、説明する。
サーバ1の検索部138は、トピックグループを抽出して並び替え、表示制御部139はトピックグループ一覧を含む、画像データを生成する。この場合、検索部138は、トピックグループIDが同一の文書IDを抽出し、当該トピックグループIDのグループ検索スコアを算出する。検索部138は、グループ検索スコアの高いものから順に、トピックグループIDを並び替える。
端末装置2では、画面データに基づいて、ブラウザを用いて画面が表示される。
【0073】
このように、検索部138は、トピックグループごとに、トピックグループに属する各文書の検索スコアに基づいて、トピックグループのグループ検索スコアを算出する。検索入出力部112は、トピックグループごとのグループ検索スコアに基づく順序で並べて、各トピックグループに関する情報を出力する。
これにより、ユーザは、トピックグループ単位で文書をまとめて検索結果を参照でき、文書単位と比較して容易に、製造上の問題を予防又は解決する情報を見つけることができる場合がある。
【0074】
なお、検索部138及び表示制御部139は、ユーザ操作や設定に基づいて、トピックグループの一覧の順序を、トピックグループの日付(「グループ日付」とも称する)に基づく順序で並び替えてもよい。この場合、表示制御部139は、グループ日付の順序で並び替えられた、トピックグループの一覧を表示する。グループ日付は、トピックグループに属する文書の日付のうち、最も新しい文書の日付である。ただし、グループ日付は、最も古い文書の日付であってもよい。また、表示制御部139は、グループ日付が遅い順序に並び替えられた一覧を表示してもよいし、早い順序で並び替えられた一覧を表示してもよい。
また、検索部138及び表示制御部139は、検索要求部232から検索条件が入力された場合、検索条件に一致する文書を含むトピックグループを特定してもよい。この場合、表示制御部139は、特定されたトピックグループを含むトピックグループ一覧を表示してもよい。
【0075】
また、文書検索システムSでは、データ収集部111は、製品IDが付された文書を取得し、第1学習部132は、製品IDごとに、当該製品IDが付された文書を中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成し、第2学習部133は、製品IDごとに、当該製品IDが付された文書を中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成してもよい。
これにより、文書検索システムSでは、製品ごとに学習済みモデルを生成でき、各製品に特化した検索を行うことができる。
【0076】
同様に、文書検索システムSでは、製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDが付された文書を取得し、第1学習部132は、製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDごとに、当該製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDが付された文書中の単語に基づいて機械学習を行い、単語或いは文章の類似度を評価するための第1学習済みモデルを生成し、第2学習部133は、製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDごとに、当該製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDが付された文書を中の単語に基づいて機械学習を行い、当該文書中の単語の重要度を評価するための第2学習済みモデルを生成してもよい。
【0077】
また、文書検索システムSでは、ユーザIDごとに、製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDを予め対応付け、検索入出力部112は、製品ID及び装置ID、製造ラインID、工場ID或いはトピックグループIDに基づいて、検索部138が検索した文書の少なくとも一部の情報を出力してもよい。
また、文書検索システムSでは、各文書又は各文章について入力したユーザのユーザIDを対応付けてもよく、文書一覧等において、各文書又は各文章を選択した場合に、入力したユーザの情報(ユーザ名、又は連絡先)を表示してもよい。これにより、文書検索をしたユーザは、各文書又は各文章について入力したユーザへ連絡して、当該ユーザに詳細を聞くことや当該ユーザを呼び出すことができる。
【0078】
上記実施形態において、文書検索システムSでは、問題が発生した場合の文書については、複製した文書を用いて問題が発生しない場合の文書よりも、より多くの文書を機械学習処理に用いてもよい。これにより、文書検索システムSでは、問題が発生した場合の文書の評価値が高くなり、当該文書を優先してユーザに提供できる場合がある。
【0079】
なお、上述した実施形態におけるサーバ1又は端末装置2の一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、サーバ1又は端末装置2に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態におけるサーバ1及び端末装置2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。サーバ1及び端末装置2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0080】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0081】
S・・・文書検索システム、I1・・・入出力部、M1・・・記憶部、P1・・・処理部、111・・・データ収集部、112・・・検索入出力部、121・・・データ記憶部、122・・・第1学習結果記憶部、123・・・第2学習結果記憶部、124・・・第3学習結果記憶部、125・・・第4学習結果記憶部、126・・・分類結果記憶部、127・・・重み情報記憶部、128・・・ログ記憶部、131・・・前処理部、132・・・第1学習部、133・・・第2学習部、134・・・第3学習部、135・・・第4学習部、136・・・データ分類部、137・・・設定部、138・・・検索部、139・・・表示制御部、I2・・・入出力部、M2・・・記憶部、P2・・・処理部、211・・・通信部、212・・・入力部、213・・・表示部、221・・・端末設定記憶部、222・・・ログ記憶部、231・・・設定要求部、232・・・検索要求部、233・・・結果表示制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11