(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G06F 16/38 20190101AFI20240820BHJP
【FI】
G06F16/38
(21)【出願番号】P 2024027919
(22)【出願日】2024-02-27
【審査請求日】2024-02-28
【早期審査対象出願】
(73)【特許権者】
【識別番号】516194240
【氏名又は名称】プログレス・テクノロジーズ株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】中山 岳人
(72)【発明者】
【氏名】長友 一郎
【審査官】早川 学
(56)【参考文献】
【文献】中国特許出願公開第115408995(CN,A)
【文献】特開2014-134920(JP,A)
【文献】特開2007-041841(JP,A)
【文献】特開2013-190993(JP,A)
【文献】特開2009-230498(JP,A)
【文献】特開2020-154991(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
所定の文書を取得する取得部と、
前記所定の文書
における項目の内容から自然言語
を抽出し、前記所定の文書
における前記項目の名称と、前記所定の文書が属する業務プロセスと、前記所定の文書の種類とのうち少なくともいずれかを抽出する抽出部と、
文書情報表の中を探索して、
抽出した前記自然言語
、前記項目の名称、前記業務プロセス、
及び、前記所定の文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が前記文書情報表中に存在するかを判定し、前記判定の結果に基づき、前記文書情報表に記載されている、
同一、及び/又は類似する情報に紐づけされた項目が属するプロセス区分、
及び、前記
同一、及び/又は類似する情報に紐づけされた項目と互いに依存相関関
係及び/又は属性相関関係にある項目についての情報を読み出す読出部と、
前記
抽出部が抽出した項目の名称、前記業務プロセス、前記所定の文書の種類
の少なくともいずれかと、前記自然言語、
前記読出部が読みだした項目が属するプロセス区分、
及び、前記読出部が読みだした項目と互いに依存相関関
係及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録部と、
前記文書情報表を記憶する文書情報記憶部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記属性相関は、所与の自然言語を説明する属性を表現する自然言語との間の相関であることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記依存相関は、所定の自然言語と前記所定の自然言語の周辺に現れる自然言語との間の、メカニズム、親子関係、又は原因結果の少なくともいずれかの依存相関の関係を有する相関であることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記プロセス区分は
、要求、機能、ロジカル、フィジックス、ロジック、及び、パラメータのプロセスのうちのいずれかであることを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記読出部は、1又は複数の判断基準に基づき、
抽出した前記自然言語
、前記項目の名称、前記業務プロセス、
及び、前記所定の文書の種類のうち少なくともいずれかと類似する情報が前記文書情報表中に存在するかを判定することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記1又は複数の判断基準は、業務プロセスが類似しているとする判断基準、所定の文書の種類が類似しているとする判断基準、項目の名称が類似しているとする判断基準、プロセス区分が類似しているとする判断基準、依存相関が類似しているとする判断基準、属性相関が類似しているとする判断基準、及び、自然言語の文字列が類似しているとする判断基準、のうち少なくともいずれかから構成されることを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記読出部は、前記1又は複数の判断基準に基づく1又は複数の類似度を数値化することを特徴とする請求項5に記載の情報処理装置。
【請求項8】
前記読出部は、前記1又は複数の類似度を1又は複数の閾値と比較することにより、類似する情報と判定することを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記登録部は、前記1又は複数の類似度を前記データセットに登録することを特徴とする請求項7に記載の情報処理装置。
【請求項10】
前記登録部は
、前記
抽出部が抽出した項目の名称、前記業務プロセス、前記所定の文書の種類
の少なくともいずれかと、前記自然言語、
前記読出部が読みだした項目が属するプロセス区分、
及び、前記読出部が読みだした項目と互いに依存相関関
係及び/又は属性相関関係にある項目についての情報を前記文書情報表に登録することを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記データセットに蓄積されたデータに対して、統計・整理を行うデータ処理部をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項12】
前記自然言語と、前記業務プロセス、前記各項目と互いに依存関係、及び/又は属性関係にある項目についての情報とをもとに、前記データセット内の探索を行い、前記自然言語と類似性の高い自然言語がデータセットに登録されているかどうかを判定する名寄せ部をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項13】
前記文書に含まれるすべての自然言語を前記名寄せ部によって類似性が高いと判定された自然言語に置き換えたのち、置き換えた文書を生成する文書情報生成部をさらに備えることを特徴とする請求項12に記載の情報処理装置。
【請求項14】
前記名寄せ部によって類似性が高いと判定された文字列がデータセットから抽出されたのち、その文書に含まれるすべての自然言語を名寄せ部によって類似性が高いと判定された自然言語にタグ付けされたのち、前記タグ付けされた自然言語に置き換えた文書を生成する文書タグ付け部を備えることを特徴とする請求項12に記載の情報処理装置。
【請求項15】
文書情報表を記憶する文書情報記憶部を備える情報処理装置
が実行する情報処理方法において、
所定の文書を取得する取得ステップと、
前記所定の文書
における項目の内容から自然言語
を抽出し、前記所定の文書
における前記項目の名称と、前記所定の文書が属する業務プロセスと、前記所定の文書の種類とのうち少なくともいずれかを抽出する抽出ステップと、
前記文書情報表の中を探索して、
抽出した前記自然言語
、前記項目の名称、前記業務プロセス、
及び、前記所定の文書の種類のうち少なくともいずれかと同一、
及び/又は類似する情報に紐づけされた、文書情報表に記載されている、
同一、及び/又は類似する情報に紐づけされた項目が属するプロセス区分、
及び、前記
同一、及び/又は類似する情報に紐づけされた項目と互いに依存相関関
係及び/又は属性相関関係にある項目についての情報を読み出す読出ステップと、
前記
抽出ステップにおいて抽出された項目の名称、前記業務プロセス、前記所定の文書の種類
の少なくともいずれかと、前記自然言語、
前記読出ステップにおいて読みだされた項目が属するプロセス区分、
及び、前記読出ステップにおいて読みだされた項目と互いに依存相関関
係及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録ステップと、
を備えることを特徴とする情報処理方法。
【請求項16】
コンピュータに、
所定の文書を取得する取得機能と、
前記所定の文書
における項目の内容から自然言語
を抽出し、前記所定の文書
における前記項目の名称と、前記所定の文書が属する業務プロセスと、前記所定の文書の種類とのうち少なくともいずれかを抽出する抽出機能と、
文書情報表の中を探索して、
抽出した前記自然言語
、前記項目の名称、前記業務プロセス、
及び、前記所定の文書の種類のうち少なくともいずれかと同一、
及び/又は類似する情報に紐づけされた、文書情報表に記載されている、
同一、及び/又は類似する情報に紐づけされた項目が属するプロセス区分、
及び、前記
同一、及び/又は類似する情報に紐づけされた項目と互いに依存相関関
係及び/又は属性相関関係にある項目についての情報を読み出す読出機能と、
前記
抽出機能において抽出された項目の名称、前記業務プロセス、前記所定の文書の種類
の少なくともいずれかと、前記自然言語、
前記読出機能によって読みだされた項目が属するプロセス区分、
及び、前記読出機能によって読みだされた項目と互いに依存相関関
係及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録機能と、
前記文書情報表を記憶する文書情報記憶機能と
を実現させることを特徴とする情報処理プログラム。
【請求項17】
前記所定の文書における前記項目の名称は省略されており、前記抽出部は前記所定の文書が属する業務プロセスと、前記所定の文書の種類とのうち少なくともいずれかを抽出することを特徴とする請求項1に記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
設計開発等の業務プロセスにおいて、データを集約し、ツールやシステムに渡して業務を遂行する際、集約するデータは通常断片的に保存され、さらに様々な形式で記載されているため、それぞれのデータに対して、エンジニアやツールの専門家が処理を行っている。これらのデータを構造化させることによって、一連のデータを関連付けて活用することができる。その際、複数のデータ間の関係を整理したり登録しなおす必要がある。複数のデータを整理、統合する手段が開示されている(例えば、特許文献1乃至3参照)。
【0003】
特許文献1は、2つ以上の品質機能展開表を統合する情報処理装置を開示している。特許文献2は、連関図を表示する情報処理装置を開示している。特許文献3は、品質機能展開に係る展開表などの諸表の作成を容易とする情報処理装置を開示している。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2014―112340号公報
【文献】特開2019―219787号公報
【文献】特開2016―081185号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
断片的に保存され、様々な形式で記載されているデータを集約するために、業務プロセスにおいて使用される自然言語の分類・整理を行うことで、データを翻訳し正規化する必要があった。このために、辞書を用いて翻訳を行う、AIや機械学習を用いて分散表現を活用して揺れを取り除く、テキスト内で、主語や単語の省略等を補正する、等によって正規化が行われてきたが、依然として十分な精度が得られなかった。
【0006】
上記問題点を鑑み、本発明は、業務プロセスにおいて使用される自然言語の分類・整理の精度を向上させることが可能な情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様は、情報処理装置であって、所定の文書を取得する取得部と、所定の文書から自然言語、及び、自然言語を抽出した所定の文書中の項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とのうち少なくともいずれかを抽出する抽出部と、文書情報表の中を探索して、受信した自然言語、及び、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が文書情報表中に存在するかを判定し、判定の結果に基づき、文書情報表に記載されている、項目が属するプロセス区分、前記項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を読み出す読出部と、自然言語、項目の名称、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録部と、文書情報表を記憶する文書情報記憶部とを備えることを要旨とする。
【0008】
本発明の第1の態様において、属性相関は、所与の自然言語を説明する属性を表現する自然言語との間の相関であってよい。
【0009】
本発明の第1の態様において、依存相関は、所定の自然言語と所定の自然言語の周辺に現れる自然言語との間の、メカニズム、親子関係、又は原因結果いずれかの依存関係を有する相関であってよい。
【0010】
本発明の第1の態様において、プロセス区分は、R、F、L、P、l、及びpのプロセス区分のうちのいずれかであってよい。
【0011】
本発明の第1の態様において、読出部は、1又は複数の判断基準に基づき、受信した自然言語、及び、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと類似する情報が文書情報表中に存在するかを判定してよい。
【0012】
本発明の第1の態様において、1又は複数の判断基準は、業務プロセスが類似しているとする判断基準、所定の文書の種類が類似しているとする判断基準、項目の名称が類似しているとする判断基準、プロセス区分が類似しているとする判断基準、依存相関が類似しているとする判断基準、属性相関が類似しているとする判断基準、及び、自然言語の文字列が類似しているとする判断基準、のうち少なくともいずれかから構成されてよい。
【0013】
本発明の第1の態様において、読出部は、1又は複数の判断基準に基づく1又は複数の類似度を数値化してよい。
【0014】
本発明の第1の態様において、読出部は、1又は複数の類似度を1又は複数の閾値と比較することにより、類似する情報と判定してよい。
【0015】
本発明の第1の態様において、登録部は、1又は複数の類似度をデータセットに登録してよい。
【0016】
本発明の第1の態様において、登録部は、自然言語、項目の名称、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を前記文書情報表に登録してもよい。
【0017】
本発明の第1の態様において、データセットに蓄積されたデータに対して、統計・整理を行うデータ処理部をさらに備えてよい。
【0018】
本発明の第1の態様において、自然言語と、プロセス、各項目と互いに依存関係、及び/又は属性関係にある項目についての情報とをもとに、データセット内の探索を行い、自然言語と類似性の高い自然言語がデータセットに登録されているかどうかを判定する名寄せ部をさらに備えてよい。
【0019】
本発明の第1の態様において、文書に含まれるすべての自然言語を名寄せ部によって類似性が高いと判定された自然言語に置き換えたのち、置き換えた文書を生成する文書情報生成部をさらに備えてよい。
【0020】
本発明の第1の態様において、名寄せ部によって類似性が高いと判定された文字列がデータセットから抽出されたのち、その文書に含まれるすべての自然言語を名寄せ部によって類似性が高いと判定された自然言語にタグ付けされたのち、タグ付けされた自然言語に置き換えた文書を生成する文書タグ付け部を備えてよい。
【0021】
本発明の第2の態様は、文書情報表を記憶する文書情報記憶部を備える情報処理装置において、所定の文書を取得する取得ステップと、所定の文書から自然言語、及び、自然言語を抽出した所定の文書中の項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とのうち少なくともいずれかを抽出する抽出ステップと、文書情報表の中を探索して、受信した自然言語、及び、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、又は類似する情報に紐づけされた、文書情報表に記載されている、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を読み出す読出ステップと、自然言語、項目の名称、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録ステップと、を備えることを要旨とする。
【0022】
本発明の第3の態様は、情報処理プログラムであって、コンピュータに、所定の文書を取得する取得機能と、所定の文書から自然言語、及び、自然言語を抽出した所定の文書中の項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とのうち少なくともいずれかを抽出する抽出機能と、文書情報表の中を探索して、受信した自然言語、及び、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、又は類似する情報に紐づけされた、文書情報表に記載されている、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を読み出す読出機能と、自然言語、項目の名称、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録機能と、文書情報表を記憶する文書情報記憶機能とを実現させることを要旨とする。
【0023】
本発明によれば、業務プロセスにおいて使用される自然言語の分類・整理の精度を向上させることが可能な情報処理装置、情報処理方法、及び情報処理プログラムを提供することができる。
【図面の簡単な説明】
【0024】
【
図1】商品開発業務におけるプロセスの要件間の関係を示すプロセス図である。
【
図2】
図1に示すプロセス図に示す要件が属するプロセスを説明する図である。
【
図3】
図1に示すプロセス図に示す要件が属するプロセスを説明する図である。
【
図4】
図1に示すプロセス図に示す要件が属するプロセスを説明する図である。
【
図5】
図1に示すプロセス図の各要件と類似性の高い文字列を説明する図である。
【
図6】実施形態に係る情報処理装置の一例を示すブロック図である。
【
図11】
図7に示す帳票に項目が属するプロセス区分を表示した帳票の概略図である。
【
図12】
図12(a)は項目R1~R9の構造図であり、
図12(b)は項目R1~R9の依存相関関係を表現したテーブルである。
【
図14】
図11に示す帳票に項目が属するプロセス区分をさらに表示した帳票の概略図である。
【
図15】プロセスとデータモデルとの関係を説明する概略図である。
【
図16】
図16(a)は業務プロセスPのデータモデルを説明する図、
図16(b)は業務プロセスP1~P3の構造図、
図16(c)は業務プロセスP1~P3の依存相関関係を表現したテーブルである。
【
図18】
図18(a)は帳票UIのデータモデルを説明する図、
図18(b)は帳票UI1、UI2の構造図、
図18(c)は帳票UI1、UI2の依存相関関係を表現したテーブルである。
【
図19】
図19(a)は業務プロセスと、業務プロセスにおいて使用される帳票UIとの相関を示すデータモデルを説明する図、
図19(b)は業務プロセスPと帳票UIの構造図、
図19(c)は業務プロセスPと帳票UIの依存相関関係を表現したテーブルである。
【
図20】実施形態に係る情報処理装置において用いられる設計根拠プロセスにおける帳票の各項目ID-nのデータモデルである。
【
図22】
図22(a)は帳票UIと、設計根拠プロセスにおける帳票の各項目ID-nのデータモデルを、
図22(b)は互いに依存相関関係にある、帳票UIと
図20に示す各項目ID-nとの構造図の一部、
図22(c)は
図22(b)の帳票UIと各項目ID-nの依存相関関係を表現したテーブルである。
【
図24】
図23の各業務プロセスに用いられる帳票の一例を示す図である。
【
図25】
図23に示す各業務プロセス、
図24に示す各帳票に対応するデータモデルの一例を示す。
【
図26】本実施形態に係る情報処理装置の動作を説明するフローチャートである。
【発明を実施するための形態】
【0025】
次に、図面を参照して、本発明の実施形態を説明する。実施形態に係る図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。但し、図面は模式的なものであり、平面寸法との関係等は現実のものとは異なることに留意すべきである。したがって、具体的な寸法は以下の説明を参酌して判断すべきものである。又、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることは勿論である。
【0026】
又、実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、各構成要素の構成や配置、レイアウト等を下記のものに特定するものでない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
【0027】
(実施形態)
本発明の情報処理装置は、業務プロセスにおいて使用される帳票等のユーザインターフェース(UI)を使用して、プロセスごとに本発明の情報処理装置において用いられるデータモデルで注目すべきデータが異なることを利用して、業務プロセスにおいて使用される自然言語の分類を行う。本発明の情報処理装置において用いられるデータモデルは、後述する、属性相関、及び依存相関に基づくデータモデルである。
【0028】
本発明の情報処理装置において用いられるデータモデルとは、所与の自然言語とその周辺に現れる自然言語との間に存在する、属性相関、および依存相関を表現したモデルである。ここで、本実施形態において、自然言語とは、業務プロセスにおける要件を表現する言語であって、文章、単語、数字、数式、記号、又はこれらの組み合わせで構成される。所与の自然言語の周辺に現れる自然言語とは、業務プロセスにおいて、所与の自然言語で表される要件と関連のある要件を表現するものであって、その詳細については後述する。
【0029】
属性相関とは、所与の自然言語とその周辺に現れる自然言語との間の、抽象度、または解像度を有する相関であって、所与の自然言語で表される要件を説明する属性を表現する自然言語との間の相関である。
【0030】
依存相関とは、所与の自然言語とその周辺に現れる自然言語との間の、メカニズム、親子関係、又は原因結果いずれかの依存関係を有する相関である。属性相関、依存相関についても、詳細は後述する。
【0031】
最初に、本発明の情報処理装置において用いられるデータモデルについて説明する。
図1に、商品開発業務に係るプロセス区分毎の要件の、各要件間の関係を示すプロセス図を示す。
図1に示す図は、一例として、電動キックボードの商品開発業務に係る図である。プロセス図とは、業務プロセスにおけるタスクの流れを可視化したものである。
図1においては、図中の各要件(例えば要件31~39)であり、業務プロセスの各プロセス区分における各要件が、各要件間の関係を示す実線、または破線とともに示されている。破線で示される各要件間の関係は依存相関関係であり、実線で示される各要件間の関係は属性相関関係である。本実施形態に係る情報処理装置において用いられるデータモデルは、これら依存相関、属性相関に基づくデータモデルである。
【0032】
図1において、互いに依存関係にある要件が、互いに破線で接続され、互いに横方向となるように配置されている。また、互いに属性関係にある要件が、互いに実線で接続され、互いに縦方向となるように配置されている。また、大まかな時間軸21に沿った業務プロセスの各区分である「要求」「性能・機能」「ロジック」「プロダクト」「担保手段」が横軸に沿って記載されている。
【0033】
ここで、
図1に示されている業務プロセスの区分(本実施形態において、これをプロセス区分と呼ぶ)は、業務プロセスにおける各業務を業務の内容に応じて分類したものである。
図1には、業務プロセスにおける各業務を分類したプロセス区分の一例として、要求プロセス区分、性能・機能プロセス区分、ロジックプロセス区分、プロダクトプロセス区分、担保手段プロセス区分が横軸(時間軸21)に沿って示されているが、後述するように、本発明の情報処理装置においては、業務プロセスの各区分を、R(要求)、F(機能)、L(ロジカル)、P(フィジックス)、l(ロジック)、及びp(パラメータ)に分類している。
図1における要求プロセス区分、性能・機能プロセス区分、ロジックプロセス区分、プロダクトプロセス区分、担保手段プロセス区分はそれぞれ、R、F、L、P、lに対応している。
図1に示すように、各要件は、R、F、L、P、l、及びpのいずれかのプロセス区分に属している。
【0034】
依存相関関係とは、一方の要件が、他方の要件の、メカニズムや親子関係、原因結果等を示す関係であるとする。以下に、依存相関関係について具体的に説明する。
【0035】
商品開発を行う際、一般的に、
図1に示すように、開発業務は要求プロセス区分から開始される。具体的には、一例として、キックボードの商品開発においては、要件31である「近場の移動を楽にしたい」というユーザの要求から開始される。
【0036】
要件31のユーザの要求である「近場の移動を楽にしたい」を満たすために必要な機能として、要件34の「可搬機能」が挙げられている。要件34の「可搬機能」の対象として、要件35の「人」が挙げられている。搬送する対象が要件35の「人」であるから、要件36に「電動ボード」が挙げられている。要件31、要件34、要件35は、親子関係、又は原因結果の関係にある。本実施形態において、このような親子関係、又は原因結果の関係を依存相関関係と呼ぶ。
【0037】
属性相関関係とは、一方の要件が、他方の要件を具体化したものであるという関係であるとする。属性相関関係にある複数の要件は階層構造をなしている。この階層構造は
図1における要件間の縦方向の関係に相当し、
図1の紙面内鉛直下方に進むにつれて、即ち、階層が進むにつれて、抽象度が低く、または解像度が高くなり、要件の内容はより具体化される。
図1における要件間の属性相関の度合いとは、この抽象度、または解像度に相当する。以下に、属性相関関係について具体的に説明する。
【0038】
要件31のユーザの要求である「近場の移動を楽にしたい」を実現するための具体的な手段の一つとして、要件32である「ハンドル操作による自走式移動手段」が挙げられている。要件32の具体的な内容として、「時速10キロで2時間で移動できる重量10キロ以下、サイズは100ミリのハンドル付き3輪電導モータ付き」が挙げられている。
【0039】
要件31、要件32、要件33は、互いに属性相関関係にあって階層構造をなしており、要件31から要件32、要件33へと階層が進むにつれて内容が具体化されている。言い換えると、要件31から要件32、要件33へ抽象度が低く、解像度が高くなっている。
【0040】
要件34の「可搬機能」の具体的な内容として、要件37の「操舵機能」、要件38の「停止機能」、要件39の「回転伝達機能」が挙げられている。要件34と、要件37乃至39についても、互いに属性相関関係にあり、要件34を具体化したものが要件37乃至39である。なお、要件37、要件38、および要件39は、互いに依存相関関係にはない。
【0041】
次に、本実施形態に係る情報処理装置によって分類される対象である自然言語が属する業務プロセスについて説明する。一例として、企業の経営活動に係る書類である帳票は、上記のような要件を、業務プロセス毎に整理して格納したものである。帳票のうち、例えば商品仕様書であれば、商品開発の初期段階では、
図2に示す実線41に囲まれた仕様検討プロセスの内容が、商品仕様書に記載される。実線41に囲まれた仕様検討プロセスは、主に要求プロセス区分の情報が含まれる。商品開発の中間段階では、
図3に示す実線42に囲まれた詳細設計プロセスの内容が、商品仕様書に記載される。詳細設計プロセスは、主に性能・機能プロセス区分、ロジックプロセス区分、プロダクトプロセス区分等の具体的な情報が含まれる。商品開発の最終段階では、
図4に示す実線43に囲まれた評価プロセスの内容が、商品仕様書に記載される。評価プロセスは、主にプロダクトプロセス区分、担保手段プロセス区分等の情報が含まれる。
【0042】
上記のように、各業務プロセス毎に使用される帳票に記載される各要件が、R、F、L、P、l、及びpのプロセス区分のうちどのプロセス区分に属するか、及び、各業務プロセスが含む要素およびプロセス区分は予め決定されている。このことについては、後段にて再度詳細に説明する。
【0043】
ここで、ドキュメント等に記録されている文章中で用いられている自然言語は、同一プロセスの同一要件に係る自然言語であっても、企業、部署、担当者等毎に異なり得る。例えば、商品開発業務の所定のプロセス区分の所定の要件において、要件の内容を記録する文章中で用いられている自然言語は、内容が同一であっても、担当者によって異なる自然言語を用いる場合がある。
【0044】
図5に示すように、
図1に示す各要件を表現する自然言語は、
図5に示す各要件の周囲に記載されている、各要件と類似性の高い各自然言語に置き換えて表現される場合がある。
図5は、
図1に示すプロセス図の各要件と類似性の高い自然言語を説明する図であり、
図1の一部を拡大して、
図1に示す要件の周囲に各要件と類似性の高い自然言語を記載した図である。例えば、要件31の「近場の移動を楽にしたい」は、「近所」「徒歩」「楽」「歩き」「通勤」「きつい」等の文字列を使用して表現することができる。同様に、要件34の「可搬機能」は「乗れる」「移動」、要件32の「ハンドル操作による自走式移動手段」は「ハンドル」「自動機」「電動走行」「操作レバー」等の文字列を使用して表現することができる。
【0045】
業務プロセスにおいて、ツールやシステムに渡して業務を遂行するためにデータを集約する際、上記のような表記ゆれ、表記揺らぎが存在するため、データを分類・整理するためには、表記ゆれ、表記揺らぎに対して正規化を行う等の対応が必要となるが、膨大な量のデータに対して、人間が読む必要がある。これに対して、類似語辞書データや単語の分散表現を活用した名寄せ技術があるが、依然として精度が十分に高くない。本実施形態に係る情報処理装置は、
図5に示すような、
図1に示すプロセス図の各要件を表現する自然言語と、それらと類似性の高い自然言語との分類・整理を行う。その際、各要件が属する業務プロセス、及びデータモデルを用いて、分類・整理を行う。
【0046】
本実施形態に係る情報処理装置の動作を説明する。
図6は、本実施形態に係る情報処理装置10の構成を示すブロック図である。
図6に示すように、本実施形態に係る情報処理装置10は、各種の演算実行のためのCPU11、処理用のプログラム、データ等の記憶のための記憶部12、I/O(インプット・アウトプットインターフェース)13、表示部14、入力部15から構成される。
【0047】
I/O13は通信(送受信)用のインターフェース、バッファ等である。
【0048】
表示部14は、ディスプレイ等の表示装置であり、CPU11による演算結果等を表示する。
【0049】
入力部15は、キーボード、マウス等の入力装置であり、ユーザからの入力を受け付け、CPU11に送信する装置によって実現される。
【0050】
図6のブロック図に、CPU11内の機能部を示す。CPU11の各機能部をソフトウェアにより実現する場合、CPU11は各機能を実現するソフトウェアであるプログラムの命令を実行することで実現する。詳細には、取得部111、抽出部113、読出部115、登録部114を備える。また、記憶部12は、データセット記憶部121、文書情報記憶部122を備える。
【0051】
取得部111は、入力部15を介して所定の文書を取得する。取得部111によって取得される文書は、本実施形態においては業務プロセス上において発生し得る文書であって、例えば、帳票であるが、これには限定されず、例えば、計算書、数式、データファイル等であってもよい。また、取得部111によって取得される文書は、2以上の単語、又は複合語を必ずしも含まなくてもよく、単一の単語、又は複合語であってもよい。
【0052】
また、所定の文書はテキストの形式で保存されたものだけでなく、画像、音声等の他の形式で保存されたものであってもよい。抽出部113は、それぞれの文書の形式に応じて文字列を抽出できる構成であってよく、例えば、画像認識、音声認識等により文章を認識したのち、その文章から文字列を抽出してもよい。本実施形態においては、所定の文書は帳票であるとする。
【0053】
取得部111によって取得される文書には、その文書の種類、及び/又は文書が属する業務プロセス等がタグ付けされていてもよい。又は、取得部111によって文書が取得される際、取得部111は、例えばユーザによる入力により、入力部15を介してその文書の種類、及び/又は文書が属する業務プロセス等を取得してもよい。又は、業務プロセス上において発生し得る帳票等は、各業務プロセスにおける帳票のフォーマットが、業務プロセスごとに共通している項目が多く、従って、取得部111は、取得した文書に基づいて、取得した文書の種類、及び/又は文書が属する業務プロセス等を自動判別してもよい。
【0054】
所定の文書の例を、
図7乃至
図10に示す。
図7は商品企画書、
図8は製品仕様書、
図9は商品カタログ、
図10はクレーム管理表・サービスレポートである。
図7乃至
図10に示す帳票は、例えば、それぞれ、商品企画プロセス、仕様検討プロセス、詳細設計プロセス、評価プロセス等の業務プロセスに係る帳票である。
【0055】
本実施形態においては、所定の文書に記載される事項は、1又は複数の項目から構成される。所定の文書の項目とは、所定の文書中の、例えば、業務プロセスの少なくとも一部について説明するための項目であり、通常、項目の名称と、項目の内容を記載する欄とから構成される。ただし、項目名は省略されている場合があり得る。以下では、項目の名称を項目名、項目の内容を項目内容と呼ぶ。
図7に示す商品企画書には、企画概要、原価比較表という項目名がそれぞれ記載されており、それぞれの項目内容を記載する欄にそれぞれの内容が入力されている。
図8に示す製品仕様書には、製品名、品番、製品重量等の項目名、
図9に示す商品カタログには、商品名、用途、重量等の項目名、
図10に示すクレーム管理表・サービスレポートには、クレーム管理番号、型番等の項目名がそれぞれ記載されており、
図7と同様、それぞれの項目の内容を記載する欄にそれらの内容が入力されている。
【0056】
図7乃至
図10に示す帳票に記載された各項目、及び各項目に入力された項目内容は、
図1乃至
図4に示すプロセス図の各要件に記載された内容と同一、又は互いに類似しているものである。例えば、
図7に示す商品企画書に記載されている、企画概要、原価比較表の各項目名、及び各項目の内容は、
図1に示すプロセス図の、要求プロセスの要件31、要件32、及び要件33の内容を、各項目に合わせて書き換えたものである。
図8に示す製品仕様書に記載されている、製品名、品番、製品重量等の項目、及び各項目の内容は、
図1に示すプロセス図の、性能・機能プロセスの要件の内容を、各項目に合わせて書き換えたものである。
【0057】
以上のように、業務プロセスにおいて使用される帳票に記載されている各項目名、及び各項目内容は、
図1乃至
図4に示すプロセス図の各要件に記載された内容に対応している。
図2乃至
図4を参照して先に説明したように、帳票は、プロセス図の各要件を、業務プロセス毎に整理して格納したものであり、各業務プロセスに依って、プロセス図の各要件のうち、帳票に項目として記載される要件おおよそ予め決められている。プロセス図の各要件は、互いに、
図1において破線、又は実線で示されている、依存相関関係、又は属性相関関係にある。従って、帳票の各項目、及び各項目の内容は、プロセス図の各要件と同様、互いに依存相関関係、又は属性相関関係にある。
【0058】
図11に示す商品企画書は、
図7に示す商品企画書の各項目が、
図1に示すようなプロセス図のR、F、L、P、l、及びpのプロセス区分のうちどのプロセスにそれぞれ属していて、帳票の他の項目のうちどの項目と依存相関関係にあるかの情報を示したものである。
図11に示す、Rは、その項目がRのプロセス区分に属していることを示している。F、L、P、l、及びpについても同様である。また、R(親)R(子)は、その項目と互いに依存相関関係にある項目についての情報を示している。
【0059】
図11に示すように、企画概要の項目にはR、F、L、及びPのプロセス区分が示されており、さらにそれぞれのプロセス区分には、R(親)R(子)、F(親)F(子)、L(親)L(子)、P(親)P(子)が示されている。このことは、企画概要の項目に記載される内容に含まれる1又は複数の自然言語に対して、R、F、L、及びPのいずれかのプロセス区分に属しており、どの項目と依存相関関係にあるかを示す情報が紐づけされていることを示している。原価比較表の項目の、機種に対応する項目にはPP(親)P(子)、価格に対応する項目にはRR(親)R(子)が示されており、それぞれの項目が、P、及びRのプロセス区分に属しており、どの項目と依存相関関係にあるかを示す情報が紐づけされていることを示している。
【0060】
図11に示す、RR(親)R(子)のR(親)R(子)によって表現される依存相関関係について、
図12(a)、及び
図12(b)を参照しながら説明する。プロセス区分Rに属する、互いに依存相関関係にある項目R1~R9の構造図を
図12(a)に、依存相関関係を表現したテーブルを
図12(b)に示す。
【0061】
図12(a)に示す項目R1~R9を互いに接続する実線は、実線に接続された項目同士が互いに親子関係、即ち依存相関関係にあることを示しており、例えば、項目R1に親はなく、子は項目R2、R7、R8である。項目R2の親は項目R1であり、子は項目R3、R6である。
【0062】
図12(b)に示す要求項目リストは、要求(R)のプロセス区分に属する項目の少なくとも一部を示しており、項目R1~R9が示されている。
図12(b)に示す要求項目相関テーブルは、要求項目リストに示される項目同士の依存相関関係の一部を示しており、例えば相関001は項目R1を親としたとき項目R2が子となる、項目R1と項目R2との間の依存相関を指し、相関002は項目R1を親としたとき項目R8が子となる、項目R1と項目R8との間の依存相関を指す。
【0063】
図11、及び
図12に示す依存相関関係は
図1のプロセス図においては、項目間の、紙面内水平方向の、破線で接続される関係として示されている。
【0064】
また、各項目に対して、それぞれの項目を説明する属性が属性相関である。この属性相関は、
図1には示されているが、
図11、及び
図12には示されていない。属性相関関係について、
図13(a)、及び
図13(b)を参照しながら説明する。
図13(a)、及び
図13(b)は、
図12(a)、及び
図12(b)に示す、項目R1~R9の構造図、及び要求項目リストに、各項目の属性を追記したものである。
【0065】
図13(a)を参照すると、例えば、項目R1に、属性として、「要求元:顧客」「重要度:レベル3」「発生日:2024年〇月△日」が示されている。同様に、項目R2に、属性として、「要求元:顧客」「重要度:レベル1」「発生日:2024年〇月△日」が示されている。
図13(b)を参照すると、項目R1~R9のそれぞれの属性がリストに記載されている。
【0066】
図13に示す属性相関関係は
図1のプロセス図においては、項目間の、紙面内鉛直方向の、実線で接続される関係として示されている。
【0067】
このような各業務プロセスにおける各帳票の各項目について、各業務プロセス、各帳票、各項目、各項目に紐づけ可能な、各項目が属するR、F、L、P、l、及びpのプロセス区分、各項目に紐づけ可能な各項目と互いに依存関係、及び/又は属性関係にある項目について、それぞれの対応関係を記載した文書情報表が後述する文書情報記憶部122に予め記憶されており、後述する読出部115によって文書情報表に記載された情報が読みだされる。
【0068】
抽出部113は、所定の文書から自然言語を抽出して、読出部115に送信する。抽出部113は、所定の文書から、任意の単語、または複合語を抽出してもよく、または、所定の文書に含まれる全て、又は所定数の単語、及び/または複合語を抽出してもよい。抽出部113が所定の文書から抽出する自然言語は、所定の文書に記載された項目の内容を記載する欄に入力された内容であって、所定の文書に記載された項目の内容の一部、又はすべてであってもよい。又は、
図7に示す企画概要の項目のように、項目の内容が文章である場合等、項目の内容から抽出した自然言語であってもよい。
【0069】
抽出部113は、所定の文書から自然言語を抽出する際、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とを併せて取得し、読出部115に送信する。所定の文書の種類とは、所定の文書が帳票であれば、例えば、商品企画書、製品仕様書、商品カタログ、クレーム管理表・サービスレポート等の帳票の種類であり、所定の文書が帳票でなければ、例えば、計算書、数式、データファイル等である。
【0070】
抽出部113は、所定の文書が属する業務プロセスと、所定の文書の種類とを取得する際、所定の文書に文書の種類、及び/又は文書が属する業務プロセス等がタグ付けされている場合、所定の文書にタグ付けされた情報から業務プロセスと、所定の文書の種類とを取得してよい。取得部111が入力部15を介してその文書の種類、及び/又は文書が属する業務プロセス等を取得した場合、又は、取得部111が取得した文書の種類、及び/又は文書が属する業務プロセス等を自動判別した場合、抽出部113は、取得部111から業務プロセスと、所定の文書の種類とを受け取ってよい。
【0071】
抽出部113が所定の文書から複数の自然言語を抽出する場合、例えば、抽出部113は、抽出した複数の自然言語を記憶部12等に記憶させておき、記憶させた複数の自然言語を1つずつ順に読みだして読出部115、及び登録部114に送信してもよい。読出部115、及び登録部114は、処理を抽出部113から受信した自然言語に対して行ったのち、全ての記憶させた複数の自然言語について読出部115、及び登録部114は処理を繰り返してもよい。
【0072】
読出部115は、抽出部113が所定の文書から抽出した自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とを受信したのち、文書情報記憶部122に記憶されている文書情報表の中を探索して、受信した自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が文書情報表中に存在するかを判定する。
【0073】
ここで、読出部115が類似する情報が文書情報表中に存在するかを判定する際の、類似していると判断する基準は、以下に挙げる各判断基準のいずれか、又は組み合わせによって規定される。読出部115は、以下に挙げる各判断基準に基づいて、類似する情報が文書情報表中に存在するかを判定する際の、各判断基準に基づく各類似度を数値化してもよい。読出部115は、例えば各判断基準に基づく各類似度のそれぞれが、1又は複数の所定の閾値を超える場合に、類似度が高いと判断してよく、又は、例えば各判断基準に基づく各類似度の和を総類似度とし、総類似度が第2の所定の閾値を超える場合に、類似度が高いと判断してよく、及び/又は、総類似度が、第3の所定の閾値よりも低い場合に、類似度が低いと判断してよい。なお、判断の閾値は、絶対値として与えられてよい。又は、判断の閾値は、相対値として学習した結果導かれてよい。さらに、確率や重要度等の重みや係数がかかってもよい。所定の閾値、及び第2の所定の閾値は、記憶部12に記憶されていてもよく、例えばユーザによる入力により、入力部15を介して取得されてもよい。
【0074】
情報の類似の判断基準として、業務プロセスが類似しているとする判断基準は、抽出部113が自然言語を抽出した所定の文書が属する業務プロセスが、文書情報表に記載された情報が属する業務プロセスと同一である、又は近いことである。ここで、近いとは、業務プロセスの名称を構成する自然言語をベクトル化したときにベクトルが近いこと、自然言語と属性相関、および依存相関関係にある自然言語をベクトル化したときにベクトルが近いこと、及び/又は、業務プロセスの順番自体が近いことを指す。以下に述べる類似性の判断基準において使用される「近い」についても、同様に、類似性を判断する対象の名称を構成する自然言語をベクトル化したときにベクトルが近いこと、自然言語と属性相関、および依存相関関係にある自然言語をベクトル化したときにベクトルが近いこと、及び/又は、類似性を判断する対象の順番自体が近いことを指すこととする。また、抽出部113が自然言語を抽出した所定の文書が属する業務プロセスと、文書情報表に記載された情報が属する業務プロセスそれぞれの、それぞれから見て依存相関関係の親と子、若しくは属性相関関係に該当する業務プロセスが、共通していることである。それぞれから見て依存相関関係の親と子とは、例えば、後述するが、
図15において抽出部113が自然言語を抽出した所定の文書が属する業務プロセスが業務プロセスP2であれば、依存相関関係の親は業務プロセスP1であり、子は業務プロセスP3である。
【0075】
所定の文書の種類が類似しているとする判断基準は、抽出部113が自然言語を抽出した所定の文書の種類が、文書情報表に記載された情報が記載された文書の種類と同一である、又は近いことである。また、所定の文書の種類の類似性の判断基準は、業務プロセスによって文書の種類が決定されることから、抽出部113が自然言語を抽出した所定の文書が属する業務プロセスと、文書情報表に記載された情報が属する業務プロセスそれぞれの、依存相関関係の親と子、若しくは属性相関関係に該当する業務プロセスが共通していることとしてもよい。
【0076】
項目の名称が類似しているとする判断基準は、抽出部113が自然言語を抽出した項目の名称と文書情報表に記載された情報が記載された項目の名称が同一である、又は、近いことである。又は、抽出部113が自然言語を抽出した項目の名称と文書情報表に記載された情報が記載された項目の名称それぞれの、依存相関関係の親と子となる項目、若しくは属性相関関係の、抽象度の高い項目と低い項目の名称のうち少なくとも複数が共通していることである。属性相関関係の、抽象度の高い項目と低い項目とは、例えば、
図1で示されるプロセス図においては、所定の要件に対して、属性相関関係にあり、実線で直接接続された、紙面内鉛直方向の上下に位置する要件に相当する。例えば、
図1において抽出部113が自然言語を抽出した項目の名称が要件32の「ハンドル操作による自走式移動手段」であれば、属性相関関係の、抽象度の高い項目は要件33であり、抽象度の低い項目は要件31である。以下、属性相関関係の、抽象度の高い要件と低い要件は、属性相関関係の前後と表現する。
【0077】
プロセス区分が類似しているとする判断基準は、抽出部113が抽出した自然言語が属するプロセス区分と文書情報表に記載された情報が属するプロセス区分とが同一である、又は、近いことである。又は、プロセス区分と依存相関関係の親と子、若しくは属性相関関係に該当するプロセス区分が共通していることである。
【0078】
依存相関が類似しているとする判断基準は、抽出部113が抽出した自然言語と依存相関関係の親と子となる要件が、文書情報表に記載された情報と近いことである。
【0079】
属性相関が類似しているとする判断基準は、抽出部113が抽出した自然言語と属性相関関係の前後となる要件が、文書情報表に記載された情報と近いことである。
【0080】
ベクトル的に類似しているとする判断基準は、抽出部113が抽出した自然言語と文書情報表に記載された情報が、既存技術の単語の分散表現的に近い、又は、文書ベクトル的に近いことである。
【0081】
自然言語の文字列が類似しているとする判断基準は、文書情報表中に、抽出部113が所定の文書から抽出した自然言語、又は項目の名称を構成する文字列のうち、少なくとも所定以上の文字数の文字列が同一である自然言語、又は項目の名称が存在すること、又は、少なくとも所定の文字列が同一である自然言語、又は項目の名称が存在することである。
【0082】
上記の判断基準に対しては、確率や重要度等の重み付けや係数をかけてもよい。例えば、依存相関が類似している、又は属性相関が類似している場合、抽出部113が抽出した自然言語と文書情報表に記載された情報とは、互いに類似度が高いと考えられる。また、例えば、業務プロセスが類似している場合、業務プロセスの類似のみでは類似度は低いと考えられる。上述した判断基準のそれぞれのみの判断基準を満たす場合の類似度の高さをもとに、重み付けや係数を用いることにより、1または複数の判断基準を満たしている場合の類似度の高さを、数値として表すことができる。この数値は、登録部114が、抽出部113が抽出した情報をデータセットに登録するかを判定する際に用いることができる。
【0083】
読出部115は、文書情報表の中に、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が存在すると判定すると、文書情報表中の、同一、及び/又は類似する情報に紐づけされた、文書情報表に記載されている、項目が属するR、F、L、P、l、及びpのプロセス区分、各項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を読み出し、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とともに登録部114に送信する。
【0084】
ここで、読出部115は、類似度が高いと判断した情報のみを類似する情報と判定してもよく、又は、総類似度が、第2の所定の閾値よりも高い場合に、類似度が高いと判断してよい。及び/又は、例えば、読出部115が、文書情報表の中に、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと類似する情報が存在すると判定した場合、読出部115は、上述した1または複数の判断基準のそれぞれの類似度とともに類似する情報を表示部14に表示する等によって判定結果をユーザに知らせ、類似する情報を登録部114に送信してデータセットに登録するするか否かの判断をユーザによる入力により、入力部15を介して取得し、取得したデータセットに登録するするか否かの判断に基づき類似する情報を登録部114に送信してもよい。上述した、判定結果をユーザに知らせる際、読出部115は、表示部14等にアラートを表示してもよい。
【0085】
読出部115が、文書情報表の中に、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一情報が存在すると判定した場合、読出部115は、文書情報表から読みだした情報と、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とともに、文書情報表の中の、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち、どの情報と同一であったかを示す情報を登録部114に送信してよい。
【0086】
読出部115が、文書情報表の中に、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと類似する情報が存在すると判定した場合、読出部115は、文書情報表から読みだした情報と、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とともに、どの情報と類似していたか、及び/又は、上述した1または複数の判断基準のそれぞれに基づく判断結果を登録部114に送信してよく、及び/又は、読出部115は、上述した1または複数の判断基準のそれぞれの類似度を登録部114に送信してよく、及び/又は、総類似度を登録部114に送信してよい。
【0087】
読出部115は、文書情報表の中に、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、又は類似する情報が存在しないと判定すると、同一、又は類似する情報が存在しないという判定結果を、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とともに登録部114に送信してよい。
【0088】
登録部114は、読出部115から受信した自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類と、文書情報表に記載されている、項目が属するR、F、L、P、l、及びpのプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目とをデータセットに登録する。
【0089】
登録部114は、これらに加えて、自然言語が登録された日時、自然言語が確認された文章、ドキュメント、業務プロセス等の情報、文字列が確認された回数等の情報をデータセットに登録してもよい。
【0090】
さらに、登録部114は、これらに加えて、読出部115から受信した、文書情報表から読みだした情報と、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とともに、文書情報表の中の、自然言語、項目の名称、業務プロセス、所定の文書の種類のうち、どの情報と同一であったかを示す情報、及び/又は、どの情報と類似していたか、及び/又は、上述した1または複数の判断基準のそれぞれに基づく判断結果を登録部114に送信してよく、及び/又は、読出部115は、上述した1または複数の判断基準のそれぞれの類似度を登録部114に送信してよく、及び/又は、総類似度をデータセットに登録してもよい。
【0091】
登録部114は、読出部115から、同一、又は類似する情報が存在しないという判定結果と、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とを受信すると、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とをデータセットに登録する。
【0092】
また、登録部114は、読出部115から受信した自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類と、文書情報表に記載されている、項目が属するR、F、L、P、l、及びpのプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目とを、文書情報表に登録してもよい。読出部115は文書情報表の中を探索し、文書情報表に記載されたデータを読み出すため、登録部114が上記のようにデータを文書情報表に登録することによって、読出部115はより多くのデータが蓄積された文書情報表からデータの探索、読み出しを行うことができる。
【0093】
データセット記憶部121は、データセットを記憶する。データセットには、自然言語と、自然言語を抽出した項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類と、文書情報表に記載されている、項目が属するR、F、L、P、l、及びpのプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目とが記載されている。データセットは、予め作成され、データセット記憶部121に記憶されていてもよく、または、本実施形態にかかる情報処理装置によって生成されてもよい。
【0094】
文書情報記憶部122は、各業務プロセスにおける各帳票の各項目について、各業務プロセス、各帳票、各項目、各項目に紐づけ可能な、各項目が属するR、F、L、P、l、及びpのプロセス区分、各項目に紐づけ可能な各項目と互いに依存相関関係、及び/又は属性相関関係にある項目について、それぞれの対応関係を記載した文書情報表を記憶する。文書情報表は予め作成され、文書情報記憶部122に記憶されている。
【0095】
文書情報表は、例えば帳票を作成する担当者等によって、経験に基づき予め作成されたものであるが、第2の実施形態において述べるように、データセットにデータが蓄積されると、データセットに蓄積されたデータに基づいて、文書情報表に記載された情報、及びデータセットに記載された情報をより適切なものに変更することが可能となる。
【0096】
本実施形態に係る情報処理装置による、取得部111による所定の文書の取得、抽出部113による自然言語の抽出、読出部115による探索と読出し、登録部114によるデータセットへの登録という一連の作業を繰り返すことによって、データセットに自然言語が、項目名、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目とともに蓄積される。データが蓄積されると、より類似確率の高い単語や文章の抽出・推論が容易となる等、データに対して統計・学習が可能となり、例えば、機械学習等の学習に用いられる教師データの収集と整理、名寄せ、データマネジメント等の様々な用途に活用が可能となる。本実施形態に係る情報処理装置は、自然言語を分類する際に、項目名、業務プロセス、所定の文書の種類に加え、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目を用いることによって、データを用いた統計・学習による精度が向上する。
【0097】
図14に示す商品企画書は、
図11に示す商品企画書の企画概要の項目に記載された文章に含まれる、プロセス図に示される各要件に対応する自然言語と、これら自然言語のそれぞれに対して、属するR、F、L、P、l、及びpのプロセス区分、各項目に紐づけ可能な各項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報とが示されている。具体的には、例えば、「20兆円規模の市場」という複合語は、属するプロセス区分がRであり、「20兆円規模の市場」と依存相関関係にある項目が紐づけされていることが示されている。
【0098】
図11に示す商品企画書の企画概要の項目に記載された文章からプロセス図に示される各要件に対応する自然言語を抽出する際、文章に対する自然言語処理のみによる抽出と比較して、文章に対する、自然言語処理と、企画概要の項目に記載される内容が属するプロセス区分と、依存相関関係、属性相関関係にある項目に関する情報とによる抽出のほうが精度良い抽出が可能である。
【0099】
図1乃至
図14を参照しながら具体的に説明した本実施形態に係る情報処理装置の動作を、
図15乃至
図20を参照しながら、抽象化して説明する。
【0100】
図15に、業務プロセスと、後述するデータモデルとの関係を説明する概略図を示す。
図15には、複数の業務プロセスP1、P2、P3、P4、及びP5のそれぞれに対応するデータモデル131~135が示されている。
図15に示す業務プロセスP1~P5は、一例として、業務プロセスP1~P3が企画プロセス、業務プロセスP4が設計検討プロセス、業務プロセスP5が試験プロセスであり、業務プロセスの進行段階の順に並べられている。業務プロセスP1~P5それぞれの互いの関係は、業務プロセスP
nの1段階前の業務プロセスP
n-1が業務プロセスP
nの親、業務プロセスP
nの1段階あとの業務プロセスP
n+1が業務プロセスP
nの子の関係、即ち依存相関関係である。例えば、
図15において、業務プロセスP2が当該プロセスであれば、業務プロセスP2の親プロセスは業務プロセスP1、子プロセスは業務プロセスP3である。
【0101】
業務プロセスの進行段階の順序、業務プロセスの他の業務プロセスとの依存相関関係に依って、各業務プロセスにおいて注目すべきプロセス区分が異なる。ここで、注目すべきプロセス区分とは、
図1に示す各要件が属するプロセス区分、又は、
図11に示す各項目が属するプロセス区分のうち、所定の業務プロセスに最も多く含まれるプロセス区分のことを差し、R、F、L、P、l、及びpのプロセス区分のいずれかである。このプロセス区分は、例えば、
図15では、業務プロセスの進行段階の順序が1番目である業務プロセスP1において、注目すべきプロセス区分はRである。企画プロセスであれば、業務プロセスP1~P3において、注目すべきプロセス区分はRである。
【0102】
図2乃至4を参照しながら、仕様検討プロセスにおいて使用される帳票である商品仕様書が主に要求プロセス区分の情報を含み、詳細設計プロセスにおいて使用される帳票である商品仕様書が主に主に性能・機能プロセス区分、ロジックプロセス区分、プロダクトプロセス区分の情報を含み、評価プロセスにおいて使用される帳票である商品仕様書が主に担保手段プロセス区分の情報を含む例をすでに挙げたが、上述の注目すべき項目は、
図2乃至4に示す例での仕様検討プロセスにおける要求プロセス区分、詳細設計プロセスにおける性能・機能プロセス区分、ロジックプロセス区分、プロダクトプロセス区分、評価プロセスにおける担保手段プロセス区分に相当する。
【0103】
図16(a)に本実施形態に係る情報処理装置において用いられる、業務プロセスPのデータモデルを、
図16(b)に一例として互いに依存相関関係にある業務プロセスP1~P3の構造図を、
図16(c)に
図16(b)の業務プロセスP1~P3の依存相関関係を表現したテーブルを示す。
図16(a)中のPID-1、PID-2、…は、
図16(b)に示す業務プロセスP1~P3の、各業務プロセス間の依存相関であり、
図16(c)に示す業務プロセス相関_IDに相当する。
図16(a)の業務プロセスPは
図16(c)のプロセス項目リストのプロセスIDに相当し、
図16(a)のP(親)P(子)は
図16(c)のプロセス相関テーブルの「親」「子」に相当する。
【0104】
図17に、業務プロセスにおいて使用される帳票の一例を示す。
図17には、帳票UIが使用される業務プロセスP、帳票UIに記載される各項目(ユーザインターフェース)UI-n(nは1以上の整数)、項目UI-nに記入される自然言語が属するプロセス区分R、L、Pが示されている。
【0105】
図18(a)に本実施形態に係る情報処理装置において用いられる、業務プロセスにおいて使用される帳票UIのデータモデルを、
図18(b)に一例として互いに依存相関関係にある帳票UI1、UI2の構造図を、
図18(c)に
図18(b)の業務プロセスの帳票UI1、UI2の依存相関関係を表現したテーブルを示す。
図16に示した業務プロセスの場合と同様に、
図18(a)中のUI-ID-1、UI-ID-2、…は、
図18(b)に示す帳票UI1、UI2の、各帳票間の依存相関であり、
図18(c)に示すプロセスUI相関_IDに相当する。
図18(a)の帳票UI は
図18(c)のプロセス項目リストのプロセスUIに相当し、
図18(a)のUI(親)UI(子)は
図18(c)のプロセス相関テーブルの「親」「子」に相当する。
【0106】
帳票に記載される項目UI-nについても、業務プロセスP、帳票UIと同様、項目UI-nと依存関係にある親UI-n、子UI-nが存在する。項目UI-nと依存関係にある親UI-n、子UI-nは、項目UI-nと同一帳票内に記載されている場合もあれば、互いに異なる帳票に記載されている場合もある。各帳票は、通常、各業務プロセスに対応しており、
図2乃至4に示すように、各業務プロセスが含む要件は各業務プロセスごとにおおよそ決められており、したがって、項目UI-nと依存関係にある親UI-n、子UI-nが、項目UI-nと同一業務プロセスにおいて用いられる帳票に記載されている場合もあれば、項目UI-nとは異なる業務プロセスにおいて用いられる帳票に記載されている場合もある。
【0107】
図19(a)に本実施形態に係る情報処理装置において用いられる、業務プロセスと、業務プロセスにおいて使用される帳票UIとの相関を示すデータモデルを、
図19(b)に一例として互いに依存相関関係にある業務プロセスPと帳票UIの構造図を、
図19(c)に
図19(b)の業務プロセスPと帳票UIの依存相関関係を表現したテーブルを示す。業務プロセスP3に用いられる帳票が帳票U1であるとする。
図19(a)中のP-UI-ID-1、P-UI-ID-2、…は、
図19(b)に示す業務プロセスP3と帳票U1間の依存相関であり、
図19(c)に示すプロセスUI相関_IDに相当する。
図19(a)の帳票UI は
図19(c)のP-U相関に相当し、
図19(a)のUI(親)UI(子)は
図19(c)のプロセス相関テーブルの「親」(P3)「子」(U1)に相当する。
【0108】
図20に、本実施形態に係る情報処理装置において用いられる、業務プロセスの一例として、設計根拠プロセスにおける帳票の各項目ID-nの、項目間の相関を示すデータモデルを、
図21に、互いに依存相関関係にある、
図20に示す各項目ID-nの構造図を示す。
図21に示すID-nは、
図20に示す各要素間の依存相関である。
【0109】
図22(a)に、業務プロセスにおいて使用される帳票UIと、設計根拠プロセスにおける帳票の各項目ID-nの、項目間の相関を示すデータモデルを、
図22(b)に、互いに依存相関関係にある、帳票UIと
図20に示す各項目ID-nとの構造図の一部を、
図22(c)に、
図22(b)の帳票UIと各項目ID-nの依存相関関係を表現したテーブルを示す。
図22(a)に示すUIは、
図22(b)に示す各要素間の依存相関である。
図22に示すように、帳票UIと帳票の項目R1との間に、依存相関関係があることがわかる。
【0110】
図17~
図22に示すように、複数の業務プロセスPの業務プロセス間、複数の帳票UIの帳票間、帳票の各項目ID-nの項目間というように、同種の要素間に依存相関関係がありうるが、同種の要素間に限定されず、業務プロセスPと帳票UIとの間、票UIと帳票の各項目ID-nの間等、異種の要素間にも、依存相関関係がありうる。一方、属性相関は、特定の項目を説明する属性との相関を指す。
図17~
図22には属性相関関係は示されていないが、属性相関は依存相関とは異なり、属性相関関係にある要素は互いに同種であって、異種間の要素間には属性相関は存在しない。
【0111】
図23乃至
図25を参照しながら、業務プロセスごとのデータモデルについて説明する。
図23に示すように、業務プロセスP1、P2、P3として、企画業務プロセス、設計検討業務プロセス、設計担保・検証業務プロセスを例に挙げる。
【0112】
図24に、
図22に示す各業務プロセスに用いられる帳票の一例を示す。企画業務プロセス、設計検討業務プロセス、設計担保・検証業務プロセスのそれぞれにおいて、帳票U1、U2、U3として、企画書、設計検討書、設計検証資料が用いられるものとする。帳票U1、U2、U3のそれぞれは、項目U1-1、U1-2…、U2-1U2-2…、U3-1、U3-1…を備えている。
図23に示すように、帳票U1、U2、U3のそれぞれが、他の帳票と共通する項目、または共通しない項目を備えている。
【0113】
図25に、
図23に示す各業務プロセス、
図24に示す各帳票に対応するデータモデルの一例を示す。
図24に示す各項目U1-1、U1-2…、U2-1U2-2…、U3-1、U3-1…が、プロセスR、F、L、P、l、及びpに属する項目を備えていることを示している。
図24と同様、
図25に示すデータモデルのそれぞれは、他のデータモデルと共通する項目、または共通しない項目を備えている。
図25に示す3つのデータモデルを基にした業務プロセス全体のデータモデルは、
図22となる。
【0114】
次に、
図26のフローチャートを参照しながら、本実施形態にかかる情報処理装置の動作を説明する。
【0115】
ステップS801において、取得部111は、所定の文書を取得する。
【0116】
ステップS802において、抽出部113は、所定の文書から自然言語と、自然言語を抽出した所定の文書中の項目の名称と、所定の文書が属する業務プロセスと、所定の文書の種類とのうち少なくともいずれかを抽出する。
【0117】
ステップS803において、読出部115は、文書情報表の中を探索して、受信した自然言語、及び、項目の名称、業務プロセス、所定の文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が文書情報表中に存在するかを判定し、判定の結果に基づき、文書情報表に記載されている、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報を読み出す。
【0118】
ステップS804において、登録部114は、自然言語、項目の名称、業務プロセス、所定の文書の種類、項目が属するプロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についての情報をデータセットに登録する。
【0119】
(第2の実施形態)
データセットにデータが蓄積されると、データセットに蓄積されたデータに基づいて、文書情報表に記載された情報をより適切なものに変更することが可能となる。文書情報表は、上記したように、例えば帳票を作成する担当者等によって、経験に基づき予め作成されたものであるが、文書情報表に記載された、各業務プロセス、各帳票、各項目、各項目に紐づけ可能な、各項目が属するプロセス区分、各項目に紐づけ可能な各項目と互いに依存相関関係、及び/又は属性相関関係にある項目についてのそれぞれの対応関係は、文書情報表が作成された時点において、必ずしも最適なものであるというわけではない。
【0120】
データセットに蓄積されたデータに対して、統計・整理を行うことによって、文書情報表に記載された情報をより適切なものに変更することができる。例えば、特定の項目に対応付けられる自然言語と、別の特定の項目に対応付けられる自然言語との共通点や特徴を見出し、特定の項目と別の特定の項目との間の相関関係を共通点や特徴に基づいて適切に修正ができる。
【0121】
本実地形態に係る情報処理装置は、データセットに蓄積されたデータに対して、統計・整理を行うデータ処理部をさらに備えてもよい。データ処理部は、例えば、各業務プロセス、各帳票、各項目、各項目に紐づけ可能な、各項目が属するプロセス区分、各項目に紐づけ可能な各項目と互いに依存相関関係、及び/又は属性相関関係にある項目の、これらの各データのそれぞれに対してソートを行い、ソートしたデータに対する他のデータの揺らぎを抽出してもよく、または、他のデータ同士の共通点や特徴等を抽出してもよい。データ処理部は、上記のようなデータの揺らぎ、データ同士の共通点や特徴等を抽出すると、例えば、表示部14上に抽出した結果を表示する等によって、ユーザに対して、文書情報表の確認、整理、修正を促してもよい。
【0122】
(応用例)
本応用例に係る情報処理装置は、実施形態に係る情報処理装置と比較して、名寄せ部を更に備えてもよい。名寄せ部は、取得部111が所定の文書を取得し、抽出部113が所定の文書から自然言語を抽出し、読出部115が文書情報表から、各業務プロセス、各帳票、各項目に紐づけ可能な、各項目が属するプロセス、及び、各項目と互いに依存関係、及び/又は属性関係にある項目についての情報を読み出したのち、抽出された自然言語と類似性の高い自然言語がデータセットに登録されているかどうかを判定するために、データセット内を探索する。名寄せ部は、データセット内を探索する際、抽出部113によって抽出された自然言語に加え、読出部115が読みだした情報とをもとに、探索を行う。データセットに登録されている自然言語のうち、R、F、L、P、l、及びpのプロセスのうち自然言語を取得した項目が属するプロセスと、項目と互いに依存関係、及び/又は属性関係にある項目とが同一である自然言語は、抽出された自然言語と類似性が高いと判定することができる。
【0123】
本応用例に係る情報処理装置は、プロセスとデータモデルとを用いた名寄せに加えて、データ名類似性判定部を備えてもよい。データ名類似性判定部は、業務プロセスにおけるデータを集約して名寄せを行う際、データの名前の類似性に基づき、名寄せを行う。
【0124】
また、本応用例に係る情報処理装置は、データ類似性判定部を更に備えてもよい。データ類似性判定部は、業務プロセスにおけるデータを集約して名寄せを行う際、データの形式等の類似性に基づき、名寄せを行う。
【0125】
本応用例に係る情報処理装置は、文書情報生成部を更に備えてもよい。文書情報生成部は、取得部111によって文書が取得され、抽出部113によってその文書に含まれるすべての単語、または複合語が抽出されたのち、その文書に含まれるすべての単語、または複合語を名寄せ部によって類似性が高いと判定された自然言語に置き換えたのち、置き換えた文書を記載した文書情報を生成し、記憶部12に記憶させてもよい。
【0126】
本応用例に係る情報処理装置は、文書タグ付け部を更に備えてもよい。文書タグ付け部は、取得部111によって文書が取得され、抽出部113によってその文書に含まれるすべての単語、または複合語が抽出され、名寄せ部によって類似性が高いと判定された文字列がデータセットから抽出されたのち、その文書に含まれるすべての単語、または複合語を名寄せ部によって類似性が高いと判定された文字列にタグ付けされたのち、タグ付けされた文字列に置き換えた文書を記載した文書情報を生成し、記憶部12に記憶させてもよい。
【0127】
本発明はここでは記載していない様々な実施形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【符号の説明】
【0128】
10 情報処理装置
11 CPU
12 記憶部
13 I/O
14 表示部
15 入力部
111 取得部
113 抽出部
114 登録部
115 読出部
121 データセット記憶部
122 文書情報記憶部
131~135 データモデル
21 時間軸
31~39 要件
41~43 実線
【要約】
【課題】業務プロセスにおいて使用される自然言語の分類・整理の精度を向上させる情報処理装置、情報処理方法、及び情報処理プログラムを提供する。
【解決手段】文書を取得する取得部と、文書から自然言語、及び、自然言語を抽出した項目名と、業務プロセスと、文書の種類とのうち少なくともいずれかを抽出する抽出部と、文書情報表の中を探索して、自然言語、及び、項目名、業務プロセス、文書の種類のうち少なくともいずれかと同一、及び/又は類似する情報が文書情報表中に存在するかを判定し、判定の結果に基づき、文書情報表から情報を読み出す読出部と、自然言語、項目名、業務プロセス、文書の種類、プロセス区分、項目と互いに依存相関関係、及び/又は属性相関関係にある項目についてのデータをデータセットに登録する登録部と、文書情報表を記憶する文書情報記憶部とを備える。
【選択図】
図1