(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-06
(45)【発行日】2022-07-14
(54)【発明の名称】文書スコアリング装置、プログラム
(51)【国際特許分類】
G06F 16/30 20190101AFI20220707BHJP
G06F 16/93 20190101ALI20220707BHJP
【FI】
G06F16/30
G06F16/93
(21)【出願番号】P 2017253028
(22)【出願日】2017-12-28
【審査請求日】2020-11-20
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】100121599
【氏名又は名称】長石 富夫
(72)【発明者】
【氏名】冨田 公一
【審査官】早川 学
(56)【参考文献】
【文献】特開2019-95958(JP,A)
【文献】特開2017-219982(JP,A)
【文献】特開2007-188239(JP,A)
【文献】特開平8-161348(JP,A)
【文献】特開2010-61322(JP,A)
【文献】特開2011-197978(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記第1重み値と前記第2重み値に基づいて前記文章の重み値を決定する重み値決定部と、
前記事柄特定部が特定した事柄が過去に完了したことのある事柄であるか否かを判断する事柄完了判断部と
を有
し、
前記継続期間取得部は、前記文章が示す事柄が過去に完了したことのある事柄であると前記事柄完了判断部が判断した場合は、その完了後において前記事柄が再発してからの継続期間を、前記事柄の継続期間として取得する
ことを特徴とする文章スコアリング装置。
【請求項2】
階層構造を持つ文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記文章抽出部が抽出した文章が係属している階層以上の階層のタイトルに応じた第3重み値を導出する第3重み値導出部と、
前記第1重み値と前記第2重み値
と前記第3重み値に基づいて前記文章の重み値を決定する重み値決定部と、
を有する
ことを特徴とする文章スコアリング装置。
【請求項3】
前記タイトルは「製品名」、「プロジェクト名」、「テーマ名」、「フェーズ」、「商談名」、「部署名」、「担当者情報」、「作成日」のうち少なくともいずれか一つを含む
ことを特徴とする請求項
2に記載の文章スコアリング装置。
【請求項4】
前記第3重み値導出部は、同一階層に複数のタイトルがある場合、該複数のタイトルのそれぞれに予め設定されている重み値に基づいて前記第3重み値を導出する
ことを特徴とする請求項
2または3に記載の文章スコアリング装置。
【請求項5】
文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記第1重み値と前記第2重み値に基づいて前記文章の重み値を決定する重み値決定部と、
を有し、
前記第1重み値導出部は、継続期間が所定期間未満の間は継続期間が長くなるに従って第1重み値を大きくし、所定期間を超えると継続期間が長くなるに従って第1重み値が小さくなるようにする
ことを特徴とする文章スコアリング装置。
【請求項6】
前記キーワードは、予め重み値が設定された特定の文字列である
ことを特徴とする請求項
1乃至5のいずれか一つに記載の文章スコアリング装置。
【請求項7】
前記キーワードは、リスクを示す文字列である
ことを特徴とする請求項1
乃至6のいずれか一つに記載の文章スコアリング装置。
【請求項8】
前記継続期間取得部は、前記文章が示す事柄と同じ事柄を示す他の文章の作成履歴に基づいて、前記文章が示す事柄の継続期間を取得する
ことを特徴とする請求項1乃至
7のいずれか一つに記載の文章スコアリング装置。
【請求項9】
情報処理装置を、請求項1乃至8のいずれか一つに記載の文章スコアリング装置として動作させる
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書に重みづけを行うことのできる文書スコアリング装置およびプログラムに関する。
【背景技術】
【0002】
テキスト(文章)から有益な情報を抽出する方法として、テキストマイニングという方法がある。この方法によれば、たとえば、テキストの中から「不具合」などのネガティブな意味の言葉等を抽出して、まとめることができる。この抽出された部分を読むことで、文書全体を一読しなくとも、手軽に、文書内の有益な情報のみを確認することができる。
【0003】
文書内のうち、抽出対象となる文章をどのように決定するかについて、たとえば、従来技術としては、文章を単語に分割し、其々の単語の重要度(重み値)を用いてその文章全体の重みづけを行う方法がある。
【0004】
また、下記特許文献1には、文書中の名詞と述語を判定し、名詞に対する述語の表現内容に基づいて。各名詞に対する重みづけを行う方法が開示されている。ここでは、特定の名詞に対する述語が、状態変化を表す概念の述語ならば第1重み値を、存否の概念を表す述語であって肯定表現するものであれば第2重み値を、存否の概念を表す述語であって否定表現するものであれば第3重み値を、その名詞に設定している。
【0005】
たとえば、
図16は、特許文献1に記載の方法で重みづけを行う場合の例を示す。「腫瘍が拡大していません」、「腫瘍がみられません」という文章がある場合、「腫瘍が拡大していません」は状態変化を否定しており、「腫瘍がみられません」は存否を否定している。同じ否定文であっても、状態変化の否定は、対象が存在することを暗黙的に示しているため、異なる重みづけを行っている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、文章の重みづけを行う場合に、文章の内容以外の要因についても考慮した方が良い場合がある。
【0008】
図17は、文書Aと文書Bについて重みづけを行う様子を示す。文書A、Bはどちらも不具合が発生したことを示す。文書Aの示す不具合は、不具合が発生してから6週間が経過しており、発生したばかりである文書Bの不具合よりも、早期解決のため重要度を高く設定することが望ましい。
【0009】
しかし、特許文献1に記載の方法や従来の方法では、文書内の内容のみに基づいて重みづけを行っており、文書内で述べられている事柄の状況など、他の外的要因を考慮した重みづけを行うことには対応していないため、文書A、文書Bとも同じ重要度で重みづけされてしまう。
【0010】
本発明は、上記の問題を解決しようとするものであり、文章が示す事柄の状況を考慮した重みづけを行うことのできる文書スコアリング装置、およびそのプログラムを提供することを目的としている。
【課題を解決するための手段】
【0011】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
【0012】
[1]文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記第1重み値と前記第2重み値に基づいて前記文章の重み値を決定する重み値決定部と、
前記事柄特定部が特定した事柄が過去に完了したことのある事柄であるか否かを判断する事柄完了判断部と
を有し、
前記継続期間取得部は、前記文章が示す事柄が過去に完了したことのある事柄であると前記事柄完了判断部が判断した場合は、その完了後において前記事柄が再発してからの継続期間を、前記事柄の継続期間として取得する
ことを特徴とする文章スコアリング装置。
【0013】
上記発明では、スコアリング対象となる文章の中の、キーワードおよび文章の示す事柄の継続期間の双方に基づいて文章の重み値を決定する。文章の示す事柄の継続期間も考慮した重みづけを行うので、文章内のキーワードのみに基づいて重みづけを行う場合に比べて、より文章が示す事柄の状況を考慮した重みづけを行うことができる。たとえば、文章の内容が問題解決に関するものである場合、文章が示す事柄の継続期間が長ければ、発生した問題がなかなか解決せず長引いていることが予想されるため、問題解決への困難性から重要度を高くすることが望ましい。反対に、文章が示す事柄の継続期間が短ければ、簡易に解決できる可能性が高いため、重要度を上げる必要性は低い。上記発明では、このような実情に沿ったスコアリングを行うことができる。また上記発明では、ある事柄が過去に完了していたことのある事柄である場合、その完了したことを考慮し、完了後に再発した時からの継続期間を、文章の示す事柄の継続期間として取得する。
【0014】
[2]階層構造を持つ文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記文章抽出部が抽出した文章が係属している階層以上の階層のタイトルに応じた第3重み値を導出する第3重み値導出部と、
前記第1重み値と前記第2重み値と前記第3重み値に基づいて前記文章の重み値を決定する重み値決定部と、
を有する
ことを特徴とする文章スコアリング装置。
【0015】
上記発明では、文章が係属している階層およびその上位階層のタイトルに応じた重み値を考慮に入れて該文章のスコアリングを行う。たとえば、文章の上位階層のタイトルは、文章の状況や、所属プロジェクト、部署など、該文章の関連情報である場合が多い。よって、上記発明では、このタイトルも考慮に入れて文章のスコアリングを行う。
【0016】
[3]前記タイトルは「製品名」、「プロジェクト名」、「テーマ名」、「フェーズ」、「商談名」、「部署名」、「担当者情報」、「作成日」のうち少なくともいずれか一つを含む
ことを特徴とする[2]に記載の文章スコアリング装置。
【0017】
[4]前記第3重み値導出部は、同一階層に複数のタイトルがある場合、該複数のタイトルのそれぞれに予め設定されている重み値に基づいて前記第3重み値を導出する
ことを特徴とする[2]または[3]に記載の文章スコアリング装置。
【0018】
上記発明では、同一階層に複数のタイトルがある場合、各タイトルに予め設定されている重み値に基づいて第3重み値を導出する。
【0019】
[5]文書から文章を抽出する文章抽出部と、
前記文章が示す事柄を特定する事柄特定部と、
前記特定した事柄の継続期間を取得する継続期間取得部と、
前記取得した継続期間に基づいて前記文章の第1重み値を導出する第1重み値導出部と、
前記文章に含まれるキーワードを抽出する抽出部と、
前記抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部と、
前記第1重み値と前記第2重み値に基づいて前記文章の重み値を決定する重み値決定部と、
を有し、
前記第1重み値導出部は、継続期間が所定期間未満の間は継続期間が長くなるに従って第1重み値を大きくし、所定期間を超えると継続期間が長くなるに従って第1重み値が小さくなるようにする
ことを特徴とする文章スコアリング装置。
【0020】
[6]前記キーワードは、予め重み値が設定された特定の文字列である
ことを特徴とする[1]乃至[5]のいずれか一つに記載の文章スコアリング装置。
【0021】
[7]前記キーワードは、リスクを示す文字列である
ことを特徴とする[1]乃至[6]のいずれか一つに記載の文章スコアリング装置。
【0022】
[8]前記継続期間取得部は、前記文章が示す事柄と同じ事柄を示す他の文章の作成履歴に基づいて、前記文章が示す事柄の継続期間を取得する
ことを特徴とする[1]乃至[7]のいずれか一つに記載の文章スコアリング装置。
【0023】
上記発明では、文章の作成履歴を残しておき、スコアリングの対象となる文章と、同じ内容の文章の作成履歴がある場合に、その作成履歴に基づいて継続期間を取得する。
【0025】
[9]情報処理装置を、[1]乃至[8]のいずれか一つに記載の文章スコアリング装置として動作させる
ことを特徴とするプログラム。
【発明の効果】
【0026】
本発明に係る文章スコアリング装置およびプログラムによれば、文章が示す事柄の状況を考慮した重みづけを行うことができる。
【図面の簡単な説明】
【0027】
【
図1】本発明の実施の形態に係る文書構成解析システムの一例を示す図である。
【
図2】本発明に係る文章スコアリング装置としてのサーバの概略構成を示すブロック図である。
【
図3】文書から文章を抽出する様子を示す図である。
【
図4】文章からキーワードやタイトルを抽出する様子、およびそれらの重み値を示す図である。
【
図5】キーワード、およびタイトルから文章のスコアリングを行う様子を示す図である。
【
図6】同一の階層に、同一種別のタイトルが複数ある場合についての対処方の例を示す図である。
【
図7】一の種別のタイトルのみを考慮してスコアリングする場合に、スコアリングに使用するタイトルの検出方法を示す図である。
【
図8】文章の示す事柄をスコアリング履歴に登録する様子を示す図である。
【
図9】継続期間に応じた重み値で最終スコアを算出する例を示す図である。
【
図10】完了済みとなった事柄をスコアリング履歴にする様子を示す図である。
【
図11】「完了済み」が登録されているスコアリング履歴の例を示す図である。
【
図12】事柄の再発回数に係る係数を示す図である。
【
図13】キーワードおよびタイトルに基づくスコアリングを行う流れを示す流れ図である。
【
図14】事柄の継続期間による最終スコアリングを行う流れを示す流れ図である。
【
図15】再発に係るスコアリングの流れを示す流れ図である。
【
図16】テキストの内容のみで重みづけを行った場合に発生する不具合の例を示す図である。
【
図17】事柄の継続期間による重みづけを要する場合の例を示す図である。
【発明を実施するための形態】
【0028】
以下、図面に基づき本発明の実施の形態を説明する。
【0029】
(第1の実施の形態)
図1は、本発明の実施の形態に係るPC5を含む文書構成解析システム2の一例を示す図である。文書構成解析システム2は、LAN(Local Area Network)などのネットワーク3に、本発明に係る文章スコアリング装置として役割を果たすサーバ10と、PC5が接続して構成される。
【0030】
PC5は、ユーザが使用するパーソナルコンピュータ等の端末装置である。PC5は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えており、OS(Operating System)、アプリケーションプログラムなどの各種のプログラムに基づいて動作する。本発明の実施の形態では、PC5は、文書の作成や保存、サーバ10に対して文書を投入し、該投入した文書内の文章のスコアリングを依頼したりする。
【0031】
サーバ10は、PC5から文書の投入と、該文書内の文章のスコアリングの依頼を受けたら、文書から文章を抽出し、スコアリングを行う。本発明の実施の形態におけるスコアリングでは、まず、抽出した文章が示す事柄を特定するとともに、その事柄の継続期間を取得したら、その取得した継続期間に基づいて文章の第1重み値を導出する。次に、文章に含まれるキーワードを抽出したら、その抽出されたキーワードに基づいて文章の第2重み値を導出する。そして、第1重み値と第2重み値に基づいて文章の最終的な重み値を決定する。事柄の特定方法およびその継続期間の算出方法などについては後述する。
【0032】
このように、サーバ10は、一の文章にスコアリングを行う場合、文章の内容だけではなく、文章が示す事柄の継続期間も考慮に入れたスコアリングを行う。たとえば、文章の内容が問題解決に関するものである場合、文章が示す事柄(対象とする問題)の継続期間が長ければ、発生した問題がなかなか解決せず長引いていることが予想されるため、問題解決への困難性から重要度を高くすることが望ましい。反対に、文章が示す事柄の継続期間が短ければ、簡易に解決できる可能性が高いため、重要度を上げる必要性は低い。よって、文章の内容のみに基づいてスコアリングを行う場合に比べて、よりこのような実情に沿ったスコアリングを行うことができる。
【0033】
図2は、サーバ10の概略構成を示すブロック図である。サーバ10は、当該サーバ10の動作を統括的に制御するCPU(Central Processing Unit)11を有する。CPU11にはバスを通じてROM(Read Only Memory)12、RAM(Random Access Memory)13、不揮発メモリ14、ハードディスク装置15、ネットワーク通信部16などが接続されている。
【0034】
CPU11は、OSプログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどを実行する。ROM12およびハードディスク装置15には、各種のプログラムが格納されており、これらのプログラムに従ってCPU11が各種処理を実行することでサーバ10の各機能が実現される。
【0035】
RAM13は、CPU11がプログラムに基づいて処理を実行する際に各種のデータを一時的に格納するワークメモリや画像データを格納する画像メモリなどとして使用される。
【0036】
不揮発メモリ14は、電源をオフにしても記憶内容が破壊されないメモリ(フラッシュメモリ)であり、各種設定情報の保存などに使用される。ハードディスク装置15は、大容量不揮発の記憶装置であり、画像データなどのほか各種のプログラムやデータが記憶される。本発明の実施の形態では、PC5から投入された文書や、スコアリングした文書の履歴、各キーワードとその重み値などが記憶される。
【0037】
ネットワーク通信部16は、ネットワーク3を通じてPC5や他の外部装置と通信する機能を果たす。
【0038】
本発明の実施の形態では、CPU11が、文書から文章を抽出する文章抽出部30、文章が示す事柄を特定する事柄特定部31、事柄の継続期間を取得する継続期間取得部32、その取得した継続期間に基づいて文章の第1重み値を導出する第1重み値導出部33、文章に含まれるキーワードを抽出する抽出部34、その抽出されたキーワードに基づいて前記文章の第2重み値を導出する第2重み値導出部35、第1重み値と第2重み値に基づいて文章の重み値を決定する重み値決定部36、文章が係属している特定項目に応じた第3重み値を導出する第3重み値導出部37としての役割を果たす。
【0039】
本発明の実施の形態では、サーバ10は、まず、文書から文章を抽出したら、該文章の内容に基づいて、該文章のスコアリングを行う。ここでは、文章に含まれるキーワードおよび、該文章に関連するタイトル等でスコアリングを行う。その後、該文章の示す事柄の継続期間に基づく重み値を使用して、最終的な文章の重み値(最終スコア)を算出する。最終スコアが算出されるまでに行われる各処理について説明する。
【0040】
まず、文書から文章を抽出する方法について説明する。
図3は、文書から文章を抽出する様子を示す。
図3では、改行や句読点があった場合に、それらは文章における文末の表現であるとして、そこまでを一の文章として区切って抽出している。なお、文書から文章を抽出する方法についてはこれに限らない。
【0041】
図3の文書100は、
第1製品開発部 作成日時2017年04/21
1. テーマA
1-1 製品開発
・開発完了済み
1-2 市場
・顧客OOにて紙しわ問題多発
2. テーマB
2-1 技術開発
・定着不良対策に一部不備があり再対策を実施中
2-2 市場
・初期ロットにて紙しわ問題が多発
という階層構造を持った文書である。これを句読点や改行ごとに区切っていくと、
文章1:第1製品開発部 作成日時2017年04/21
文章2:1. テーマA
文章3:1-1 製品開発
文章4:・開発完了済み
文章5:1-2 市場
文章6:・顧客OOにて紙しわ問題多発
文章7:2. テーマB
文章8:2-1 技術開発
文章9:・定着不良対策に一部不備があり再対策を実施中
文章10:2-2 市場
文章11:・初期ロットにて紙しわ問題が多発
という1~11の文章を抽出することができる。
【0042】
サーバ10は、文書100から文章を抽出する時に、該文書の構造を解析する。文書構造の解析方法は、任意の方法でよいが、本発明の実施の形態では、インデントや連番の付け方などから、各文章が、章、節、項、本文などのうちいずれであるか、およびそれらの階層構造を解析する。
【0043】
次に、サーバ10は、各文章中のスコアリングに関連する抽出対象となるキーワードやタイトルを検出する。本発明の実施の形態では、サーバ10に、予め、抽出対象となるキーワードやタイトルとなる文字列が登録されており、その登録されている文字列が文章中にある場合、その文字列を検出する。登録されている各文字列には、予め重み値が設定されており、その重み値は、文章の重み値を算出する場合に使用される。
【0044】
図4では、文書100における、抽出対象となるキーワード、タイトル、およびそれらに設定されている重み値を示す。
図4の文書100では、キーワードに二重下線が、タイトルには下線が引かれている。
【0045】
本発明の実施の形態ではキーワードは、他のキーワードと係り受けの関係になり得るものであり、後ろのキーワードに係るキーワード(図中、キーワード(係り))と、前のキーワードを受けるキーワード(図中、キーワード(受け))がある。
【0046】
図4では、キーワード(係り)として「紙しわ」、「定着」、「コスト」が、キーワード(受け)として「発生」、「多発」、「不良」が挙げられている。また、タイトルとして、テーマ名(テーマA、テーマB、テーマC)と、フェーズ(市場、製品開発、技術開発)が挙げられている。
【0047】
図4では、抽出対象となるキーワード、およびタイトルとされる各文字列に対して設定されている重み値は以下のようになっている。
「紙しわ」→1
「定着」→1
「コスト」→3
「発生」→3
「多発」→5
「不良」→5
「テーマA」→2
「テーマB」→1.5
「テーマC」→1.1
「市場」→2
「製品開発」→1.5
「技術開発」→1.1
【0048】
次に、キーワードやタイトルに基づいて文章をスコアリングする方法について説明する。本発明の実施の形態では、サーバ10は、キーワード(係り)とキーワード(受け)の双方を含む文章のみをスコアリングの対象とする。
【0049】
図5は、
図4で抽出されたキーワードとタイトルに基づいて文章をスコアリングする場合の例を示す。
図5では、係り受けの関係にある2つのキーワードを含んでいる
図3の文章6、文章9、文章11の3つの文章に対してスコアリングを行う。
【0050】
本発明の実施の形態では、文章のスコアリングを行う場合、その文章が係属している階層以上の階層のタイトルに応じた重み値を、該文章のスコアリングに使用する。ここでの計算式は、
「(キーワード(係り)の重み値+キーワード(受け)の重み値)×タイトル(テーマ名)の重み値×タイトル(フェーズ)の重み値」
となっているが、スコアリング時の計算式はこれに限らず、他の計算式であってもよい。
【0051】
文章6は、キーワード(係り)「紙しわ」、キーワード(受け)「多発」が含まれており、文章6の位置する階層以上の階層のタイトルは「テーマA」と「市場」である。これらの文字列に対応する重み値を前述した計算式に当てはめると、スコアは「24」となる。同様の方法により文章9からは「13.5」、文章11からは「18」とのスコアが算出される。
【0052】
図6は、同一階層に複数のタイトルが含まれる場合の対処方法の例を示す。
図6の文書101では、3つのテーマ(テーマA、テーマB、テーマC)が同じ階層のタイトルとして並列記載されており、テーマの下位層に位置する各文章は、並列する3つのテーマ全てに係属していると判別される。
【0053】
このような場合は、抽出された其々のテーマ(テーマA、テーマB、テーマC)の単体の重み値のうち最大値を除いた残りの平均値を最大値に加算して得た値を、これらのタイトルを代表する重み値として採用する。
この例では、テーマA>テーマB>テーマCである為、以下の式となる。
テーマA+(テーマB+テーマC)÷2=2+(1.5+1.1)÷2=3.3となる。
ここで算出された3.3を、テーマ名を代表する重み値として文章のスコアリングを行う。本発明の実施の形態では、このように対処するが、同一階層に複数のタイトルが含まれる場合の対処方法はこれに限らない。
【0054】
図5では、スコアリングの対象となる文章の位置する階層以上の階層のタイトルとして、テーマ名とフェーズの2つの階層のタイトルを使用したが、
図7では、1つの階層のタイトルのみをスコアリング時に使用する場合について説明する。
【0055】
図7は、ある文章の位置する階層以上の階層のタイトルのうち一つの階層のタイトルのみ抽出する場合における抽出方法の例を示す。本発明の実施の形態では、抽出対象となるタイトルの種別を予め決定しておき、該種別のタイトルが存在する場合のみ、そのタイトルを抽出する。
【0056】
図7では、文書102の「顧客○○にて紙しわ問題が多発」という文章の位置する階層以上の階層のタイトルを抽出する。抽出対象となるタイトルの種別はテーマ名とする。まず、文章と同じ階層の「1-2 市場」を検査する。しかし、予め定められた種別(テーマ名)の内容として「1-2」や「市場」は不適当である為、その上位階層である「1.テーマA」のタイトルを検査する。ここで初めて「テーマA」の部分が、予め抽出対象として決められた種別のタイトルであると認識できるので、その「テーマA」を抽出する。もし、最上位まで検査しても見つからない場合は特定種別のタイトルの抽出はできなかったものとして、文章のスコアリングを行う。
【0057】
このように、スコアリングに使用するタイトルの種別を予め決めていてもよいし、スコアリング対象の文章の階層のタイトル、もしくは文章の一つ上位の階層のタイトルを使用すると決めておいてもよい。
【0058】
一の文章に対してキーワードやタイトルによるスコアリングが完了したら、該文章の示す事柄を特定するとともに、その事柄の継続期間を取得し、その取得した継続期間に応じた重み値を使用して該文章の最終的な重み値(最終スコア)を算出する。まず、事柄の特定方法について説明する。
【0059】
サーバ10は、キーワードやタイトルでスコアリングを行った場合に、該スコアリングに使用したキーワード、タイトルおよび、その文章に関する各種情報などの組み合わせを、スコアリングされた文章の作成日時と紐付けて、スコアリング履歴として登録しておく。スコアリング履歴は本発明における文章の作成履歴としての役割を果たす。文章に関する各種情報は、ここでは部署名とする。サーバ10では、この登録されたキーワード、テーマ、フェーズ、部署名の組み合わせで、文章の示す事柄が特定される。
図8は、
図5で行ったスコアリングの結果に基づいて、文章の示す事柄をスコアリング履歴110に記憶する様子を示す。
【0060】
スコアリング履歴110における、部署名や日時は、ヘッダやフッタ、文書内の特定領域の文字列、文書のプロパティ、ファイル名、ファイル情報などから取得する。他の方法で取得してもよい。たとえば、
図3の文書100から文章を抽出したとき、抽出された各文章の内容を解析し、文章1から、部署名および作成日時を取得する。
【0061】
ある文章の示す事柄についての、継続期間を取得する場合、まず、スコアリング履歴のうち、「キーワード」、「タイトル(テーマ名、フェーズ等)」、「部署名」が、スコアリング対象の文章と全て一致する記録があれば、その記録が示す文章とスコアリング対象の文章が共通の事柄に係る文章であると判断する。よって、スコアリング対象の文章と事柄が一致する記録のうち日時が最も古いものと、スコアリング対象の文章の作成日時との時間的差分を抽出し、これをスコアリング対象の文章の示す事柄の継続期間とする。
【0062】
なお、本発明の実施の形態では、「キーワード」、「タイトル(テーマ名、フェーズ等)」、「部署名」の全ての組み合わせが完全一致している場合のみ、スコアリング対象の文章と共通の事柄を示す文章の記録であると判断するものとするが、組み合わせのうちの一部が一致していれば(たとえば、「キーワード」と「タイトル」が一致している場合等)、共通の事柄を示す文章の記録であると判断するようにしてもよい。
【0063】
本発明の実施例では、予め継続期間に応じた重み値が設定されている。
図9は、3つの文章と、その文章の示す事柄、継続期間、そして最終スコアを表で示す。
図9には継続期間に応じた重み値の表を更に示す。
【0064】
図9では、「定着不良の対策に一部不良があり・・・」の文章の示す事柄(定着、不良、テーマB、技術開発、第1製品開発で特定される事柄)の継続期間は6週間(図中では6WKと記す)(2017/03/10~04/21、
図8参照) となっている。他の2つの文章の示す事柄は継続期間無しとなっている。
【0065】
継続期間がある事柄に関する文章は、その継続期間に応じた重み値を、キーワードやタイトルに基づいて算出したスコアに乗じて、最終スコアを算出する。
図9では、継続期間が6週間の場合に対応する重み値は2.0なので、キーワードやタイトルに基づいて算出したスコア(13.5、
図5、
図8参照)に、2.0を乗じた「27」を最終スコアとする。なお、継続期間が無いものについては、キーワードやタイトルに基づいて算出したスコアに1を乗じた値を最終スコアとする。
【0066】
次に、過去に一度完了したことがある事柄が再度発生した場合について説明する。まず、サーバ10は、文章の示す事柄が完了しているか否かを判別するための表現、たとえば、「完了」、「済み」、「クローズ」などの文字列を予め設定して保存しておく。文章のスコアリング時に、該文章の中に完了を示す表現を検出したら、その文章の示す事柄をスコアリング履歴に登録する際に、その事柄が完了済みであることも併せて登録する。
【0067】
図10は、スコアリング履歴に、完了済みであることを併せて登録する場合の例を示す。ここでは、「顧客○○にて発生していた紙しわ多発については、対策版をリリース済み。」という文章の中に、「済み」の文字列を発見したので、スコアリング履歴に、「キーワード」、(テーマ名、フェーズ等)」、「部署名」の他に「完了済み」であることも併せて登録している。
【0068】
次に、前述した「完了済み」の記録を考慮して、事柄の継続期間を取得する方法について説明する。
図11は、スコアリング履歴のうち、「テーマA、市場、紙しわ、多発、第1製品開発」で特定される事柄に係る3つの記録を示す。3つの記録の日時は、「2017/01/06」、「2017/01/13」、「2017/04/21」となっている。また、「2017/01/13」の記録には、事柄が完了済みであることが記録されている。
【0069】
図8、
図9では、スコアリング履歴のうち事柄が同じ記録の中から、最も古い記録とスコアリング対象の文章の作成日時との時間的差分により継続期間を算出したが、完了済みの記録がある場合、その完了後の日時の記録のみに基づいて継続期間を算出する。
【0070】
図11では、「2017/01/13」の記録では事柄が完了済みなので、それ以前の記録(「2017/01/13」と「2017/01/06」)は除外して、その後の記録の中で最も古い「2017/04/21」から、現在までの時間的差分により継続期間を算出する。たとえば、新たに
図11の記録と同じ事柄を示す文章のスコアリングを行う場合、その日時が「2017/05/21」ならば継続期間は4週間」と判断する。なお、完了済みの記録より後の記録がなければ、該事柄は未発生の状態であるものとして継続期間は「0」となる。
【0071】
次に、事柄の再発回数を考慮に入れてスコアリングを行う場合について説明する。文章の示す事柄と共通の事柄を示す文章の記録であって、完了済みの記録がスコアリング履歴に登録されている場合、その完了済みの記録の数を、該事柄の再発回数とみなし、最終スコアの算出時に、再発回数に応じた係数を乗じる。
【0072】
完了済みの記録の数が1ならば再発回数を1回、完了済みの記録の数が2ならば再発回数を2回とする。
図12は、再発回数と、その回数に応じた係数を示す。再発回数が1の場合は係数1.2、再発回数が2の場合は係数2、再発回数が3以降は再発回数と同じ数字を係数としている。
【0073】
たとえば、
図11の「2017/04/21」の記録に係る文章の作成時には、既に同じ事柄が1回完了しているので、再発回数1となり、最終スコアは、
図9で説明した方法で算出した数値に係数1.2を乗じた値となる。
【0074】
このようにして、サーバ10は文章に対してスコアリングを行い、最終スコアを算出する。文章内のキーワードだけではなく、その文章の位置する階層以上の階層のタイトルや、文章の示す事柄の継続期間、および再発回数などを考慮にいれたスコアリングを行うので、文章内のキーワードのみでスコアリングを行う場合と比べて、より実情に沿ったスコアリングを行うことができる。
【0075】
次に、本発明の実施の形態に係るサーバ10が行う処理の流れについて説明する。
図13、
図14はサーバ10が文章のスコアリングを行う際に実行する処理の流れを示す流れ図である。
図13はキーワード、タイトルに基づくスコアリングの処理の流れを、
図14は事柄の継続期間を算出して最終スコアを算出する処理の流れを示す。
【0076】
まず、
図13のステップS101では、
図3で説明した方法により文書から文章を抽出する。抽出した文章の中に、係り受けの関係にある2つのキーワードが無い場合は(ステップS102;No)本処理を終了する。抽出した文章の中に係り受けの関係にある2つのキーワードがある場合は(ステップS102;Yes)、そのキーワードの重み値を取得する(ステップS103)。
【0077】
次に、文章の位置する階層以上の階層のタイトルに、たとえば「テーマ名」などの予め決められた種別のタイトルがあるか否かを調べる(ステップS104)。予め決められた種別のタイトルが無い場合は(ステップS104;NO)、ステップS108に進む。予め決められた種別のタイトルがある場合は(ステップS104;Yes)、そのタイトルに予め設定されている重み値を取得する(ステップS105)。
【0078】
ステップS104で検出されたタイトルが単数の場合は(ステップS106;No)、ステップS108に進む。ステップS104で検出されたタイトルが複数並列の場合は(ステップS106;Yes)、それら複数のタイトルを代表する重み値を
図6で説明した方法で算出する(ステップS107)。
【0079】
ステップS108では、
図5で説明した計算方法で、キーワードとタイトルによるスコアリングを行うとともに、そのキーワード、タイトル等の組み合わせを文章の示す事柄とし、該事柄と文章の作成日時とを紐付けた記録を作成してスコアリング履歴に登録する。
【0080】
文章の示す事柄をスコアリング履歴に登録する際は、
図8で説明したように、事柄を特定する要素として部署名などの他の情報を紐付けて登録してもよい。スコアリング履歴を登録後は
図14のステップS201に進む。
【0081】
図14のステップS201では、ステップS108で登録した事柄と、共通の事柄の記録をスコアリング履歴から抽出する(ステップS201)。ステップS108で登録された事柄と、共通の事柄の記録がなければ(ステップS201;No)、ステップS207に進む。
【0082】
共通の事柄の記録を抽出したら(ステップS201;Yes)、その中に、完了済みになっている記録があるか否かを調べる(ステップS202)。
【0083】
完了済みの記録がある場合は(ステップS202;Yes)、完了済みの記録以前の記録を除外して(ステップS203)、ステップS204に進む。完了済みの記録が無い場合は(ステップS202;No)、ステップS204に進む。
【0084】
ステップS204では、抽出した記録の中から、最も日時が古い記録を抽出する。ステップS203にて、完了済み以前の記録を除外している場合は、その残った記録の中から、最も日時が古い記録を抽出する。その後、その抽出した記録の日時と現在との時間的差分を算出し(ステップS205)、その算出結果からスコアリング対象の文章が示す事柄の継続期間の重み値を取得する(ステップS206)。
【0085】
その後、
図13のステップS108で算出したスコアと、ステップS206で取得した継続期間の重み値から
図9で説明した方法により最終スコアを算出し(ステップS207)、本処理を終了する。
【0086】
なお、
図13のフローのステップS104では、タイトルの他に、完了済みに関する文字列を検索しておき、ここで完了済みに関する文字列が検出された場合は、ステップS108でスコアリング履歴への登録を行う場合に、文章の示す事柄が完了済みであることを併せて登録する。
【0087】
図15は、再発回数を考慮に入れる場合のフローを示す。まず、ステップS201でスコアリング履歴から抽出された記録の中に、完了済みの記録があるか否かを調べる(ステップS301)。完了済みの記録が無い場合は(ステップS301;No)、ステップS303に進む。
【0088】
完了済みの記録がある場合は(ステップS301;Yes)、その完了済みの記録の数(再発回数)に応じた重み値(係数)を取得し(ステップS302)、その重み値を、ステップS207にて算出した最終スコアに乗じて、再度最終スコアを算出し(ステップS303)、本処理を終了する。
【0089】
なお、
図13~15の処理は、文書から検出された文章ごとに繰り返し行われるものとする。
【0090】
以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
【0091】
本発明の実施の形態では、サーバ10が本発明の文章スコアリング装置としての役割を果たしたが、文章スコアリング装置はこれに限らない。たとえば、PC5や、MFPなどの他の装置が文章スコアリング装置としての役割を果たしてもよい。
【0092】
文書から文章を抽出する方法や、キーワードやタイトルなどを抽出する方法は本発明の実施の形態で説明したものに限らない。また、キーワードやタイトルなどは本発明で説明したものに限らない。スコアリングを行う場合の計算式は実施の形態で説明したものに限らない。本発明の実施の形態では、キーワード、タイトル、継続期間、再発回数などの重み値(係数)は予め設定されているものとしていたが、ユーザによって変更可能であってもよい。
【0093】
継続期間の取得方法は本発明の実施の形態で説明した方法に限らない。たとえば、文章の示す事柄の状況が記録される他のサーバ等に問い合わせる等の方法で取得してもよい。また、事柄の特定方法は発明の実施の形態で説明した方法に限らない。スコアリングに係るキーワード以外のキーワードを使用してあるいは併用して事柄を特定してもよいし、スコアリングに使用するキーワード・テーマの一部を要素の組み合わせで事柄を特定してもよい。
【0094】
本発明の実施の形態では、文章の位置する階層以上の階層のタイトルの重み値を使用して該文章のスコアリングを行ったが、キーワードと、文章の示す事柄の継続期間のみで該文章のスコアリングを行ってもよい。
【0095】
本発明の実施の形態では、文章の位置する階層以上の階層のタイトルの種別は「テーマ名」、「フェーズ」などであったが、「製品名」、「プロジェクト名」、「商談名」、「部署名」、「担当者情報」、「作成日」などであってもよい。いずれか一つを含んでいればよい。
【0096】
スコアリング履歴とは異なる、文章の作成履歴を使用して、文章の示す事柄の継続期間を取得するようにしてもよい。この作成履歴は、これまでに作成された文書、文章の作成日と事柄を特定しうるデータベースであればよい。
【0097】
本発明の実施の形態では、継続期間が長いほど、重み値を大きくしたが、継続期間が短いほど、重み値を大きくしてもよい。また、継続期間が所定期間未満の間は継続期間が長くなるに従って重み値を大きくし、所定期間を超えると継続期間が長くなるに従って重み値が小さくなるようにする(つまり、長くて常態化しているような場合には重み値を下げる)ようにしてもよい。また、継続期間と重み値の関係は、ある期間を超えると急激に重み値が変化するなどでもよく、任意に設定すればよい。
【0098】
2…文書構成解析システム
3…ネットワーク
5…PC
10…サーバ
11…CPU
12…ROM
13…RAM
14…不揮発メモリ
15…ハードディスク装置
16…ネットワーク通信部
30…文章抽出部
31…事柄特定部
32…継続期間取得部
33…第1重み値導出部
34…抽出部
35…第2重み値導出部
36…重み決定部
37…第3重み値導出部
100…文書
101…文書
102…文書
110…スコアリング履歴