(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023062700
(43)【公開日】2023-05-08
(54)【発明の名称】文書分析支援システム及び方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20230426BHJP
G06F 16/38 20190101ALI20230426BHJP
【FI】
G06F16/35
G06F16/38
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022168903
(22)【出願日】2022-10-21
(31)【優先権主張番号】P 2021172121
(32)【優先日】2021-10-21
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】521461432
【氏名又は名称】クウジット株式会社
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】星野 政明
(72)【発明者】
【氏名】木村 圭亮
(72)【発明者】
【氏名】末吉 隆彦
(72)【発明者】
【氏名】宮島 靖
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB02
(57)【要約】 (修正有)
【課題】複数の文書を網羅的に精度良くユーザが分析することを支援する文書分析支援システム、方法及びプログラムを提供する。
【解決手段】文書分析支援システムは、複数の文書の各々から意味構造を抽出し意味構造のインデックスを作成し、インデックスを基にユーザが知りたい観点に基づく意味構造条件の指定をユーザから受け付けるか又は自動で指定し、指定した意味構造条件に適合する文書をユーザへ表示し、一つ以上の文書の選択と、文書へのタグである分類タグの指定とをユーザから受け付け、選択された一つ以上の文書の各々に、指定された分類タグを関連付ける。その後、システムは、複数の文書のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、類似する文書があればユーザへ表示し、類似する文書について、文書の選択と分類タグの指定とを受け付ける。
【選択図】
図7
【特許請求の範囲】
【請求項1】
複数の文書の各々から意味構造を抽出し抽出された意味構造のインデックスを作成するインデキシング部と、
以下の(A)乃至(E)を行うユーザ支援部と
(A)前記インデックスを基にユーザが知りたい観点に基づく意味構造条件の指定をユーザから受け付け、又は、当該意味構造条件を自動で指定し、
(B)前記複数の文書に、(A)で指定された意味構造条件に適合する文書があれば、当該文書の少なくとも一部又はサマリをユーザへ表示し、
(C)表示された文書のうちの一つ以上の文書の選択と、当該一つ以上の文書へのタグである分類タグの指定とをユーザから受け付け、
(D)(C)で選択された一つ以上の文書の各々に、(C)で指定された分類タグを関連付け、
(E)前記複数の文書のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、当該類似する文書があれば、当該類似する文書の少なくとも一部又はサマリをユーザへ表示し、(C)を行う、
を備える文書分析支援システム。
【請求項2】
表示対象の文書毎に、
当該文書のうち、少なくとも、当該文書から抽出された意味構造を構成する意味要素を含んだ文字列が表示対象であり、
当該文書に分類タグが関連付けられていれば当該分類タグも表示対象である、
請求項1に記載の文書分析支援システム。
【請求項3】
前記ユーザ支援部が、
(D)の都度に、類似文書検索の停止条件が満たされているか否かを判定し、
当該判定の結果が偽の場合、(E)を行い、
前記停止条件は、下記のいずれかである、
・前記複数の文書に対し、分類タグが関連付けられていない文書の割合が、一定割合未満である、
・(E)の実行回数が所定回数に達している、
請求項1に記載の文書分析支援システム。
【請求項4】
前記ユーザ支援部が、文書に対し関連付ける分類タグの少なくとも一部又はサマリを学習済言語モデルを用いて特定してユーザへ表示し、
前記ユーザ支援部が、予測された分類タグをユーザへ表示し、
前記学習済言語モデルへの入力は、文書の少なくとも一部又はサマリを含み、
前記学習済言語モデルからの出力は、分類タグの少なくとも一部又はサマリを含む、
請求項1に記載の文書分析支援システム。
【請求項5】
前記意味構造は、述語と述語項とを含んだ述語項構造であり、
(A)において指定される意味構造条件は、述語項構造を構成する述語及び述語項のうちの一方又は両方についての条件であり、
(B)において、(A)で指定された意味構造条件に適合する文書は、(A)で指定された条件に該当の述語又は述語項を含んだ述語項構造を持つ文書である、
請求項1乃至4のうちのいずれか1項に記載の文書分析支援システム。
【請求項6】
前記ユーザ支援部は、(A)で指定された条件に該当の述語又は述語項を含んだ述語項構造における述語項又は述語に対してルールベース又は機械学習ベースの処理を行い、類似する述語項構造を特定し、
(C)において、表示された文書は、類似する述語項構造を有する文書である、
請求項5に記載の文書分析支援システム。
【請求項7】
(1)コンピュータが、複数の文書の各々から意味構造を抽出し抽出された意味構造のインデックスを作成し、
(2)コンピュータが、前記インデックスを基にユーザが知りたい観点に基づく意味構造条件の指定をユーザから受け付け、又は、当該意味構造条件を自動で指定し、
(3)コンピュータが、前記複数の文書に、(2)で指定された意味構造条件に適合する文書があれば、当該文書をユーザへ表示し、
(4)コンピュータが、表示された文書のうちの一つ以上の文書の選択と、当該一つ以上の文書へのタグである分類タグの指定とをユーザから受け付け、
(5)コンピュータが、(4)で選択された一つ以上の文書の各々に、(4)で指定された分類タグを関連付け、
(6)コンピュータが、前記複数の文書のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、当該類似する文書があれば、当該類似する文書の少なくとも一部又はサマリをユーザへ表示し、(4)を行う、
文書分析支援方法。
【請求項8】
(1)複数の文書の各々から意味構造を抽出し抽出された意味構造のインデックスを作成し、
(2)前記インデックスを基にユーザが知りたい観点に基づく意味構造条件の指定をユーザから受け付け、又は、当該意味構造条件を自動で指定し、
(3)前記複数の文書に、(2)で指定された意味構造条件に適合する文書があれば、当該文書をユーザへ表示し、
(4)表示された文書のうちの一つ以上の文書の選択と、当該一つ以上の文書へのタグである分類タグの指定とをユーザから受け付け、
(5)(4)で選択された一つ以上の文書の各々に、(4)で指定された分類タグを関連付け、
(6)前記複数の文書のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、当該類似する文書があれば、当該類似する文書の少なくとも一部又はサマリをユーザへ表示し、(4)を行う、
ことをコンピュータに実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、文書分析の支援に関する。
【背景技術】
【0002】
一般に、文書は、テキスト(文字列)を含む。文書分析の支援に関する技術として、例えば特許文献1に開示の技術が知られている。また学会では非特許文献1が知られている。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【非特許文献1】砂山渡,谷内田正彦,2002,観点に基づいて重要文を抽出する展望台システムとそのサーチエンジンへの実装https://www.jstage.jst.go.jp/article/tjsai/17/1/17_1_14/_pdf
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示の技術は、検索条件に適合する全文書の各々について形態素解析と及び係り受け抽出を行い、形態素解析及び係り受け抽出の結果を基に文書を集計等することで、文書分析に要する時間の軽減を図る(段落0010)。
【0006】
非特許文献1に開示の技術は、ユーザが文書に期待する観点になりそうな単語をユーザに提示し、それを起点に重要文を探す方式である。
【0007】
しかし、特許文献1に開示の技術では、検索条件、形態素解析又は係り受け抽出が適切でないと分析の精度が低い。また、特許文献1に開示の技術は、検索条件に適合する文書を内部的に集計等して表示するものにすぎず、検索範囲としての複数の文書を網羅的に分析することはできない。
【0008】
また非特許文献1の方式は単語のみに着目しているため観点が不明確で重要文の検出精度が低い。
【課題を解決するための手段】
【0009】
文書分析支援システムが、インデキシング部とユーザ支援部とを備える。インデキシング部が、複数の文書の各々から意味構造を抽出し抽出された意味構造毎の件数を基に意味構造のインデックスを作成する。ユーザ支援部が、下記を行う。
(A)インデックスを基にユーザが知りたい観点に基づく意味構造条件の指定をユーザから受け付ける(又は、当該意味構造条件を自動で指定する)。
(B)複数の文書に、(A)で指定された意味構造条件に適合する文書があれば、当該文書の少なくとも一部又はサマリをユーザへ表示する。
(C)表示された文書のうちの一つ以上の文書の選択と、当該一つ以上の文書へのタグである分類タグの指定とをユーザから受け付ける。
(D)(C)で選択された一つ以上の文書の各々に、(C)で指定された分類タグを関連付ける。
(E)複数の文書のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、当該類似する文書があれば、当該類似する文書の少なくとも一部又はサマリをユーザへ表示し、(C)を行う。
【発明の効果】
【0010】
本発明によれば、複数の文書を網羅的に精度良くユーザが分析することを支援することができる。
【図面の簡単な説明】
【0011】
【
図1】第1の実施形態に係るシステム全体の構成例を示す。
【
図2】第1の実施形態に係る文書分析支援システムの論理的な構成例を示す。
【
図3】第1の実施形態に係る文書DBの構成例を示す。
【
図4】第1の実施形態に係る意味構造インデックスの構成例を示す。
【
図8】
図6のS602で表示されるUIの例を示す。
【
図9】
図6のS603で表示されるUIの例を示す。
【
図10】
図6のS603で表示されるUIの例を示す。
【
図11】
図7のS702で表示されるUIの例を示す。
【
図12】
図7のS703で表示されるUIの例を示す。
【
図13】
図7のS703で表示されるUIの例を示す。
【
図16】意味構造リスト(メニュー)のUIの例を示す。
【
図17】分類タグ種類のリスト(メニュー)のUIの例を示す。
【
図18】第2の実施形態に係る文書DBの一部の構成例を示す。
【
図19】述語に係る主語(助詞「が」で係る)のランキングリストの例を示す。
【
図20】主語を含む述語項構造の頻度降順のランキングリストの例を示す。
【
図21】第2の実施形態において
図6のS602で表示されるUIの例を示す。
【
図22】第2の実施形態において
図6のS603で表示されるUIの例を示す。
【
図23】第2の実施形態において
図6のS602で表示されるUIの例を示す。
【
図24】第2の実施形態において
図6のS603で表示されるUIの例を示す。
【発明を実施するための形態】
【0012】
以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
【0013】
また、以下の説明では、「メモリ」は、一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
【0014】
また、以下の説明では、「永続記憶装置」は、一つ以上の永続記憶デバイスである。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)であり、具体的には、例えば、HDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
【0015】
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
【0016】
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスである。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスであるが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
【0017】
また、以下の説明では、「kkk部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
【0018】
以下、本発明の幾つかの実施形態を図面に基づいて説明する。
[第1の実施形態]
【0019】
図1は、第1の実施形態に係るシステム全体の構成例を示す。
【0020】
文書分析支援システム13と、文書分析支援システム13を利用するユーザのユーザシステム11とが、通信ネットワーク(例えばインターネット)160を介して通信する。「ユーザ」は、企業等の組織でもよいし、組織における一員(例えば、従業員)でもよいし、一般消費者でもよい。
【0021】
ユーザシステム11は、物理的な計算機システム(例えば、パーソナルコンピュータやスマートフォン)であり、例えば、入力デバイス113(例えばキーボードやマウス)、出力デバイス114(例えば表示デバイス)、インターフェース装置111、記憶装置112及びプロセッサ115を備える。入力デバイス113及び出力デバイス114のような一体型デバイスでもよい。インターフェース装置111に入力デバイス113及び出力デバイス114が接続され、インターフェース装置111を通じて文書分析支援システム13と通信が行われる。インターフェース装置111及び記憶装置112にプロセッサ115が接続される。ユーザシステム11は、このような物理的な計算機システムに代えて、仮想的な計算機システム(例えば、サーバ上の仮想マシン)でもよい。
【0022】
文書分析支援システム13は、インターフェース装置131、記憶装置132及びそれらに接続されたプロセッサ133を備える。インターフェース装置131を介してユーザシステム11と通信が行われる。記憶装置132は、プロセッサ133に実行されるコンピュータプログラム、及び、プロセッサ133に参照又は更新されるデータを格納する。プロセッサ133は、記憶装置132に記憶されたコンピュータプログラムを実行する。文書分析支援システム13は、本実施形態では、一つ以上の物理的な計算機で構成された物理的な計算機システムであるが、物理的な計算機システムに代えて、物理的な計算機システム(例えばクラウド基盤)に基づく仮想的な計算機システム(例えば、クラウドコンピューティングサービス)でもよい。
【0023】
図2は、文書分析支援システム13の論理的な構成例を示す。
【0024】
記憶装置132に、文書DB(データベース)200、意味構造インデックス201、及び、学習済言語モデル203が格納される。コンピュータプログラムがプロセッサ133に実行されることにより、インデキシング部211、ユーザ支援部212及びモデル学習部213が実現される。学習済言語モデル203は、モデル学習部213により学習されたモデル(典型的には、ニューラルネットワークのような機械学習モデル)である。
【0025】
【0026】
文書DB200は、複数の文書を含んだ情報の一例である。文書DB200は、文書毎にエントリを有する。各エントリは、文書ID1200、回答者属性1201、文書1202、意味構造1203、分類タグ1024及び文書ベクトル1205といった情報を含む。一つの文書を例に取る。
【0027】
文書ID1200は、注目文書のIDを表す。回答者属性1201は、注目文書を回答として入力した回答者の属性(例えば、氏名、年齢又は性別)を表す。文書1202は、文書それ自体(テキスト(文字列))を表す。
【0028】
意味構造1203は、文書から抽出された意味構造の集合(一つ以上の意味構造)を表す。本実施形態で言う「意味構造」については、後に詳述する。
【0029】
分類タグ1204は、文書に関連付けられた一つ以上の分類タグを表す。「分類タグ」とは、文書へのタグであり、文書の分類に使用されるタグである。注目文書に分類タグが関連付けられていない場合、分類タグ1204には分類タグが含まれていない(
図3において“-”と表記)。また、文書に複数のタグが関連付けられている場合は、分類タグ1204では以下の様な構造でタグ間がカンマで区切られる。
(例)2つのタグがある場合。[‘アプリケーション活用の工夫’, ‘動画コンテンツの活用’]
【0030】
文書ベクトル1205は、文書の定量化により表現された値であり、注目文書のN次元のベクトルを表す。文書ベクトル1205は、類似文書の検索において使用される。
【0031】
図4は、意味構造インデックス201の構成例を示す。
【0032】
意味構造インデックス201は、意味構造毎に、エントリを有し、各エントリは、意味構造1300、頻度数1301及び文書ID1302といった情報を含む。一つの意味構造を例に取る。
【0033】
意味構造1300は、一つ以上の文書から抽出された注目意味構造を表す。頻度数1301は、抽出された意味構造の数を表す。文書ID1302は、注目意味構造を持つ一つ以上の文書の各々の文書IDを表す。
【0034】
以下、本実施形態で行われる処理の例を説明する。
【0035】
【0036】
インデキシング部211が、文書DB200から全文書1202を読み込む(S500)。インデキシング部211が、各文書1202について、形態素解析を行い(S501)、S501において抽出された複数の形態素から意味構造を抽出し、抽出した意味構造を、当該文書に対応した意味構造特徴1203に追加する(S502)。
【0037】
インデキシング部211が、意味構造毎に、頻度数(意味構造の数)と文書ID(当該意味構造が抽出された文書のID)とを集計し、当該集計結果を基に意味構造インデックス201を作成し、作成した意味構造インデックス201を記憶装置132に格納する(S503)。
【0038】
本実施形態において、「文書」としてのテキストは、少なくとも一つの文又は文書を含む。「文章」は、連続した一つ以上の文を言う。
【0039】
本実施形態において、「意味構造」とは、文における意味要素の組合せである。「意味要素」とは、意味を構成する要素であり、ここで言う「要素」は、形態素、単語又は文節といった任意の単位でよい。具体的には、例えば、「意味構造」は、述語項構造(例えば、主語と述語の組合せ、述語と目的語の組合せ)でもよいし、名詞(例えば内容語又は実質語)と動詞(例えば機能語)の組合せでもよいし、同一文(又は文章)中での名詞の共起関係でもよい(例えば、同一文(又は文章)中に「予定」及び「スケジューラ」と「会議」及び「スケジューラ」とがあれば、スケジューラソフトでの会議や予定の設定の話題との推定が可能)。
【0040】
【0041】
ユーザ支援部212が、意味構造インデックス201を読み込み(S600)、当該インデックス201の少なくとも一部としての意味構造リスト(例えば、頻度数1301の降順において上位の意味構造のリスト)をユーザへ表示する。「〇〇〇をユーザへ表示」とは、〇〇〇の表示のための情報を出力すること(例えば、〇〇〇のUI(User Interface)をユーザへ提供すること)を意味し、本実施形態では、その結果として、〇〇〇が、当該ユーザのユーザシステム11の出力デバイス114に表示される。
【0042】
表示された意味構造の並びは、意味構造の頻度数1301の降順に代えて他の規則に従う順序でもよい。例えば、ユーザ支援部212が、所望の一つ以上の意味要素(例えば、一つ以上の単語)の入力をユーザから受け付け、意味構造リストには、当該一つ以上の意味要素を含む文との適合度が強い順に一つ以上の意味構造が並んでよい。
【0043】
ユーザ支援部212が、表示された意味構造リストのうちのユーザ所望の意味構造の選択をユーザから受け付ける(S601)。ユーザ支援部212が、指定された意味構造を持つ文書(指定された意味構造を含む意味構造特徴1203に対応した文書1202)を意味構造インデックス201の文書ID1302を元に文書DB200から検索し、見つかった文書をユーザへ表示する(S602)。ここで表示される文書は、文書の全て、一部又はサマリでよい。
【0044】
ユーザ支援部212が、S602で表示された文書のうちの一つ以上の文書の選択と、当該一つ以上の文書への分類タグの指定とをユーザから受け付け、選択されたそれら一つ以上の文書の各々に、指定された分類タグを関連付ける(S603)。これにより、選択された一つ以上の文書に分類タグが一括して関連付けられる。指定された分類タグを文書に関連付けるとは、本実施形態では、当該文書に対応した分類タグ1204に、指定された分類タグが追加されることを意味する。
【0045】
ユーザ支援部212が、分類支援処理を終了するか否かを判定する(S604)。
【0046】
例えば、分類支援処理の終了の指示をユーザから受け付けた場合、S604はYESとなり、分類支援処理が終了する。
【0047】
一方、例えば、分類支援処理の継続の指示(例えば、既存分類タグの表示の指示)をユーザから受け付けた場合、S604はNOとなり、ユーザ支援部212が、
図7のS700を行う。すなわち、ユーザ支援部212が、文書DB200における分類タグ1204のカラムにある一つ以上の分類タグをユーザへ表示する(S700)。ここで表示される一つ以上の分類タグは、直前回に関連付けられた分類タグでもよいし、関連付けられている文書の数の降順で並んだ分類タグでもよいし、ユーザから指定された分類タグ条件に適合する分類タグ(又は、当該分類タグ条件に適合する度合の降順に並んだ分類タグ)でもよい。
【0048】
ユーザ支援部212が、S700で表示された分類タグのうちのいずれかの分類タグの指定をユーザから受け付ける(S701)。
【0049】
ユーザ支援部212が、S701で指定された分類タグが関連付けられている文書(指定された分類タグを含んだ分類タグ1204に対応した文書1202)を文書DB200から特定し、特定された各文書について当該文書に類似した文書を文書DB200から検索し、見つかった類似文書をユーザへ表示する(S702)。ここで表示される類似文書は、類似文書の全て、一部又はサマリでよい。類似文書検索は、既知の方法で行われてよい。例えば、ユーザ支援部212が、S701で指定された分類タグが関連付けられている文書の文書ベクトル1205との間で所定の条件を満たす文書ベクトル1205に対応した文書1202を、類似文書として見つける。
【0050】
ユーザ支援部212が、S702で表示された類似文書のうちの一つ以上の類似文書の選択と、当該一つ以上の類似文書への分類タグの指定とをユーザから受け付け、選択されたそれら一つ以上の類似文書の各々に、指定された分類タグを関連付ける(S703)。これにより、選択された一つ以上の類似文書に分類タグが一括して関連付けられる。
【0051】
ユーザ支援部212が、分類支援処理を終了するか否かを判定する(S704)。例えば、分類支援処理の終了の指示をユーザから受け付けた場合、S704はYESとなり、分類支援処理が終了する。一方、例えば、分類支援処理の継続の指示(例えば、既存分類タグの表示の指示)をユーザから受け付けた場合、S704はNOとなり、処理がS700に戻る。
【0052】
図8~
図13は、分類支援処理においてユーザへ表示されるUIの例を示す。なお、ここで言うUIは、典型的にはGUI(Graphical User Interface)であるが、GUI以外のUIであってもよい。
【0053】
図8は、
図6のS602で表示されるUIの例を示す。
【0054】
図8に例示の状態のUI400を説明する前に、UI400の構成を説明する。
図6に例示の処理部分においては、UI400が表示される。UI400は、例えば、UI部品401~408を有する。UI部品401~408については、例えば下記の通りである。
・表示欄401には、意味構造リストからS601で指定された意味構造が表示される。・ボタン402は、意味構造インデックス201に基づく意味構造リストを表示するために操作される。このボタン402が押された場合、例えば
図16に示す様なメニュー画面が表示されS601が実行される。その結果401には選択された意味構造が表示される。
・ボタン403は、テキストボックス401に表示されている意味構造を含む文書のリストである文書リスト410を表示するために操作される。
・ボタン404は、文書の表示を文単位とする(文書における表示対象を一文のみとする)ために操作される。
・プルダウンメニュー405は、分類タグ種類のメニュー(リスト)を表示するために操作される。例えば
図17の様なリストが表示される。
・テキストボックス406には、ユーザ所望の分類タグ(具体的には、当該分類タグを表す文字列)が入力される。もし、既存の分類タグに該当するものがない場合は、ユーザは、「新規」を選択しテキストボックス406に直接キーボード等から新規分類タグを入力する。
・ボタン407は、テキストボックス406に入力された分類タグの関連付けのために操作される。
・ボタン408はUI400での作業の終了を判定するS604のために操作される。
【0055】
例えば、ボタン402が操作されると
図6のS600が行われ(
図16に示す様な意味構造リストが表示され)、
図6のS601において意味構造「欲しい:配慮」がユーザにより指定されたとする。この場合、ユーザ支援部212が、意味構造「欲しい:配慮」を含んだ意味構造特徴1203に対応した文書1202を文書DB200(
図3参照)から検索し、
図6のS602において、見つかった文書1202の文書リスト410を、
図8に示すように表示する。文書リスト410は、見つかった文書毎に、チェックボックスの欄と、当該文書の少なくとも一部(又はサマリ)の欄と、当該文書に関連付けられている既存の分類タグ(当該文書に対応した分類タグ1204における各分類タグ)の欄と、当該文書に追加的に関連付けられる追加の分類タグの欄とを有する。なお、既存の分類タグの欄と追加の分類タグの欄は共通でもよい。この場合、当該共通の欄に、既存の分類タグが表示され、且つ、新たな分類タグが追加される。
【0056】
図6のS603において、ユーザが、
図9に示すように、幾つかの文書を選択し(ユーザ所望の文書に対応したチェックボックスにチェックマークを記入し)、プルダウンメニュー405から分類タグ種類「新規」を選択し、テキストボックス406に分類タグ「家庭のネットワーク環境の問題」を入力し、最後に、ボタン407を操作したとする。この場合、ユーザ支援部212が、当該操作に応答して、
図10に示すように、ユーザに選択された文書の追加タグの欄に「家庭のネットワーク環境の問題」を表示し、且つ、当該文書の分類タグ1204に分類タグ「家庭のネットワーク環境の問題」を追加する。
【0057】
この後、
図7に例示の処理では、作業終了ボタン408を指定することでUI400に代えて、
図11~
図13に例示のUI700が表示される。
【0058】
図11は、
図7のS702で表示されるUIの例を示す。
【0059】
図11に例示の状態のUI700を説明する前に、UI700の構成を説明する。UI700は、例えば、UI部品701~708を有する。UI部品701~708については、例えば下記の通りである。
・プルダウンメニュー701は、既存の分類タグ(分類タグ1204のカラムにある分類タグ)のメニュー(リスト)を表示するために操作される。
・ボタン702は、プルダウンメニュー701に表示されている分類タグが関連付いている文書と類似する文書のリストである類似文書リスト710を表示するために操作される。つまり、このボタン702が押された場合、例えばS702における類似文書検索が実行される。
・ボタン703は、類似文書検索のオプションのリスト表示とオプションの指定(選択)のために操作される。
・ボタン704は、類似文書の表示を文単位とする(類似文書における表示対象を一文のみとする)ために操作される。
・プルダウンメニュー705は、分類タグ種類のメニューを表示するために操作される。
・テキストボックス706には、ユーザ所望の分類タグ(具体的には、当該分類タグを表す文字列)が入力される。
・ボタン707は、テキストボックス706に入力された分類タグ(又は、プルダウンメニュー701に表示されている分類タグ)の関連付けのために操作される。
・ボタン708はUI700での作業の終了を判定するS704のために操作される。
【0060】
例えば、
図7のS700及びS701において、ユーザが、既存の分類タグとして直前にタグ付けした分類タグ「家庭のネットワーク環境の問題」をプルダウンメニュー701から選択し、ボタン702を操作したとする。この場合、ユーザ支援部212が、当該操作に応答して、
図7のS702を実行する。すなわち、ユーザ支援部212が、分類タグ「家庭のネットワーク環境の問題」を含んだ分類タグ1204に対応する文書1202毎に当該文書1202と類似する文書1202を文書DB200から検索し、
図11に示すように、見つかった類似文書のリストである類似文書リスト710を表示する。類似文書リスト710は、見つかった類似文書毎に、チェックボックスの欄と、当該類似文書の少なくとも一部(又はサマリ)の欄と、当該類似文書に関連付けられている既存の分類タグ(当該類似文書に対応した分類タグ1204における各分類タグ)の欄と、当該類似文書に追加的に関連付けられる追加の分類タグの欄とを有する。なお、既存の分類タグの欄と追加の分類タグの欄は共通でもよい。この場合、当該共通の欄に、既存の分類タグが表示され、且つ、新たな分類タグが追加される。
【0061】
図7のS702において、ユーザが、
図12に示すように、幾つかの文書を選択し(ユーザ所望の文書に対応したチェックボックスにチェックマークを記入し)、プルダウンメニュー706から分類タグ種類「同一」を選択し、ボタン708を操作したとする。分類タグ種類「同一」は、プルダウンメニュー701に表示されている分類タグ「家庭のネットワーク環境の問題」と同一の分類タグを意味する。この場合、ユーザ支援部212が、当該操作に応答して、
図13に示すように、ユーザに選択された類似文書(チェックマークが記入されたチェックボックスに対応の類似文書)の追加タグの欄に「家庭のネットワーク環境の問題」を表示し、且つ、当該類似文書の分類タグ1204に分類タグ「家庭のネットワーク環境の問題」を追加する。
【0062】
この後、ユーザは、更なる類似文書検索を行う場合、プルダウンメニュー701から所望の既存の分類タグを選択し、ボタン702を操作する。つまり、再度、
図7のS700及びS701が行われる。
【0063】
以上の説明を、例えば下記のように総括することができる。下記の総括は、上述の補足説明や変形例の説明を含んでよい。
【0064】
インデキシング部211が、複数の文書1202の各々から意味構造を抽出し抽出された意味構造のインデックス201を作成する。ユーザ支援部212が、以下の(A)乃至(E)を行う。
(A)インデックス201上の意味構造の選択をユーザから受け付ける。
(B)複数の文書1202に、(A)で選択された意味構造に適合する文書があれば、当該文書202の少なくとも一部又はサマリをユーザへ表示する。
(C)表示された文書1202のうちの一つ以上の文書1202の選択と、当該一つ以上の文書へのタグである分類タグの指定とをユーザから受け付ける。
(D)(C)で選択された一つ以上の文書の各々に、(C)で指定された分類タグを関連付ける。
(E)複数の文書1202のうち少なくとも分類タグが関連付けられていない文書から、指定された分類タグが関連付けられている少なくとも一つの文書と類似する文書を検索し、当該類似する文書があれば、当該類似する文書の少なくとも一部又はサマリをユーザへ表示し、(C)を行う。
【0065】
これにより、複数の文書1202を網羅的に精度良くユーザが分析することを支援することができる。具体的には、例えば、次の通りである。
【0066】
すなわち、全文書1202から抽出された全ての意味構造が正確であり、各文書の各文から抽出された全ての意味構造をユーザが確認して所望の意味構造を選択できれば、複数の文書1202の網羅的な分析が実現されると考えられる。しかし、いわゆる表記ゆれ等が原因で意味構造が正確に文書から抽出できるとは限らない。一つの文書から抽出された複数の意味構造を組み合わせることで当該文書の意味を表すことが考えられるが、組合せパターンが多く、実現が困難である。また、各文書の各文から抽出された全ての意味構造をユーザが確認するとなると、実質的にユーザが全ての文書を見ることになり、ユーザの分析負担が軽減されない。
【0067】
本実施形態によれば、ユーザにより選択された代表的な意味構造を持つ文書を検索し、見つかった文書のうちユーザが選択した文書にユーザ所望の分類タグを関連付け、その後に、ユーザが付与済の既存分類タグのうちのユーザ所望の分類タグの選択を受け付けることと、選択された既存の分類タグを持つ文書と類似する文書を検索することと、見つかった類似文書のうちユーザが選択した類似文書にユーザ所望の分類タグを関連付けることとが、必要に応じて繰り返される。つまり、意味構造をキーとした文書検索により見つかった文書のうちユーザが選択した文書を種として網羅的に文書を分析することが支援される。
【0068】
意味構造の選択は、意味構造に基づく意味構造条件の指定の一例である。「意味構造条件」は、条件としての一つの意味構造でもよいし、二つ以上の意味構造の組合せ(例えば、採用される文書が持つ意味構造と除外される文書が持つ意味構造との組合せ)でもよい。
【0069】
また、テキストを含んだあらゆる文書の分析支援に、本発明を適用し得る。例えば、文書としては、アンケートとしての文書、オンラインミーティングやラジオ番組等の音声データがテキスト化された文書、SNS(Social Networking Service)等のサイトでのコメントやユーザ間のメッセージ群(ユーザ間でやりとりされたメッセージ)としての文書等が採用されてよい。
【0070】
また、本実施形態によれば、(a)ユーザへ意味構造、文書及び分類タグを表示すること、(b)(a)での表示の中からユーザによる選択を受け付けること、(c)(b)でユーザにより選択された意味構造、文書又は分類タグを用いた処理の結果として(a)を行うことが繰り返される。すなわち、本実施形態によれば、ユーザが選択した意味構造をキーに文書を検索し、見つかった文書にユーザが分類タグを関連付けることで当該文書に意味的な要素を加え、分類タグのユーザによる選択とその分類タグが関連付けられている文書の類似文書の検索及び表示との繰り返しがされる。つまり、本実施形態に係るシステムは、いわゆる人間拡張のためのシステムであり、文書分類の自動化のシステムではない。
【0071】
ユーザへのUIにおいて、表示対象の文書1202毎に、表示対象は下記でよい。これによる、ユーザによる文書選択が支援される。
・当該文書1202のうち、少なくとも、当該文書1202から抽出された意味構造を構成する意味要素(例えば、形態素や単語)を含んだ文字列。
・当該文書に分類タグが関連付けられていれば当該分類タグ。
【0072】
ユーザ支援部212が、上記(D)の都度に、類似文書検索の停止条件が満たされているか否かを判定し、当該判定の結果が偽の場合、(E)を行ってよい。停止条件は、下記のいずれかでよい。このような判定は、例えば
図6のS604や
図7のS704での判定でよい。このような停止条件が設けられることで、文書1202の数が膨大でも適切なタイミングで処理を終えることができる。
・複数の文書1202に対し、分類タグが関連付けられていない文書の割合が、一定割合未満である。言い換えれば、分類タグの関連付けが十分に行われたとみなされることに該当する条件である。
・(E)の実行回数が所定回数に達している。
【0073】
類似文書検索では、例えば
図11に例示のUI700のボタン703をユーザが操作することで、ユーザ支援部212が、類似文書検索のオプションとして、例えば以下のオプションをユーザへ提示してよい。(a)が、上述の類似文書検索(文書ベクトル1205を用いた類似文書検索)である。
(a)コサイン類似度サーチ
(b)分類モデルの学習及びサーチ(既にタグのついた文書を学習データにして文書タグの予測分類モデルを学習し、その分類モデルを用いてタグ無しの文書からが街頭の文書をサーチする類似文書検索)
(c)特徴量オプション(分類時に用いる特徴量ベクトル算出方法の選定)FastText, BERT, LDAなどの既知の方式
(d)Revolutionalモード(分類タグが新規に関連付けされた場合に分類モデルが更新され、未知の文書のタグの分類予測の精度が上がる)
(e)分類タグの入力支援
【0074】
例えば、(e)のオプションに従う類似文書検索、又は、ユーザが選択した意味構造をキーとした文書検索では、ユーザ支援部212が、文書に対し関連付ける分類タグの少なくとも一部又はサマリを学習済言語モデル203を用いて特定してユーザへ表示してよい。学習済言語モデル203への入力は、文書の少なくとも一部又はサマリを含んでよい。学習済言語モデル203からの出力は、分類タグの少なくとも一部又はサマリを含んでよい。
【0075】
このような分類タグ入力支援として、例えば、下記のいずれかが採用されてよい。
【0076】
例えば、
図14に例示の分類タグ入力支援によれば、代表的文書に分類タグを付けた後に根拠を自動的に可視化することで再確認の効率を上げる。
【0077】
また、例えば、
図15に例示の分類タグ入力支援によれば、分類タグに含めるべき適切な単語がわかる。
[第2の実施形態]
【0078】
第2の実施形態の特徴は、下記である。
(1)第1の実施形態よりも意味構造をより詳細にすることができる。
(2)表記ゆれを吸収することができる。
(3)述語項に代えて又は加えて述語を起点とした文書検索も可能である。
【0079】
以下、第2の実施形態を説明する。その際、第1の実施形態との相違点を主に説明し、第1の実施形態との共通点については説明を省略又は簡略する。
【0080】
<「(1)第1の実施形態よりも意味構造をより詳細にすることができる。」について>
【0081】
図18は、第2の実施形態に係る文書DB200の一部の構成例を示す。
【0082】
文書1202は、文書全体でもよいが、本実施形態では、文書のうちの一文を表す。このため、図示しないが、文書ID1200は、文書のIDと、文書における当該一文のIDとの組合せであってよい。すなわち、本明細書において、「文書」は、狭義には、文の集合を含んだ要素でよく、広義には、文の集合の一部(例えば、個々の文)でもよい。
【0083】
意味構造特徴1203が、
図3に例示した構成と異なる。具体的には、意味構造特徴1203が、predicate11、predicate_hyouki12、negation13、pred_last14、arg_subj15、arg_obj16、arg_when17、arg_where18及びarg_other19といった情報を有する。一つの文を例に取る(
図18の説明において「対象文」)。
【0084】
predicate11は、対象文における述語(原形)を表す。predicate_hyouki12は、対象文における述語(表記)を表す。
【0085】
negation13は、対象文が否定文であるか否かのフラグである。pred_last14は、文末が述語であるか否かのフラグである。
【0086】
情報15~19は、意味構造を正確に表現するための情報の例である。arg_subj15は、対象文が述語に主語で係る文である場合にその主語を表す。arg_obj16は、対象文が述語に目的語で係る文である場合にその目的語を表す。arg_when17は、対象文が述語に時間格(時格)で係る文である場合にその時格を表す。arg_where18は、対象文が述語に場所格(所格)で係る文である場合にその場所格を表す。arg_other19は、対象文が述語に他の修飾(例えば、理由、条件などの節)で係る文である場合にその修飾を表す。
【0087】
図18の例示によれば、述語とそれに係る対象語(述語項)との間には依存関係があり、その依存関係の解析を行うことで、意味構造の要素を、単語に代えて又は加えて、句や文節にすることができる。このような意味構造を用いることで、述語と述語に係る対象語とを中心とした文書の探索が可能である。
【0088】
図19は、述語に係る主語(助詞「が」で係る)のランキングリストの例を示す。
【0089】
このリストは、例えば、
図5のS503においてインデキシング部211により作成される。このリストによれば、述語に係る対象語が主語であるが、主語以外の対象語についても、同様の構成のリストが作成される。
【0090】
インデキシング部211は、文書DB200のarg_subj15のカラムを参照し、述語に係る主語毎の頻度(数)を集計し、集計結果を表すランキングリスト(例えば、主語の頻度降順のリスト)を作成する。そして、インデキシング部211は、主語毎に、当該主語をarg_subj15として有する全てのエントリを参照し、当該主語と当該主語が係る述語(predicate11及び/又はpredicate_hyouki12)とを含んだ述語項構造毎に、当該述語項構造の頻度(数)を集計する。
図20は、主語が「業務負担が」である場合の集計結果(述語項構造の頻度降順のランキングリスト)を示す。インデキシング部211は、各述語項構造とその頻度を、意味構造1300及び頻度数1301として意味構造インデックス201に登録し、且つ、その意味構造を持つ文書のIDを文書ID1302として意味構造インデックス201に登録する(
図4参照)。
【0091】
図6のS600において、ユーザ支援部212が、意味構造インデックス201を参照し、
図6のS601において、ユーザ支援部212が、
図21に例示のUI2100を表示してよい。但し、この段階では、UI2100のうち、述語項構造の検索結果がブランクでよい。UI2100は、選択ツール2101及び2102と、検索実行ボタン2103と、タグ付けボタン2104とを有する(要素2101~2104は、GUI部品の一例)。
【0092】
選択ツール2101を用いて、文書DB200における、述語に係る述語項(例えば主語)のうちの、ユーザ所望の述語項を、選択することができる(選択ツール2102については後述)。検索実行ボタン2103が押された場合、ユーザ支援部212が、選択ツール2101を用いて選択された述語項を含んだ述語項構造(意味構造)を意味構造インデックス201から検索し、見つかった述語項構造を持つ文書を、文書DB200から検索する。
図6のS602において、ユーザ支援部212が、見つかった述語項構造及び文書等のリスト(検索結果)を同UI2100に表示する。
【0093】
その後、タグ付けボタン2104が押された場合、ユーザ支援部212が、例えば、
図6のS603において、分類タグの付与のための
図22に例示のUI2200を表示する。
【0094】
図21に例示の検索結果によれば、一部のITスキルが高い社員にIT系の業務の負担が偏っているという傾向がわかる。このため、ユーザは、分類タグとして、「社員への業務負担偏り」を、この組合せを持つ文書に付与することが考えられる。
【0095】
<「(2)表記ゆれを吸収することができる。」について>
【0096】
図21に例示の検索結果によれば、「社員の業務負担偏り」に関する意見文が散見される。一回の操作で複数の意見文に同一の分類タグ「社員の業務負担偏り」を関連付けたいが「業務負担が」に係る述語「偏る」には様々な表記ゆれがある。
【0097】
そこで、ユーザ支援部212が、見つかった述語項構造又はそれを持つ意見文に対し、ルールベース又は機械学習ベースの処理を施すことで、類似した述語項構造を特定する。
【0098】
例えば、ルールベースの処理は、述語の正規化である。具体的には、例えば、ユーザ支援部212が、述語「偏りすぎる」「偏ってしまう」などから助動詞を除き(また、余計な記号や文字があればそれを排除し)、原形「偏る」を得る。ユーザ支援部212は、述語項構造における述語を原形に置換し、類似した二つ以上の述語項構造を特定する。その際、ユーザ支援部212は、「偏っていない」などの否定形(具体的には、negation13がオンになっているエントリに対応の文)を除く。
【0099】
また、例えば、機械学習ベースの処理は、Word2Vec、FastText又はBERT等の言語の分散表現で述語の類似度を算出することである。ユーザ支援部212が、距離の近い(類似度の差の一定値以下)の二つ以上の述語項構造を特定してよい(文全体で類似度が推定されてもよい)。
【0100】
以上のようにして特定された二つ以上の述語項構造(類似した述語項構造)が、
図22に例示のUI2200において並べられる。結果として、見つかった述語項構造において述語の表記ゆれがあっても、類似した述語項構造が精度良く特定され並べられる。このため、ユーザは、所望の分類タグの付与先の意見文を選択し易い。ユーザは、タグ入力欄2201に分類タグ「社員の業務負担偏り」を入力し、当該分類タグの付与先の意見文を選択し(チェックマークを記入し)、タグ付け実行ボタン2202を押す。ユーザ支援部212が、入力された分類タグ「社員の業務負担偏り」を、選択された全ての意見文に関連付けて、関連付けた分類タグを、当該分類タグが付与された意見文(文書)のエントリにおける分類タグ1204(
図3参照)に含める。
【0101】
<「(3)述語項に代えて又は加えて述語を起点とした文書検索も可能である。」について>
【0102】
主語「業務負担が」のような述語項に代えて又は加えて述語を起点とした文書検索の例を、
図23及び
図24を参照して説明する。
【0103】
図23に例示するように、UI2100の選択ツール2102を用いて、文書DB200における、述語のうちの、ユーザ所望の述語(例えば「足りない」)を、選択することができる。検索実行ボタン2103が押された場合、ユーザ支援部212が、選択ツール2102を用いて選択された述語を含んだ述語項構造(意味構造)を意味構造インデックス201から検索し、見つかった述語項構造を持つ文書を、文書DB200から検索する。
図6のS602において、ユーザ支援部212が、見つかった述語項構造及び文書等のリスト(検索結果)を同UI2100に表示する。
【0104】
その後、タグ付けボタン2104が押された場合、ユーザ支援部212が、例えば、
図6のS603において、分類タグの付与のための
図24に例示のUI2400を表示する。具体的には、見つかった述語項構造において述語項(例えば主語)の表記ゆれがあっても、類似した述語項構造が精度良く特定されUI2400上に並べられる。例えば、ユーザは、タグ入力欄2401に分類タグ「研修時間の不足」を入力し、当該分類タグの付与先の意見文を選択し(チェックマークを記入し)、タグ付け実行ボタン2402を押す。ユーザ支援部212が、入力された分類タグ「研修時間の不足」を、選択された全ての意見文に関連付けて、関連付けた分類タグを、当該分類タグが付与された意見文(文書)のエントリにおける分類タグ1204(
図3参照)に含める。
【0105】
以上が、第2の実施形態の説明である。第2の実施形態において、意味構造は、述語と述語項とを含んだ述語項構造である。第2の実施形態において、第1の実施形態との関係は、例えば下記でよい。
・(A)において指定される意味構造条件は、述語項構造を構成する述語及び述語項のうちの一方又は両方についての条件である(例えば、第1の実施形態での「欲しい:配慮」(例えば
図8参照)が、述語及び述語項の両方の条件の一例である)。
・(B)において、(A)で指定された意味構造条件に適合する文書は、(A)で指定された条件に該当の述語又は述語項を含んだ述語項構造を持つ文書である。
・ユーザ支援部212は、(A)で指定された条件に該当の述語又は述語項を含んだ述語項構造における述語項又は述語に対してルールベース又は機械学習ベースの処理を行い、類似する述語項構造を特定する。(C)において、表示された文書は、類似する述語項構造を有する文書である。「類似する述語項構造」は、述語項構造間の類似度が一定値未満の述語項構造でよい。
【0106】
以上、本発明の幾つか実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
【0107】
例えば、上述の説明では、ユーザ支援部212が、「(A)インデックス201上の意味構造の選択をユーザから受け付ける。」を行うが、この(A)では、ユーザ支援部212が、意味構造条件を、ユーザから受け付けること無しに自動で指定してよい。例えば、ユーザ支援部212が、ユーザの指定履歴(意味構造条件の指定の履歴)を蓄積し、当該履歴からユーザにとって重要と思われる意味構造の条件を割り出してルール化し、当該ルールに沿って意味楮条件を自動指定することができる。具体的には、例えば、ユーザがネガティブな意味構造を中心に指定しているとの履歴が蓄積されている場合、ユーザ支援部212が、当該履歴を基に、ネガティブな意味構造(例えば、[減少する:売上]、[退職する:社員]、[増大する:不満])を自動的に指定してよい。
【符号の説明】
【0108】
13…文書分析支援システム