(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024058149
(43)【公開日】2024-04-25
(54)【発明の名称】情報処理プログラム、情報処理装置及び情報処理方法
(51)【国際特許分類】
G06F 16/38 20190101AFI20240418BHJP
G06F 40/216 20200101ALI20240418BHJP
【FI】
G06F16/38
G06F40/216
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022165299
(22)【出願日】2022-10-14
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り [刊行物1]令和3年10月21日販売、オンラインによる販売(クラウドサーバー上にあるソフトウェアの販売) [刊行物2]令和3年10月21日販売、オンラインによる販売(指定サイトからのダウンロード販売) [刊行物3]令和3年11月17日掲載、掲載アドレスhttps://retrieva.jp/news/date_202111171100/ [刊行物4]令和3年12月1日販売、オンラインによる販売(クラウドサーバー上にあるソフトウェアの販売) [刊行物5]令和4年1月22日掲載、掲載アドレスhttps://pastfuse.forstartups.com/ [刊行物6]令和4年3月25日掲載、掲載アドレスhttps://fuse.forstartups.com/archive-a?utm_campaign=FUSE%20Vol2&utm_medium=email&_hsmi=208276975&_hsenc=p2ANqtz-_dOXvDpfIXRVhNNUyKnThmXpgTR2sKWND1qoi1PzW-vdmAwfqySIofx9F0r1B2hAD4zvnPpGnWz0euXqaVAqDQGSnYcy9GC62jn2-jQFmjVLkYj5A&utm_content=208276975&utm_source=hs_email ※現在非公開 [刊行物7]令和4年6月23日掲載 掲載アドレスhttps://us06web.zoom.us/webinar/register/WN_iA7ei2lJRYu9lTpb1mW_mA ※現在非公開 [刊行物8]令和4年6月30日掲載、掲載アドレスhttps://yoshina.io/ [刊行物9]令和4年8月1日販売、オンラインによる販売(指定サイトからのダウンロード販売) [刊行物10]令和4年8月17日掲載、掲載アドレスhttps://www.youtube.com/watch?v=RcYDQN_BMPc
(71)【出願人】
【識別番号】517097139
【氏名又は名称】株式会社レトリバ
(74)【代理人】
【識別番号】100188662
【弁理士】
【氏名又は名称】浅見 浩二
(74)【代理人】
【識別番号】100177895
【弁理士】
【氏名又は名称】山田 一範
(72)【発明者】
【氏名】鷺坂 文野
(72)【発明者】
【氏名】野本 英梨子
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA01
5B175DA01
5B175FA01
5B175HB03
5B175KA12
(57)【要約】
【課題】複数の文書を解析した結果をユーザに分かり易く提示すること。
【解決手段】複数の文書の内容を分析する処理を行うための情報処理装置であって、複数の文書をそれぞれテキストデータとして取得する文書取得部と、複数の文書における単語の出現頻度を算出する出現頻度算出部と、複数の文書における単語の注目度を算出する注目度算出部と、各単語の出現頻度及び注目度に基づいて、出現頻度と注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成部と、生成したワードマップを含む表示画面を表示用ディスプレイに表示させる表示部とを備えるようにした。
【選択図】
図2
【特許請求の範囲】
【請求項1】
複数の文書の内容を分析する処理をコンピュータに実現させるための情報処理プログラムであって、
前記コンピュータに、
複数の文書をそれぞれテキストデータとして取得する文書取得機能と、
前記複数の文書における単語の出現頻度を算出する出現頻度算出機能と、
前記複数の文書における単語の注目度を算出する注目度算出機能と、
各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成機能と、
生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示機能と
を実現させる情報処理プログラム。
【請求項2】
前記コンピュータに、
前記複数の文書における各単語に対して関連度の高い他の単語を特定する関連単語特定機能を実現させ、
前記表示機能は、表示画面上の前記ワードマップのいずれかの単語に対して所定操作がなされた場合、当該単語の関連単語を当該単語の表示位置から派生させて表示させる
請求項1記載の情報処理プログラム。
【請求項3】
前記コンピュータに、
前記単語の表示位置から派生させて表示させた前記関連単語の何れかに対して所定操作がなされた場合、前記複数の文書から当該単語及び当該関連単語を共に含む文書を抽出する文書抽出機能を実現させ、
前記表示機能は、当該単語及び当該関連単語を共に含む前記文書を表示画面上に表示させる
請求項2記載の情報処理プログラム。
【請求項4】
前記表示機能は、出現頻度及び/又は注目度が所定の閾値以上の単語について、前記閾値未満の単語と表示態様を異ならせて表示させる
請求項1記載の情報処理プログラム。
【請求項5】
前記注目度算出機能は、所定の分類規則に基づいて前記複数の文書を複数のクラスタに分類し、各クラスタ単位でtf-idf法を適用することで単語の注目度を算出する
請求項1から請求項4の何れか一項に記載の情報処理プログラム。
【請求項6】
複数の文書の内容を分析する処理を行うための情報処理装置であって、
複数の文書をそれぞれテキストデータとして取得する文書取得部と、
前記複数の文書における単語の出現頻度を算出する出現頻度算出部と、
前記複数の文書における単語の注目度を算出する注目度算出部と、
各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成部と、
生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示部と
を備える情報処理装置。
【請求項7】
複数の文書の内容を分析する処理をコンピュータによって行うための情報処理方法であって、
複数の文書をそれぞれテキストデータとして取得する文書取得手順と、
前記複数の文書における単語の出現頻度を算出する出現頻度算出手順と、
前記複数の文書における単語の注目度を算出する注目度算出手順と、
各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成手順と、
生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示手順と
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の文書を解析した結果をユーザに分かり易く提示するための情報処理プログラム、情報処理装置及び情報処理方法に関するものである。
【背景技術】
【0002】
従来、複数の文書を自動で解析、分類してユーザに提供する技術が存在する。多量の文書についての解析結果、分類結果を知りたいというニーズは強く、そのようなニーズに対応するための様々な解析手法、分類手法が提案されている。
【0003】
例えば、特許文献1には、単語単体の出現頻度のみではなく、単語同士の類似性を考慮した単語群の出現頻度に基づいた文書分類モデルに関する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、商品の販売サイトにおける各商品に対する複数のレビュー文書や、飲食店に対する複数の口コミ文書や、コールセンターにおいて受け付けた相談内容をテキスト化した複数文書など、解析のニーズのある複数の文書に対して特許文献1に記載の技術を適用することで、出現頻度の高い単語を抽出する処理や、出現頻度に基づいた文書の分類処理を行うことが可能となるが、そのような解析結果や分類結果をユーザに対して分かり易く提供する手段については開示されていない。
【0006】
複数の文書についての全体の傾向や、注目すべき単語の存在などをユーザに分かり易い形で提供する手法が求められていた。
【0007】
本発明は、上記問題点に鑑みなされたものであり、複数の文書を解析した結果をユーザに分かり易く提示することが可能な情報処理プログラム、情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る情報処理プログラムは、複数の文書の内容を分析する処理をコンピュータに実現させるための情報処理プログラムであって、前記コンピュータに、複数の文書をそれぞれテキストデータとして取得する文書取得機能と、前記複数の文書における単語の出現頻度を算出する出現頻度算出機能と、前記複数の文書における単語の注目度を算出する注目度算出機能と、各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成機能と、生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示機能とを実現させることを特徴とする。
【0009】
また、本発明に係る情報処理プログラムは、さらに、前記コンピュータに、前記複数の文書における各単語に対して関連度の高い他の単語を特定する関連単語特定機能を実現させ、前記表示機能は、表示画面上の前記ワードマップのいずれかの単語に対して所定操作がなされた場合、当該単語の関連単語を当該単語の表示位置から派生させて表示させることを特徴とする。
【0010】
また、本発明に係る情報処理プログラムは、さらに、前記コンピュータに、前記単語の表示位置から派生させて表示させた前記関連単語の何れかに対して所定操作がなされた場合、前記複数の文書から当該単語及び当該関連単語を共に含む文書を抽出する文書抽出機能を実現させ、前記表示機能は、当該単語及び当該関連単語を共に含む前記文書を表示画面上に表示させることを特徴とする。
【0011】
また、本発明に係る情報処理プログラムは、さらに、前記表示機能は、出現頻度及び/又は注目度が所定の閾値以上の単語について、前記閾値未満の単語と表示態様を異ならせて表示させることを特徴とする。
【0012】
また、本発明に係る情報処理プログラムは、さらに、前記注目度算出機能は、所定の分類規則に基づいて前記複数の文書を複数のクラスタに分類し、各クラスタ単位でtf-idf法を適用することで単語の注目度を算出することを特徴とする。
【0013】
本発明に係る情報処理装置は、複数の文書の内容を分析する処理を行うための情報処理装置であって、複数の文書をそれぞれテキストデータとして取得する文書取得部と、前記複数の文書における単語の出現頻度を算出する出現頻度算出部と、前記複数の文書における単語の注目度を算出する注目度算出部と、各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成部と、生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示部とを備えることを特徴とする。
【0014】
本発明に係る情報処理方法は、複数の文書の内容を分析する処理をコンピュータによって行うための情報処理方法であって、複数の文書をそれぞれテキストデータとして取得する文書取得手順と、前記複数の文書における単語の出現頻度を算出する出現頻度算出手順と、前記複数の文書における単語の注目度を算出する注目度算出手順と、各単語の前記出現頻度及び前記注目度に基づいて、前記出現頻度と前記注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力するワードマップ生成手順と、生成した前記ワードマップを含む表示画面を表示用ディスプレイに表示させる表示手順とを含むことを特徴とする。
【発明の効果】
【0015】
本発明によれば、出現頻度と注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成し、生成したワードマップを含む表示画面を表示用ディスプレイに表示させるようにしたので、複数の文書を解析した結果をユーザが視覚的に把握し易いように提示することが可能となる。また、表示画面上の前記ワードマップのいずれかの単語に対して所定操作がなされた場合、当該単語の関連単語を当該単語の表示位置から派生させて表示させるようにしたので、ワードマップ上の各単語がどのような単語と一緒に使用されているかを関連単語の表示から簡単に把握することが可能となる。さらに、単語の表示位置から派生させて表示させた前記関連単語の何れかに対して所定操作がなされた場合、複数の文書から当該単語及び当該関連単語を共に含む文書を抽出して表示画面上に表示させるようにしたので、派生元の単語と関連単語とが実際の文書内でどのように使用されていたかを簡単に確認することが可能となる。
【図面の簡単な説明】
【0016】
【
図1】本発明に係る情報処理装置を実現するためのシステム全体の構成を表したブロック図である。
【
図2】本発明に係る情報処理装置(サーバ装置)10の構成の一例を表したブロック図である。
【
図3】本発明に係る情報処理装置10におけるワードマップ生成処理の流れを表したフローチャート図である。
【
図4】本発明に係る情報処理装置10における関連単語表示処理の流れを表したフローチャート図である。
【
図5】本発明に係る情報処理装置10における文書抽出処理の流れを表したフローチャート図である。
【
図6】本発明に係る情報処理装置10において出現頻度の高い単語と注目度の高い単語を抽出した様子の一例を表した説明図である。
【
図7】本発明に係る情報処理装置10において出現頻度と注目度に基づいてワードマップを生成した様子の一例を表した説明図である。
【
図8】本発明に係る情報処理装置10において元の単語から関連単語を派生させて表示させる様子の一例を表した説明図である。
【発明を実施するための形態】
【0017】
[第1の実施の形態]
以下、図面を参照しながら、第1の実施の形態に係る情報処理装置の例について説明する。
図1は、本発明に係る情報処理装置を実現するためのシステム全体の構成を表したブロック図である。なお、情報処理装置10は、専用マシンとして設計した装置であってもよいが、一般的なコンピュータやサーバ装置によって実現可能なものであるものとする。この場合に、情報処理装置10は、一般的なコンピュータやサーバ装置が通常備えているであろうCPU(Central Processing Unit:中央演算処理装置)、メモリ、ハードディスクドライブ等のストレージを具備しているものとする(図示省略)。また、これらの一般的なコンピュータやサーバ装置を本例の情報処理装置10として機能させるためにプログラムよって各種処理が実行されることは言うまでもない。
【0018】
図1に示すように、情報処理装置を実現するためのシステム全体の構成は、サーバ装置10と、ユーザ端末201~20n(以下、これら総称してユーザ端末20と表現する場合を含む)とが、通信ネットワーク30を介して相互に接続可能に構成されている。このうち、サーバ装置10が本例の情報処理装置10として機能し、ユーザ端末201~20nのそれぞれから情報処理装置(サーバ装置)10にアクセスしてシステムを利用する場合を例として説明を行う。
【0019】
図2は、本発明に係る情報処理装置(サーバ装置)10の構成の一例を表したブロック図である。この
図2に示すように、情報処理装置10は、文書取得部11と、出現頻度算出部12と、注目度算出部13と、関連単語特定部14と、文書抽出部15と、ワードマップ生成部16と、表示部17と、記憶部18とを少なくとも備えている。
【0020】
文書取得部11は、複数の文書をそれぞれテキストデータとして取得する機能を有する。この文書取得部11において取得する文書はどのようなものであってもよく、一例としては、商品の販売サイトにおける各商品に対する複数のレビュー文書や、飲食店に対する複数の口コミ文書や、コールセンターにおいて受け付けた相談内容をテキスト化した複数文書などが挙げられる。なお、音声データを取得してテキストデータ化する機能を本例の情報処理装置に備えさせることで複数の文書としての複数のテキストデータを文書取得部11において取得するようにしてもよい。
【0021】
出現頻度算出部12は、複数の文書における単語の出現頻度を算出する機能を有する。ここで、出現頻度とは、所定のカテゴリ内の複数文書全体の中における各単語の出現回数をカウントしたもの、或いは、出現回数をスコア化(正規化)したものをいう。出現頻度を算出する範囲は、取得した文書全体であってもよいし、取得した文書を所定の分類規則に基づいて複数カテゴリに分類した後の各カテゴリであってもよい。所定の分類規則としては、例えば、LDA(Latent Dirichlet Allocation)が挙げられる。算出した単語毎の出現頻度の情報は、後述する記憶部18に記憶させる。また、所定の分類規則に基づいて取得した文書を複数カテゴリに分類した場合には、各文書が該当するカテゴリの情報についても後述する記憶部18に記憶させる。
【0022】
また、出現頻度算出部12においては、単語ごとの出現頻度を算出するにあたり、所定規則に基づいて文章を名詞、動詞、形容詞などの所定単位にて分割する前処理を実行する必要がある。また、出現頻度の算出にあたっては、連続した数単語を1つのまとまりとして扱って出現頻度を算出するようにしてもよい。一例としては、バイトペア符号化(Byte Pair Encoding)を用いて文章をサブワード(連続した数単語のまとまり)化した上で、出現頻度が高いサブワードはそれを1単語として扱って出現頻度を算出するようにし、出現頻度が低いサブワードはより短い単位に分割して出現頻度を算出するといった手法が考えられる。出現頻度が高いサブワードについては1単語として扱ってユーザに提示した方が、文書の解析結果をより分かり易くユーザに伝えることができるといえる。
【0023】
注目度算出部13は、複数の文書における単語の注目度を算出する機能を有する。ここで、注目度とは、その文書全体又はカテゴリを特徴付ける可能性のある単語として注目すべき度合いをスコア化したものをいう。各単語の注目度を算出することができればどのような手法であってもよいが、例えば、複数の文書に対してtf-idf法を適用することで単語の注目度を算出することが考えられる。また、取得した文書を所定の分類規則に基づいて複数カテゴリに分類した後の各カテゴリに対してtf-idf法を適用することで、頻出単語とは異なる注目度の高い単語を抽出し易くなるという効果が得られる。
【0024】
関連単語特定部14は、複数の文書における各単語に対して関連度の高い他の単語(以下、関連単語という)を特定する機能を有する。関連単語を抽出することができればどのような手法であってもよいが、例えば、共起(collocation)の度合いの高さに基づいて関連単語を抽出することが考えられる。特定した単語と関連単語との関係性の情報は、後述する記憶部18に記憶させる。
【0025】
文書抽出部15は、単語とその単語の関連単語との組み合わせが指定された場合に、複数の文書から当該単語及び当該関連単語を共に含む文書を抽出する機能を有する。文書抽出部15は、単語とその単語の関連単語との組み合わせが指定された場合に、複数の文書の中からこれらを共に含む文書を抽出する処理を実行する。
【0026】
ワードマップ生成部16は、各単語の出現頻度及び注目度に基づいて、出現頻度と注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成して出力する機能を有する。ワードマップは、複数の文書における出現頻度の高い単語や注目度の高い単語を2次元マップ上に配置して表示させたものであり、複数文書の解析結果をユーザに視覚的に分かり易く提示するために用いることができる。このワードマップは、取得した文書全体に対して生成してもよいし、取得した文書を所定の分類規則に基づいて複数カテゴリに分類した後の各カテゴリにて生成するようにしてもよい。縦横の軸に採用する出現頻度と注目度の情報は、出現回数のようにカウント数を用いてもよいし、スコア化(正規化)した数値を用いるようにしてもよい。また、ワードマップ上に全ての単語をプロットするのではなく、出現頻度や注目度に閾値を設けて、出現頻度又は注目度が閾値以上である単語をワードマップ上にプロットするようにしてもよい。また、ワードマップはユーザに対して分析結果を視覚的に分かり易く伝えるための手段であるため、プロット点が必ずしも正確な位置である必要はなく、文字の重なりを避けるためなどの理由に基づいて、所定範囲内のずれを許容して配置するようにしてもよい。
【0027】
表示部17は、生成したワードマップを含む表示画面を表示用ディスプレイに表示させる機能を有する。ここで、ユーザ端末20が表示用ディスプレイを備える構成の場合、表示部17で生成した表示画面を通信ネットワーク30を介してユーザ端末20に送信してユーザ端末20の表示用ディスプレイに表示させるようにする。
【0028】
また、表示部17は、表示画面上のワードマップのいずれかの単語に対して所定操作がなされた場合、当該単語の関連単語を当該単語の表示位置から派生させて表示させる機能を有する。単語に対する所定操作はどのようなものであってもよいが、一例としては、ワードマップ上の単語にポインタをマウスオーバーさせる操作が挙げられる。所定操作がなされた単語が特定されると、関連単語特定部14において予め特定して記憶させておいた各単語の関連単語の情報を参照して当該単語の関連単語の情報を読み出して、関連単語を当該単語の表示位置から派生させて表示させる。派生させて表示とは、元となる単語と関連単語の関係性を示せればどのような表示であってもよいが、一例としては、元となる単語の表示位置(ノード)からツリー構造のようにエッジで繋げて関連単語を表示させるといった手法が考えられる。すなわち、単語にマウスポインタをマウスオーバーさせたときに関連単語が初めて表示されるようにし、マウスオーバーを外すと関連単語の表示が消えるという表示処理とすることが考えられる。
【0029】
また、表示部17は、単語の表示位置から派生させて表示させた関連単語の何れかに対して所定操作がなされた場合、当該単語及び当該関連単語を共に含む文書を表示画面上に表示させる機能を有する。関連単語に対する所定操作はどのようなものであってもよいが、一例としては、ワードマップ上の関連単語に対するシングルクリック操作が挙げられる。所定操作がなされた関連単語が特定されると、元となった単語と関連単語とを共に含む文書を文書抽出部15によって抽出して、表示画面上に表示させる。元となった単語と関連単語とを共に含む文書の表示方法はどのようなものであってもよいが、一例としては、該当する全ての文書を表示するのではなく2~3例だけを表示させるようにしてもよいし、また、文書全体を表示させるのではなく元となった単語と関連単語とを共に含む個所のみを抜粋して表示させるようにしてもよい。
【0030】
また、表示部17は、出現頻度及び/又は注目度が所定の閾値以上の単語について、閾値未満の単語と表示態様を異ならせて表示させるようにしてもよい。すなわち、出現頻度が高い単語や、注目度が高い単語を区別してユーザに認識させることが可能となる。表示態様を異ならせる手法としては、例えば、フォントの大きさを変える、表示色を変えるなどが考えられる。
【0031】
記憶部18は、情報処理装置10において行われる様々な処理で必要なデータ及び処理の結果として得られたデータを記憶させる機能を有する。
【0032】
次に、本発明に係る情報処理装置10における各種処理の流れについて説明を行う。
図3は、本発明に係る情報処理装置10におけるワードマップ生成処理の流れを表したフローチャート図である。この
図3に示すように、情報処理装置10におけるワードマップ生成処理は、情報処理装置10において複数の文書を取得することによって開始される(ステップS101)。次に、情報処理装置10は、取得した複数の文書における各単語の出現頻度を算出する(ステップS102)。次に、情報処理装置10は、取得した複数の文書における各単語の注目度を算出する(ステップS103)。次に、情報処理装置10は、取得した複数の文書における各単語の関連単語を特定する(ステップS104)。次に、情報処理装置10は、出現頻度と注目度をそれぞれ軸として2次元マップ上に単語をプロットすることでワードマップを生成する(ステップS105)。そして、情報処理装置10は、生成したワードマップを含む表示画面をディスプレイに表示(ユーザ端末に表示画面を送信)させて(ステップS106)、ワードマップ生成処理を終了する。
【0033】
図4は、本発明に係る情報処理装置10における関連単語表示処理の流れを表したフローチャート図である。この
図4に示すように、情報処理装置10における関連単語表示処理は、情報処理装置10において表示中のワードマップ上の単語に対する所定操作(例えば、マウスオーバー)の操作情報を受信することによって開始される(ステップS201)。次に、情報処理装置10は、所定操作が行われた単語の関連単語を読み出す(ステップS202)。次に、情報処理装置10は、ワードマップ上の当該単語から派生させて関連単語を表示させた表示画面を生成する(ステップS203)。そして、情報処理装置10は、生成した表示画面をディスプレイに表示(ユーザ端末に表示画面を送信)させて(ステップS204)、関連単語表示処理を終了する。なお、この
図4に示すフローチャート図は、関連単語表示処理の一例であり、表示中のワードマップ上の単語に対して所定操作を行った際に関連単語を派生させて表示させることができれば内部における処理はどのようなものであってもよい。例えば、
図3に示すフローチャート図におけるステップS105において、単語の関連単語を埋め込んだワードマップを生成しておき、表示中のワードマップ上の単語に対して所定操作が行われたときに埋め込んだ関連単語を即座に表示させるといった処理であってもよい。
【0034】
図5は、本発明に係る情報処理装置10における文書抽出処理の流れを表したフローチャート図である。この
図5に示すように、情報処理装置10における文書抽出処理は、情報処理装置10において表示中のワードマップ上の関連単語に対する所定操作(例えば、シングルクリック)の操作情報を受信することによって開始される(ステップS301)。次に、情報処理装置10は、派生元の単語と当該関連単語とを共に含む文書を抽出する(ステップS302)。そして、情報処理装置10は、抽出した文書を表示させた表示画面をディスプレイに表示(ユーザ端末に表示画面を送信)させて(ステップS303)、文書抽出処理を終了する。
【0035】
次に、文書解析の流れについて具体例を挙げつつ説明を行う。解析対象の文書として、1つの企業の製造する即席カップめんについての口コミサイトの複数の口コミを対象とする場合を例として説明を行う。先ず、一例として、口コミ総数が1000件の状況において、1000件の文書をテキストデータとして取得する。次に、1000件の文書に対して所定の分類規則としてのLDA(Latent Dirichlet Allocation)を適用することで、複数カテゴリに分類する。その結果、1000件の文書がカテゴリ1~カテゴリ5の5つに分類されたものとする。次に、カテゴリ毎に、単語の出現頻度の算出と、単語の注目度の算出を行う。
【0036】
図6は、本発明に係る情報処理装置10において出現頻度の高い単語と注目度の高い単語を抽出した様子の一例を表した説明図である。この
図6は、カテゴリ1~カテゴリ5の5つに分類されたそれぞれのカテゴリ毎に頻出単語と注目単語を抽出した例を示している。このように、カテゴリ毎に頻出単語と注目単語を抽出して一覧表示することも可能であるが、これに基づいてワードマップを生成して表示する機能を備えている。
【0037】
図7は、本発明に係る情報処理装置10において出現頻度と注目度に基づいてワードマップを生成した様子の一例を表した説明図である。この
図7は、
図6におけるカテゴリ1における出現頻度と注目度とに基づいてワードマップを生成した様子を表している。このように、一覧表示ではなく、出現頻度と注目度とを軸として2次元マップ上に各単語をプロットすることで、文書の解析結果を視覚的に把握しやすくなる。例えば、この単語は出現頻度は高いが注目度は低いとか、この単語は出現頻度は中程度だが注目度が非常に高いとか、ワードマップ上の表示位置に基づいて各単語の解析結果を即座に把握することができる。
【0038】
図8は、本発明に係る情報処理装置10において元の単語から関連単語を派生させて表示させる様子の一例を表した説明図である。
図7に示すワードマップを見たユーザが「におい」という単語に関心を持ったとする。この場合に、そのユーザが「におい」という単語の表示個所にマウスポインタをマウスオーバーさせると、
図8に示すように、「におい」の関連単語として、「開け」、「プラスチック」、「油」、「異臭」が表示される。これらの関連単語は「におい」と一緒の文脈で使用されていた単語であるため、「カップめんを開けた瞬間のにおい」、「プラスチックのにおい」、「油のにおい」、「異臭と感じた」などのように、派生元の単語と関連単語とを同時に表示させることで元文書の使用意図を即座に推測することが可能となり、ユーザが文書の解析結果の傾向を把握し易くなるという効果が得られる。また、この関連単語をシングルクリックすることで派生元の単語と関連単語とを共に含む元文書を表示させることができるため、推測した関連単語の使用意図を元文書において簡単に確認することができる。
【0039】
以上のように、本例による情報処理装置によれば、複数の文書をそれぞれテキストデータとして取得し、複数の文書における単語の出現頻度を算出し、複数の文書における単語の注目度を算出し、各単語の出現頻度及び注目度に基づいて、出現頻度と注目度をそれぞれ軸として2次元マップ上に各単語をプロットしたワードマップを生成し、生成したワードマップを含む表示画面を表示用ディスプレイに表示させるようにしたので、複数の文書を解析した結果をユーザに分かり易く提示することが可能となる。
【0040】
また、表示画面上の前記ワードマップのいずれかの単語に対して所定操作がなされた場合、当該単語の関連単語を当該単語の表示位置から派生させて表示させるようにしたので、ワードマップ上の各単語がどのような単語と一緒に使用されているかを関連単語の表示から簡単に把握することが可能となる。
【0041】
さらに、単語の表示位置から派生させて表示させた前記関連単語の何れかに対して所定操作がなされた場合、複数の文書から当該単語及び当該関連単語を共に含む文書を抽出して表示画面上に表示させるようにしたので、派生元の単語と関連単語とが実際の文書内でどのように使用されていたかを簡単に確認することが可能となる。
【0042】
[第2の実施の形態]
第1の実施の形態においては、ワードマップ生成のための軸として、出現頻度と注目度を採用したが、これに限定されるものではなく、単語の評価指標となるものであれば軸として採用可能である。他の軸の一例としては、感情の要素が挙げられる。各単語が良い意味で使用されるものであるか、悪い意味で使用されるものであるか、という感情の要素を判定することができる。単語自身が持つ感情的な要素の他、使用される文脈において単語が纏う感情要素などが考えられる。各単語の感情値の抽出は、一例としては、感情値の抽出について予め学習を行った学習済モデルを利用することが考えられる。各単語について良い感情は値が大きく、悪い感情は値が小さいというような感情値を抽出して、感情値をワードマップの軸とすることで、また異なった解析結果をユーザに提示することが可能となる。
【0043】
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を取ることができる。
【符号の説明】
【0044】
10 サーバ装置(情報処理装置)
11 文書取得部
12 出現頻度算出部
13 注目度算出部
14 関連単語特定部
15 文書抽出部
16 ワードマップ生成部
17 表示部
18 記憶部
20、201~20n ユーザ端末
30 通信ネットワーク