IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-180291有益文章抽出装置、方法、およびプログラム
<>
  • 特開-有益文章抽出装置、方法、およびプログラム 図1
  • 特開-有益文章抽出装置、方法、およびプログラム 図2
  • 特開-有益文章抽出装置、方法、およびプログラム 図3
  • 特開-有益文章抽出装置、方法、およびプログラム 図4
  • 特開-有益文章抽出装置、方法、およびプログラム 図5
  • 特開-有益文章抽出装置、方法、およびプログラム 図6
  • 特開-有益文章抽出装置、方法、およびプログラム 図7
  • 特開-有益文章抽出装置、方法、およびプログラム 図8
  • 特開-有益文章抽出装置、方法、およびプログラム 図9
  • 特開-有益文章抽出装置、方法、およびプログラム 図10
  • 特開-有益文章抽出装置、方法、およびプログラム 図11
  • 特開-有益文章抽出装置、方法、およびプログラム 図12
  • 特開-有益文章抽出装置、方法、およびプログラム 図13
  • 特開-有益文章抽出装置、方法、およびプログラム 図14
  • 特開-有益文章抽出装置、方法、およびプログラム 図15
  • 特開-有益文章抽出装置、方法、およびプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023180291
(43)【公開日】2023-12-21
(54)【発明の名称】有益文章抽出装置、方法、およびプログラム
(51)【国際特許分類】
   G06F 16/332 20190101AFI20231214BHJP
【FI】
G06F16/332
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022093441
(22)【出願日】2022-06-09
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】唐津屋 和喜
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HA01
(57)【要約】
【課題】ユーザ本人も気付かない意外な文章を抽出する。
【解決手段】有益文章抽出装置は、ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、初期有益文章の最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、初期有益文章の最重要単語を置換単語で置き換えた文章である置換後文章を生成し、置換後文章に類似する文章を置換後類似文章として抽出する有益文章抽出部と、置換後類似文章を有益文章としてユーザに提示するデータ表示部と、を有する。
【選択図】図3
【特許請求の範囲】
【請求項1】
プロセッサと主記憶装置を備え、前記プロセッサが前記主記憶装置を利用してソフトウェアプログラムを実行することにより実現される、
ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、前記初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、前記初期有益文章の前記最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、前記初期有益文章の前記最重要単語を前記置換単語で置き換えた文章である置換後文章を生成し、前記置換後文章に類似する文章を置換後類似文章として抽出する有益文章抽出部と、
前記置換後類似文章を有益文章として前記ユーザに提示するデータ表示部と、
を有する有益文章抽出装置。
【請求項2】
前記有益文章抽出部は、BERT(Bidirectional Encoder Representations from Transformers)を用いた自然言語処理により前記置換単語を抽出する、
請求項1に記載の有益文章抽出装置。
【請求項3】
前記有益文章抽出部は、BERT(Bidirectional Encoder Representations from Transformers)のスコアを用いて、前記初期有益文章に類似する前記初期有益類似文章を抽出する、
請求項1に記載の有益文章抽出装置。
【請求項4】
前記有益文章抽出部は、BERT(Bidirectional Encoder Representations from Transformers)のスコアを用いて、前記置換後文章に類似する前記置換後類似文章を抽出する、
請求項1に記載の有益文章抽出装置。
【請求項5】
前記有益文章抽出部は、更に、前記初期有益類似文章の前記最重要単語の位置に最も当てはまる予測確度の高い複合語を置換単語として抽出し、前記初期有益類似文章の前記最重要単語を前記置換単語で置き換えた文章である置換後文章を生成する、
請求項1に記載の有益文章抽出装置。
【請求項6】
取得された文章を蓄積した取得データの各文章を感情分析することにより、前記文章に込められた感情を特定し、前記文章に該感情を表す感情情報を付加する感情分析部を更に有し、
前記データ表示部は、前記初期有益文章の候補の前記感情情報と前記文章とを前記ユーザに提示して前記初期有益文章の選択を促す、
請求項1に記載の有益文章抽出装置。
【請求項7】
前記データ表示部は、前記置換後類似文章を前記初期有益文章との類似度の順にソートして表示する、
請求項1に記載の有益文章抽出装置。
【請求項8】
前記有益文章抽出部は、前記類似度の順に表示された前記置換後類似文章に対する前記ユーザからの評価を取得し、前記評価に基づいて当該置換後類似文章と他の文章との類似度を補正する、
請求項7に記載の有益文章抽出装置。
【請求項9】
ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、
前記初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、
前記初期有益文章の前記最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、
前記初期有益文章の前記最重要単語を前記置換単語で置き換えた文章である置換後文章を生成し、
前記置換後文章に類似する文章を置換後類似文章として抽出し、
前記置換後類似文章を有益文章として前記ユーザに提示する、
ことをコンピュータが実行する、有益文章抽出方法。
【請求項10】
ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、
前記初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、
前記初期有益文章の前記最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、
前記初期有益文章の前記最重要単語を前記置換単語で置き換えた文章である置換後文章を生成し、
前記置換後文章に類似する文章を置換後類似文章として抽出し、
前記置換後類似文章を有益文章として前記ユーザに提示する、
ことをコンピュータに実行させる、有益文章抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキストデータから有益な情報を取得する技術に関する。
【背景技術】
【0002】
ブログやソーシャルネットワーキングサービスなどのソーシャルメディアを用いたテキストによるコミュニケーションが普及し、大量のテキストデータが蓄積されるようになっている。また、企業などのような個々の組織内においても、イントラネットなどで社内のテキストデータの蓄積が進んでいる。
【0003】
近年、このような大量のテキストデータを分析して新たな価値を発見し、企業活動に活かすニーズが高まっている。それとともに、大量のテキストデータから所望の情報を効率的に取得する技術が期待されている。
【0004】
大量のテキストデータから所望の情報を取得する一般的な方法として、全文検索などの検索手法がある。検索手法では、通常、ユーザが自身の所望するテキストデータの特徴を表すキーワードを指定して検索を行う。しかし、大量のテキストデータからキーワード検索によって収集されるデータは膨大となり、ユーザがそれを精査して有益な情報を抽出するには時間がかかる。
【0005】
そのため、ユーザが所望の情報により近い文章を抽出する手法が注目されており、所望の情報に近い文章を抽出する多くの手法が提案されている。一例として、類義語から関連語を特定する方法がある。また、他の例として、参照用文章解析データの単語の分散表現を機械学習により学習し、類似文章を検索する方法がある。
【0006】
更に、特許文献1-3には類似文章を抽出する手法が開示されている。例えば、特許文献1には、対応関係を有する文章を精度良く検索することを目的として、複数の対象テキストについて各々を構成するテキストの構成単位の構成単位ペアの類似度を計算し、その類似度を基にテキストの対応関係を判定する手法が開示されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2020-201607号公報
【特許文献2】特開2010-92108号公報
【特許文献3】特開2021-7024号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述したユーザが所望の情報に近い文章を抽出する手法や特許文献1-3に開示された類似文章を抽出する手法は、いずれも特定の文章に対する類似を判断する手法である。そのため、検索を行うユーザ本人が想定できる想定内の文章を取得することはできる。
【0009】
しかし、ユーザは、ユーザ本人にとって新たな気づきが得られるような有益な情報を得たい場合がある。具体的には以下のユースケースが考えられる。TwitterなどSNS情報を分析し、新たな商品や新たな分野への取り組みを検討したい場合がある。アンケート回答などから、既存回答の傾向と特筆すべき意見を同時に抽出したい場合がある。
【0010】
しかしながら、上述したような特定の文章について類似を判断する手法では、ユーザ本人も気付かない意外な類似文章を抽出することはできない。その結果として、ユーザ本人にとって新たな気付きを得られるような情報が得られない。
【0011】
また、特許文献1の手法では、検索対象として入力されたテキストに類似する文章を抽出するものであるため、本人も気付かない意外な文章を抽出することはできない。特許文献2、3を含む多くの手法も同様である。
【0012】
本開示に含まれるひとつの目的は、ユーザ本人も気付かない意外な文章を抽出することを可能にする技術を提供することである。
【課題を解決するための手段】
【0013】
本開示に係る有益文章抽出装置は、プロセッサと主記憶装置を備え、前記プロセッサが前記主記憶装置を利用してソフトウェアプログラムを実行することにより実現される、ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、前記初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、前記初期有益文章の前記最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、前記初期有益文章の前記最重要単語を前記置換単語で置き換えた文章である置換後文章を生成し、前記置換後文章に類似する文章を置換後類似文章として抽出する有益文章抽出部と、前記置換後類似文章を有益文章として前記ユーザに提示するデータ表示部と、を有する。
【発明の効果】
【0014】
本開示によれば、ユーザ本人も気付かない意外な文章をユーザに提供することができる。
【図面の簡単な説明】
【0015】
図1】実施の形態1に係る有益文章抽出装置のハードウェア構成の一例を示すブロック図である。
図2】実施の形態1に係る有益文章抽出装置1の機能構成の一例を示すブロック図である。
図3】実施の形態1に係る有益文章抽出処理の一例を示すフローチャートである。
図4】実施の形態1に係る文章リスト画面の一例を示す図である。
図5図3に示すステップS300の処理の詳細を示すフローチャートである。
図6図3に示すステップS400の処理の詳細を示すフローチャートである。
図7】各単語の重要度の算出結果の一例を示す図である。
図8図3に示すステップS500の処理の詳細を示すフローチャートである。
図9図3に示すステップS600の処理の詳細を示すフローチャートである。
図10図3に示すステップS700の処理の詳細を示すフローチャートである。
図11】有益度に関する分布の一例を示すグラフである。
図12図3のステップS1000における有益文章リストの表示例を示す図である。
図13】実施の形態1に係るフィードバック画面の一例を示す図である。
図14図3のステップS1100の処理を示すフローチャートである。
図15】実施の形態1に係る置換後類似文章画面の一例を示す図である。
図16図3のステップS1200の処理の詳細を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、ユーザにとって有益な文章(以下、有益文章という)を抽出する有益文章抽出装置および有益文章抽出方法について、図面を用いて説明する。
【0017】
有益文章は、ユーザが所望する文章に近い文章であり、かつユーザが新たな気付きを得らえる可能性のある文章である。具体的には、有益文章は以下の2つの条件を満たす文章であってよい。
【0018】
(1)所望している文章に、文章ベクトル的に近い文章
【0019】
(2)所望している文章から、新たな気付きを得ることができる文章
なお、以下に説明する実施の形態は本発明をその範囲に限定するものではない。また、実施の形態において説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0020】
(実施の形態1)
図1は、実施の形態1に係る有益文章抽出装置のハードウェア構成の一例を示すブロック図である。
【0021】
有益文章抽出装置1は、プロセッサ2、主記憶装置3、補助記憶装置4、入力装置5、出力装置6、及び、通信装置7を備える。
【0022】
プロセッサ2は、主記憶装置3からプログラム及びデータを読み出して実行することにより、本実施の形態にて説明する種々の機能を実現する。すなわち、以下の説明にて有益文章抽出装置1が主体として行う処理は、プロセッサ2が行う処理に読み替えることができる。
【0023】
主記憶装置3は、プログラム及びデータ等を記憶する。主記憶装置3は、ROM(Read Only Memory)及びRAM(Random Access Memory)を含んでよい。
【0024】
補助記憶装置4は、不揮発性記憶媒体にて構成され、プログラム及びデータ等を記憶する。補助記憶媒体の例として、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が挙げられる。
【0025】
入力装置5は、ユーザからの入力を受け付ける。入力装置5の例として、キーボード、マウス、タッチパッド、カメラ、マイク等が挙げられる。
【0026】
出力装置6は、プロセッサ2による処理結果を出力する。出力装置6の例として、ディスプレイ、スピーカ等が挙げられる。
【0027】
通信装置7は、他の装置とデータの送受信を行う。通信装置7が対応する通信規格の例として、Ethernet、Wi-Fi、Bluetooth、LTE、4G、5G等が挙げられる。
【0028】
また、有益文章抽出装置1は、外部記憶媒体8が接続されてもよい。外部記憶媒体8の例として、USBメモリ、外付けHDD、DVD(Digital Versatile Disc)等が挙げられる。
【0029】
図2は、実施の形態1に係る有益文章抽出装置1の機能構成の一例を示すブロック図である。
【0030】
有益文章抽出装置1は、機能として、データ取得部15、感情分析部20、有益文章抽出部30、データ表示部50、及び、情報記憶部17を有する。
【0031】
情報記憶部17は、メディアデータ格納部60、感情分析データ格納部70、有益文章データ格納部80、置換後文章データ格納部81、他データ格納部90を含む。
【0032】
データ取得部15は、クエリ12を生成し、外部メディア装置10へ送信する。データ取得部15は、外部メディア装置10から、送信したクエリ12に対応するメディアデータ13を受信する。データ取得部15は、テキストアップローダ11からテキスト14を受信する。データ取得部15は、受信したメディアデータ13及びテキスト14を取得データ16として、情報記憶部17のメディアデータ格納部60に格納する。
【0033】
感情分析部20は、情報記憶部17のメディアデータ格納部60からテキスト21を取得し、テキスト21についての感情分析を行い、その分析結果を含む処理済みデータ22を情報記憶部17の感情分析データ格納部70に格納する。
【0034】
有益文章抽出部30は、情報記憶部17の感情分析データ格納部70からテキスト31を取得する。また、有益文章抽出部30は、ユーザに選択された有益文章が入力される。有益文章抽出部30は、テキスト31に基づいて、有益文章の一部単語を置換した置換後文章を生成し、処理済みデータ32として情報記憶部17に格納する。例えば、有益文章抽出部30は、有益文章を有益文章データ格納部80に格納し、置換後文章を置換後文章データ格納部81に格納する。また、有益文章抽出部30は、ユーザに選択されたフィードバック文章又は置換後文章が入力されてもよい。
【0035】
データ表示部50は、情報記憶部17から検索条件51に適合するデータを、処理済みデータ52として取得し、表示する。例えば、データ表示部50は、置換後文章又は置換後文章に類似する文章等を表示する。
<有益文章抽出処理>
図3は、実施の形態1に係る有益文章抽出処理の一例を示すフローチャートである。図4は、実施の形態1に係る文章リスト画面の一例を示す図である。
【0036】
有益文章抽出部30は、何らかの単語で絞った文章リストを表示する(S100)。有益文章抽出部30は、ステップS101にて表示した文章リストから、ユーザにとって有益と思われる文章(以下、初期有益文章という)を、当該ユーザに選択させる(S200)。
【0037】
例えば、有益文章抽出部30は、図4に示すような、何らかの単語で絞った文章リストを表示し、ユーザは、表示された文章リストから、初期有益文章を1つ選択する。ただし、ユーザが複数の初期有益文章を選択してもよい。この場合の処理については、実施の形態3にて説明する。
【0038】
また、図4に示すように、文章リストには、各文章に関する感情情報が合わせて表示されてもよい。例えば、図4に示すように、文章に込められた「Sentiment」と「Emotion」とが感情情報として表示されてもよい。ユーザは、初期有益文章の選択において、感情情報を参考にしてもよい。例えば、ユーザは、自分の感情と類似する感情情報が対応付けられている文章を、初期有益文章として選択してもよい。
【0039】
すなわち、感情分析部20は、取得された文章を蓄積した取得データの各文章を感情分析することにより、文章に込められた感情を特定し、文章に該感情を表す感情情報を付加する。そして、データ表示部50は、初期有益文章の候補の感情情報と文章とをユーザに提示して初期有益文章の選択を促してよい。これにより、ユーザは文章に込められた感情を考慮して初期有益文章を選択することが可能となる。
【0040】
次に、有益文章抽出部30は、ステップS200にて選択された初期有益文章との類似度が所定の閾値以上である文章(以下、初期有益類似文章という)を文章リストから抽出する(S300)。なお、本処理の詳細については後述する(図5参照)。
【0041】
次に、有益文章抽出部30は、初期有益類似文章を用いて重要度の高い単語を取得する(S400)。なお、本処理の詳細については後述する(図6参照)。
【0042】
次に、有益文章抽出部30は、初期有益文章の中の重要度の高い単語をMASKして予測確度の高い置換単語に置換し、置換後文章を生成する(S500)。なお、本処理の詳細については後述する(図8参照)。
【0043】
次に、有益文章抽出部30は、ステップS500にて生成した置換後文章との類似度が所定の閾値以上である文章(以下、置換後類似文章という)を文章リストから抽出する(S600)。なお、本処理の詳細については後述する(図9参照)。
【0044】
次に、有益文章抽出部30は、置換後類似文章の類似度を補正し、有益文章リストを生成する(S700)。なお、本処理の詳細については後述する(図10参照)。
【0045】
次に、有益文章抽出部30は、初期有益文章のMASKした所を、予測確度が2番目以降の置換単語に置き換えるか否かを判定する(S800)。なお、この置き換えを行うか否かの判定は、ユーザによって指示されてよい。この置き換えを行うと判定した場合(S800:YES)、有益文章抽出部30は、処理をステップS500に戻し、ステップS500にて、MASKした所を予測確度が2番目以降の置換単語に置き換える。この置き換えを行わないと判定した場合(S800:NO)、有益文章抽出部30は、処理を次のステップS900に進める。
【0046】
次に、有益文章抽出部30は、初期有益文章の中で重要度が2番目以降の単語をMASKするか否かを判定する(S900)。なお、このMASKを行うか否かの判定は、ユーザによって指示されてよい。このMASKを行うと判定した場合(S900:YES)、有益文章抽出部30は、処理をステップS400に戻し、ステップS400にて、初期有益類文章の中の重要度が2番目以降の1つの単語をMASKする。このMASKを行わないと判定した場合(S900:NO)、有益文章抽出部30は、処理を次のS1000に進める。
【0047】
次に、データ表示部50は、少なくとも1つの置換後類似文章を含む有益文章リストを表示する(S1000)。このとき、データ表示部50は、複数の置換後類似文章を類似度の高い順にソートした有益文章リストを表示してよい。類似度は、F1(適合率と再現率の調和平均)に基づく値であってよい。ただし、類似度は、F1に限らず、F0.5(適合率重視)、又は、F2(再現率重視)であってもよい。
【0048】
次に、有益文章抽出部30は、ステップS1000で表示した有益文章リストに対するユーザからの評価フィードバックを受ける(S1100)。
【0049】
次に、有益文章抽出部30は、ステップS1100のユーザからの評価フィードバックを受けて、置換後類似文章の並べ替え処理を行う(S1200)。そして、本処理は終了する。
【0050】
上述した処理は次のように表現できる。すなわち、有益文章抽出部30は、ユーザが有益として選択した文章である初期有益文章に類似する文章を初期有益類似文章として抽出し、初期有益類似文章に含まれる単語のうち最も重要度の高い単語を最重要単語として特定し、初期有益文章の最重要単語の位置に最も当てはまる予測確度の高い単語を置換単語として抽出し、初期有益文章の最重要単語を置換単語で置き換えた文章である置換後文章を生成し、置換後文章に類似する文章を置換後類似文章として抽出する。そして、データ表示部50は、置換後類似文章を有益文章としてユーザに提示する。これにより、ユーザが指定した文章の最重要単語を予測確度の高い単語で置き換えて類似文章を抽出するので、ユーザ本人も気付かない意外な有益文章を抽出することが可能となる。
<ステップS300の詳細>
図5は、図3に示すステップS300の処理の詳細を示すフローチャートである。次に、図5を参照して、初期有益文章との類似度が所定の閾値以上である初期有益類似文章を文章リストから抽出する処理(S300)の詳細を説明する。
【0051】
有益文章抽出部30は、ステップS200でユーザに選択された1又は複数の初期有益文章の中から1つを選択する(S301)。図5の説明において、ステップS301で選択された初期有益文章を、選択初期有益文章という。
【0052】
次に、有益文章抽出部30は、選択初期有益文章に対する、ステップS101の文章リストに含まれる各文章の類似度を算出する(S302)。
【0053】
有益文章抽出部30は、BERTScoreと呼ばれる評価基準を用いて、文章間の類似度を算出してよい。これにより、有益文章抽出部30は、精度の良い類似度を算出できる。
【0054】
具体的には、有益文章抽出部30は、初期有益文章の文章ベクトルと、文章リストに含まれる各文章の文章ベクトルとを算出し、2つの文章ベクトル間の類似度を評価する。2つの文章ベクトル間の類似度を評価する指標として、コサイン類似度が用いられてよい。
【0055】
BERTScoreは、事前学習されたBERTから得られるベクトル表現を利用して、テキスト間の類似度を計算する評価手法である。BERTスコアは、教師なし学習で質の高いベクトル表現が得られ、ディープラーニング分野の世界最大カンファレンス「ICLR2020」でも承認されている手法である。
【0056】
次に、有益文章抽出部30は、選択初期有益文章の各文章との類似度の最大値と平均値とを取得する(S303)。
【0057】
次に、有益文章抽出部30は、ステップS301にてすべての初期有益文章を選択したか否かを判定する(S304)。
【0058】
まだ選択されていない初期有益文章が残っている場合(S304:NO)、有益文章抽出部30は、処理をステップS301に戻し、まだ選択されてない初期有益文章の1つを選択する。
【0059】
すべての初期有益文章が選択された場合(S304:YES)、有益文章抽出部30は、文章リストの各文章(初期有益類似文章)を類似度の高い順にソートする(S305)。
【0060】
類似度は、1~0.5の間の値をとり、値が大きいほど2つの文章が類似していることを示してよい。したがって、2つの文章が同じ文章である場合、類似度は「1」となる。なお、類似度の指標として、F1(適合率と再現率の調査平均)が用いられてよい。ただし、類似度の指標として、F0.5(適合率重視)、又は、F2(再現率重視)が用いられてもよい。
【0061】
例えば、初期有益文章が以下の(A0)であり、文章リストの各文章(初期有益類似文章)が以下の(B1)~(B4)であるとする。
(A0)『スポーツの中ではサッカーが好きです。日本人が活躍するので』
(B1)『スポーツの中でサッカーが好き』
(B2)『日本人に一番人気があるのはサッカーです』
(B3)『ゲームの中で野球が好き。日本人が活躍するので』
(B4)『政治に興味ある人はご連絡ください』
この場合、例えば、初期有益文章(A0)と各初期有益類似文章(B1)~(B4)との間の類似度は次のように算出される。
(A0)と(B1)の類似度=0.9
(A0)と(B2)の類似度=0.8
(A0)と(B3)の類似度=0.7
(A0)と(B4)の類似度=0.6
上述した処理は次のように表現できる。すなわち、有益文章抽出部30は、BERT(Bidirectional Encoder Representations from Transformers)のスコアを用いて、初期有益文章に類似する初期有益類似文章を抽出する。このように、BERTを用いることにより好適な初期有益類似文章を抽出することができる。
<ステップS400の詳細>
図6は、図3に示すステップS400の処理の詳細を示すフローチャートである。図7は、各単語の重要度の算出結果の一例を示す図である。次に、図6及び図7を参照して、初期有益類似文章の各単語の重要度を取得する処理(S400)の詳細を説明する。
【0062】
有益文章抽出部30は、複数の初期有益類似文章の中から1つを選択する(S401)。図6の説明において、ステップS401で選択された初期有益類似文章を、選択初期有益類似文章という。
【0063】
有益文章抽出部30は、選択初期有益類似文章に含まれる各単語の重要度を算出する(S402)。選択初期有益類似文章に含まれる各単語の重要度を算出する方法として、例えば、「C-laei」又は「TF-IDF」といった公知技術が知られている。「C-laei」は、株式会社言語理解研究所が開発した日本語の言語解析エンジンであり、文章に含まれる単語の重要度を算出することもできる。
【0064】
重要度は、1~0の間の値をとり、値が大きい単語ほど文章内での重要性が大きいことを示してよい。一般的に、接続詞の単語は重要度が低くなる傾向にあり、名詞の単語は重要度が高くなる傾向にある。
【0065】
例えば、上述した初期有益類似文章(B1)~(B4)に含まれる各単語の重要度は、図7に示すように算出される。
【0066】
次に、有益文章抽出部30は、ステップS401にてすべての初期有益類似文章が選択されたか否かを判定する(S403)。
【0067】
まだ選択されていない初期有益類似文章が残っている場合(S403:NO)、有益文章抽出部30は、処理をステップS401に戻し、まだ選択されてない初期有益類似文章の1つを選択する。
【0068】
すべての初期有益類似文章が選択された場合(S403:YES)、有益文章抽出部30は、本処理を終了する。
<ステップS500の詳細>
図8は、図3に示すステップS500の処理の詳細を示すフローチャートである。次に、図8を参照して、初期有益文章の重要度の高い単語をMASKして置換単語に置き換え、置換後文章を生成する処理(S500)の詳細を説明する。
【0069】
有益文章抽出部30は、BERTの日本語学習モデル(以下、BERTモデルという)をロードする(S501)。当該BERTモデルの例として、東北大学の乾研究室が作成した「bert-base-japanese-whole-word-masking」が挙げられる。
【0070】
次に、有益文章抽出部30は、初期有益文章の中の重要度の高い単語を、[MASK]という特殊トークンに置き換える(S502)。例えば、上述した文章の中で重要度の最も高い単語は図7に示すように「サッカー」であるため、有益文章抽出部30は、以下の文章(M1)に示すように、文章(A0)の「サッカー」を[MASK]に置き換える。
【0071】
(M1)『スポーツの中では[MASK]が好きです。日本人が活躍するので』
なお、有益文章抽出部30は、重要度が2番目以降の単語を[MASK]に置き換えてもよい。
【0072】
次に、有益文章抽出部30は、ステップS502にて[MASK]に置き換えた文章を符号化し、S501にてロードしたBERTモデルを用いて、[MASK]に入る置換単語(トークン)とそのスコアを得る(S503)。例えば、有益文章抽出部30は、Transfomersが提供するクラスBertForMaskerLMに符号化した文章を入力し、BERTモデルから得られる最終レイヤの出力に対して線形変換を行い、置換単語とそのスコアを計算する。
【0073】
次に、有益文章抽出部30は、ステップS503の結果から、スコアが上位(例えば1位から3位)の置換単語とそのスコアを取得する(S504)。例えば、有益文章抽出部30は、上記の文章(M1)の[MASK]に入る置換単語とそのスコアとして、次の3つを得る。
・置換単語:野球、スコア:10.5
・置換単語:サッカー、スコア:10.2
・置換単語:バスケットボール、スコア:7.2
次に、有益文章抽出部30は、[MASK]を複数設定するか否かを判定する(S505)。当該ステップS505の判定は、ユーザによって決定されてよい。[MASK]の複数設定については後述する。
【0074】
[MASK]を複数設定しないと判定した場合(S505:NO)、有益文章抽出部30は、文章(M1)の[MASK]にスコアの最も高い置換単語を入れて置換後文章を生成する(S508)。例えば、有益文章抽出部30は、上記の文章(M1)の[MASK]にスコアが10.5と最も高い置換単語「野球」を入れて、次の置換後文章(A1)を得る。
【0075】
(A1)『スポーツの中では野球が好きです。日本人が活躍するので』
このように、重要度の高い単語を、BERTモデルを用いて算出したスコア(予測確度)の最も高い置換単語に置き換えた置換後文章を生成することにより、ユーザが新たな気づきを得られる有益文章を提供できる。ここで、スコアの高い置換単語は、一般的でよく使われる単語でありかつ[MASK]の箇所によく当て嵌まる単語である。例えば、スコアの高い置換単語は、類似する文章にてインターネットでよく検索されている単語である。これにより、大多数のユーザにヒットする有益文章を提供できる。
【0076】
上述した内容は次のように表現できる。すなわち、有益文章抽出部30は、BERT(Bidirectional Encoder Representations from Transformers)を用いた自然言語処理により置換単語を抽出する。このように、BERTを用いることにより好適な置換単語を抽出することができる。
【0077】
次に、ステップS505において、[MASK]を複数設定すると判定した場合(S505:YES)について説明する。以下に[MASK]を2つ設定した文章(M2)の一例を示す。[MASK]を複数設定するというのは、該当箇所の置換単語に、複数の単語で構成される単語(例えば複合語)を含めることを意味する。
(M2)『スポーツの中では[MASK][MASK]が好きです。日本人が活躍するので』
以下に、文章(M2)の[MASK][MASK]に入る2つの単語(例えば複合語)とその場合のスコアの例を示す。
・2つの単語:サッカーゲーム、スコア:15.6(補正後スコア:7.8)
・2つの単語:東京五輪、スコア:10.2(補正後スコア:5.1)
次に、複数の[MASK]に入る単語を決定する方法について説明する。
【0078】
まず、有益文章抽出部30は、文章内の複数の[MASK]にスコアが上位の単語を入れた文章を生成する(S506)。このとき、有益文章抽出部30は、複数の文章を生成してよい。
【0079】
次に、有益文章抽出部30は、ステップS506で生成した複数の文章の中から、複数の[MASK]に入れた複数の単語のスコアの合計(以下、合計スコアという)を補正したスコア(以下、補正スコアという)が最も高い文章を選択する(S507)。補正スコアとは、合計スコアを入力した単語の数で除算した値であってよい。[MASK]の数が増えると合計スコアも大きくなるので、それを補正するためである。
【0080】
次に、有益文章抽出部30は、文章中の複数の[MASK]に、ステップS507で選択した文章に入力された複数の単語(つまり補正スコアが最も高い複数の単語)を入れて、置換後文章を生成する(S508)。
【0081】
上述した内容は次のように表現できる。すなわち、有益文章抽出部30は、初期有益類似文章の最重要単語の位置に最も当てはまる予測確度の高い複合語を置換単語として抽出し、初期有益文章の最重要単語を置換単語で置き換えた文章である置換後文章を生成する。これにより、初期有益文章の最重要単語の位置に複合語を当て嵌めた置換後文章を作成することができる。
<ステップS600の詳細>
図9は、図3に示すステップS600の処理の詳細を示すフローチャートである。次に、図9を参照して、置換後文章との類似度が所定の閾値以上である置換後類似文章を文章リストから抽出する処理(S600)の詳細を説明する。
【0082】
有益文章抽出部30は、置換後文章を1つ選択する(S601)。以下、図9の説明において、ステップS601で選択した置換後文章を選択置換後文章という。
【0083】
有益文章抽出部30は、選択置換後文章に対する、文章リストの各文章の類似度を算出する(S602)。
【0084】
有益文章抽出部30は、共通で抽出された文章について、類似度の最大値と平均値を取得する(S603)。
【0085】
有益文章抽出部30は、ステップS601にてすべての置換後文章を選択したか否かを判定する(S604)。
【0086】
まだ選択されていない置換後文章が残っている場合(S604:NO)、有益文章抽出部30は、処理をステップS601に戻し、まだ選択されていない置換後文章の1つを選択する。
【0087】
すべての置換後文章が選択された場合(S604:YES)、有益文章抽出部30は、文章リストの各文章(置換後類似文章)を、類似度(F1)の大きい順にソートする(S605)。
【0088】
例えば、有益文章抽出部30は、図9に示す処理により、上記の置換後文章(A1)『スポーツの中では野球が好きです。日本人が活躍するので』に対して類似度の大きい以下の置換後類似文章(C1)~(C4)を得る。
(C1)『スポーツの中でサッカーが好き』(置換後文章(A1)との類似度は0.8)(初期有益文章(A0)との類似度は0.9)
(C2)『日本人に一番人気があるのはサッカーです』(置換後文章(A1)との類似度は0.7)(初期有益文章(A0)との類似度は0.8)
(C3)『ゲームの中で野球が好き。日本人が活躍するので』(置換後文章(A1)との類似度は0.87)(初期有益文章(A0)との類似度は0.7)
(C4)『政治に興味ある人はご連絡ください』(置換後文章(A1)との類似度は0.6)(初期有益文章(A0)との類似度は0.6)
ここでは、置換単語を「野球」とした文章も有益文章として抽出している。「野球」という単語は、[MASK]以外の単語(関連語)から[MASK]の箇所に当て嵌まるとして導出された結果であり、「サッカー」と同じ因子を持っている可能性が高い。よって、「サッカー」が好きな人は、「スポーツ」、「日本人が活躍」といった関連語から導出された「野球」について、本人が気づいていない(又は知らない)だけで、興味を示す可能性が高い。すなわち、「野球」に置換された文章から、「サッカー」が好きな人が、新たな気づきを得ることが期待できる。
【0089】
上述した処理は次のように表現できる。すなわち、有益文章抽出部30は、BERT(Bidirectional Encoder Representations from Transformers)のスコアを用いて、置換後文章に類似する置換後類似文章を抽出する。このように、BERTを用いることにより、好適な置換後類似文章を抽出することができる。
<ステップS700の詳細>
図10は、図3に示すステップS700の処理の詳細を示すフローチャートである。次に、図10を参照して、類似度を補正し、有益文章リストを生成する処理(S700)について説明する。
【0090】
有益文章抽出部30は、初期有益文章(A0)に対する文章リストの各文章の類似度を再計算する(S701)
有益文章抽出部30は、置換後文章(A1)に対する文章リストの各文章の類似度を再計算する(S702)。
【0091】
有益文章抽出部30は、ステップS701とS702の結果を合わせて、文章リストの各文章を、類似度(F1)の最大値が近い順にソートし、有益文章リストとする(S703)。
【0092】
以下、例文を用いて説明する。
【0093】
ステップS701の類似度の再計算は、基本的にそのままの評価、つまり等倍としてよい。そのため計算式は「初期有益文章との類似度×1」となる。
【0094】
ステップS702の類似度の再計算は、例えば次のように行われる。なお、初期有益文章(A0)と置換後文章(A1)との間の類似度を0.9として説明する。また、(B1)~(B4)は文章リストの各文章である。
(A0)『スポーツの中ではサッカーが好きです。日本人が活躍するので』
(B1)『スポーツの中でサッカーが好き』(初期有益文章(A0)との類似度は0.9)
(B2)『日本人に一番人気があるのはサッカーです』(初期有益文章(A0)との類似度は0.8)
(B3)『ゲームの中で野球が好き。日本人が活躍するので』(初期有益文章(A0)との類似度は0.7)
(B4)『政治に興味ある人はご連絡ください』(初期有益文章(A0)との類似度は0.6)
(A1)『スポーツの中では野球が好きです。日本人が活躍するので』
(B1)『スポーツの中でサッカーが好き』(置換後文章(A1)との類似度は0.8)
(B2)『日本人に一番人気があるのはサッカーです』(置換後文章(A1)との類似度は0.7)
(B3)『ゲームの中で野球が好き。日本人が活躍するので』(置換後文章(A1)との類似度は0.87)
(B4)『政治に興味ある人はご連絡ください』(置換後文章(A1)との類似度は0.6)
本実施の形態の目的は、初期有益文章に関する有益文章の抽出である。よって、初期有益文章と置換後文章とが大きく異なる場合、類似度を補正する必要がある。
【0095】
上記の例では、初期有益文章と置換後文章との類似度が0.9であり、2つの文章の類似性は高いが、本実施の形態の内容を繰り返し実行することにより、2つの文章の類似度が低くなる可能性がある。このような場合、類似度を補正する必要がある。例えば、置換後文章に対する各文章の類似度を、初期有益文章と置換後文章との間の類似度を用いて補正する。例えば、次のように補正される。
【0096】
置換後文章に対する補正後の類似度=置換後文章に対する類似度-((1-初期有益文章と置換後文章との間の類似度)÷2)
ここで、2で除算している理由は、類似度は1~0.5の間をとるためである。
【0097】
下記の例では、((1-初期有益文章と置換後文章との間の類似度)÷2)が0.05であるので、置換後文章(A1)に対する補正後の類似度は、置換後文章(A1)に対する類似度からそれぞれ0.05を減算した値となっている。
【0098】
(A1)『スポーツの中では野球が好きです。日本人が活躍するので』
(B1’)『スポーツの中でサッカーが好き』:(置換後文章(A1)に対する補正後の類似度0.75(補正前は0.8))
(B2’)『日本人に一番人気があるのはサッカーです』:(置換後文章(A1)に対する補正後の類似度0.65(補正前は0.7))
(B3’)『ゲームの中で野球が好き。日本人が活躍するので』:(置換後文章(A1)に対する補正後の類似度0.82(補正前は0.87))
(B4’)『政治に興味ある人はご連絡ください』:(置換後文章(A1)に対する補正後の類似度0.55(補正前は0.6))
そして、ステップS703の処理を行うと、ソートの結果は以下のようになる。
初期有益文章(A0)『スポーツの中ではサッカーが好きです。日本人が活躍するので』に対する有益文章リスト(有益な順)
【0099】
(B1)『スポーツの中でサッカーが好き』:類似度0.9
(B3’)『ゲームの中で野球が好き。日本人が活躍するので』:類似度0.82
(B2)『日本人に一番人気があるのはサッカーです』:類似度0.8
(B4)『政治に興味ある人はご連絡ください』:類似度0.6
本実施の形態によれば、重要度の高い単語を置換単語に置き換えた置換後文章を用いることで、文章リストから抽出された各文章を、(B1)>(B2)>(B3)>(B4)の順ではなく、(B2)と(B3)の順番が逆となった、(B1)>(B3’)>(B2)>(B4)の順に、有益文章リストとして表示できる。よって、ユーザに、より新しい気付きを与える得ることができる。
【0100】
図11は、抽出された文章と初期有益文章との類似度の分布の一例を示すグラフである。なお、ここでいう類似度は適合率と再現率とで表されるものとし、図11のグラフにおいて、横軸は適合率を示し、縦軸は再現率を示す。(a)は、初期有益類似文章の初期有益文章に対する類似度に関する分布を示す。(b)は、置換後類似文章の初期有益文章に対する補正後の類似度に関する分布を示す。(b)の適合率の範囲が概ね(a)の適合率の範囲と同程度となるように補正がされている。
【0101】
(a)と(b)とを比べると、一定以上の類似度を得ながら分布形状が変化していることが分かる。このことから、初期有益文章から置換後文章を生成しその置換後文章に類似する文章を抽出して加えることにより、初期有益文章に類似する文章だけを抽出するより、より新たな気づきをユーザに与える幅の広い文章を抽出できることが分かる。
<ステップS1000の詳細>
図12は、図3のステップS1000における有益文章リストの表示例を示す図である。
【0102】
図12に示すように、データ表示部50は、抽出された各文章を所定の有益順で並び替えた有益文章リストを表示する。
【0103】
有益順は特に限定されないが、例えば初期有益文章との類似度で順序付けてもよい。例えば、初期有益文章に対するF1(適合率と再現率の調和平均)の大きい順であってよい。あるいは、有益順は、F0.5(適合率重視)の大きい順であってもよいし、F2(再現率重視)の大きい順であってもよい。また、初期有益文章が複数選択された場合は、それら初期有益文章に対するF1(F0.5またはF2でもよい)の平均値が大きい順、又は、初期有益文章に対するF1(F0.5またはF2でもよい)の最大値が大きい順であってもよい。
【0104】
上述した内容は次のように表現できる。すなわち、データ表示部50は、置換後類似文章を初期有益文章との類似度の順にソートして表示する。これにより、ユーザが選択した初期有益文章との類似度の順で置換後類似文章(最終的な有益文章)を表示するので、新たな気づきを得たいユーザの利便性が高まる。
<ステップS1100の詳細>
図13は、実施の形態1に係るフィードバック画面の一例を示す図である。図14は、図3のステップS1100の処理の詳細を示すフローチャートである。次に、図13及び図14を参照して、ユーザから評価フィードバックを受ける処理(S1100)の詳細を説明する。
【0105】
有益文章抽出部30は、図13に示すフィードバック画面にて、有益文章リストの中で、ためになった文章をユーザに選択させる(S801)。図14の説明において、ステップS801にて選択された文章を、選択文章という。
【0106】
有益文章抽出部30は、選択文章に対する文章リストの各文章の類似度を算出する(S802)。
【0107】
有益文章抽出部30は、選択文章に対する類似度が所定の第1閾値以上である文章(類似性の高い文章)の類似度を補正する(S803)。例えば、類似度×120%として補正する。
【0108】
有益文章抽出部30は、選択文章に対する類似度が所定の第2閾値以下である文章(類似性の低い文章)の類似度を補正する(S804)。例えば、類似度×80%として補正する。
【0109】
有益文章抽出部30は、S801にて文章リストすべての文章を選択したか否かを判定する(S805)。
【0110】
まだ選択していない文章が残っている場合(S805:NO)、有益文章抽出部30は、処理をステップS801に戻し、未選択の文章の1つを選択する。
【0111】
すべての文章を選択した場合(S805:YES)、有益文章抽出部30は、各文章を類似度(F1)の大きい順にソートする(S806)。
【0112】
上述した内容は次のように表現できる。すなわち、有益文章抽出部30は、類似度の順に表示された置換後類似文章に対するユーザからの評価を取得し、評価に基づいて当該置換後類似文章と他の文章との類似度を補正する。これにより、ユーザからの評価に基づいて類似度を補正するので、類似度の順に表示される置換後類似文章についてのユーザの利便性が高まる
<ステップS1200の詳細>
図15は、実施の形態1に係る置換後類似文章画面の一例を示す図である。図16は、図3のステップS1200の処理の詳細を示すフローチャートである。次に、図15及び図16を参照して、置換後類似文書の並べ替え理を説明する。
【0113】
有益文章抽出部30は、図15に示す置換後類似文章画面にて、ユーザに、ためになった置換後類似文章を1つ選択させる(S901)。図16の説明において、ステップS901で選択された置換後類似文章を、選択置換後類似文章という。
【0114】
有益文章抽出部30は、選択置換後類似文章に対する、ステップS101の文章リストに含まれる各文章の類似度を算出する(S902)。
【0115】
有益文章抽出部30は、共通で抽出された文章について、類似度の最大値と平均値を取得する(S903)。
【0116】
有益文章抽出部30は、ステップS901にてすべての置換後類似文章を選択したか否かを判定する(S904)。
【0117】
まだ選択されていない置換後類似文章が残っている場合(S904:NO)、有益文章抽出部30は、処理をステップS901に戻し、未選択の置換後類似文章の1つを選択する。
【0118】
すべての置換後類似文章が選択された場合(S904:YES)、有益文章抽出部30は、各置換後類似文章を類似度(F1)の大きい順にソートする(S905)。
【0119】
(実施の形態2)
実施の形態1では、初期有益文章(A0)の中の重要度が一番高い単語を[MASK]して置換後文章(A1)を得た。しかし、初期有益文章(A0)の中の重要度が二番目に高い単語「スポーツ」(図7参照)を[MASK]して、以下の文章(M3)を得てもよい。
【0120】
(M3)『[MASK]の中ではサッカーが好きです。日本人が活躍するので』
上記文章(M3)の[MASK]に入る置換単語として、例えば「テレビ番組」が選ばれる可能性がある。この場合、「テレビ番組」と関連する文章が抽出される可能性がある。すなわち、実施の形態1とは異なる有益文章が抽出される可能性がある。
【0121】
このように、本実施の形態によれば、置換単語を変えることにより、文章ベクトルが大きく異なる有益文章が抽出でき、ユーザに様々な視点から新たな気づきを与えることができる。
【0122】
また、図3のステップS900の判定を「YES」として処理を続けることにより、重要度の高さが一番である単語を[MASK]にするだけでなく、重要度の高さが二番目以降の単語も順次[MASK]にできる。これにより、文章を構成する異なる位置の単語を[MASK]にして置換単語を入れることで、様々な類似文章を抽出できるので、ユーザに様々な視点から新たな気づきを与えることができる。
【0123】
また、図3のステップS800の判定を「YES」として処理を続けることにより、上記の文章(M3)の[MASK]に入る置換単語として、「テレビ番組」よりも予測確度の低い「ゲーム」が選ばれる可能性がある。この場合も、文章ベクトルが大きく異なる有益文章が抽出でき、ユーザに様々な視点から新たたな気づきを与えることができる。
【0124】
(実施の形態3)
実施の形態1では、図3のステップS200にて、ユーザに1つの初期有益文章を選択させたが、ユーザに複数の初期有益文章を選択させて、それらを基に有益文章を抽出することにしてもよい。
【0125】
例えば、図3のステップS200にて、以下の(A0)、(A2)の2つの初期有益文章が選択されたとする。
【0126】
(A0)『スポーツの中ではサッカーが好きです。日本人が活躍するので』
(A2)『コロナの影響で外での部活が難しくなったが、解決策も無い』
このとき、以下に示す2つの方法を適宜選択または組み合わせ、(方法1)及び/又は(方法2)によって、有益文章を抽出してよい。
【0127】
(方法1): 文章(A0)と文章(A2)から共通で抽出された文章については、類似度の「平均値」を算出し、各文章について、平均値の大きい順に有益とみなす。
(方法2): 文章(A0)と文章(A2)から共通で抽出された文章については、類似度の「最大値」を取得し、各文章について、最大値の大きい順に有益とみなす。
【0128】
ユーザに、図13に示すようなフィードバック画面を表示し、ユーザからの評価フィードバックに基づいて、調整を行ってよい。例えば、次の処理を行ってよい。
・ユーザがためになったと選択した文章を、「初期有益文章」の候補の一部として追加する。
・各初期有益文章についてユーザがためになったと選択した文章との類似度が大きいか小さいかによって(つまり(類似性が高いか低いか)、各初期有益文章と他の文章との類似度を補正する。このとき、上記(方法1)では、単純な平均値ではなく、「補正した類似度の平均値」を算出する。
【0129】
上記の補正方法として、次の例が挙げられる。
(補正方法1)ユーザがためになったと選択した文章との類似度が所定値よりも大きい初期有益文章について、他の文章との類似度を120%と補正する。つまり、判定に大きく関与させる。
(補正方法2)ユーザがためになったと選択した文章との類似度が所定値よりも小さい初期有益文章について、他の文章との類似度を80%と補正する。つまり、判定への関与を小さくさせる。
【0130】
(実施の形態4)
実施の形態1では、ユーザが選択した初期有益文章(A0)を起点として処理を行って有益文章リストを作成しユーザに提示したが、その処理の中で生じる置換後文章(A1)を起点として処理を起点として更に有益文章リストを作成する処理を行うことにしてもよい。
(A0)『スポーツの中ではサッカーが好きです。日本人が活躍するので』
(A1)『スポーツの中では野球が好きです。日本人が活躍するので』
例えば、初期有益文章(A0)から得られた置換後文章(A1)の「スポーツ」を「ゲーム」に置換し、初期有益文章(A0)とは文章ベクトルが大きく異なる下記の文章(A3)を生成するということが可能となる。それを繰り返すことにより、文章(A3)からさらに別の下記文章(A4)を生成することも可能である。
(A3)『ゲームの中では野球が好きです。日本人が活躍するので』
(A4)『ゲームの中では野球が好きです。コロナ禍でも安心なスポーツです』
単語を1つ置き換えた場合、類似する文章が生成される確率は高くなるものの、ユーザが新しい気づきを得られる可能性は低くなる。つまり、人間が想像できる範囲であり、すでに実現されている可能性が高い。対して、上述のように単語の置換を繰り返し行うことで、上記の文章(A1)、(A3)、(A4)のように、初期有益文章(A0)とは文章ベクトルが大きく異なる文章を生成できる。これにより、実施の形態3と組み合わせると、次のような有益順の取得も可能となる。ここで、文章(A2)は『コロナの影響で外での部活が難しくなったが、解決策も無い』である。
【0131】
(方法1): 文章(A0)と文章(A2)、及び、文章(A1)(A3)(A4)について、共通で抽出された文章については、類似度の「平均値」を取り、各文章について、平均値の大きい順に有益とみなす。
(方法2): 文章(A0)と文章(A2)、及び、文章(A1)(A3)(A4)について、共通で抽出された文章については、類似度の「最大値」を取り、各文章について、最大値の大きい順に有益とみなす。
【0132】
また、実施の形態3と同様、ユーザに、図13に示すようなフィードバック画面を表示し、ユーザからの評価フィードバックに基づいて、調整を行ってよい。このとき、文章(A1)(A3)(A4)も初期有益文章の選択の候補となり、初期有益文章(A0)よりも、ためになったとユーザが選択した文章との類似度の方が高い場合は、初期有益文章(A0)をユーザに選択された文章(つまりユーザが新たな気づきを得た文章)を用いて、再度本実施の形態の処理フローを実行してもよい。例えば、次の処理を行ってよい。
・ユーザがためになったと選択した文章、及び、文章(A1)(A3)(A4)を「初期有益文章」の候補の一部に追加する。
・各初期有益文章についてユーザがためになったと選択した文章、及び、文章(A1)(A3)(A4)との類似度が大きいか小さいかによって、各初期有益文章と他の文章との類似度を補正する。
【0133】
上記の補正方法として、次の例が挙げられる。
(補正方法1)ユーザがためになったと選択した文章との類似度が所定値よりも大きい初期有益文章について、類似度を120%と補正する。つまり、判定に大きく関与させる。
(補正方法2)ユーザがためになったと選択した文章との類似度が所定値よりも小さい初期有益文章について、類似度を80%と補正する。つまり、判定への関与は小さくさせる。
【符号の説明】
【0134】
1…有益文章抽出装置、2…プロセッサ、3…主記憶装置、4…補助記憶装置、5…入力装置、6…出力装置、7…通信装置、8…外部記憶媒体、10…外部メディア装置、11…テキストアップローダ、12…クエリ、13…メディアデータ、14…テキスト、15…データ取得部、16…取得データ、17…情報記憶部、20…感情分析部、21…テキスト、22…処理済みデータ、30…有益文章抽出部、31…テキスト、32…処理済みデータ、50…データ表示部、51…検索条件、52…処理済みデータ、60…メディアデータ格納部、70…感情分析データ格納部、80…有益文章データ格納部、81…置換後文章データ格納部、90…他データ格納部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16