(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-13
(45)【発行日】2023-06-21
(54)【発明の名称】文書処理プログラム、文書処理方法および文書処理装置
(51)【国際特許分類】
G06F 40/151 20200101AFI20230614BHJP
G06F 40/30 20200101ALI20230614BHJP
【FI】
G06F40/151
G06F40/30
(21)【出願番号】P 2019189390
(22)【出願日】2019-10-16
【審査請求日】2022-07-08
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】上村 拓也
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2017-151902(JP,A)
【文献】特開2010-287020(JP,A)
【文献】特開2019-114224(JP,A)
【文献】特開2007-18234(JP,A)
【文献】吉岡 直輝,印象尺度に基づいた文章言い換え手法,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD-ROM] ,日本,言語処理学会,2012年03月13日,pp.425-426
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06F 16/00-958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第1の文書に含まれる第1の単語に対する第1のスコアを算出し、
前記単語辞書から、前記第1のスコアより高い印象のレベルを示す第2のスコアがそれぞれ対応付けられた複数の第2の単語を検索し、
前記第1の文書と異なる第2の文書を用いて、前記複数の第2の単語それぞれに対して、前記第1の単語から前記第1の文書の中で所定範囲内にある第3の単語と当該第2の単語とを組み合わせた単語列の出現頻度を算出し、
前記複数の第2の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第2の単語のうち前記第1の単語と置換する第2の単語を選択する、
処理を実行させる文書処理プログラム。
【請求項2】
前記コンピュータに更に、前記第1の文書に含まれる複数の単語のうち、スコアが閾値未満の単語を前記第1の単語として選択する処理を実行させる、
請求項1記載の文書処理プログラム。
【請求項3】
前記コンピュータに更に、前記第1の文書に含まれる複数の単語のうち、品詞が形容詞または形容動詞である単語を前記第1の単語として選択する処理を実行させる、
請求項1記載の文書処理プログラム。
【請求項4】
前記単語辞書は、単語に対して当該単語がもつ他の印象のレベルを示す他のスコアを更に対応付けており、
前記コンピュータに更に、前記第1の文書に含まれる複数の単語のうち、他のスコアが閾値未満の単語を前記第1の単語として選択する処理を実行させる、
請求項1記載の文書処理プログラム。
【請求項5】
前記出現頻度の算出では、前記第1の文書から、前記第1の単語の前にある前単語と前記第1の単語の後にある後単語とを前記第3の単語として抽出し、前記前単語と前記複数の第2の単語の1つと前記後単語との組に対して前記出現頻度を算出する、
請求項1記載の文書処理プログラム。
【請求項6】
前記コンピュータに更に、前記第1の単語を、前記複数の第2の単語のうち前記出現頻度が最大の第2の単語に置換し、置換後の前記第1の文書を出力する処理を実行させる、
請求項1記載の文書処理プログラム。
【請求項7】
前記出現頻度の算出では、前記第1の文書のカテゴリの指定を受け付け、複数のカテゴリに対応する複数の第2の文書のうち、前記第1の文書のカテゴリに対応する第2の文書を用いて前記出現頻度を算出する、
請求項1記載の文書処理プログラム。
【請求項8】
コンピュータが、
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第1の文書に含まれる第1の単語に対する第1のスコアを算出し、
前記単語辞書から、前記第1のスコアより高い印象のレベルを示す第2のスコアがそれぞれ対応付けられた複数の第2の単語を検索し、
前記第1の文書と異なる第2の文書を用いて、前記複数の第2の単語それぞれに対して、前記第1の単語から前記第1の文書の中で所定範囲内にある第3の単語と当該第2の単語とを組み合わせた単語列の出現頻度を算出し、
前記複数の第2の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第2の単語のうち前記第1の単語と置換する第2の単語を選択する、
文書処理方法。
【請求項9】
単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書と、評価対象の第1の文書と異なる第2の文書とを記憶する記憶部と、
前記単語辞書を参照して、前記第1の文書に含まれる第1の単語に対する第1のスコアを算出し、前記単語辞書から、前記第1のスコアより高い印象のレベルを示す第2のスコアがそれぞれ対応付けられた複数の第2の単語を検索し、前記第2の文書を用いて、前記複数の第2の単語それぞれに対して、前記第1の単語から前記第1の文書の中で所定範囲内にある第3の単語と当該第2の単語とを組み合わせた単語列の出現頻度を算出し、前記複数の第2の単語それぞれに対して算出した前記出現頻度に基づいて、前記複数の第2の単語のうち前記第1の単語と置換する第2の単語を選択する処理部と、
を有する文書処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書処理プログラム、文書処理方法および文書処理装置に関する。
【背景技術】
【0002】
ユーザが文章を執筆し、多数の他のユーザに読んでもらうように文章を公開することがある。例えば、商品を販売する小売店が商品を紹介する説明文を執筆し、ネットワーク上に説明文を公開することがある。その場合、文章を執筆するユーザは、読み手が文章から特定の印象を受けることを期待することがある。例えば、商品を販売する小売店は、その商品のターゲットとする顧客層に対して良い印象を与えることを期待する。
【0003】
そこで、ユーザは文章を公開するにあたり、その文章が読み手に与える客観的印象を評価することがある。また、評価した客観的印象が所望の印象とずれている場合、ユーザは文章を修正した上で公開することがある。このような文章の評価および編集を、情報処理システムによって支援する技術が提案されている。
【0004】
例えば、ユーザが執筆した文章に対して、文章から受ける喜びや驚きなどの客観的印象を分析する印象分析装置が提案されている。提案の印象分析装置は、単語と当該単語から受ける印象の種類とを対応付けた単語辞書を予め保持しておく。印象分析装置は、入力された文章を形態素解析によって単語に分割し、文章に含まれる単語毎に印象の種類を判定し、印象の種類毎に単語数をカウントして文章全体に対するスコアを算出する。印象分析装置は、印象の種類毎のスコアをユーザに提示する。
【0005】
また、例えば、ユーザが執筆した文章の文体を、ユーザが所望する印象が強くなるように変換する文書処理装置が提案されている。提案の文書処理装置は、単語と当該単語から受ける特定の種類の印象の強さを示す印象値とを対応付けたデータベースを予め保持している。文書処理装置は、入力された文章を形態素解析によって単語に分割し、ユーザから指定された印象に影響を与える単語を印象値の異なる別の単語に置換する。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2000-250907号公報
【文献】特開2017-84015号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、文章の編集を支援する従来技術は、個々の単語がもつ印象スコアに着目するものであった。そのため、単純に印象スコアの低い単語が印象スコアの高い単語に置換され、その結果、文脈上不自然な文章に変化してしまうことがあった。
【0008】
1つの側面では、本発明は、文章の印象を変換する際に文脈の意図しない変化を抑制する文書処理プログラム、文書処理方法および文書処理装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
1つの態様では、コンピュータに以下の処理を実行させる文書処理プログラムが提供される。単語に対して当該単語がもつ印象のレベルを示すスコアを対応付けた単語辞書を参照して、評価対象の第1の文書に含まれる第1の単語に対する第1のスコアを算出する。単語辞書から、第1のスコアより高い印象のレベルを示す第2のスコアがそれぞれ対応付けられた複数の第2の単語を検索する。第1の文書と異なる第2の文書を用いて、複数の第2の単語それぞれに対して、第1の単語から第1の文書の中で所定範囲内にある第3の単語と当該第2の単語とを組み合わせた単語列の出現頻度を算出する。複数の第2の単語それぞれに対して算出した出現頻度に基づいて、複数の第2の単語のうち第1の単語と置換する第2の単語を選択する。
【0010】
また、1つの態様では、コンピュータが実行する文書処理方法が提供される。また、1つの態様では、記憶部と処理部とを有する文書処理装置が提供される。
【発明の効果】
【0011】
1つの側面では、文章の印象を変換する際に文脈の意図しない変化を抑制できる。
【図面の簡単な説明】
【0012】
【
図1】第1の実施の形態の文書処理装置の例を説明する図である。
【
図2】第2の実施の形態の文書処理装置のハードウェア例を示す図である。
【
図3】文書処理装置の機能例を示すブロック図である。
【
図7】文書処理の手順例を示すフローチャートである。
【
図8】文書処理の手順例を示すフローチャート(続き)である。
【発明を実施するための形態】
【0013】
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
【0014】
図1は、第1の実施の形態の文書処理装置の例を説明する図である。
第1の実施の形態の文書処理装置10は、読み手が文書から受ける印象が変わるように文書の変換を支援する。文書処理装置10は、クライアント装置でもよいしサーバ装置でもよい。文書処理装置10を、コンピュータや情報処理装置と言うこともできる。
【0015】
文書処理装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性ストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。プロセッサは、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うこともある。
【0016】
記憶部11は、予め用意された単語辞書13を記憶する。単語辞書13は、複数の単語それぞれに対して、その単語がもつ印象のレベルを示すスコアを対応付けている。スコアは、「かわいい」や「かっこいい」など、読み手が抱く特定の種類の感情の強さを表している。複数の印象軸を設定し、各単語に対して印象軸毎のスコアを対応付けてもよい。印象のレベルは、例えば、0~5の整数など複数段階に設定される。スコアは、例えば、値が大きいほど特定の印象のレベルが強いことを表す。各単語がもつ印象のレベルは、例えば、消費者アンケートなどを通じて事前に調査される。単語辞書13は、文書のカテゴリ毎に用意されてもよいし、複数のカテゴリに共通のものであってもよい。
【0017】
また、記憶部11は、評価対象の文書14(第1の文書)を記憶する。文書14には、自然言語で文章(テキスト)が記載されている。文書14に記載された文章は、多数の読み手に対して公開されることを予定したものであってもよく、商品を紹介するものであってもよい。例えば、文書14に記載された文章は、小売企業がインターネット上に公開する商品紹介文章であってもよい。文書14を作成した執筆担当者と文書処理装置10を使用する編集担当者とは、同一であってもよいし異なってもよい。文書14は、ユーザから入力されたものでもよいし、他の情報処理装置から受信されたものでもよい。
【0018】
また、記憶部11は、過去に作成された文章を示す文書15(第2の文書)を記憶する。文書15が示す文章は、好ましくは、推敲後にインターネット上に公開された文章など、既に推敲を受けた文章であることが好ましい。また、文書15は、評価対象の文書14と同じカテゴリであることが好ましい。文書15は、文書のカテゴリ毎に用意されてもよい。商品紹介文章を示す文書のカテゴリとしては、例えば、商品の種類、商品のメーカー、商品のブランドやシリーズなどを挙げることができる。文書15の内容は、元の文章そのものであってもよいし、元の文章から抽出された3-gramなどの単語列であってもよい。後述するように、ある単語列の出現頻度を文書15から算出できればよい。
【0019】
処理部12は、評価対象の文書14から単語w1(第1の単語)を選択し、単語辞書13を参照して単語w1に対するスコア(第1のスコア)を算出する。単語w1のスコアは、単語辞書13において単語w1に対応付けられているスコアである。単語w1は、文書14全体の印象のレベルを引き上げるために置換される可能性がある単語である。
【0020】
例えば、単語w1を、スコアが閾値未満の単語とする。また、例えば、単語w1を、形容詞や形容動詞など所定の品詞の単語とする。これは、文章の意味の変化を抑制しつつ印象のレベルを効率的に調整するためである。また、各単語に対して複数の印象軸のスコアが対応付けられている場合、例えば、単語w1を、ユーザが指定した所望の印象軸以外の他の印象軸のスコアが閾値未満の単語とする。これは、他の重要な印象のレベルが意図せず減退してしまうのを抑制するためである。
【0021】
次に、処理部12は、単語辞書13から、単語w1より高い印象のレベルを示すスコア(第2のスコア)が対応付けられた複数の単語(第2の単語)を検索する。例えば、単語w1より大きいスコアをもつ単語w21,w22が検索される。単語w21,w22は、好ましくは、単語w1と同じ品詞の単語とする。単語w21,w22は、単語w1と置換することで所望の印象のレベルを引き上げることができる置換候補単語である。
【0022】
次に、処理部12は、文書14の中で単語w1から所定範囲内にある1以上の単語(第3の単語)を抽出する。所定範囲内にある単語としては、単語w1の1つ前の単語、単語w1の1つ後の単語、単語w1の前後1つずつの単語、単語w1の前後2つずつの単語などが考えられる。例えば、単語w1の直前の単語w31と単語w1の直後の単語w32とが抽出される。単語w31,w32の抽出では、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語を抽出対象とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語を除外してもよい。選択された単語w1とその所定範囲内にある単語w31,w32とを組み合わせた単語列(w31,w1,w32)を3-gramと言うことができる。なお、所定範囲の定義に応じて、2-gram、4-gram、5-gramなど長さの異なる単語列を形成することもできる。
【0023】
次に、処理部12は、単語辞書13から検索された単語w21,w22それぞれに対して、選択された単語w1を当該置換候補単語に置換した単語列を生成する。例えば、3-gramである単語列(w31,w21,w32)と単語列(w31,w22,w32)とが生成される。処理部12は、予め用意された文書15を用いて、生成された単語列それぞれの出現頻度を算出する。単語列の出現頻度は、その単語列の尤度であってもよい。尤度は、文書15に出現する同じ長さの単語列であって単語w1を含む単語列のうち、生成された単語列の個数の割合であってもよい。
【0024】
例えば、処理部12は、単語w21を含む3-gramの個数を文書15からカウントし、そのうち(w31,w21,w32)である3-gramの個数をカウントし、前者の個数に対する後者の個数の割合を単語w21に対する尤度として算出する。また、処理部12は、単語w22を含む3-gramの個数を文書15からカウントし、そのうち(w31,w22,w32)である3-gramの個数をカウントし、前者の個数に対する後者の個数の割合を単語w22に対する尤度として算出する。尤度の算出にあたり、前単語と後単語とを入れ替えた3-gramを同一単語列とみなしてもよいし、3つの単語の順序を任意に入れ替えた3-gramを同一単語列とみなしてもよい。
【0025】
そして、処理部12は、単語w21,w22それぞれに対して算出した出現頻度に基づいて、単語w21,w22のうち単語w1と置換する単語を選択する。出現頻度が高い単語が優先的に選択されることが好ましい。処理部12は、出現頻度が最も高い単語を選択してもよい。例えば、処理部12は、単語w1と置換する単語として単語w21を選択する。処理部12は、置換候補単語の選択結果を出力してもよい。例えば、処理部12は、置換候補単語の選択結果を所定のストレージ装置に記憶してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。その後、処理部12は、ユーザからの指示に応じて文書14の単語w1を単語w21に置換してもよい。また、処理部12は、文書14の単語w1を単語w21に置換した文書を出力するようにしてもよい。例えば、処理部12は、変換後の文書14を所定のストレージ装置に記憶してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。
【0026】
第1の実施の形態の文書処理装置10によれば、文書14に含まれる単語w1に対して印象のレベルを示すスコアが算出され、単語w1より高い印象のレベルを示すスコアをもつ単語w21,w22が検索される。単語w1から所定範囲内にある単語w31,w32と単語w21,w22それぞれとを組み合わせた単語列の出現頻度が、文書14と異なる文書15を用いて算出される。そして、算出された出現頻度に基づいて、単語w21,w22のうち単語w1と置換する単語が選択される。
【0027】
これにより、文書14に記載された文章を、「かわいい」や「かっこいい」などの所望の印象が強化された文章に編集することが容易となる。よって、商品の販売コンセプトに合った印象を消費者に伝達するなど、書き手が意図する印象を読み手に効率的に伝達することができる。また、過去の文書15を利用して、置換候補単語と周辺単語とを組み合わせた単語列の出現頻度に応じて置換候補単語が優先付けられる。よって、文脈上不自然な単語置換が行われるのを抑制でき、文脈の意図しない変化を抑制することができる。その結果、所望の印象を強化する文章変換の精度が向上する。
【0028】
[第2の実施の形態]
次に、第2の実施の形態を説明する。
第2の実施の形態の文書処理装置は、多数の読み手に対して公開される文章の編集を支援する。第2の実施の形態では一例として、衣服などの商品を販売する小売業者が、商品を紹介する文章をインターネット上に公開する業務形態を想定する。例えば、第2の実施の形態の文書処理装置は、編集担当者によって使用され、執筆担当者によって執筆された商品紹介文を公開前に評価して編集する。第2の実施の形態の文書処理装置は、クライアント装置でもよいしサーバ装置でもよい。また、第2の実施の形態の文書処理装置を、コンピュータや情報処理装置と言うこともできる。
【0029】
図2は、第2の実施の形態の文書処理装置のハードウェア例を示す図である。
文書処理装置100は、CPU101、RAM102、HDD103、画像インタフェース104、入力インタフェース105、媒体リーダ106および通信インタフェース107を有する。文書処理装置100が有するこれらのユニットは、バスに接続されている。文書処理装置100は、第1の実施の形態の文書処理装置10に対応する。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。
【0030】
CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。CPU101は複数のプロセッサコアを備えてもよく、文書処理装置100は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。
【0031】
RAM102は、CPU101が実行するプログラムやCPU101が演算に使用するデータを一時的に記憶する揮発性半導体メモリである。文書処理装置100は、RAM以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。
【0032】
HDD103は、OS(Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。文書処理装置100は、フラッシュメモリやSSD(Solid State Drive)など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。
【0033】
画像インタフェース104は、CPU101からの命令に従って、文書処理装置100に接続された表示装置111に画像を出力する。表示装置111として、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。文書処理装置100に、プリンタなど表示装置111以外の出力デバイスが接続されてもよい。
【0034】
入力インタフェース105は、文書処理装置100に接続された入力デバイス112から入力信号を受け付ける。入力デバイス112として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。文書処理装置100に複数種類の入力デバイスが接続されてもよい。
【0035】
媒体リーダ106は、記録媒体113に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体113として、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ106は、例えば、記録媒体113から読み取ったプログラムやデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、CPU101によって実行される。なお、記録媒体113は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体113やHDD103を、コンピュータ読み取り可能な記録媒体と言うことがある。
【0036】
通信インタフェース107は、ネットワーク114に接続され、ネットワーク114を介して他の情報処理装置と通信する。通信インタフェース107は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。
【0037】
前述のように、文書処理装置100は、文書の編集を支援する。文書処理装置100は、文章の印象に影響を与え得る単語それぞれに対して、13個の印象軸の観点から13個の印象スコアを対応付けた単語辞書を保持しておく。文書処理装置100は、編集対象の文書から単語辞書に登録された単語を検出し、13個の印象軸の観点から文書全体の印象スコアの分布を算出してユーザに提示する。
【0038】
13個の印象軸のうち強化したい印象軸がユーザから指定されると、文書処理装置100は、指定された印象軸の印象スコアが低い単語を、指定された印象軸の印象スコアが高い別の単語に置換することで、編集対象の文書から受ける所望の印象を強化する。このとき、文脈を無視して単純に印象スコアの低い単語を印象スコアの高い単語に置換すると、文脈上不自然な文が生じてしまうおそれがある。そこで、文書処理装置100は、置換元の単語を品詞などに基づいて絞り込む。また、文書処理装置100は、過去の推敲済み文書を参照して、単語の組み合わせの自然さを評価して置換先の単語を絞り込む。
【0039】
図3は、文書処理装置の機能例を示すブロック図である。
文書処理装置100は、単語データベース121、過去文書データベース122、ユーザ通信部123、単語分割部124、スコア算出部125および単語変換部126を有する。単語データベース121および過去文書データベース122は、例えば、RAM102またはHDD103の記憶領域を用いて実現される。ユーザ通信部123、単語分割部124、スコア算出部125および単語変換部126は、例えば、CPU101が実行するプログラムを用いて実現される。
【0040】
単語データベース121は、複数の単語それぞれに対して13個の印象軸の印象スコアを対応付けた単語辞書を記憶する。単語辞書には、商品販売分野において読み手の印象に影響を与え得る1000語~10000語程度の単語が登録されている。13個の印象軸は、「季節感」や「オーソドックス感」など予め決められている。印象スコアは、0,1,2,3,4,5の6段階評価値である。印象スコアが大きいほど、文章の読み手が受ける印象が強いことを示す。各単語の印象スコアは、消費者アンケートなどの実地調査に基づいて予め決定されている。単語辞書は、商品ジャンルやブランドやブランドシリーズなどの商品カテゴリ(第2の実施の形態では「ブランド」と言うことがある)毎に用意してもよいし、複数のブランド共通で用意してもよい。
【0041】
過去文書データベース122は、過去に公開された推敲済み記事を記載した過去文書を記憶する。また、過去文書データベース122は、過去文書から抽出された3-gramを示す単語列データを記憶する。形態素解析などの自然言語解析によって過去文書に記載された文章を単語に分割し、連続する3つの単語を検出することで3-gramが生成される。過去文書を予め分析しておくことで単語列データが生成される。ただし、3-gramの単語は、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語は無視する。単語列データはブランド毎に用意される。蓄積された過去文書がブランドに応じて分類され、ブランド単位で3-gramが抽出される。
【0042】
ユーザ通信部123は、文書を編集するためのユーザインタフェースを提供する。ユーザ通信部123は、入力インタフェース105からユーザ入力を受け付け、表示装置111に編集画面を表示するようにしてもよい。また、ユーザ通信部123は、他の情報処理装置からユーザ入力を受信し、他の情報処理装置に編集画面データを送信してもよい。
【0043】
ユーザ通信部123は、編集前文章を受け付ける。すると、ユーザ通信部123は、編集前文章を単語分割部124に出力し、13個の印象軸の印象スコアの分布をスコア算出部125から取得する。ユーザ通信部123は、編集前文章と印象スコアの分布とを表示するための編集画面を出力する。その後、ユーザ通信部123は、13個の印象軸のうち印象スコアを引き上げたい印象軸の指定を受け付ける。すると、ユーザ通信部123は、印象軸の指定を単語変換部126に出力し、編集前文章の中の一部の単語が置換された編集後文章を単語変換部126から取得し、修正された印象スコアの分布をスコア算出部125から取得する。ユーザ通信部123は、編集前文章と編集後文章と修正された印象スコアの分布とを表示するための編集画面を出力する。
【0044】
単語分割部124は、ユーザ通信部123から編集前文章を取得する。すると、単語分割部124は、形態素解析などの自然言語解析によって編集前文章を単語に分割する。また、単語分割部124は、分割した単語それぞれに対して、名詞、動詞、形容詞、形容動詞などの品詞を示す品詞ラベルを付与する。単語分割部124は、品詞ラベル付きの単語に分割された編集前文章を、スコア算出部125および単語変換部126に出力する。
【0045】
スコア算出部125は、単語に分割された編集前文章を単語分割部124から取得し、単語データベース121に記憶された単語辞書に登録されている単語を検出する。スコア算出部125は、検出した単語に対応付けられている13個の印象軸の印象スコアを読み出し、印象軸毎に印象スコアの平均値を算出する。この印象スコアの平均値は、編集対象の文書全体に対する印象スコアとなる。スコア算出部125は、算出した13個の印象軸の印象スコアの分布をユーザ通信部123に出力する。
【0046】
また、スコア算出部125は、編集前文章と編集後文章の差分を示す単語変換の指示を単語変換部126から受け付ける。すると、スコア算出部125は、変換後単語に対応付けられた印象スコアを単語辞書から読み出す。スコア算出部125は、印象軸毎の印象スコアの平均値を再計算し、修正後の印象スコアの分布をユーザ通信部123に出力する。
【0047】
単語変換部126は、品詞ラベル付きの単語に分割された編集前文章を単語分割部124から取得する。また、単語変換部126は、ブランドおよび印象軸の指定をユーザ通信部123から受け付ける。すると、単語変換部126は、編集前文章に含まれる単語の中から、指定された印象軸の印象スコアを改善する余地がある変換元単語を選択する。単語変換部126は、単語データベース121に記憶された単語辞書から、選択した変換元単語と置換することが可能な複数の変換候補単語を検索する。単語変換部126は、検索された複数の変換候補単語の中から1つの変換候補単語を選択し、変換元単語を当該変換候補単語に置換した編集後文章をユーザ通信部123に出力する。
【0048】
変換候補単語の絞り込みでは、単語変換部126は、過去文書データベース122に記憶された単語列データのうち、指定されたブランドに対応する単語列データを利用する。まず、単語変換部126は、編集前文章から変換元単語の直前にある前単語および変換元単語の直後にある後単語を抽出する。ただし、前単語および後単語は、名詞、動詞、形容詞、形容動詞などの意味的に重要性の高い品詞の単語とし、接続詞、副詞、助詞、助動詞などの意味的に重要性の低い品詞の単語は無視する。
【0049】
次に、単語変換部126は、複数の変換候補単語それぞれについて、前単語と1つの変換候補単語と後単語とを組み合わせた3-gramを生成する。単語変換部126は、指定されたブランドに対応する単語列データを参照して、その3-gramの尤度を算出する。尤度は、その3つの単語の共起頻度を表していると言うことができ、文脈の自然さの評価尺度と解釈することができる。尤度が高いほどその単語列が文脈上自然であることを表し、尤度が低いほどその単語列が文脈上不自然であることを表す。そして、単語変換部126は、最も尤度が高い3-gramの変換候補単語を選択する。
【0050】
図4は、単語辞書テーブルの例を示す図である。
単語辞書テーブル131は、単語データベース121に記憶されている。単語辞書テーブル131には、「きれいめ」、「フェミニン」、「ガーリー」など、1000個~10000個程度の単語が登録されている。また、単語辞書テーブル131には、形容詞や形容動詞など、各単語の品詞が登録されている。また、単語辞書テーブル131には、各単語に対して13個の印象軸の印象スコアが登録されている。
【0051】
13個の印象軸は、「季節感」、「オーソドックス感」、「冒険感」、「トレンド感」、「かわいい感」、「かっこいい感」、「モテ感」、「高級感」、「快適感」、「特別感」、「着こなし」、「オン」および「オフ」である。印象スコアは、0~5の6段階評価値である。印象スコアが高いほど、読み手が単語から受ける印象が強いことを意味する。例えば、単語「きれいめ」は、かわいい感=2であり、単語「フェミニン」および単語「ガーリー」は、かわいい感=5である。これは、「フェミニン」または「ガーリー」から読み手が受けるかわいい感の印象が、「きれいめ」よりも強いことを表している。
【0052】
図5は、単語列テーブルの例を示す図である。
単語列テーブル132,133は、過去文書データベース122に記憶されている。単語列テーブル132は、文書のカテゴリであるブランドAに対応する。単語列テーブル132には、ブランドAの商品説明文に使用された単語列が登録される。単語列テーブル133は、文書のカテゴリであるブランドBに対応する。単語列テーブル133には、ブランドBの商品説明文に使用された単語列が登録される。なお、単語列テーブルは、商品ジャンルやブランドシリーズなど所望のカテゴリ単位で作成してよい。
【0053】
単語列テーブル132は、それぞれ3-gramを示す複数のレコードを含む。各レコードは、前単語、中心単語および後単語を含む。中心単語は、過去文書の中の着目する単語である。前単語は、過去文書の中で中心単語の直前に現れた単語である。後単語は、過去文書の中で中心単語の直後に現れた単語である。ただし、前単語、中心単語および後単語は、名詞、動詞、形容詞、形容動詞などの主要な品詞の単語とする。単語列テーブル133も、単語列テーブル132と同様のデータ構造をもつ。
【0054】
例えば、(控え目,フェミニン,お仕事)、(清楚,フェミニン,大人)、(甘い,ガーリー,オフ)などの3-gramが単語列テーブル132に登録される。なお、単語列テーブル132の3-gramは、ブランドAに関する過去文書の文章を単語に分割し、着目する単語を先頭から末尾に向かって1つずつずらしていくことで生成することができる。単語列テーブル132には、同じ3-gramが複数回出現し得る。ただし、同じ3-gramをグルーピングし、その出現回数を付記するようにしてもよい。
【0055】
次に、単語変換方法の具体例を説明する。
図6は、単語変換例を示す図である。
文書134は、編集対象の文書の一例である。文書134には、単語辞書に登録されたキーワードとして、「キュート」、「フリル」、「プルオーバーニット」および「きれいめ」が含まれている。ユーザは、印象軸「かわいい感」に着目しているとする。「キュート」はかわいい感=5、「フリル」はかわいい感=3、「プルオーバーニット」はかわいい感=3、「きれいめ」はかわいい感=2である。キーワードの印象スコアの平均値を文書全体の印象スコアと定義すると、印象軸「かわいい感」の文書全体の印象スコアは、(5+3+3+2)/4=3.2と算出される。
【0056】
ここで、印象軸「かわいい感」を強化するために、文章の文脈を考慮せずに個々のキーワードのみに着目するという単純な単語変換方法を考える。1つの単語変換方法として、印象軸「かわいい感」の印象スコアが最大値未満であるキーワードを、品詞が同一で印象スコアが大きい別のキーワードに置換するものとする。
【0057】
すると、文書134が文書135に変換される。文書135では、「キュート」は印象スコアが最大であるため置換されていない。「フリル」は印象スコアが最大値未満の名詞であるため、印象スコアが高い名詞である「リボン」に置換されている。「プルオーバーニット」は印象スコアが最大値未満の名詞であるが、適切な他のキーワードがないため置換されていない。「きれいめ」は印象スコアが最大値未満の形容動詞であるため、印象スコアが高い形容動詞である「ガーリー」に置換されている。「リボン」はかわいい感=5、「ガーリー」はかわいい感=5である。よって、印象軸「かわいい感」の文書全体の印象スコアは、(5+5+3+5)/4=4.5と算出される。
【0058】
しかし、文書134から文書135への変換によって、所望の印象軸「かわいい感」の印象スコアが大きくなっているものの、文章の意味が意図せず変化する意味違反も生じている。名詞「フリル」が名詞「リボン」に置換されているため、紹介する商品の特徴が変わってしまっている。また、変換前の「きれいめ」という修飾語は、周辺語である「控え目」や「お仕事」と意味的な相性が良いため、「控え目かつきれいめなお仕事コーディネート」という表現は自然である。これに対して、変換後の「ガーリー」という修飾語は、周辺語である「控え目」や「お仕事」と意味的な相性が悪いため、「控え目かつガーリーなお仕事コーディネート」という表現は不自然である。
【0059】
そこで、文書処理装置100は、文脈上不自然な文章に変換されてしまうのを抑制するため、文章の文脈を考慮して以下のように単語変換を行う。まず、文書処理装置100は、変換元単語を、品詞が形容詞または形容動詞である単語に限定する。名詞を変換元単語から除外することで、説明対象の特徴が変化してしまうリスクが低減する。特に、商品説明文の冒頭には商品ジャンルや商品名が記載されることが多く、これらの名詞は残しておくことが好ましい。また、変換元単語を形容詞や形容動詞などの修飾語に限定することで、文章の印象を効率的に変換することができる。また、文書処理装置100は、変換後の3-gramの尤度が高くなるように変換候補単語を絞り込む。過去文書にあまり出現しない3-gramは不自然な表現である可能性が高いためである。
【0060】
その結果、文書134が文書136に変換される。文書136では、「キュート」は印象スコアが最大であるため置換されない。「フリル」は名詞であるため置換されない。「プルオーバーニット」は名詞であるため置換されない。これに対して、「きれいめ」は印象スコアが最大でなく形容動詞であるため、変換元単語として選択される。
【0061】
「きれいめ」に対して、文書処理装置100は、印象スコアが高い別の形容動詞である「ガーリー」、「ギャル」および「フェミニン」を、変換候補単語として検索する。すると、文書処理装置100は、(控え目,ガーリー,お仕事)、(控え目,ギャル,お仕事)、(控え目,フェミニン,お仕事)という3つの3-gramそれぞれの尤度を算出する。これら3つの3-gramのうち(控え目,フェミニン,お仕事)の尤度が最も高いとする。これにより、文書処理装置100は、「ガーリー」、「ギャル」および「フェミニン」のうち「フェミニン」を選択し、「きれいめ」を「フェミニン」に置換する。
【0062】
「フェミニン」はかわいい感=5である。よって、印象軸「かわいい感」の文書全体の印象スコアは、(5+3+3+5)/4=4.0と算出される。文書136は文書135より印象スコアが低いものの、文書135と比べて意味違反が抑制された自然な文章となっている。このため、文書134が文書136に変換されることが好ましい。
【0063】
次に、文書処理装置100の処理手順について説明する。
図7は、文書処理の手順例を示すフローチャートである。
(S10)ユーザ通信部123は、編集対象の文書を取得する。
【0064】
(S11)単語分割部124は、ステップS10で取得した文書に記載された文章を、形態素解析などの自然言語解析によって単語に分割する。また、単語分割部124は、分割された単語それぞれに対して、その単語の品詞を示す品詞ラベルを付加する。
【0065】
(S12)スコア算出部125は、単語データベース121に記憶された単語辞書テーブル131に登録されている単語を、編集対象の文書から抽出する。
(S13)スコア算出部125は、単語辞書テーブル131から、ステップS12で抽出された単語に対応付けられている13個の印象軸の印象スコアを検索する。スコア算出部125は、13個の印象軸それぞれについて、抽出された単語の印象スコアを集計する。例えば、スコア算出部125は、印象軸毎に印象スコアの平均値を求める。集計された印象スコアが、編集対象の文書全体に対する印象スコアとなる。
【0066】
(S14)ユーザ通信部123は、編集前文章と13個の印象軸の印象スコアの分布とを含む編集画面を表示させる。印象スコアの分布は、例えば、一覧表やレーダーチャートとして可視化される。ユーザ通信部123は、表示装置111に編集画面を表示させてもよいし、他の情報処理装置に編集画面データを送信してもよい。
【0067】
(S15)ユーザ通信部123は、編集画面上において、編集対象の文書が属するカテゴリであるブランドの指定を受け付ける。また、ユーザ通信部123は、編集画面上において、13個の印象軸のうち印象スコアを上げたい印象軸の指定を受け付ける。
【0068】
(S16)単語変換部126は、ステップS12で抽出された単語のうち、指定された印象軸の印象スコアが最大である単語を変換元単語から除外する。例えば、単語変換部126は、印象スコアが6段階評価値のうちの「5」である単語を除外する。
【0069】
(S17)単語変換部126は、ステップS16で残った単語のうち、品詞が形容詞および形容動詞以外の単語を変換元単語から除外する。なお、各単語の品詞は、ステップS11の自然言語解析において判定されている。
【0070】
(S18)単語変換部126は、ステップS17で残った単語のうち、指定されなかった印象軸の印象スコアが閾値を超える単語を変換元単語から除外する。他の印象軸の印象スコアが大きい単語を除外するのは、その単語を置換することで他の印象軸の印象スコアが低下して他の印象が大きく変わってしまうのを抑制するためである。例えば、閾値=3とし、他の印象軸の印象スコアが「4」または「5」である単語を除外する。
【0071】
図8は、文書処理の手順例を示すフローチャート(続き)である。
(S19)単語変換部126は、編集前文章の中で、ステップS18で残った何れかの単語が出現する出現位置を1つ選択する。同一単語が2箇所以上に出現する場合、単語変換部126は、当該2箇所以上の出現位置を区別し、出現位置を1つずつ選択する。これは、単語が同一でも出現位置毎に文脈が異なるためである。
【0072】
(S20)単語変換部126は、編集前文章の中から、ステップS19で選択した単語の1つ前にある前単語と1つ後にある後単語とを特定する。ここで特定する前単語および後単語は、名詞、動詞、形容詞または形容動詞とする。
【0073】
(S21)単語変換部126は、単語辞書テーブル131から、選択した単語と品詞が同一であり、かつ、選択した単語よりも指定された印象軸の印象スコアが高い単語を検索する。検索された2以上の単語が、変換元単語と置換し得る変換候補単語となる。
【0074】
(S22)単語変換部126は、検索された変換候補単語を1つ選択する。
(S23)単語変換部126は、ステップS20で特定した前単語および後単語とステップS22で選択した変換候補単語とを組み合わせて、(前単語,変換候補単語,後単語)の3-gramを生成する。また、単語変換部126は、過去文書データベース122から、ステップS15で指定されたブランドの過去文書に対応する単語列テーブルを選択する。単語変換部126は、選択した単語列テーブルから、生成した3-gramを検索して当該3-gramの尤度を算出する。尤度は出現頻度を表す。
【0075】
例えば、単語変換部126は、選択した単語列テーブルから、中心単語がステップS22の変換候補単語である3-gramの個数をカウントし、そのうち前単語および後単語も一致する3-gramの個数をカウントする。単語変換部126は、前者の個数に対する後者の個数の割合を、3-gramの尤度として算出する。ただし、(前単語,変換候補単語,後単語)と単語列テーブルの3-gramとを対比するにあたり、前単語と後単語の位置を入れ替えた3-gramを同一単語列とみなしてもよい。また、前単語と中心単語と後単語の位置を任意に入れ替えた3-gramを同一単語列とみなしてもよい。
【0076】
(S24)単語変換部126は、ステップS23で算出した尤度が閾値を超えるか判断する。閾値は、3%のように予め決めておく。尤度が閾値を超える場合はステップS26に進み、尤度が閾値以下である場合はステップS25に進む。
【0077】
(S25)単語変換部126は、選択した変換単語候補を不採用とする。
(S26)単語変換部126は、ステップS22において全ての変換候補単語を選択したか判断する。全ての変換候補単語を選択した場合はステップS27に進み、未選択の変換候補単語がある場合はステップS22に戻る。
【0078】
(S27)単語変換部126は、ステップS19において変換元単語の全ての出現位置を選択したか判断する。全ての出現位置を選択した場合はステップS28に進み、未選択の出現位置がある場合はステップS19に戻る。
【0079】
(S28)単語変換部126は、変換元単語の出現位置毎に、ステップS23で算出された尤度が最大の変換候補単語を採用する。スコア算出部125は、単語辞書テーブル131から、採用された変換候補単語に対応付けられている13個の印象軸の印象スコアを検索する。スコア算出部125は、13個の印象軸それぞれについて、編集後文章に含まれる単語の印象スコアを集計して、編集対象の文書全体に対する印象スコアを更新する。なお、採用すべき変換候補単語が存在しない変換元単語については置換しなくてよい。
【0080】
(S29)ユーザ通信部123は、編集前文章と編集後文章と13個の印象軸の印象スコアの分布とを含む編集画面を表示させる。印象スコアの分布は、例えば、一覧表やレーダーチャートとして可視化される。ユーザ通信部123は、表示装置111に編集画面を表示させてもよいし、他の情報処理装置に編集画面データを送信してもよい。
【0081】
図9は、編集画面の第1の例を示す図である。
編集画面141は、表示装置111または他の情報処理装置の表示装置に表示される。編集画面141は、タイトルを入力する入力欄とブランドを指定する選択欄とを含む。また、編集画面141は、編集前文章を表示するテキスト欄と編集後文章を表示するテキスト欄とを含む。ただし、編集画面141ではまだ編集が行われていないため、編集後文章のテキスト欄が空となっている。編集前文章のテキスト欄では、印象スコアが付与されているキーワードが強調表示される。また、編集画面141は、編集前文章に対する13個の印象軸の印象スコアを示すレーダーチャートを含む。
【0082】
ここでは、季節感=1、オーソドックス感=2、冒険感=2、トレンド感=3、かわいい感=3、かっこいい感=2、モテ感=3、高級感=1、快適感=3、特別感=1、着こなし=4、オフ=2、オン=4と評価されている。ユーザは、強調したい印象軸を選択して、文章の自動修正を文書処理装置100に指示することができる。ここでは、ユーザが印象軸「かわいい感」を選択して文章修正を指示したとする。
【0083】
図10は、編集画面の第2の例を示す図である。
編集画面142は、前述の編集画面141の後に、表示装置111または他の情報処理装置の表示装置に表示される。編集画面142の編集後文章のテキスト欄には、一部のキーワードが編集前文章から置換された編集後文章が表示される。編集後文章のテキスト欄では、置換されたキーワードとその前後の単語とを含む3-gramが強調表示される。また、編集画面142のレーダーチャートは、編集後文章に対する13個の印象軸の印象スコアを示すように更新されている。レーダーチャートでは、指定された印象軸の印象スコアが文章修正の前後でどの様に変化したかが強調表示される。ユーザは、更に強調したい他の印象軸がある場合、文章の自動修正を更に指示することができる。
【0084】
図11は、編集画面の第3の例を示す図である。
編集画面143は、編集画面142に代えて、表示装置111または他の情報処理装置の表示装置に表示することができる。編集画面142では、ある変換元単語が、尤度が最大の変換候補単語に自動的に置換されている。これに対して編集画面143では、尤度が最大の変換候補単語以外の他の変換候補単語がユーザに提示され、ユーザが変換候補単語を変更できるようにする。ユーザに提示される他の変換候補単語は、前述のステップS25で不採用とならずに残った変換候補単語のうち、尤度が最大のもの以外である。
【0085】
例えば、「きれいめ」が「フェミニン」に置換されている場合に、「フェミニン」以外の選択肢として「女性的」がユーザに提示される。他の選択肢である単語「女性的」は、採用された単語「フェミニン」よりも尤度が低いものの、変換前の単語「きれいめ」よりも印象軸「かわいい感」の印象スコアが高くなる単語である。ユーザは、他の変換候補単語を選択することで、編集後文章のキーワードを置換することができる。
【0086】
第2の実施の形態の文書処理装置100によれば、執筆担当者が作成した文章が分析され、文章に含まれるキーワードに基づいて複数の印象軸の観点から印象スコアが算出され、複数の印象軸の印象スコアの分布が編集担当者に提示される。よって、文章から受ける印象が書き手の意図したものとなっているか確認することが容易となる。また、編集担当者が印象スコアの不足している印象軸を指定すると、一部のキーワードが置換されて、指定の印象軸の印象スコアが高くなる文章推敲案が編集担当者に提示される。よって、所望の印象が強調された文章になるよう推敲する編集作業が効率化される。
【0087】
また、文章から選択される変換元単語は、指定の印象軸の印象スコアが低く、かつ、品詞が形容詞または形容動詞であるキーワードに限定される。よって、説明対象の特徴が変わってしまう意味違反のリスクを低減でき、印象の変更を効率的に実現できる。また、文章から選択される変換元単語は、他の印象軸の印象スコアが小さいものに限定される。よって、他の印象軸の印象が意図せず弱くなってしまうリスクを低減できる。
【0088】
また、変換元単語と置換され得る変換候補単語は、その前後の周辺語と組み合わせた3-gramの尤度に基づいて絞り込まれる。よって、出現頻度が低い不自然な表現に変換されるのを抑制でき、文脈上自然な文章を生成することが可能となる。また、3-gramの尤度は、編集対象の文章と同じカテゴリの過去文書に基づいて算出される。よって、変換後の表現が自然か不自然かを高精度に判定することができる。その結果、所望の印象を強化した文章を高精度に生成することが可能となる。
【符号の説明】
【0089】
10 文書処理装置
11 記憶部
12 処理部
13 単語辞書
14,15 文書