(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024013895
(43)【公開日】2024-02-01
(54)【発明の名称】テキスト処理装置、テキスト処理方法及びプログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240125BHJP
G06F 40/279 20200101ALI20240125BHJP
【FI】
G06F16/35
G06F40/279
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022116308
(22)【出願日】2022-07-21
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【弁理士】
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】飯村 靖夫
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091AB06
5B091CA01
5B091EA01
5B175DA01
5B175FA03
(57)【要約】
【課題】 演算コストを軽減しながら、ユーザの要望に従った語句の分類の結果を得ることができるテキスト処理装置等を提供する。
【解決手段】 本開示の一態様に係るテキスト処理装置10は、テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示部140と、前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付部150と、受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更部160と、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類部130と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示手段と、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付手段と、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更手段と、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類手段と、
を備えるテキスト処理装置。
【請求項2】
前記変更受付手段は、前記調整カテゴリの判定された前記可能性の程度に掛けられる係数の値を示す前記変更の指示を受け付け、
前記変更手段は、判定された前記調整カテゴリの前記可能性の程度と受け付けた前記変更の指示が示す前記係数との積を、前記調整カテゴリの変更された前記可能性の程度に設定し、
前記分類手段は、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、の中で、前記可能性の程度が最も大きいカテゴリに前記語句を再分類する
請求項1に記載のテキスト処理装置。
【請求項3】
前記調整カテゴリは、前記複数のカテゴリのうち前記調整カテゴリ以外のカテゴリに属さない語句のカテゴリである
請求項1又は2に記載のテキスト処理装置。
【請求項4】
語句がカテゴリに属する可能性の程度を、前記複数のカテゴリの各々について判定するように学習された判定モデルを使用して、前記テキストに含まれる前記語句が前記複数のカテゴリに属する前記可能性の程度の各々を判定する判定手段
をさらに備え、
前記分類手段は、前記語句が前記複数のカテゴリに属する前記可能性の程度の各々と、前記調整カテゴリの前記可能性の程度の前記係数の初期値と、を使用して、前記語句の前記複数のカテゴリのいずれかに分類する
請求項2に記載のテキスト処理装置。
【請求項5】
予め得られている語句の前記複数のカテゴリのいずれかへの分類の記録を使用して、前記記録に含まれる前記対象カテゴリへの前記語句の分類の結果に、前記調整カテゴリの前記可能性の程度に対する前記係数の前記初期値を使用した前記語句の前記対象カテゴリへの分類を近付けるように、前記初期値を決定する初期値決定手段
を備える請求項4に記載のテキスト処理装置。
【請求項6】
前記対象カテゴリに再分類された前記語句が存在する範囲が隠蔽された前記テキストを出力する出力手段
をさらに備える請求項1又は2に記載のテキスト処理装置。
【請求項7】
前記複数のカテゴリは、要望又は苦情を少なくとも含む、語句の種類を表し、
前記対象カテゴリは、前記要望又は苦情であり、
前記対象カテゴリに分類されている前記語句が存在する範囲を出力する出力手段
をさらに備える請求項1又は2に記載のテキスト処理装置。
【請求項8】
前記表示手段は、前記テキストと前記係数の値を指定可能な入力領域とを表示し、
前記変更受付手段は、前記入力領域において指定された位置から、前記係数の値を決定する
請求項2に記載のテキスト処理装置。
【請求項9】
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示し、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付け、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更し、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する、
テキスト処理方法。
【請求項10】
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示処理と、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付処理と、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更処理と、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類処理と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキストを処理する技術に関する。
【背景技術】
【0002】
テキストから所定のカテゴリの語句を手動で抽出する場合、手間が必要である。そして、テキストの量が増加すると、抽出に必要な手間も増加する。単語をカテゴリに分類する技術が、例えば特許文献1によって開示されている。
【0003】
特許文献1には、文書情報から抽出した複数の固有表現をカテゴリに分類する推論モデルの再学習を行う固有表現分類装置が記載されている。特許文献1の固有表現は、特定の物事を表す単語の総称である。特許文献1の固有表現分類装置は、ユーザから受け付けた正誤情報に基づき、推論モデルが分類に際して用いる特徴量の重みを修正し、修正後の重みに基づき推論モデルの再学習を行う。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術では、分類の結果を変更する場合、推論モデルの再学習が必要である。推論モデルの再学習には、演算コストが必要である。特許文献1の技術では、推論モデルの再学習の際の演算コストを軽減することはできない。
【0006】
本開示の目的の1つは、演算コストを軽減しながら、ユーザの要望に従った語句の分類の結果を得ることができるテキスト処理装置等を提供することである。
【課題を解決するための手段】
【0007】
本開示の一態様に係るテキスト処理装置は、テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示手段と、前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付手段と、受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更手段と、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類手段と、を備える。
【0008】
本開示の一態様に係るテキスト処理方法は、テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示し、前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付け、受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更し、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する。
【0009】
本開示の一態様に係るプログラムは、テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示処理と、前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付処理と、受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更処理と、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類処理と、をコンピュータに実行させる。
【発明の効果】
【0010】
本開示には、演算コストを軽減しながら、ユーザの要望に従った語句の分類の結果を得ることができるという効果がある。
【図面の簡単な説明】
【0011】
【
図1】
図1は、本開示の第1の実施形態に係るテキスト処理装置の構成の例を表すブロック図である。
【
図2】
図2は、本開示の第1の実施形態に係るテキスト処理装置の動作の例を表すフローチャートである。
【
図3】
図3は、本開示の第2の実施形態に係るテキスト処理装置の構成の例を表すブロック図である。
【
図4】
図4は、本開示の第2及び第3の実施形態に係るテキスト処理装置の動作の例を表すフローチャートである。
【
図5】
図5は、本開示の第2及び第3の実施形態に係るテキスト処理装置の動作の例を表すフローチャートである。
【
図6】
図6は、本開示の第3の実施形態に係るテキスト処理装置の構成の例を表すブロック図である。
【
図7】
図7は、本開示の第3の実施形態に係るテキスト処理装置の、係数の初期値を決定する動作の例を表すフローチャートである。
【
図8】
図8は、本開示の実施形態に係るテキスト処理装置を実現することができる、コンピュータのハードウェア構成の一例を表す図である。
【発明を実施するための形態】
【0012】
以下では、本開示の実施形態について、図面を使用して詳細に説明する。
【0013】
<第1の実施形態>
まず、本開示の第1の実施形態について、図面を使用して詳細に説明する。
【0014】
<構成>
図1は、本開示の第1の実施形態に係るテキスト処理装置の構成の例を表すブロック図である。
図1に示す例では、本実施形態のテキスト処理装置10は、表示部140と、変更受付部150と、変更部160と、分類部130と、を備える。
【0015】
表示部140は、テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する。変更受付部150は、前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける。変更部160は、受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する。分類部130は、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する。
【0016】
本実施形態では、テキストは、既存の言語認識技術のいずれかを使用して、予め語句に分割されている。そして、語句の各々がカテゴリに属する可能性の程度は、既存の判定方法を使用して、複数のカテゴリの各々について、予め判定されている。
【0017】
上述の語句は、例えば、単語である。語句は、複数の単語のまとまりであってもよい。複数の単語のまとまりは、例えば、1つの文章である。複数の単語のまとまりは、1つの文章の一部であってもよい。複数の単語のまとまりは、複数の文章のまとまりであってもよい。語句は、これらの例に限られない。語句は、例えば、テキストの中の、意味を持つ一部分である。
【0018】
複数のカテゴリの各々は、例えば、同一の種類の語句のグループである。語句の種類は、例えば、地名、人名、組織名、及び、役職名等の少なくともいずれかを含んでいてよい。語句の種類は、地名の開始単語と、地名の継続単語とを含んでいてもよい。地名の開始単語は、地域を表す部分を含む複合語の、冒頭に存在する地域を特定する部分を表す。地名の継続単語は、地域を表す部分を含む複合語の、冒頭に存在する地域を特定する部分以外の部分を表す。例えば、地名が「AA公園」である場合、地名の開始単語は、「AA」の部分であり、地名の継続単語は、「公園」である。語句の種類は、人名の開始単語と、人名の継続単語とを含んでいてもよい。人名の開始単語は、人物を表す部分を含む複合語の、冒頭に存在する人物を特定する部分を表す。人物の継続単語は、人物を表す部分を含む複合語の、冒頭に存在する人物を特定する部分以外の部分(例えば、尊称又は役職等)を表す。
【0019】
語句の種類は、例えば、要望、クレーム、及び、問い合わせ等の少なくともいずれかであってもよい。
【0020】
語句がカテゴリに属する可能性の程度は、例えば、語句がカテゴリに属する確率の数値によって表される。語句がカテゴリに属する可能性の程度は、例えば、語句がカテゴリに属する確率の大きさを示すスコアであってもよい。
【0021】
語句がカテゴリに属する可能性の程度は、例えば分類部130によって、上述のように、既存の判定方法のいずれかを使用して予め判定されている。この場合、分類部130は、例えば、テキストに含まれる語句の情報を入力として受け取り、受け取った語句がカテゴリに属する可能性の程度を判定する判定モデルを使用して、複数のカテゴリの各々について語句がカテゴリに属する可能性の程度を判定してよい。
【0022】
そして、語句は、予め、判定された、語句がカテゴリに属する可能性の程度を使用して、複数のカテゴリのいずれか1つに分類されている。語句は、例えば、判定された可能性の程度が示す、その語句が属する可能性が最も高いカテゴリに分類されている。
【0023】
<表示部140>
表示部140は、対象カテゴリに分類された語句の、テキストにおける範囲を表示する。対象カテゴリは、あらかじめ定められていてよい。表示部140は、例えば、対象カテゴリに分類された語句の部分の形式が、他の部分とは異なる形式に設定された、テキストを表示する。この場合の形式は、例えば、文字の色、フォント、及び、背景の色等の少なくともいずれかである。
【0024】
<変更受付部150>
変更受付部150は、複数のカテゴリのうち調整カテゴリの可能性の程度に対する変更の内容を含む、変更の指示を受け取る。後述のように、表示部140は、変更の内容を指定するためのユーザインタフェース(例えば、スライドバーなど)を、例えば、対象カテゴリに分類された語句の、テキストにおける範囲が表示される画面に表示してよい。変更の内容を指定するためのユーザインタフェースが表示されている領域は、ユーザによる入力を受け付ける入力領域として設定されていてよい。表示されているユーザインタフェースの表示領域には、複数の係数の値を示す表示(例えば、目盛り等)が表示されていてよい。変更受付部150は、表示されたユーザインタフェースの表示(例えば、上述の入力領域)に対してユーザが行った、変更の内容を示す入力を、変更の指示として受け取る。具体的には、変更受付部150は、入力領域に対する位置の指定を入力として受け付ける。そして、変更受付部150は、受け付けた位置の指定よって特定される、入力領域における位置に関連付けられている値を、係数の値として特定する。この場合、入力領域に含まれる画素に対して、表示されているユーザインタフェースにおいて示されている値に応じた係数の値が予め関連付けられる。変更の内容は、例えば、調整カテゴリの可能性の程度を表す値に掛ける係数の値によって表されていてもよい。
【0025】
<変更部160>
変更部160は、受け取った変更の指示が表す、調整カテゴリの可能性の程度に対する変更の内容に従って、語句の各々について、調整カテゴリの可能性の程度を変更する。変更の内容が、調整カテゴリの可能性の程度を表す値に掛ける係数の値によって表されている場合、変更部160は、調整カテゴリの可能性の程度を表す値に、その係数の値を掛けることによって、調整カテゴリの可能性の程度を表す値を変更する。
【0026】
<分類部130>
分類部130は、語句の各々について、調整カテゴリの変更後の可能性の程度を含む、複数のカテゴリの可能性の程度を使用して、語句を、その語句が属する可能性が最も高いカテゴリに再分類する。言い換えると、分類部130は、調整カテゴリの、変更後の可能性の程度を含む、複数のカテゴリの可能性の程度のうち、可能性の程度が示す可能性が最も高いカテゴリを選択し、選択したカテゴリに語句を再分類する。分類部130は、テキストが含む語句の各々について、語句を、その語句が属する可能性が最も高いカテゴリに再分類する。
【0027】
<動作>
図2は、本実施形態に係るテキスト処理装置10の動作の例を表すフローチャートである。
図2に示す例では、まず、表示部140は、テキストが分割された語句の中で、複数のカテゴリのうち対象カテゴリに分類された語句の範囲を表示する(ステップS11)。表示部140は、例えば、テキスト処理装置10のディスプレイ、又は、テキスト処理装置10と通信可能に接続され、ユーザが使用している端末装置のディスプレイに、対象カテゴリに分類された語句の範囲を表示する。上述のように、表示部140は、対象カテゴリに分類された語句の形式が、他の部分の形式と異なる形式で、テキストを表示してよい。この場合、対象カテゴリに分類された語句を判読可能な形で表示してよい。
【0028】
次に、変更受付部150が、変更の指示を受け付ける(ステップS12)。変更部160は、変更受付部150によって受け付けられた変更の指示に従って、調整カテゴリの可能性の程度を変更する(ステップS13)。そして、分類部130が、変更された、調整カテゴリの可能性の程度を含む、複数のカテゴリの可能性の程度を使用して、語句をカテゴリに再分類する(ステップS14)。
【0029】
<効果>
本実施形態には、演算コストを軽減しながら、ユーザの要望に従った語句の分類の結果を得ることができるという効果がある。その理由は、変更受付部150が、複数のカテゴリの各々について判定された、語句のカテゴリへの分類の結果の表示に対して入力された、変更の獅子を受け付けるからである。そして、変更部160が、受け付けた変更の指示に従って、調整カテゴリに語句が属する可能性の程度を変更するからである。さらに、分類部130が、調整カテゴリの可能性の程度が変更された後の、複数のカテゴリについての、語句がカテゴリに属する可能性の程度を使用して、語句を複数のカテゴリのいずれかのカテゴリに分類するからである。これにより、複数のカテゴリの各々についての、語句がカテゴリに分類する可能性の程度を、再判定する必要はない。そのため、演算コストが軽減される。また、上述のように、分類部130が、受け付けた変更の指示に従って変更された、調整カテゴリの可能性の程度を含む、複数のカテゴリの各々についての、語句がカテゴリに属する可能性の程度を使用して、語句がカテゴリに再分類する。そのため、ユーザの要望に従った語句の分類の結果を得ることができる。
【0030】
<第2の実施形態>
次に、本開示の第2の実施形態について、図面を使用しながら詳細に説明する。
【0031】
<構成>
図3は、本実施形態に係るテキスト処理装置100の構成の例を表すブロック図である。
図3に示す例では、本実施形態のテキスト処理装置100は、対象受付部110と、分割部120と、分類部130と、表示部140と、変更受付部150と、変更部160と、出力部170とを含む。本実施形態の分類部130、表示部140、変更受付部150、及び、変更部160は、それぞれ、第1の実施形態の分類部130、表示部140、変更受付部150、及び、変更部160の機能と同じ機能を備える。本実施形態の分類部130、表示部140、変更受付部150、及び、変更部160は、それぞれ、第1の実施形態の分類部130、表示部140、変更受付部150、及び、変更部160の動作と同じ動作を行う。以下では、本実施形態と第1の実施形態との相違点を中心に説明する。
【0032】
<対象受付部110>
対象受付部110は、処理の対象であるテキストを受け付ける。対象受付部110は、例えば、サーバ装置、他の情報処理装置、又は、ユーザが使用している端末装置等から、処理の対象であるテキストを受け付けてよい。対象受付部110は、受け付けたテキストを、分割部120に送出する。
【0033】
<分割部120>
分割部120は、対象受付部110から、処理の対象であるテキストを受け取る。分割部120は、受け付けたテキストを、既存の言語処理技術を使用して、語句に分割する。分割部120は、テキストを分割した語句を表す情報を生成する。分割部120は、受け取ったテキストと、そのテキストを分割した語句を表す情報とを、分類部130に送出する。
【0034】
テキストを分割した語句を表す情報は、テキストに含まれる語句の各々を特定できるように適宜定められた情報である。語句を表す情報は、例えば、テキストにおける語句の境界を示す情報を含んでいてよい。語句を表す情報は、語句を表す文字列と、その語句がテキストに出現する順番とを特定できる情報であってもよい。語句を表す情報は、語句を表す文字列が、テキストにおいて出現する順番で並べられたデータであってもよい。語句を表す情報は、例えば、語句を表す文字列と語句の識別子(以下、語句識別子とも表記)との組み合わせと、語句識別子とその語句がテキストに出現する順序との関連を表す情報と、を含んでいてもよい。語句識別子は、その語句を含むテキストの中でその語句を識別できる情報であってよい。語句識別子は、その語句がテキストに出現する順番を示していてもよい。例えば分割部120が、テキストの分割によって得られた語句に、語句識別子を付与する。
【0035】
<分類部130>
分類部130は、分割部120から、テキストと、そのテキストを分割した語句を表す情報とを受け取る。分類部130は、あらかじめ定められた複数のカテゴリの各々について、語句がカテゴリに属する可能性の程度を判定するように生成された判定モデルを使用して、複数のカテゴリの各々についての、語句がカテゴリに属する可能性の程度を判定する。判定モデルは、語句を受け取り、あらかじめ定められた複数のカテゴリの各々について、受け取った語句がカテゴリに属する可能性の程度を判定するように、既存の学習方法のいずれかを使用した学習によって予め生成された判定器である。分類部130は、テキストが分割された語句の各々について、複数のカテゴリの各々についての、語句がカテゴリに属する可能性の程度を判定する。
【0036】
分類部130は、まず、複数のカテゴリの各々についての、語句がカテゴリに属する可能性の程度を使用して、語句を複数のカテゴリのいずれか1つのカテゴリに分類する。分類部130は、テキストが分割された語句の各々を、複数のカテゴリのいずれか1つのカテゴリに分類する。分類部130は、語句が分類されたカテゴリの情報を生成する。複数のカテゴリの各々の識別子(以下、カテゴリ識別子と表記)は、予め定められていてよい。語句が分類されたカテゴリの情報は、例えば、テキストに含まれる語句の各々についての、語句の語句識別子と、その語句が分類されているカテゴリのカテゴリ識別子との組み合わせを含む情報である。
【0037】
分類部130は、テキストと、テキストが分割された語句の情報と、語句が分類されたカテゴリの情報とを、表示部140に送出する。
【0038】
また、分類部130は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、変更部160に送出する。
【0039】
分類部130は、変更部160によって変更された、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、変更部160から受け取る。変更部160から、語句が調整カテゴリに属する可能性の程度を受け取った場合、分類部130は、調整カテゴリの変更された可能性の程度を含む、複数のカテゴリについての、語句がカテゴリに属する可能性の程度を使用して、語句のカテゴリへの再分類を行う。調整カテゴリの変更された可能性の程度は、変更部160によって変更された、語句が調整カテゴリに属する可能性の程度を表す。分類部130は、語句のカテゴリへの再分類の際に、判定された、語句が調整カテゴリに属する可能性の程度の代わりに、変更部160から受け取った、語句が調整カテゴリに属する可能性の程度を使用する。
【0040】
分類部130は、変更部160から(詳細には、変更部160を介して変更受付部150から)完了指示を受け取ってよい。完了指示を受け取った場合、分類部130は、テキストと、そのテキストに含まれる語句の情報と、語句が分類されているカテゴリの情報とを、出力部170に送出する。
【0041】
<表示部140>
表示部140は、分類部130から、テキストと、テキストが分割された語句の情報と、語句が分類されたカテゴリの情報とを受け取る。表示部140は、第1の実施形態の表示部140と同様の方法で、対象カテゴリに分類された語句の、テキストにおける範囲を表示する。
【0042】
<変更受付部150>
変更受付部150は、表示部140が、対象カテゴリに分類された語句の、テキストにおける範囲を表示した後、第1の実施形態の変更受付部150と同様の方法で、複数のカテゴリのうち調整カテゴリの可能性の程度に対する変更の内容を含む、変更の指示を受け取る。変更受付部150は、受け取った変更の指示を、変更部160に送出する。変更受付部150は、1回以上、変更の指示を受け取ってよい。変更受付部150は、変更の指示を受け取るたびに、受け取った変更の指示を、変更部160に送出する。
【0043】
変更受付部150は、変更がないことを表す指示、言い換えると、変更が完了したことを示す指示(以下、完了指示とも表記)を受け付けてよい。完了指示は、出力の指示であってもよい。完了指示を受け付けた場合、変更受付部150は、例えば変更部160を介して、完了指示を分類部130に送出する。具体的には、変更受付部150は、完了指示を変更部160に送出する。そして、変更部160が、受け取った完了指示を分類部130に送出する。
【0044】
<変更部160>
変更部160は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、分類部130から受け取る。変更部160は、さらに、変更受付部150から、変更の指示を受け取る。上述のように、変更の指示は、例えば、調整カテゴリの可能性の程度の値に掛けられる係数の値を含む。
【0045】
変更部160は、第1の実施形態の変更部160と同様の方法で、受け取った変更の指示に従って、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を変更する。具体的には、上述のように、変更部160は、例えば、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度の値と、変更の指示に含まれる係数の値との積を、その語句が調整カテゴリに属する可能性の程度の値とする。変更部160は、変更した、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、分類部130に送出する。
【0046】
また、変更部160は、変更受付部150から、完了指示を受け取ってよい。変更部160は、受け取った完了指示を、分類部130に送出する。
【0047】
<出力部170>
出力部170は、テキストと、そのテキストに含まれる語句の情報と、語句が分類されているカテゴリの情報とを、分類部130から受け取る。
【0048】
出力部170は、対象カテゴリに分類されている語句が存在する範囲を出力する。出力部170は、テキストの中の対象カテゴリに分類されている語句(すなわち、対象カテゴリに分類されている語句の範囲がどこであるかを識別できる形で、テキストを出力してもよい。この場合、出力部170は、対象カテゴリに分類されている語句の内容を識別できないように、テキストを出力してもよい。出力部170は、テキストの中の対象カテゴリに分類されている語句の範囲がどこであるかと、対象カテゴリに分類されている語句の内容と、を識別できる形で、テキストを出力してもよい。出力部170は、テキストの中の対象カテゴリに分類されている語句の範囲のみを出力してもよい。この場合、出力部170は、テキストのうち、対象カテゴリに分類されている語句以外の部分を出力しなくてもよい。
【0049】
具体的には、出力部170は、例えば、対象カテゴリに分類された語句の部分の形式が、他の部分の形式とは異なる形式に設定された、テキストを表示する。この場合の形式は、例えば、文字の色、フォント、及び、背景の色等の少なくともいずれかである。なお、出力部170によって設定された、対象カテゴリに分類された語句の部分の形式は、表示部140によって設定された、対象カテゴリに分類された語句の部分の形式と同じであってもよい。出力部170によって設定された、対象カテゴリに分類された語句の部分の形式は、表示部140によって設定された、対象カテゴリに分類された語句の部分の形式と同一である必要は無い。
【0050】
出力部170は、対象カテゴリに分類された語句の内容を視認できないが対象カテゴリに分類された語句の範囲を視認できる形で、テキストを表示してもよい。このような表示の例として、隠蔽したい語句の範囲を黒く塗りつぶす黒塗りが存在する。出力部170は、対象カテゴリに分類された語句を黒い矩形によって置き換えたテキストを表示してもよい。対象カテゴリに分類された語句を置き換える矩形の色は、黒に限られない。
【0051】
出力部170による出力の他の例については、後で詳細に説明する。
【0052】
<動作>
次に、本開示の第2の実施形態に係るテキスト処理装置100の動作について、図面を使用して詳細に説明する。
【0053】
図4及び
図5は、本実施形態に係るテキスト処理装置100の動作の例を表すフローチャートである。
図4に示す例では、まず、対象受付部110が、処理の対象のテキストである、対象テキストを受け付ける(ステップS101)。次に、分割部120が、対象テキストを語句に分割する(ステップS102)。そして、分類部130が、語句がカテゴリに属する可能性の程度を、複数のカテゴリについて判定する(ステップS103)。さらに、分類部130は、推知された可能性の程度を使用して、語句をカテゴリに分類する(ステップS104)。次に、テキスト処理装置100は、
図5に示す動作を行う。
【0054】
図5に示す例では、表示部140が、複数のカテゴリのうち対象カテゴリに属する語句の範囲を表示する(ステップS105)。表示部140は、語句の範囲に加えて、例えば、変更の指示を入力するための、スライドバーなどのユーザインタフェースを表示する。
【0055】
変更受付部150は、ユーザによって上述のユーザインタエースを使用して入力された、変更の指示(すなわち、上述の変更指示)を受け付ける(ステップS106)。
【0056】
変更の指示が受け付けられた場合(ステップS107においてYES)、変更部160が、調整カテゴリの可能性の程度を、変更の指示に従って変更する(ステップS108)。本説明では、調整カテゴリの可能性の程度は、語句が調整可能性に属する可能性の程度を表す。ステップS108において、変更部160は、処理の対象として受け付けられたテキストに含まれる語句の各々の、調整カテゴリの可能性の程度を、変更の指示に従って変更する。
【0057】
分類部130は、複数のカテゴリごとの可能性の程度を使用して、語句をカテゴリに再分類する(ステップS109)。具体的には分類部130は、処理の対象であるテキストに含まれる語句の各々について、複数のカテゴリの中から、語句がカテゴリに属する可能性の程度が最も可能性が高いことを示すカテゴリを、その語句が分類されるカテゴリとして選択する。分類部130は、選択したカテゴリにその語句を分類する。そして、テキスト処理装置100の動作は、ステップS105に戻る。このように、テキスト処理装置100は、変更の指示が入力されなくなるまで、ステップS105からステップS109までの動作を繰り返す。
【0058】
変更の指示が受け付けられなかった場合(ステップS107においてNO)、出力部170は、対象カテゴリに分類されている語句が存在する範囲を出力する(ステップS110)。例えば、変更の指示ではなく上述の完了指示が受け付けられた場合、変更受付部150は、受け付けた完了指示を、例えば変更部160を介して、分類部130に送出する。分類部130は、完了指示を受け取ると、テキストと、そのテキストに含まれる語句の情報と、語句が分類されているカテゴリの情報とを、出力部170に送出する。出力部170は、対象カテゴリに分類されている語句が存在する範囲を出力する。
【0059】
<効果>
本実施形態には、第1の実施形態と同じ効果がある。その理由は、第1の実施形態の効果が生じる理由と同じである。
【0060】
また、一般的に、例えば語句を複数のカテゴリのうちいずれかのカテゴリに分類する場合に、誤分類の割合と分類漏れの割合は、トレードオフの関係にある。言い換えると、誤分類を減らそうとすると、分類漏れが増える傾向がある。また、分類漏れを減らそうとすると、誤分類が増える傾向がある。なお、語句の誤分類は、カテゴリに、実際はそのカテゴリに属さない語句が誤って分類されることである。語句の分類漏れは、カテゴリに、実際にはそのカテゴリに属する語句が分類されないことである。本実施形態では、ユーザが、分類の結果を視認しながら、例えばユーザインタフェースを使用して、誤分類の状態と分類漏れの状態が所望の状態になるように調整できる。
【0061】
<出力の他の例>
以下では、出力部170による出力の他の例について説明する。
【0062】
例えば、対象カテゴリが隠ぺいの対象である語句である場合、出力部170は、対象カテゴリに分類された語句を、他の文字列(以下では、置換文字列とも表記)に置き換えてもよい。そして、出力部170は、対象カテゴリに分類された語句の部分が置換文字列に置き換えられたテキストを出力してもよい。出力部170は、対象カテゴリに分類された語句を置換文字列に置き換え、置き換えられた置換文字列の部分の形式が、置換文字列以外の部分の形式とは異なる形式に設定された、テキストを表示してもよい。
【0063】
置換文字列は、例えば、空白文字のみの文字列であってもよい。置換文字列は、黒塗りされた語句に見えるように背景の色及び文字の色の少なくとも一方が設定された、空白文字であってもよい。空白文字は、スペースの文字であってもよい。空白文字は、文字間が開けられているように表示されるテキストの文字の位置を設定する制御文字であってもよい。
【0064】
対象カテゴリの数は、1つではなくてよい。複数の対象カテゴリが設定されていてよい。対象カテゴリに分類された語句の形式は、対象カテゴリごとに異なっていてもよい。
【0065】
上述の置換文字列は、対象カテゴリごとに予め定められている文字列であってもよい。例えば、対象カテゴリが地名である場合、置換文字列は置き換え用の地名として予め設定されている地名(例えば、A市等)であってもよい。対象カテゴリが人名である場合、置換文字列は置き換え用の人名として予め設定されている人名(例えば、B氏等)であってもよい。対象カテゴリが国名である場合、置換文字列は置き換え用の国名として予め設定されている国名(C国等)であってもよい。対象カテゴリが住所である場合、置換文字列は置き換え用の住所として予め設定されている住所であってもよい。
【0066】
また、出力部170は、同一の語句を同一の置換文字列によって置き換え、異なる語句を異なる置換文字列によって置き換えるように構成されていてもよい。この場合、1つの対象カテゴリに対して順序付けされた複数の置換文字列が予め設定されていてよい。この場合、出力部170は、例えば、対象カテゴリに分類された複数の種類の語句の各々に、対象カテゴリに対して設定されている複数の置換文字列から選択された、それぞれ異なる置換文字列を割り当てる。そして、出力部170は、テキストに含まれる、対象カテゴリに分類された語句を、その語句に割り当てられている置換文字列によって置き換える。複数の対象カテゴリが存在する場合、対象カテゴリのうち1つ以上の対象カテゴリの各々に、複数の置換文字列が予め設定されていてよい。複数の対象カテゴリは、分類されている語句が同一の置換文字列に置換される対象カテゴリを含んでいてもよい。
【0067】
例えば、対象カテゴリが要望等である場合、出力部170は、テキストのうち、対象カテゴリに分類された語句のみを出力するように構成されていてもよい。出力部170は、テキストのうち、対象カテゴリに分類された語句の部分の形式を、他の部分の形式とは異なる形式で、テキストを出力するように構成されていてもよい。
【0068】
<第2の実施形態の第1の変形例>
表示部140は、複数のカテゴリから対象カテゴリを選択するためのユーザインタフェースを表示してもよい。そのようなユーザインタフェースは、例えば、カテゴリごとの、カテゴリの名称と、カテゴリを対象カテゴリとして指定するためのチェックボックスとを含んでいてよい。
【0069】
そして、例えば変更受付部150が、複数のカテゴリから対象カテゴリを選択するためのユーザインタフェースを介して、対象カテゴリの指定を受け付けてよい。変更受付部150は、複数の対象カテゴリの指定を受け付けてもよい。変更受付部150は、例えば変更部160を介して、受け付けた対象カテゴリの指定によって特定される対象カテゴリの情報を分類部130に送出する。
【0070】
分類部130は、変更受付部150から変更部160を介して受け付けた対象カテゴリの情報によって特定される対象カテゴリを、新たな対象カテゴリとする。
【0071】
<第2の実施形態の第2の変形例>
以下では、対象テキストの例及び対象カテゴリの例についてさらに説明する。
【0072】
対象テキストは、コンピュータが認識できる電子データの中のテキストの部分であってもよい。対象テキストは、例えば、電子メールクライアントソフトウェア、ワードプロセッサ又は他のアプリケーションによって使用される形式のファイルのテキストの部分であってもよい。
【0073】
対象テキストは、例えば、ネットワークを介して組織(例えば、省庁、自治体又は会社等)のサーバに入力された、テキスト(例えば、テキストそのもの又はテキストを含むデータのテキスト部分等)であってもよい。この場合、対象カテゴリは、例えば、要望、質問、情報提供(例えば、製品の不具合等の情報の提供)、告発(例えば、不正又は犯罪疑いの告発)等を含んでいてもよい。
【0074】
対象テキストは、例えば、ソーシャルネットワーキングサービス等に投稿されたテキストであってもよい。この場合、対象カテゴリは、例えば、製品またはサービスなどの評価、要望、質問、情報提供(例えば、製品の不具合等の情報の提供)、要請(例えば、災害時の救援要請)、異常事態の情報(例えば、事故の情報及び災害等の情報等)であってもよい。
【0075】
対象テキストは、以上の例に限られない。対象カテゴリも、以上の例に限られない。
【0076】
<第2の実施形態の第3の変形例>
変更の内容は、例えば、調整カテゴリの変更後の可能性の程度を示す値によって表されていてもよい。変更の内容は、調整カテゴリの可能性の程度を表す値の値域に含まれる値(すなわち、最小値以上最大値以下の値)によって表されていてもよい。調整カテゴリの可能性の程度を表す値の値域(すなわち、最小値及び最大値)が既知である場合、変更の内容は、最小値と最大値との差に対する、最小値と変更後の調整カテゴリの可能性の程度との差の割合によって表されていてもよい。
【0077】
変更の内容が、調整カテゴリの変更後の可能性の程度を示す値によって表されている場合、変更部160は、調整カテゴリの可能性の程度を表す値を、変更の内容によって表される値に変更する。変更の内容が、最小値と最大値との差に対する、最小値と変更後の調整カテゴリの可能性の程度との差の割合によって表されている場合、最小値と最大値との間の、変更の内容によって表される割合によって表される値を算出する。そして、変更部160は、算出した値を、変更後の調整カテゴリの可能性の程度の値に設定する。
【0078】
なお、変更受付部150が、調整カテゴリの、変更後の可能性の程度を受け付けるように構成されている場合は、分類部130は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、変更部160に送出しなくてよい。そして、変更部160は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、分類部130から受け取らなくてよい。
【0079】
<第3の実施形態>
次に、本開示の第3の実施形態について、図面を使用して詳細に説明する。
【0080】
<構成>
図5は、本開示の第3の実施形態に係るテキスト処理装置101の構成の例を表すブロック図である。
図5に示す例では、本実施形態のテキスト処理装置101は、対象受付部110と、分割部120と、分類部130と、表示部140と、変更受付部150と、変更部160と、出力部170と、結果受付部181と、結果記憶部182と、初期値決定部183とを含む。本実施形態の対象受付部110、分割部120、分類部130、表示部140、変更受付部150、変更部160及び出力部170は、以下で説明する相違点を除いて、第2の実施形態の対象受付部110、分割部120、分類部130、表示部140、変更受付部150、変更部160及び出力部170と同じである。
【0081】
<結果受付部181>
結果受付部181は、予め記録された、複数のカテゴリのいずれかのカテゴリへの語句の分類の結果(以下、語句の分類の結果、及び、語句の分類の記録とも表記)を受け付ける。語句の分類の結果は、例えば、1つ以上のテキストについての、テキストの分割によって得られた語句を複数のカテゴリに分類した結果を表すデータである。語句の分類の結果は、手動で語句をカテゴリに分類した結果のデータであってもよい。語句の分類の結果は、何らかのアルゴリズムに従って動作するコンピュータによって語句をカテゴリに分類した結果のデータであってもよい。語句の分類の結果は、何らかのアルゴリズムに従って動作するコンピュータによって語句をカテゴリに分類した結果を、手動で修正したデータであってもよい。語句の分類の結果は、例えば、テキストが分割された語句の情報と、語句が分類されたカテゴリの情報とを含むデータである。語句の分類の結果は、さらに、テキストを含んでいてもよい。
【0082】
結果受付部181は、受け付けた語句の分類の結果を、結果記憶部182に格納する。
【0083】
<結果記憶部182>
結果記憶部182は、結果受付部181によって格納された、語句の分類の結果を記憶する。
【0084】
<初期値決定部183>
初期値決定部183は、結果記憶部182から、語句の分類の結果を読み出す。語句の分類の結果は、あらかじめ得られている、複数のカテゴリのいずれかカテゴリへの語句の分類の記録を表す。初期値決定部183は、読み出した語句の分類の結果(すなわち、記録)を使用して、この記録における対象カテゴリへの語句の分類の結果に、調整カテゴリの可能性の程度に対する係数の初期値を使用した、対象カテゴリへの語句の分類の結果を近づけるように、係数の初期値を決定する。調整カテゴリの可能性の程度に対する係数の初期値を使用した、複数のカテゴリのいずれかへの語句の分類は、判定された調整カテゴリの可能性の程度を表す値と係数の初期値との積を、調整カテゴリの可能性の程度の値として使用した、語句の分類を表す。
【0085】
具体的には、まず、初期値決定部183は、分類部130と同じ方法によって、複数のカテゴリについての、読み出した語句の分類の結果に含まれる語句がカテゴリに属する可能性の程度を判定する。初期値決定部183は、読み出した語句の分類の結果に含まれる語句を、分類部130に送出してもよい。そして、初期値決定部183は、分類部130によって判定された、読み出した語句の分類の結果に含まれる語句の、複数のカテゴリについての、読み出した語句の分類の結果に含まれる語句がカテゴリに属する可能性の程度を、分類部130から受け取ってもよい。
【0086】
この場合、分類部130は、初期値決定部183から、語句(具体的には、語句を表すデータ)を受け取る。そして、分類部130は、複数のカテゴリについての、受け取った語句がカテゴリに属する可能性の程度を判定する。分類部130は、判定した、複数のカテゴリについての、受け取った語句がカテゴリに属する可能性の程度を初期値決定部183に送出する。
【0087】
そして、初期値決定部183は、読み出した語句の分類の結果における対象カテゴリへの語句の分類の結果に、調整カテゴリの可能性の程度に対する係数の初期値を使用した、対象カテゴリへの語句の分類の結果を近づけるように、係数の初期値を決定する。初期値決定部183は、例えば、対象カテゴリに誤分類された語句の数と、対象カテゴリに分類漏れした語句の数との和が最も小さくなるように、係数の初期値を決定してよい。対象カテゴリに誤分類された語句は、読み出した語句の分類の結果では対象カテゴリに分類されていないが、可能性の程度を使用した分類の結果では対象カテゴリに分類されている語句である。対象カテゴリに分類漏れした語句は、読み出した語句の分類の結果では対象カテゴリに分類されているが、可能性の程度を使用した分類の結果では対象カテゴリに分類されていない語句である。なお、可能性の程度を使用した分類は、調整カテゴリの可能性の程度の値と係数の初期値の値との積を、調整カテゴリの可能性の程度の代わりに含む、複数のカテゴリの可能性の程度を使用した、語句のカテゴリへの分類を表す。なお、初期値決定部183は、この場合の語句の数を、語句のテキストにおける出現頻度によらず、同一の文字列からなる語句を1つの語句としてカウントしてよい。初期値決定部183は、この場合の語句の数を、同一の文字列からなる語句に、その語句のテキストにおける出現頻度に応じた重みを付けて、カウントしてもよい。カウントの方法は予め定められていてよい。
【0088】
初期値決定部183は、既存の算出方法のいずれかを使用して、係数の初期値を決定してよい。初期値決定部183は、例えば、係数の値を、係数の最小値から係数の最大値まで例えば所定の値の間隔で変化させながら、語句のカテゴリへの分類と、対象カテゴリに誤分類された語句の数と、対象カテゴリに分類漏れした語句の数との和を算出とを行ってよい。そして、初期値決定部183は、対象カテゴリに誤分類された語句の数と、対象カテゴリに分類漏れした語句の数との和の最小値を特定し、特定した最小値が算出された際の係数の値を特定してよい。初期値決定部183は、特定した係数の値を、係数の初期値とする。対象カテゴリに誤分類された語句の数と、対象カテゴリに分類漏れした語句の数との和の最小値に対して、複数の係数の値が特定された場合、初期値決定部183は、あらかじめ定められた方法に従って、複数の係数の値から1つの値を、係数の初期値として決定する。この場合の方法は、例えば、複数の係数の値の最小値を特定する、又は、複数の係数の値の最大値を特定する、などである。複数の係数の値から係数の初期値を特定する方法は、他の方法であってもよい。
【0089】
初期値決定部183は、決定した係数の初期値を、変更部160に送出する。
【0090】
<変更部160>
変更部160は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、分類部130から受け取る。
【0091】
また、変更部160は、初期値決定部183から、係数の初期値を受け取る。
【0092】
変更部160は、受け取った係数の初期値を使用して、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を変更する。具体的には、変更部160は、例えば、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度の値と、係数の初期値との積を、その語句が調整カテゴリに属する可能性の程度の値とする。変更部160は、変更した、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、分類部130に送出する。
【0093】
本実施形態の変更部160は、以上で説明した点(例えば、係数の初期値を受け取り、受け取った係数の初期値を使用して調整カテゴリの可能性の程度を変更する点)を除いて、第2の実施形態の変更部160と同じである。
【0094】
<分類部130>
本実施形態の分類部130は、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、まず、変更部160に送出する。
【0095】
分類部130は、変更部160によって係数の初期値を使用して変更された、テキストに含まれる語句の各々についての、語句が調整カテゴリに属する可能性の程度を、変更部160から受け取る。変更部160から、語句が調整カテゴリに属する可能性の程度を受け取ると、分類部130は、調整カテゴリの変更された可能性の程度を含む、複数のカテゴリについての、語句がカテゴリに属する可能性の程度を使用して、語句のカテゴリへの分類を行う。
【0096】
そして、分類部130は、テキストと、テキストが分割された語句の情報と、係数の初期値を使用して語句が分類されたカテゴリの情報とを、表示部140に送出する。
【0097】
本実施形態の分類部130は、以上で説明した点(例えば、係数の初期値を使用して変更した調整カテゴリの可能性の程度を含む複数のカテゴリについての可能性の程度を使用した語句の分類を最初に行う点)を除いて、第2の実施形態の分類部130と同じである。
【0098】
本実施形態のテキスト処理装置101の他の構成要素は、第2の実施形態のテキスト処理装置100の、同じ名称と同じ符号とが付与されている構成要素と同じである。
【0099】
<動作>
次に、本実施形態に係るテキスト処理装置101の動作について、図面を使用して詳細に説明する。
【0100】
図7は、本実施形態に係るテキスト処理装置101の、係数の初期値を決定する動作の例を表すフローチャートである。
【0101】
図7に示す例では、まず、結果受付部181が、語句の分類の結果を受け取る(ステップS201)。
【0102】
次に、初期値決定部183が、受け取った分類の結果に含まれる語句がカテゴリに属する可能性の程度を、複数のカテゴリについて判定する(ステップS202)。初期値決定部183は、分類部130を使用して、受け取った分類の結果に含まれる語句がカテゴリに属する可能性の程度を、複数のカテゴリについて判定してもよい。言い換えると、初期値決定部183は、分類部130が判定した、複数のカテゴリについての、受け取った分類の結果に含まれる語句がカテゴリに属する可能性の程度を、分類部130から受け取ってもよい。
【0103】
そして、初期値決定部183は、係数の初期値を使用して変更した可能性の程度を使用した分類の結果が、受け取った分類の結果に近づくように、係数の初期値を決定する(ステップS203)。
【0104】
本実施形態のテキスト処理装置101の、対象カテゴリに分類された語句の範囲を出力する動作は、ステップS104の動作を除いて、
図4及び
図5に示す、第2の実施形態のテキスト処理装置100の動作と同じである。本実施形態のテキスト処理装置101は、ステップS104において、判定された可能性の程度ではなく、係数の初期値を使用して変更した可能性の程度を使用して、語句のカテゴリへの分類を行う。
【0105】
<効果>
以上で説明した本実施形態には、第1の実施形態と同じ効果がある。その理由は、第1の実施形態の効果が生じる理由と同じである。
【0106】
<他の実施形態>
上述の実施形態に係るテキスト処理装置は、記憶媒体から読み出されたプログラムがロードされたメモリと、そのプログラムを実行するプロセッサとを含むコンピュータによって実現できる。上述の実施形態に係るテキスト処理装置は、専用のハードウェアによっても実現できる。上述の実施形態に係るテキスト処理装置は、前述のコンピュータと専用のハードウェアとの組み合わせによっても実現できる。
【0107】
図8は、本開示の実施形態に係るテキスト処理装置を実現することができる、コンピュータ1000のハードウェア構成の一例を表す図である。
図8に示す例では、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、I/O(Input/Output)インタフェース1004とを含む。また、コンピュータ1000は、記憶媒体1005にアクセスすることができる。メモリ1002と記憶装置1003は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置である。記憶媒体1005は、例えば、RAM、ハードディスクなどの記憶装置、ROM(Read Only Memory)、可搬記憶媒体である。記憶装置1003が記憶媒体1005であってもよい。プロセッサ1001は、メモリ1002と、記憶装置1003に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ1001は、I/Oインタフェース1004を介して、例えば、他の装置にアクセスすることができる。プロセッサ1001は、記憶媒体1005にアクセスすることができる。記憶媒体1005には、コンピュータ1000を、本開示の実施形態に係るテキスト処理装置として動作させるプログラムが格納されている。
【0108】
プロセッサ1001は、記憶媒体1005に格納されている、コンピュータ1000を、本開示の実施形態に係るテキスト処理装置として動作させるプログラムを、メモリ1002にロードする。そして、プロセッサ1001が、メモリ1002にロードされたプログラムを実行することにより、コンピュータ1000は、本開示の実施形態に係るテキスト処理装置として動作する。
【0109】
対象受付部110、分割部120、分類部130、表示部140、変更受付部150、変更部160、出力部170、結果受付部181及び初期値決定部183は、例えば、メモリ1002にロードされたプログラムを実行するプロセッサ1001によって実現できる。また、結果記憶部182は、コンピュータ1000が含むメモリ1002やハードディスク装置等の記憶装置1003によって実現できる。あるいは、対象受付部110、分割部120、分類部130、表示部140、変更受付部150、変更部160、出力部170、結果受付部181、結果記憶部182及び初期値決定部183の一部又は全部は、各部の機能を実現する専用の回路によっても実現できる。
【0110】
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0111】
(付記1)
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示手段と、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付手段と、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更手段と、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類手段と、
を備えるテキスト処理装置。
【0112】
(付記2)
前記変更受付手段は、前記調整カテゴリの判定された前記可能性の程度に掛けられる係数の値を示す前記変更の指示を受け付け、
前記変更手段は、判定された前記調整カテゴリの前記可能性の程度と受け付けた前記変更の指示が示す前記係数との積を、前記調整カテゴリの変更された前記可能性の程度に設定し、
前記分類手段は、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、の中で、前記可能性の程度が最も大きいカテゴリに前記語句を再分類する
付記1に記載のテキスト処理装置。
【0113】
(付記3)
前記調整カテゴリは、前記複数のカテゴリのうち前記調整カテゴリ以外のカテゴリに属さない語句のカテゴリである
付記1又は2に記載のテキスト処理装置。
【0114】
(付記4)
語句がカテゴリに属する可能性の程度を、前記複数のカテゴリの各々について判定するように学習された判定モデルを使用して、前記テキストに含まれる前記語句が前記複数のカテゴリに属する前記可能性の程度の各々を判定する判定手段
をさらに備え、
前記分類手段は、前記語句が前記複数のカテゴリに属する前記可能性の程度の各々と、前記調整カテゴリの前記可能性の程度の前記係数の初期値と、を使用して、前記語句の前記複数のカテゴリのいずれかに分類する
付記2に記載のテキスト処理装置。
【0115】
(付記5)
予め得られている語句の前記複数のカテゴリのいずれかへの分類の記録を使用して、前記記録に含まれる前記対象カテゴリへの前記語句の分類の結果に、前記調整カテゴリの前記可能性の程度に対する前記係数の前記初期値を使用した前記語句の前記対象カテゴリへの分類を近付けるように、前記初期値を決定する初期値決定手段
を備える付記4に記載のテキスト処理装置。
【0116】
(付記6)
前記対象カテゴリに再分類された前記語句が存在する範囲が隠蔽された前記テキストを出力する出力手段
をさらに備える付記1又は2に記載のテキスト処理装置。
【0117】
(付記7)
前記複数のカテゴリは、要望又は苦情を少なくとも含む、語句の種類を表し、
前記対象カテゴリは、前記要望又は苦情であり、
前記対象カテゴリに分類されている前記語句が存在する範囲を出力する出力手段
をさらに備える付記1又は2に記載のテキスト処理装置。
【0118】
(付記8)
前記表示手段は、前記テキストと前記係数の値を指定可能な入力領域とを表示し、
前記変更受付手段は、前記入力領域において指定された位置から、前記係数の値を決定する
付記2に記載のテキスト処理装置。
【0119】
(付記9)
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示し、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付け、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更し、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する、
テキスト処理方法。
【0120】
(付記10)
前記調整カテゴリの判定された前記可能性の程度に掛けられる係数の値を示す前記変更の指示を受け付け、
判定された前記調整カテゴリの前記可能性の程度と受け付けた前記変更の指示が示す前記係数との積を、前記調整カテゴリの変更された前記可能性の程度に設定し、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、の中で、前記可能性の程度が最も大きいカテゴリに前記語句を再分類する
付記9に記載のテキスト処理方法。
【0121】
(付記11)
前記調整カテゴリは、前記複数のカテゴリのうち前記調整カテゴリ以外のカテゴリに属さない語句のカテゴリである
付記9又は10に記載のテキスト処理方法。
【0122】
(付記12)
語句がカテゴリに属する可能性の程度を、前記複数のカテゴリの各々について判定するように学習された判定モデルを使用して、前記テキストに含まれる前記語句が前記複数のカテゴリに属する前記可能性の程度の各々を判定し、
前記語句が前記複数のカテゴリに属する前記可能性の程度の各々と、前記調整カテゴリの前記可能性の程度の前記係数の初期値と、を使用して、前記語句の前記複数のカテゴリのいずれかに分類する
付記10に記載のテキスト処理方法。
【0123】
(付記13)
予め得られている語句の前記複数のカテゴリのいずれかへの分類の記録を使用して、前記記録に含まれる前記対象カテゴリへの前記語句の分類の結果に、前記調整カテゴリの前記可能性の程度に対する前記係数の前記初期値を使用した前記語句の前記対象カテゴリへの分類を近付けるように、前記初期値を決定する
付記12に記載のテキスト処理方法。
【0124】
(付記14)
前記対象カテゴリに再分類された前記語句が存在する範囲が隠蔽された前記テキストを出力する
付記9又は10に記載のテキスト処理方法。
【0125】
(付記15)
前記複数のカテゴリは、要望又は苦情を少なくとも含む、語句の種類を表し、
前記対象カテゴリは、前記要望又は苦情であり、
前記対象カテゴリに分類されている前記語句が存在する範囲を出力する
付記9又は10に記載のテキスト処理方法。
【0126】
(付記16)
前記テキストと前記係数の値を指定可能な入力領域とを表示し、
前記変更受付手段は、前記入力領域において指定された位置から、前記係数の値を決定する
付記10に記載のテキスト処理方法。
【0127】
(付記17)
テキストに含まれる語句のうち、前記語句が複数のカテゴリに属する可能性の程度の各々を使用して前記複数のカテゴリのうち対象カテゴリに分類された対象語句の、前記テキストにおける範囲を表示する表示処理と、
前記複数のカテゴリのうち前記対象カテゴリとは異なる調整カテゴリの前記可能性の程度に対する変更の指示を受け付ける変更受付処理と、
受け付けた前記変更の指示に従って、前記調整カテゴリの前記可能性の程度を変更する変更処理と、
前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、を使用して、前記語句を前記複数のカテゴリのいずれかに再分類する分類処理と、
をコンピュータに実行させるプログラム。
【0128】
(付記18)
前記変更受付処理は、前記調整カテゴリの判定された前記可能性の程度に掛けられる係数の値を示す前記変更の指示を受け付け、
前記変更処理は、判定された前記調整カテゴリの前記可能性の程度と受け付けた前記変更の指示が示す前記係数との積を、前記調整カテゴリの変更された前記可能性の程度に設定し、
前記分類処理は、前記調整カテゴリ以外の前記複数のカテゴリの前記可能性の程度の各々と、変更された前記調整カテゴリの前記可能性の程度と、の中で、前記可能性の程度が最も大きいカテゴリに前記語句を再分類する
付記17に記載のプログラム。
【0129】
(付記19)
前記調整カテゴリは、前記複数のカテゴリのうち前記調整カテゴリ以外のカテゴリに属さない語句のカテゴリである
付記17又は18に記載のプログラム。
【0130】
(付記20)
語句がカテゴリに属する可能性の程度を、前記複数のカテゴリの各々について判定するように学習された判定モデルを使用して、前記テキストに含まれる前記語句が前記複数のカテゴリに属する前記可能性の程度の各々を判定する判定処理
をさらにコンピュータに実行させ、
前記分類処理は、前記語句が前記複数のカテゴリに属する前記可能性の程度の各々と、前記調整カテゴリの前記可能性の程度の前記係数の初期値と、を使用して、前記語句の前記複数のカテゴリのいずれかに分類する
付記18に記載のプログラム。
【0131】
(付記21)
予め得られている語句の前記複数のカテゴリのいずれかへの分類の記録を使用して、前記記録に含まれる前記対象カテゴリへの前記語句の分類の結果に、前記調整カテゴリの前記可能性の程度に対する前記係数の前記初期値を使用した前記語句の前記対象カテゴリへの分類を近付けるように、前記初期値を決定する初期値決定処理
をさらにコンピュータに実行させる付記20に記載のプログラム。
【0132】
(付記22)
前記対象カテゴリに再分類された前記語句が存在する範囲が隠蔽された前記テキストを出力する出力処理
をさらにコンピュータに実行させる付記17又は18に記載のプログラム。
【0133】
(付記23)
前記複数のカテゴリは、要望又は苦情を少なくとも含む、語句の種類を表し、
前記対象カテゴリは、前記要望又は苦情であり、
前記対象カテゴリに分類されている前記語句が存在する範囲を出力する出力処理
をさらにコンピュータに実行させる付記17又は18に記載のプログラム。
【0134】
(付記24)
前記表示処理は、前記テキストと前記係数の値を指定可能な入力領域とを表示し、
前記変更受付処理は、前記入力領域において指定された位置から、前記係数の値を決定する
付記18に記載のプログラム。
【0135】
以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0136】
10 テキスト処理装置
100 テキスト処理装置
101 テキスト処理装置
110 対象受付部
120 分割部
130 分類部
140 表示部
150 変更受付部
160 変更部
170 出力部
181 結果受付部
182 結果記憶部
183 初期値決定部
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 記憶装置
1004 I/Oインタフェース
1005 記憶媒体