(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-12
(45)【発行日】2023-01-20
(54)【発明の名称】情報処理装置、処理方法、及び処理プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20230113BHJP
【FI】
G06F16/35
(21)【出願番号】P 2022560867
(86)(22)【出願日】2021-05-20
(86)【国際出願番号】 JP2021019170
【審査請求日】2022-10-05
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(73)【特許権者】
【識別番号】000236056
【氏名又は名称】三菱電機ビルソリューションズ株式会社
(74)【代理人】
【識別番号】100116964
【氏名又は名称】山形 洋一
(74)【代理人】
【識別番号】100120477
【氏名又は名称】佐藤 賢改
(74)【代理人】
【識別番号】100135921
【氏名又は名称】篠原 昌彦
(74)【代理人】
【識別番号】100123375
【氏名又は名称】半田 淳一
(74)【代理人】
【識別番号】100203677
【氏名又は名称】山口 力
(72)【発明者】
【氏名】内出 隼人
(72)【発明者】
【氏名】長徳 典宏
【審査官】早川 学
(56)【参考文献】
【文献】特開2013-16011(JP,A)
【文献】特開2016-27493(JP,A)
【文献】米国特許出願公開第2020/0327381(US,A1)
【文献】河合 敦夫,意味属性の学習結果にもとづく文書自動分類方式,情報処理学会論文誌,日本,社団法人情報処理学会,1992年09月16日,第33巻第9号,pp. 1114-1122
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
複数のテキストを取得する取得部と、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、
を有する情報処理装置。
【請求項2】
前記クラスは、複数の種類のクラスであり、
前記算出部は、前記クラスごとに、前記総和を算出し、前記クラスごとに算出された前記総和を用いて、前記複数の単語のそれぞれの前記寄与度を算出する、
請求項1に記載の情報処理装置。
【請求項3】
前記複数の単語のそれぞれの前記寄与度に基づいて、予め設定された閾値以上の前記寄与度に対応する単語を特定する特定部と、
特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成し、作成されたクラスタに基づいて、特定された単語の語義を示す前記語義情報を作成する作成処理部と、
をさらに有する、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記作成処理部は、特定された単語ごとに、特定された単語と前記共起単語との関係を示す部分グラフを作成し、作成された複数の部分グラフに対してクラスタリングを行い、クラスタリングにより形成されたクラスタに基づいて、前記語義情報を作成する、
請求項3に記載の情報処理装置。
【請求項5】
クラス付加処理部をさらに有し、
前記取得部は、前記クラスが対応付けられていない複数のテキストを取得し、
前記クラス付加処理部は、テキストごとに、テキストに対して形態素解析を行い、前記形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出し、テキストごとに算出された平均ベクトルを用いて、前記クラスが対応付けられていない複数のテキストに対してクラスタリングを行い、形成されたクラスタごとに、クラスタに含まれているテキストに前記クラスを付加することにより、前記複数のテキストを作成する、
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
情報処理装置が、
複数のテキストを取得し、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
処理方法。
【請求項7】
情報処理装置に、
複数のテキストを取得し、
識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行い、
前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成し、
前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、
算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する、
処理を実行させる処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、処理方法、及び処理プログラムに関する。
【背景技術】
【0002】
大量のテキストを分類したい場合がある。例えば、ユーザが大量のテキストを手作業で分類する方法が考えられる。しかし、当該方法では、ユーザの負担が大きい。そこで、コンピュータが大量のテキストを自動で分類する技術が求められる。例えば、大量のテキストを自動で分類する方法として、文書自動分類方式が提案されている(非特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】河合敦夫「意味属性の学習結果にもとづく文書自動分類方式」、情報処理学会論文誌、1992年
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、非特許文献1には、得点を算出する方法が記載されている。以下の説明では、得点は、寄与度と呼ぶ。しかし、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
【0005】
本開示の目的は、寄与度を算出することである。
【課題を解決するための手段】
【0006】
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のテキストを取得する取得部と、識別子であるクラスが対応付けられている前記複数のテキストに対して形態素解析を行う形態素解析部と、前記形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部と、前記複数の単語ベクトルに基づいて、前記クラスにおける単語の単語ベクトルと、前記複数のテキスト内の全単語の単語ベクトルとの類似度の総和を算出し、算出された前記総和を用いて、前記複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部と、を有する。
【発明の効果】
【0007】
本開示によれば、寄与度を算出することができる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態1のテキストの分類を説明するための図である。
【
図4】実施の形態1の情報処理装置が有するハードウェアを示す図である。
【
図5】実施の形態1の情報処理装置の機能を示すブロック図である。
【
図6】実施の形態1の総和の算出例を示す図である。
【
図7】実施の形態1の単語ごとの寄与度の具体例を示す図である。
【
図8】実施の形態1の部分グラフの例を示す図である。
【
図9】実施の形態1のクラスタリングが行われた状態の具体例を示す図である。
【
図10】実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
【
図11】実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。
【
図12】(A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。
【
図13】実施の形態2の情報処理装置の機能を示すブロック図である。
【
図14】実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
【0010】
実施の形態1.
図1は、実施の形態1のテキストの分類を説明するための図である。
図1は、テキストA,B,C,Dを示している。テキストA,B,C,Dを4つの分類先に分類する場合、テキスト内の単語にラベルを付加する方法が考えられる。コンピュータは、ラベルに基づいてテキストを分類することで、容易にテキストを分類することができる。
【0011】
しかし、ラベルが付加される対象の単語が、どのような意味であるかが不明である。そのため、対象の単語には、どのようなラベルを付加すればよいかが問題となる。解決方法として、語義情報を用いて対象の単語の意味を特定して、当該意味のラベルを対象の単語に付加する方法が考えられる。当該方法を実現するために、語義情報を作成する必要がある。語義情報を作成する場合、寄与度に基づいて語義情報を作成する方法が考えられる。そこで、寄与度の算出を説明する。
【0012】
まず、非特許文献1では、寄与度は、得点と呼んでいる。しかし、以下の説明では、得点は、寄与度と呼ぶ。なお、寄与度の定義については、後で説明する。非特許文献1には、寄与度に関する式が記載されている。寄与度Yijは、式(1)を用いて、表現される。なお、i及びjは、正の整数である。また、式(1)内のMijは、理論頻度(非特許文献1では、理論度数)と呼ぶ。式(1)内のFijは、出現頻度(非特許文献1では、頻度)と呼ぶ。
【0013】
【0014】
理論頻度Mijは、式(2)を用いて、表現される。
【0015】
【0016】
また、寄与度Y
ijは、次のように表現される。
図2は、実施の形態1の寄与度の例を示す図である。
図2は、寄与度Y
ijを示している。cは、クラスを示す。wは、単語を示す。また、クラスc
iは、テキストに対応付けられている。理論頻度M
ijは、クラスc
iにおける単語w
jの理論頻度M
ijと表現してもよい。クラスc
iにおける単語w
jの出現頻度F
ijは、次のように算出される。
【0017】
図3は、出現頻度の算出例を示す図である。縦方向は、1つのテキスト内の単語を示している。横方向は、全てのテキスト内の全単語を示している。全てのテキスト内の全単語の中で重複する単語は、1つにまとめられている。
【0018】
例えば、ある1つのテキスト内には、“電源”の単語が2つ含まれている。そのため、“電源”の出現頻度は、“2”になる。
また、例えば、ある1つのテキスト内には、“ドア”、“スイッチ”、及び“コンデンサ”の単語が含まれていない。そのため、“ドア”、“スイッチ”、及び“コンデンサ”の出現頻度は、“0”になる。
【0019】
出現頻度が“0”である場合、式(2)の分母が0になる。このように、式(2)の分母が0になるため、非特許文献1の方法は、寄与度の算出方法として、好ましくない場合がある。
【0020】
そこで、以下、寄与度が算出される場合を説明する。ここで、寄与度とは、語義情報を作成する際に寄与する度合である。
まず、情報処理装置が有するハードウェアを説明する。
【0021】
図4は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、処理方法を実行する装置である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
【0022】
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
【0023】
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
【0024】
次に、情報処理装置100が有する機能を説明する。
図5は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170を有する。
【0025】
記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、処理回路によって実現してもよい。また、取得部120、形態素解析部130、単語ベクトル作成部140、算出部150、特定部160、及び作成処理部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、処理プログラムとも言う。例えば、処理プログラムは、記録媒体に記録されている。
【0026】
記憶部110は、複数のテキスト111を記憶してもよい。複数のテキスト111のそれぞれには、クラスが対応付けられている。例えば、クラスは、ユーザのコンピュータ操作により、複数のテキスト111に対応付けられる。クラスは、識別子と呼んでもよい。クラスは、数字、記号、文字、文字列などである。クラスの種類は、1以上の種類である。例えば、
図5は、“テキスト1”に“クラス1”が対応付けられていることを示している。
【0027】
取得部120は、複数のテキスト111を取得する。例えば、取得部120は、複数のテキスト111を記憶部110から取得する。ここで、複数のテキスト111は、外部装置(例えば、クラウドサーバ)に格納されてもよい。複数のテキスト111が外部装置に格納されている場合、取得部120は、複数のテキスト111を外部装置から取得する。
【0028】
形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。例えば、単語ベクトル作成部140は、当該複数の単語とword2vecとを用いて、複数の単語ベクトルを作成する。
【0029】
算出部150は、複数の単語ベクトルに基づいて、クラスciにおける単語wjの単語ベクトルと、複数のテキスト111内の全単語の単語ベクトルとの類似度の総和Sijを算出する。総和Sijは、式(3)によって、表現される。なお、式(3)のvw_ijはクラスciにおける単語wjの単語ベクトルを示す。式(3)のvw_kは、複数のテキスト111内の全単語の単語ベクトルを示す。cosは、コサイン類似度を示している。
【0030】
【0031】
ここで、総和S
ijの算出例を示す。
図6は、実施の形態1の総和の算出例を示す図である。縦方向は、クラスc
iにおける単語の単語ベクトルを示している。横方向は、全てのテキスト内の全単語の単語ベクトルを示している。言い換えれば、横方向は、複数のテキスト111内の全単語の単語ベクトルを示している。
【0032】
例えば、算出部150は、“扉”の単語ベクトルと“ドア”の単語ベクトルとに基づいて、類似度“0.9”を算出する。そして、算出部150は、総和“0.9”を算出する。このように、単語が一致しない場合でも、0よりも大きい数字が、総和として算出される。
算出部150は、同様に、クラスciごとに、総和Sijを算出する。
【0033】
算出部150は、クラスciごとに算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。なお、クラスが1種類のみである場合、算出部150は、1つのクラスで算出された総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。寄与度Yijは、式(4)を用いて、表現される。
【0034】
【0035】
理論頻度Mijは、式(5)を用いて、表現される。
【0036】
【0037】
なお、式(4)及び式(5)は、式(1)及び式(2)のF
ijがS
ijに変更された式である。
ここで、
図6で例示したように、情報処理装置100は、式(3)を用いることで、式(5)の分母が0になることを防止する。よって、実施の形態1によれば、情報処理装置100は、寄与度Y
ijを算出することができる。
【0038】
次に、寄与度Y
ijに基づいて、語義情報が作成される処理を説明する。
まず、算出部150は、式(4)を用いることで、複数の単語のそれぞれの寄与度Y
ijを算出できる。すなわち、
図2のように、複数の単語のそれぞれの寄与度Y
ijが算出される。ここで、単語ごとの寄与度の具体例を示す。
【0039】
図7は、実施の形態1の単語ごとの寄与度の具体例を示す図である。例えば、
図7は、“電源”の寄与度が“34741.3”であることを示している。
特定部160は、複数の単語のそれぞれの寄与度Y
ijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
【0040】
1つの単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語と、特定された単語を含むテキストの中で、特定された単語と共起する単語である共起単語とに基づいて、クラスタを作成する。作成処理部170は、作成されたクラスタに基づいて、特定された単語の語義を示す語義情報を作成する。
【0041】
2つ以上の単語が特定された場合、作成処理部170は、次の処理を行う。作成処理部170は、特定された単語ごとに、特定された単語と当該共起単語との関係を示す部分グラフを作成する。作成処理部170は、作成された複数の部分グラフに対してクラスタリングを行う。作成処理部170は、クラスタリングにより形成されたクラスタに基づいて、当該語義情報を作成する。
【0042】
以下、詳細に語義情報の作成処理を説明する。また、当該説明では、2つ以上の単語が特定された場合を説明する。
作成処理部170は、特定された複数の単語の中から1つの単語を選択する。例えば、作成処理部170は、特定された複数の単語の中から、“電源”を選択する。ここで、選択された単語は、選択単語と呼ぶ。作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。例えば、作成処理部170は、複数のテキスト111の中から、“電源”を含むテキストを抽出する。作成処理部170は、選択単語と、抽出されたテキスト内で選択単語と共起する単語との関係を示す部分グラフを作成する。選択単語と共起する単語は、共起単語である。ここで、部分グラフの例を示す。
【0043】
図8は、実施の形態1の部分グラフの例を示す図である。
図8は、“電源”が選択単語であることを示している。
図8は、抽出されたテキスト内には、“装置”、“静止”、“取り換え”などが含まれていることを示している。“装置”、“静止”、“取り換え”などの単語は、共起単語である。ここで、選択単語と共起単語は、ノードと考えてもよい。
【0044】
また、例えば、
図8は、抽出されたテキスト内に、“装置”が15回出現していることを示している。部分グラフでは、選択単語と共起単語は、エッジを介して接続する。エッジには、出現回数が付加される。出現回数は、共起回数と呼んでもよい。なお、出現回数が予め設定された閾値以下である場合、出現回数に対応する共起単語、及び当該共起単語に接続するエッジは、部分グラフに含まれなくてもよい。
【0045】
作成処理部170は、同様に、特定された複数の単語のそれぞれに対応する部分グラフを作成する。
【0046】
作成処理部170は、複数の部分グラフに対してクラスタリングを行う。例えば、作成処理部170は、マルコフクラスタリングを用いて、複数の部分グラフに対してクラスタリングを行う。また、例えば、作成処理部170は、word2vecを用いて、共起単語の単語ベクトルを作成し、作成された単語ベクトルと周知技術のクラスタリング技術とを用いて、クラスタリングを行ってもよい。なお、例えば、周知技術のクラスタリング技術は、K-means、GMM(Gaussian Mixture Model)などである。クラスタリングが行われた状態の具体例を示す。
【0047】
図9は、実施の形態1のクラスタリングが行われた状態の具体例を示す図である。
図9が示すように、複数の部分グラフに対してクラスタリングが行われる。これにより、複数のクラスタが形成される。例えば、“電源”、“装置”、“静止”、及び“取り換え”を含むクラスタが形成される。
【0048】
作成処理部170は、クラスタの中心単語(すなわち、選択単語)の語義を、当該クラスタ内で中心単語と関係を有する単語とする。言い換えれば、作成処理部170は、クラスタの中心ノードの単語の語義を、当該クラスタ内で中心ノードと接続しているノードの単語とする。例えば、作成処理部170は、“電源”の語義を、“装置”、“静止”、及び“取り換え”とする。また、作成処理部170は、クラスタ内の単語を多く含むテキストに対応付けられているクラスを、クラスタに対応付けてもよい。例えば、作成処理部170は、“電源”、“装置”などを含むクラスタに、クラス“A用電源”を対応付ける。
【0049】
作成処理部170は、クラスタごとに語義情報を作成する。詳細に語義情報の作成処理を説明する。作成処理部170は、中心単語と、中心単語の語義である単語との対応関係を示す情報である語義情報を作成する。例えば、作成処理部170は、“電源”と、“電源”の語義である“装置”、“静止”、及び“取り換え”との対応関係を示す情報である語義情報を作成する。作成処理部170は、語義情報を記憶部110に格納してもよい。語義情報には、クラスタに対応付けられたクラスが対応付けられてもよい。
【0050】
次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
図10は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS11)取得部120は、複数のテキスト111を取得する。
(ステップS12)形態素解析部130は、複数のテキスト111に対して形態素解析を行う。
(ステップS13)単語ベクトル作成部140は、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する。
【0051】
(ステップS14)算出部150は、複数の単語ベクトルに基づいて、総和Sijを算出する。
(ステップS15)算出部150は、総和Sijを用いて、複数の単語のそれぞれの寄与度Yijを算出する。これにより、複数の単語のそれぞれの寄与度Yijが、算出される。そして、処理は、ステップS21に進む。
【0052】
図11は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャート(その2)である。
(ステップS21)特定部160は、複数の単語のそれぞれの寄与度Y
ijに基づいて、予め設定された閾値以上の寄与度に対応する単語を特定する。すなわち、特定部160は、寄与度の高い単語を特定する。
(ステップS22)作成処理部170は、特定された複数の単語の中から1つの単語を選択する。
【0053】
(ステップS23)作成処理部170は、複数のテキスト111の中から選択単語を含むテキストを抽出する。
(ステップS24)作成処理部170は、選択単語と、抽出されたテキスト内で、選択単語と共起する共起単語との関係を示す部分グラフを作成する。
【0054】
(ステップS25)作成処理部170は、全ての単語を選択したか否かを判定する。全ての単語が選択された場合、処理は、ステップS26に進む。選択されていない単語がある場合、処理は、ステップS22に進む。
(ステップS26)作成処理部170は、複数の部分グラフに対してクラスタリングを行う。これにより、複数のクラスタが形成される。
(ステップS27)作成処理部170は、クラスタに基づいて、語義情報を作成する。
【0055】
次に、ラベルの付加方法を説明する。
図12(A),(B)は、実施の形態1のラベルの付加方法の例を示す図である。まず、語義情報は、“電源”の語義が、“装置”、“静止”、及び“取り換え”であることを示しているものとする。また、当該語義情報には、クラス“A用電源”が対応付けられている。
【0056】
図12(A)は、ラベルの付加方法の例(その1)を示している。情報処理装置100は、テキストA内の“電源”の意味を推定する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、“電源”の意味が“静止”であると推定する。情報処理装置100は、“電源”に“静止”のラベルを付加する。
【0057】
図12(B)は、ラベルの付加方法の例(その2)を示している。情報処理装置100は、テキストA内の“電源”にラベルを付加する場合、語義情報を用いる。情報処理装置100は、テキストA内に“静止”が含まれていることを特定する。情報処理装置100は、“静止”が語義情報に含まれていることを特定する。情報処理装置100は、語義情報に対応付けられているクラス“A用電源”のラベルを“電源”に付加する。
このように、単語にラベルが付加されることで、情報処理装置100は、テキストを分類する場合、容易にテキストを分類することができる。
【0058】
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
【0059】
実施の形態1では、複数のテキスト111のそれぞれに、クラスが対応付けられていた。実施の形態2では、クラスが対応付けられていない複数のテキスト111が扱われる。そして、実施の形態2では、情報処理装置100が、複数のテキスト111のそれぞれにクラスを対応付ける場合を説明する。
【0060】
図13は、実施の形態2の情報処理装置の機能を示すブロック図である。情報処理装置100は、さらに、クラス付加処理部180を有する。
クラス付加処理部180の一部又は全部は、処理回路によって実現してもよい。また、クラス付加処理部180の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。
【0061】
取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
クラス付加処理部180は、テキストごとに、テキストに対して形態素解析を行い、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成し、作成された複数の単語ベクトルに基づいて平均ベクトルを算出する。クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、クラスが対応付けられていない複数のテキスト111に対してクラスタリングを行う。クラスタリングでは、K-means、GMMなどが用いられてもよい。これにより、複数のクラスタが形成される。クラスタには、1以上のテキストが含まれる。クラス付加処理部180は、形成されたクラスタごとに、クラスタに含まれているテキストにクラスを付加することにより、クラスが対応付けられている複数のテキスト111を作成する。例えば、1つのクラスタに2つのテキスト(例えば、テキスト1,2)が含まれている場合、クラス付加処理部180は、当該2つのテキストに同じクラス(例えば、クラス1)を付加する。これにより、例えば、
図5のように、複数のテキスト111のそれぞれにクラスが付加される。
【0062】
次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
図14は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
図14の処理は、ステップS11a~11fが実行される点が
図10の処理と異なる。そのため、
図14では、ステップS11a~11fを説明する。そして、ステップS11a~11f以外の処理の説明は、省略する。
【0063】
(ステップS11a)取得部120は、クラスが対応付けられていない複数のテキスト111を取得する。
(ステップS11b)クラス付加処理部180は、複数のテキスト111の中から1つのテキストを選択する。
【0064】
(ステップS11c)クラス付加処理部180は、選択されたテキストに対して形態素解析を行う。クラス付加処理部180は、形態素解析により得られた複数の単語に基づいて複数の単語ベクトルを作成する。クラス付加処理部180は、複数の単語ベクトルに基づいて平均ベクトルを算出する。
【0065】
(ステップS11d)クラス付加処理部180は、全てのテキストを選択したか否かを判定する。全てのテキストが選択された場合、処理は、ステップS11dに進む。選択されていないテキストが存在する場合、処理は、ステップS11aに進む。
(ステップS11e)クラス付加処理部180は、テキストごとに算出された平均ベクトルを用いて、複数のテキスト111に対してクラスタリングを行う。
(ステップS11f)クラス付加処理部180は、クラスタごとに、クラスタに含まれているテキストにクラスを付加する。
【0066】
ここで、複数回のステップS11cが実行されるため、複数回の形態素解析が行われる。複数回の形態素解析は、ステップS12で行われる処理と同じである。そのため、ステップS12は、実行されなくてもよい。また、複数回のステップS11cが実行されるため、複数回の単語ベクトルの作成処理が実行される。複数回の単語ベクトルの作成処理は、ステップS13で行われる処理と同じである。そのため、ステップS13は、実行されなくてもよい。
【0067】
実施の形態2によれば、情報処理装置100は、自動的にテキストにクラスを付加する。そのため、ユーザがテキストにクラスを付加する作業を行わなくて済む。よって、情報処理装置100は、ユーザの負担を軽減できる。
【0068】
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
【符号の説明】
【0069】
100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 複数のテキスト、 120 取得部、 130 形態素解析部、 140 単語ベクトル作成部、 150 算出部、 160 特定部、 170 作成処理部、 180 クラス付加処理部。
【要約】
情報処理装置(100)は、複数のテキストを取得する取得部(120)と、識別子であるクラスが対応付けられている複数のテキスト(111)に対して形態素解析を行う形態素解析部(130)と、形態素解析により得られた複数の単語に基づいて、複数の単語ベクトルを作成する単語ベクトル作成部(140)と、複数の単語ベクトルに基づいて、クラスにおける単語の単語ベクトルと、複数のテキスト(111)内の全単語の単語ベクトルとの類似度の総和を算出し、算出された総和を用いて、複数の単語のそれぞれの、語義情報を作成する際に寄与する度合である寄与度を算出する算出部(150)とを有する。