IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-175596機械学習プログラム、機械学習方法及び機械学習装置
<>
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図1
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図2
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図3
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図4
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図5
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図6
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図7
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図8
  • 特開-機械学習プログラム、機械学習方法及び機械学習装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175596
(43)【公開日】2024-12-18
(54)【発明の名称】機械学習プログラム、機械学習方法及び機械学習装置
(51)【国際特許分類】
   G06F 40/253 20200101AFI20241211BHJP
   G06F 40/216 20200101ALI20241211BHJP
   G10L 15/00 20130101ALN20241211BHJP
【FI】
G06F40/253
G06F40/216
G10L15/00 200A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023093502
(22)【出願日】2023-06-06
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】稲木 光照
(57)【要約】
【課題】文章分類の信頼性を向上させる機械学習プログラム、機械学習方法及び機械学習装置を提供する。
【解決手段】第1文章を複数の第2文章に分割し、前記第1文章に適切とラベル付けし、前記第2文章に不適切とラベル付けし、ラベル付けされた前記第1文章及び前記第2文章それぞれを用いて第1機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第1機械学習モデルを生成する処理をコンピュータに実行させる。
【選択図】図2
【特許請求の範囲】
【請求項1】
第1文章を複数の第2文章に分割し、
前記第1文章に適切とラベル付けし、
前記第2文章に不適切とラベル付けし、
ラベル付けされた前記第1文章及び前記第2文章それぞれを用いて第1機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第1機械学習モデルを生成する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
【請求項2】
前記分割の処理は、前記第1文章として完結した文章を取得し、前記第1文章を分割して前記第2文章として未完結な文章を生成することを特徴とする請求項1に記載の機械学習プログラム。
【請求項3】
前記分割の処理は、前記第1文章を句点で分割して前記第2文章を生成することを特徴とする請求項2に記載の機械学習プログラム。
【請求項4】
前記第1文章を用いて第2機械学習モデルに学習させて、入力された文章を予め決められた複数のクラスのいずれかへの分類を行う前記第2機械学習モデルを生成する
処理を前記コンピュータにさらに実行させることを特徴とする請求項1に記載の機械学習プログラム。
【請求項5】
分類対象の文章の入力を受け付け、
前記第2機械学習モデルを用いて前記分類対象の文章の前記複数のクラスへの分類を実行し、
前記第1機械学習モデルを用いて前記分類対象の文章が適切か不適切かの判定を実行し、
前記分類の結果及び前記判定の結果を出力する
処理を前記コンピュータにさらに実行させることを特徴とする請求項4に記載の機械学習プログラム。
【請求項6】
機械学習装置が、
第1文章を複数の第2文章に分割し、
前記第1文章に適切とラベル付けし、
前記第2文章に不適切とラベル付けし、
ラベル付けされた前記第1文章及び前記第2文章それぞれを用いて第1機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第1機械学習モデルを生成する
処理を実行することを特徴とする機械学習方法。
【請求項7】
第1文章を複数の第2文章に分割する分割文章生成部と、
前記第1文章に適切とラベル付けし、前記第2文章に不適切とラベル付けする適不適ラベル付部と、
ラベル付けされた前記第1文章及び前記第2文章それぞれを用いて第1機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第1機械学習モデルを生成する学習処理部と
を備えたことを特徴とする機械学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習プログラム、機械学習方法及び機械学習装置に関する。
【背景技術】
【0002】
コールセンター等における電話の応対業務において、通話内容を音声認識にて文字起こしし、その文字起こしされた文章を自然言語処理により内容に応じて分類するといった技術が存在する。このような文章分類に関する技術として、予め定義されたラベルを用いて分類を行い、定義されたラベルのいずれにも該当しない場合は、未分類とする技術が存在する。
【0003】
他にも、発話を質問または要求として分類するために、キーワード分析と連動させて発話の解析木及びテンプレートによる言語分析を利用し、分類が難しい場合には不明として分類する技術が提案されている。また、基本的表現リストに加えて、否定又は肯定の含意を含む連語を利用して、文書を肯定的内容又は否定的内容のカテゴリーに分類するための分類基準の学習を行わせる技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011-170786号公報
【特許文献2】特表2020-537223号公報
【特許文献3】特開2006-113746号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、野外活動のように無線器を用いて連絡を取り合う場合、電波状況等の影響で通信内容が途絶するケースが発生する。通信が途絶した場合、音声認識により文字起こししても、文章としては未完結なものとなるため、従来の自然言語処理により内容を分類しようとした場合に、正常な分類が難しくなる。そのため、文章分類の信頼性を向上させることは困難である。
【0006】
明確な分類が難しい文章を未分類として分類する技術では、文章が未完結であるために未分類となるのか、あるいは文章自体は完結しているが、あらかじめ定義されたラベルのいずれにも属さないために未分類となるのか判別することが困難である。例えば、この技術を用いた場合、「スポーツ」、「グルメ」という分類ができるモデルに対し、「政治」に関する文章を入力すると「未分類」との出力が得られる。この場合、文章の内容が分類可能なラベル外であることは分かるが、その文章が未完結であるか否かは不明である。
【0007】
キーワード分析と連動して解析木及びテンプレートによる言語分析を利用して分類を行う技術や否定及び肯定の含意を含む連語を利用して分類モデルの学習を行う技術のいずれでも、文章が未完結か否かを判定することは困難である。このように、いずれの技術を用いても文章分類の信頼性を向上させることは困難である。
【0008】
開示の技術は、上記に鑑みてなされたものであって、文章分類の信頼性を向上させる機械学習プログラム、機械学習方法及び機械学習装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本願の開示する機械学習プログラム、機械学習方法及び機械学習装置の一つの態様において、第1文章を複数の第2文章に分割し、前記第1文章に適切とラベル付けし、前記第2文章に不適切とラベル付けし、ラベル付けされた前記第1文章及び前記第2文章それぞれを用いて第1機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第1機械学習モデルを生成する処理をコンピュータに実行させる。
【発明の効果】
【0010】
1つの側面では、本発明は、文章分類の信頼性を向上させることができる。
【図面の簡単な説明】
【0011】
図1図1は、実施例に係る機械学習装置のブロック図である。
図2図2は、未完結な文章の生成の一例の概要を示す図である。
図3図3は、未完結な文章の生成の具体例を示す図である。
図4図4は、実施例に係る文章分類装置のブロック図である。
図5図5は、分類結果表示部画面の一例を示す図である。
図6図6は、文章分類モデル及び不適切文章検出モデルの学習処理のフローチャートである。
図7図7は、文章分類処理のフローチャートである。
図8図8は、適切とラベル付け可能な分割後の文章の一例を示す図である。
図9図9は、コンピュータのハードウェア構成図である。
【発明を実施するための形態】
【0012】
以下に、本願の開示する機械学習プログラム、機械学習方法及び機械学習装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する機械学習プログラム、機械学習方法及び機械学習装置が限定されるものではない。
【実施例0013】
図1は、実施例に係る機械学習装置のブロック図である。機械学習装置1は、文章分類モデル101及び不適切文章検出モデル102に機械学習を行わせる装置である。文章分類モデル101は、未分類の文章に対して予め決められたクラスへの分類を行うための機械学習モデルである。また、不適切文章検出モデル102は、文章が完結しており予め決められたクラスへの分類を行うことが適切か、又は、その文章が未完結であり予め決められたクラスへの分類を行うことが不適切かを判定するための機械学習モデルである。ここで、完結した文章とは、1つの文章で内容が完結している文章であり、例えば、前の文章の句点から次の句点までの間の文章である。これに対して、未完結の文章とは、それ自体では内容が完結していない文章であり、例えば、完結した文章の一部を抜き出した文章等である。
【0014】
機械学習装置1は、データ格納装置2に接続される。データ格納装置2は、文章分類モデル101を学習させるための学習データを保持する装置である。ただし、データ格納装置2を用いずに、機械学習装置1が、予め学習データを保持してもよい。学習データは、完結した複数の文章を含む。学習データに含まれる文章は、予め決められたクラスのうちどのクラスに属するかが決められており、属するクラスを示す情報がラベル付けされている。この学習データに含まれる完結した文章が、「第1文章」の一例にあたる。
【0015】
以下に、機械学習装置1の詳細について説明する。機械学習装置1は、図1に示すように、学習データ取得部11、未完結文章生成部12、適不適ラベル付部13及び文章分類学習処理部14、不適切文章検出学習処理部15を有する。また、機械学習装置1は、未学習の文章分類モデル101及び不適切文章検出モデル102を有する。不適切文章検出モデル102が「第1機械学習モデル」の一例にあたり、文章分類モデル101が「第2機械学習モデル」の一例にあたる。
【0016】
学習データ取得部11は、完結した複数の文章を含む学習データをデータ格納装置2から取得する。そして、学習データ取得部11は、学習データを未完結文章生成部12、適不適ラベル付部13及び文章分類学習処理部14へ出力する。
【0017】
未完結文章生成部12は、学習データの入力を学習データ取得部11から受ける。そして、未完結文章生成部12は、学習データに含まれる完成した各文章を分割して未完結な文章を生成する。未完結文章生成部12は、生成した未完結な文章を適不適ラベル付部13へ出力する。この未完成な文章が、「第2文章」の一例にあたる。また、未完結文章生成部12が、「分割文章生成部」の一例にあたる。
【0018】
図2は、未完結な文章の生成の一例の概要を示す図である。例えば、未完結文章生成部12は、完結した文章である文章100に含まれる読点で文章100を分割する。これにより、例えば、未完結文章生成部12は、文章100から未完結な文章である文章111~113を生成する。未完結文章生成部12は、文章111のように、読点を含むように分割した文章を未完結な文章として生成してもよい。また、未完結文章生成部12は、文章112のように、特定の読点から次の読点までの文、すなわち、間に読点を含まない文章を未完結な文章として生成してもよい。また、未完結文章生成部12は、文章113のように、句点を含む文章を未完結な文章として生成してもよい。
【0019】
図3は、未完結な文章の生成の具体例を示す図である。ここでは、文章の対象がタクシーにおける無線通信であり、「運行情報」、「ルート情報」、「クレーム」というクラスが存在する場合で説明する。例えば、学習データには、「9時57分、赤坂駅にて、実車開始。」という文章120、「10時30分、川崎インターから高速に入る。」という文章130及び「先ほどのお客様から、配車が遅いとの苦情あり。」という文章140が含まれる。文章120は、「運行情報」として文章分類モデル101の学習に用いられる。また、文章130は、「ルート情報」として文章分類モデル101の学習に用いられる。また、文章140は、「クレーム」として文章分類モデル101の学習に用いられる。文章120、130及び140は、いずれも完結した文章であり、「適切」とラベル付け可能である。
【0020】
未完結文章生成部12は、文章120を分割して「9時57分、赤坂駅にて、」という文章121を生成する。また、未完結文章生成部12は、文章130を分割して「10時30分、」という文章131を生成する。また、未完結文章生成部12は、「先ほどのお客様から、」という文章141を生成する。このように、未完結文章生成部12は、完結した文章を句読点で分割することで、未完結な文章を生成することができる。
【0021】
適不適ラベル付部13は、学習データの入力を学習データ取得部11から受ける。また、適不適ラベル付部13は、未完結な文章の入力を未完結文章生成部12から受ける。
【0022】
そして、適不適ラベル付部13は、学習データに含まれる完結した文章に「適切」とラベル付けする。また、適不適ラベル付部13は、未完結文章生成部12により生成された未完結な文章に「不適切」とラベル付けする。そして、未完結文章生成部12は、ラベル付けした完結した文章及び未完結な文章を不適切文章検出学習処理部15へ出力する。
【0023】
例えば、図3に示す文章であれば、文章分類学習処理部14は、分割により生成された文章121、131及び141は未完結な文章であるとして、それぞれに「不適切」とラベル付けする。文章121、131及び141は、それぞれ「運行情報」、「ルート情報」、「クレーム」のいずれにも一意に分類することが難しいため、「不適切」とラベル付けされることが適当である。
【0024】
文章分類学習処理部14は、学習データの入力を学習データ取得部11から受ける。そして、文章分類学習処理部14は、学習データに含まれるラベル付きの文章を用いて文章分類モデル101を学習させる。これにより、文章分類モデル101は、入力された文章を予め決められたクラスのいずれかに分類する機械学習モデルとしての学習が完了する。
【0025】
不適切文章検出学習処理部15は、「適切」又は「不適切」がラベル付けされた完結した文章及び未完結な文章の入力を適不適ラベル付部13から受ける。そして、不適切文章検出学習処理部15は、ラベル付けされた完結した文章及び未完結な文章を用いて不適切文章検出モデル102を学習させる。これにより、不適切文章検出モデル102は、入力された文章が適切か不適切かを判定する機械学習モデルとしての学習が完了する。この不適切文章検出学習処理部15が、「学習処理部」の一例にあたる。
【0026】
図4は、実施例に係る文章分類装置のブロック図である。次に、図4を参照して、文章分類装置3について説明する。
【0027】
文章分類装置3は、学習済みの文章分類モデル101及び不適切文章検出モデル102を用いて文章分類を実行する装置である。本実施例では、文章分類装置3は、音声入力された文章の分類を行う。
【0028】
文章分類装置3は、音声入力デバイス4が接続される。音声入力デバイス4は、例えば、マイクや電話等である。文章分類装置3は、図4に示すように、音声データ取得部31、音声認識処理部32、文章分類処理部33、分類結果出力部34及び表示装置35を有する。また、文章分類装置3は、学習済みの文章分類モデル101及び不適切文章検出モデル102を機械学習装置1から取得して保持する。
【0029】
音声データ取得部31は、音声入力デバイス4により収集された会話の音声データの入力を受ける。そして、音声データ取得部31は、音声データを音声認識処理部32へ出力する。
【0030】
音声認識処理部32は、音声データの入力を音声データ取得部31から受ける。次に、音声認識処理部32は、例えば音声認識を行う機械学習モデルを用いて音声認識処理を実行する。音声認識処理により、音声認識処理部32は、音声データを文字起こししたテキストデータである音声認識結果テキストを生成する。そして、音声認識処理部32は、生成した音声認識結果テキストを文章分類処理部33へ出力する。
【0031】
文章分類処理部33は、音声データを文字起こしした音声認識結果テキストの入力を音声認識処理部32から受ける。次に、文章分類処理部33は、取得した音声認識結果テキストを1文ずつに分割する。例えば、文章分類処理部33は、句点の位置で音声認識結果テキストを分割して1文ずつの複数の文章を取得する。
【0032】
次に、文章分類処理部33は、取得した文章を1文ずつ学習済みの文章分類モデル101へ入力する。そして、文章分類処理部33は、入力した音声認識結果テキストに対する文章分類モデル101による分類結果を取得する。ここで、分類結果は、文章分類モデル101がどの様な学習を行ったかにより異なる。そして、文章分類処理部33は、1文毎の分類結果を保持する。
【0033】
また、文章分類処理部33は、取得した音声認識結果テキストを学習済みの不適切文章検出モデル102へ入力する。そして、文章分類処理部33は、入力した音声認識結果テキストに対する不適切文章検出モデル102によるその音声認識結果テキストにより示される文章が適切か不適切かの判定結果を取得する。以下では、不適切文章検出モデル102による文章が適切か不適切かの判定結果を「不適切文検出結果」と呼ぶ。そして、文章分類処理部33は、1文毎に分類結果とともに不適切文検出結果を保持して蓄積する。
【0034】
分類結果出力部34は、1文毎の分類結果及び不適切文検出結果を文章分類処理部33から取得する。例えば、分類結果出力部34は、利用者からの指示を受けて文章分類処理部33に蓄積された情報をまとめて取得しても良いし、1文が判定される毎に文章分類処理部33からその1文に対する情報を取得してもよい。そして、分類結果出力部34は、1文毎の分類結果及び不適切文検出結果の表示をモニタ等の表示装置35に行わせる。
【0035】
図5は、分類結果表示部画面の一例を示す図である。分類結果出力部34は、例えば、図5に示すような、1文毎の分類結果及び不適切文検出結果を示す分類結果表示画面200を生成して表示装置35に表示させる。分類結果表示画面200には、1文毎の分類結果及び不適切文検出結果が表示される。また、分類結果出力部34は、図5に示すように、その文章の音声データが取得された日付や時間及び音声認識結果テキストを分類結果表示画面200に含ませてもよい。さらに、分類結果出力部34は、図5の文章分類結果201に示すように、不適切とされた文章の分類結果を色付けする等して強調表示させてもよい。
【0036】
このように、分類結果とともに不適切分検出結果が表示させることで、利用者は、各文章の分類結果の信憑性を確認することができ、文章の分類結果を利用する際に、信憑性の低い分類結果を除外することができ、確度の高い文章の分類結果を利用することが可能となる。
【0037】
また、分類結果出力部34は、分類結果や不適切分検出結果を修正可能に分類結果表示画面200表示させてもよい。修正可能に表示させることで、利用者が分類結果や不適切文検出結果を確認したうえで正しい情報に修正することができ、正しい分類結果を収集することが可能となる。
【0038】
ここで、以上では、機械学習装置1と文章分類装置3とを別個の装置として説明したが、これらの機能をまとめて文章分類モデル101及び不適切文章検出モデル102の学習処理及び入力された文章の分類処理を行う1つの装置として構成することも可能である。
【0039】
図6は、文章分類モデル及び不適切文章検出モデルの学習処理のフローチャートである。次に、図6を参照して、本実施例に係る機械学習装置1による文章分類モデル101及び不適切文章検出モデル102の学習処理の流を説明する。
【0040】
学習データ取得部11は、予め決められたクラスに対応させてラベル付けされた文章のデータを含む学習データをデータ格納装置2から取得する(ステップS1)。
【0041】
未完結文章生成部12は、学習データを学習データ取得部11から取得する。そして、未完結文章生成部12は、取得した学習データに含まれるそれぞれの文章を分割して、未完結な文章を生成する(ステップS2)。
【0042】
適不適ラベル付部13は、学習データに含まれる完結した文章を学習データ取得部11から取得する。また、適不適ラベル付部13は、未完結な文章を未完結文章生成部12から取得する。そして、適不適ラベル付部13は、完結した文章に「適切」とラベル付けし、未完結な文章に「不適切」とラベル付けする(ステップS3)。
【0043】
文章分類学習処理部14は、学習データを学習データ取得部11から取得する。そして、文章分類学習処理部14は、学習データに含まれるラベル付けされた文章を用いて文章分類モデル101に学習を行わせる(ステップS4)。
【0044】
不適切文章検出学習処理部15は、「適切」又は「不適切」のラベルが付けられた完結した文章及び未完結な文章を適不適ラベル付部13から取得する。そして、不適切文章検出学習処理部15は、ラベルが付けられた完結した文章及び未完結な文章を用いて不適切文章検出モデル102に学習を行わせる(ステップS5)。
【0045】
図7は、文章分類処理のフローチャートである。次に、図7を参照して、本実施例に係る文章分類装置3による文章分類処理の流を説明する。
【0046】
音声データ取得部31は、会話の音声データをデータ格納装置2から取得する(ステップS11)。
【0047】
音声認識処理部32は、音声データの入力を音声データ取得部31から受ける。そして、音声認識処理部32は、取得した音声データに対して音声認識処理を実行して音声認識結果テキストを生成する(ステップS12)。
【0048】
文章分類処理部33は、音声認識結果テキストの入力を音声認識処理部32から受ける。そして、文章分類処理部33は、句点で音声認識結果テキストを分割して1文ずつの文章に分ける。さらに、文章分類処理部33は、音声認識結果テキストに含まれる文章数を取得する(ステップS13)。ここでは、文章分類処理部33が取得した文章数をNとする。
【0049】
次に、文章分類処理部33は、n=1とする(ステップS14)。
【0050】
次に、文章分類処理部33は、音声認識結果テキストを分割して生成した複数の文章のうち未選択の文章の中から1つ文章を選択する(ステップS15)。
【0051】
次に、文章分類処理部33は、選択した文章を学習済みの文章分類モデル101へ入力し、その入力に対する出力を文章分類モデル101から得ることで、選択した文章を予め決められたクラスのいずれかに分類する(ステップS16)。
【0052】
また、文章分類処理部33は、選択した文章を学習済みの不適切文章検出モデル102へ入力し、その入力に対する出力を不適切文章検出モデル102から得ることで、選択した文章が適切か不適切かを判定する(ステップS17)。
【0053】
次に、文章分類処理部33は、選択した文章に対応付けてのその分類結果及び不適切文検出結果を記憶する(ステップS18)。
【0054】
次に、文章分類処理部33は、nがNに達した(n=N)か否かを判定する(ステップS19)。nがNに達していない場合(ステップS19:否定)、文章分類処理部33は、nを1つインクリメント(n=n+1)する(ステップS20)。その後、文章分類処理部33は、ステップS15へ戻る。
【0055】
これに対して、nがNに達した場合(ステップS19:肯定)、分類結果出力部34は、音声認識テキストに含まれる各文章の1文毎の分類結果及び不適切文検出結果を文章分類処理部33から取得する。そして、分類結果出力部34は、音声認識テキストに含まれる各文章の1文毎の分類結果及び不適切文検出結果を表示装置35に表示させて結果を出力する(ステップS21)。
【0056】
以上に説明したように、本実施例に係る機械学習装置は、学習データを用いて文章分類モデルを学習させる。さらに、機械学習装置は、学習データから得られる完結した文章を分割して未完結な文章を作成して、完結した文章に適切とラベル付けし、また、未完結な文章に不適切とラベル付けして文章の適不適を判定する不適切文章検出モデルの学習を行わせる。このようにして作成された、文章分類モデル及び不適切文章検出モデルを用いて文章の分類を行うことで、利用者は、不適切と判定された信憑性の低い分類結果を把握することが可能となる。したがって、文章分類の信頼性を向上させることが可能となる。
【0057】
また、例えば無線通信等の音声データを用いる場合、不適切とされた文章は通信途絶等により未完結となった可能性が高いと考えられ、通信途絶のタイミングを把握することが可能となる。
【0058】
(変形例)
以上の実施例では、完結した文章を分割して生成した文章を全て不適切として学習を行ったが、分割後の文章であっても内容が完結しており完結した文章といえる文章が存在することが考えられる。そこで、本変形例では、分割後の文章のうち内容が完結した文章を適切と修正して、不適切文章検出モデル102に学習を行わせる。
【0059】
図8は、適切とラベル付け可能な分割後の文章の一例を示す図である。未完結文章生成部12は、文章120を分割して「9時57分、赤坂駅にて、」という文章121を生成する。また、未完結文章生成部12は、文章130を分割して「10時30分、」という文章131を生成する。また、未完結文章生成部12は、「配車が遅いとの苦情あり。」という文章142を生成する。
【0060】
文章分類学習処理部14は、分割により生成された文章121、131及び142は未完結な文章であるとして、それぞれに「不適切」とラベル付けする。ここで、文章121及び131は、それぞれ「運行情報」、「ルート情報」、「クレーム」のいずれにも一意に分類することが難しいため、「不適切」とラベル付けされることが適当である。これに対して、文章142は、明らかに「クレーム」に一意にラベル付けできる文章である。そこで、利用者は、文章142のラベルを「不適切」から「適切」に修正して、文章142に「適切」とラベル付けする。
【0061】
不適切文章検出学習処理部15は、未完結文章生成部12により生成された文章のうち、予め決められたクラスに対して明らかに一意にラベル付け可能な文章のラベルが「適切」と変更されたデータを用いて不適切文章検出モデル102に学習を行わせる。
【0062】
以上に説明したように、本変形例に係る機械学習装置は、完結した文章を分割して生成された文章のうち明らかに一意にラベル付け可能な文章のラベルを「適切」に変更して不適切文章検出モデルの学習処理を行う。これにより、不適切文章検出モデルの判定精度を向上させることが可能となる。したがって、文章分類の信頼性をより向上させることが可能となる。
【0063】
(ハードウェア構成)
図9は、コンピュータのハードウェア構成図である。機械学習装置1及び文章分類装置3は、図9に示すコンピュータ90により実現可能である。次に、図9を参照して、機械学習装置1及び文章分類装置3の各機能を実現するためのハードウェア構成の一例について説明する。
【0064】
図9に示すように、コンピュータ90は、例えば、CPU(Central Processing Unit)91、メモリ92、ハードディスク93及びネットワークインタフェース94を有する。CPU91は、バスを介して、メモリ92、ハードディスク93及びネットワークインタフェース94に接続される。
【0065】
ネットワークインタフェース94は、機械学習装置1の場合、データ格納装置2との間の通信や文章分類装置3との間の通信インタフェースである。また、ネットワークインタフェース94は、文章分類装置3の場合、機械学習装置1との間の通信インタフェースである。ネットワークインタフェース94は、CPU91と外部装置との間の通信を中継する。
【0066】
ハードディスク93は、補助記憶装置である。機械学習装置1の場合、ハードディスク93は、文章分類モデル101及び不適切文章検出モデル102を格納する。また、ハードディスク93は、図1に例示した、学習データ取得部11、未完結文章生成部12、適不適ラベル付部13、文章分類学習処理部14及び不適切文章検出学習処理部15の機能を実現するプログラムを含む各種プログラムを格納する。また、文章分類装置3の場合、ハードディスク93は、文章分類モデル101及び不適切文章検出モデル102を格納する。また、ハードディスク93は、図4に例示した、音声データ取得部21、音声認識処理部22、文章分離処理部23及び分類結果出力部24の機能を実現するプログラムを含む各種プログラムを格納する。
【0067】
メモリ92は、主記憶装置である。メモリ92は、例えば、DRAM(Dynamic Random Access Memory)を用いることができる。
【0068】
CPU91は、ハードディスク93から各種プログラムを読み出して、メモリ92に展開して実行する。これにより、機械学習装置1の場合、CPU91は、図1に例示した、学習データ取得部11、未完結文章生成部12、適不適ラベル付部13、文章分類学習処理部14及び不適切文章検出学習処理部15の機能を実現する。また、文章分類装置3の場合、CPU91は、図4に例示した、音声データ取得部21、音声認識処理部22、文章分離処理部23及び分類結果出力部24の機能を実現する。
【符号の説明】
【0069】
1 機械学習装置
2 データ格納装置
3 文章分類装置
4 音声入力デバイス
11 学習データ取得部
12 未完結文章生成部
13 適不適ラベル付部
14 文章分類学習処理部
15 不適切文章検出学習処理部
31 音声データ取得部
32 音声認識処理部
33 文章分類処理部
34 分類結果出力部
35 表示装置
101 文章分類モデル
102 不適切文章検出モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9