特開2024-175596 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-175596機械学習プログラム、機械学習方法及び機械学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024175596

(43)【公開日】2024-12-18

(54)【発明の名称】機械学習プログラム、機械学習方法及び機械学習装置

(51)【国際特許分類】

G06F 40/253 20200101AFI20241211BHJP

G06F 40/216 20200101ALI20241211BHJP

G10L 15/00 20130101ALN20241211BHJP

【ＦＩ】

G06F40/253

G06F40/216

G10L15/00 200A

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023093502

(22)【出願日】2023-06-06

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】稲木光照

(57)【要約】

【課題】文章分類の信頼性を向上させる機械学習プログラム、機械学習方法及び機械学習装置を提供する。
【解決手段】第１文章を複数の第２文章に分割し、前記第１文章に適切とラベル付けし、前記第２文章に不適切とラベル付けし、ラベル付けされた前記第１文章及び前記第２文章それぞれを用いて第１機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第１機械学習モデルを生成する処理をコンピュータに実行させる。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１文章を複数の第２文章に分割し、
前記第１文章に適切とラベル付けし、
前記第２文章に不適切とラベル付けし、
ラベル付けされた前記第１文章及び前記第２文章それぞれを用いて第１機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第１機械学習モデルを生成する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

【請求項2】

前記分割の処理は、前記第１文章として完結した文章を取得し、前記第１文章を分割して前記第２文章として未完結な文章を生成することを特徴とする請求項１に記載の機械学習プログラム。

【請求項3】

前記分割の処理は、前記第１文章を句点で分割して前記第２文章を生成することを特徴とする請求項２に記載の機械学習プログラム。

【請求項4】

前記第１文章を用いて第２機械学習モデルに学習させて、入力された文章を予め決められた複数のクラスのいずれかへの分類を行う前記第２機械学習モデルを生成する
処理を前記コンピュータにさらに実行させることを特徴とする請求項１に記載の機械学習プログラム。

【請求項5】

分類対象の文章の入力を受け付け、
前記第２機械学習モデルを用いて前記分類対象の文章の前記複数のクラスへの分類を実行し、
前記第１機械学習モデルを用いて前記分類対象の文章が適切か不適切かの判定を実行し、
前記分類の結果及び前記判定の結果を出力する
処理を前記コンピュータにさらに実行させることを特徴とする請求項４に記載の機械学習プログラム。

【請求項6】

機械学習装置が、
第１文章を複数の第２文章に分割し、
前記第１文章に適切とラベル付けし、
前記第２文章に不適切とラベル付けし、
ラベル付けされた前記第１文章及び前記第２文章それぞれを用いて第１機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第１機械学習モデルを生成する
処理を実行することを特徴とする機械学習方法。

【請求項7】

第１文章を複数の第２文章に分割する分割文章生成部と、
前記第１文章に適切とラベル付けし、前記第２文章に不適切とラベル付けする適不適ラベル付部と、
ラベル付けされた前記第１文章及び前記第２文章それぞれを用いて第１機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第１機械学習モデルを生成する学習処理部と
を備えたことを特徴とする機械学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習プログラム、機械学習方法及び機械学習装置に関する。

【背景技術】

【0002】

コールセンター等における電話の応対業務において、通話内容を音声認識にて文字起こしし、その文字起こしされた文章を自然言語処理により内容に応じて分類するといった技術が存在する。このような文章分類に関する技術として、予め定義されたラベルを用いて分類を行い、定義されたラベルのいずれにも該当しない場合は、未分類とする技術が存在する。

【0003】

他にも、発話を質問または要求として分類するために、キーワード分析と連動させて発話の解析木及びテンプレートによる言語分析を利用し、分類が難しい場合には不明として分類する技術が提案されている。また、基本的表現リストに加えて、否定又は肯定の含意を含む連語を利用して、文書を肯定的内容又は否定的内容のカテゴリーに分類するための分類基準の学習を行わせる技術が提案されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１１－１７０７８６号公報

【特許文献2】特表２０２０－５３７２２３号公報

【特許文献3】特開２００６－１１３７４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、野外活動のように無線器を用いて連絡を取り合う場合、電波状況等の影響で通信内容が途絶するケースが発生する。通信が途絶した場合、音声認識により文字起こししても、文章としては未完結なものとなるため、従来の自然言語処理により内容を分類しようとした場合に、正常な分類が難しくなる。そのため、文章分類の信頼性を向上させることは困難である。

【0006】

明確な分類が難しい文章を未分類として分類する技術では、文章が未完結であるために未分類となるのか、あるいは文章自体は完結しているが、あらかじめ定義されたラベルのいずれにも属さないために未分類となるのか判別することが困難である。例えば、この技術を用いた場合、「スポーツ」、「グルメ」という分類ができるモデルに対し、「政治」に関する文章を入力すると「未分類」との出力が得られる。この場合、文章の内容が分類可能なラベル外であることは分かるが、その文章が未完結であるか否かは不明である。

【0007】

キーワード分析と連動して解析木及びテンプレートによる言語分析を利用して分類を行う技術や否定及び肯定の含意を含む連語を利用して分類モデルの学習を行う技術のいずれでも、文章が未完結か否かを判定することは困難である。このように、いずれの技術を用いても文章分類の信頼性を向上させることは困難である。

【0008】

開示の技術は、上記に鑑みてなされたものであって、文章分類の信頼性を向上させる機械学習プログラム、機械学習方法及び機械学習装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

本願の開示する機械学習プログラム、機械学習方法及び機械学習装置の一つの態様において、第１文章を複数の第２文章に分割し、前記第１文章に適切とラベル付けし、前記第２文章に不適切とラベル付けし、ラベル付けされた前記第１文章及び前記第２文章それぞれを用いて第１機械学習モデルに学習させて、入力された文章が適切か不適切かを判別する前記第１機械学習モデルを生成する処理をコンピュータに実行させる。

【発明の効果】

【0010】

１つの側面では、本発明は、文章分類の信頼性を向上させることができる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施例に係る機械学習装置のブロック図である。

【図2】図２は、未完結な文章の生成の一例の概要を示す図である。

【図3】図３は、未完結な文章の生成の具体例を示す図である。

【図4】図４は、実施例に係る文章分類装置のブロック図である。

【図5】図５は、分類結果表示部画面の一例を示す図である。

【図6】図６は、文章分類モデル及び不適切文章検出モデルの学習処理のフローチャートである。

【図7】図７は、文章分類処理のフローチャートである。

【図8】図８は、適切とラベル付け可能な分割後の文章の一例を示す図である。

【図9】図９は、コンピュータのハードウェア構成図である。

【発明を実施するための形態】

【0012】

以下に、本願の開示する機械学習プログラム、機械学習方法及び機械学習装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する機械学習プログラム、機械学習方法及び機械学習装置が限定されるものではない。

【実施例0013】

図１は、実施例に係る機械学習装置のブロック図である。機械学習装置１は、文章分類モデル１０１及び不適切文章検出モデル１０２に機械学習を行わせる装置である。文章分類モデル１０１は、未分類の文章に対して予め決められたクラスへの分類を行うための機械学習モデルである。また、不適切文章検出モデル１０２は、文章が完結しており予め決められたクラスへの分類を行うことが適切か、又は、その文章が未完結であり予め決められたクラスへの分類を行うことが不適切かを判定するための機械学習モデルである。ここで、完結した文章とは、１つの文章で内容が完結している文章であり、例えば、前の文章の句点から次の句点までの間の文章である。これに対して、未完結の文章とは、それ自体では内容が完結していない文章であり、例えば、完結した文章の一部を抜き出した文章等である。

【0014】

機械学習装置１は、データ格納装置２に接続される。データ格納装置２は、文章分類モデル１０１を学習させるための学習データを保持する装置である。ただし、データ格納装置２を用いずに、機械学習装置１が、予め学習データを保持してもよい。学習データは、完結した複数の文章を含む。学習データに含まれる文章は、予め決められたクラスのうちどのクラスに属するかが決められており、属するクラスを示す情報がラベル付けされている。この学習データに含まれる完結した文章が、「第１文章」の一例にあたる。

【0015】

以下に、機械学習装置１の詳細について説明する。機械学習装置１は、図１に示すように、学習データ取得部１１、未完結文章生成部１２、適不適ラベル付部１３及び文章分類学習処理部１４、不適切文章検出学習処理部１５を有する。また、機械学習装置１は、未学習の文章分類モデル１０１及び不適切文章検出モデル１０２を有する。不適切文章検出モデル１０２が「第１機械学習モデル」の一例にあたり、文章分類モデル１０１が「第２機械学習モデル」の一例にあたる。

【0016】

学習データ取得部１１は、完結した複数の文章を含む学習データをデータ格納装置２から取得する。そして、学習データ取得部１１は、学習データを未完結文章生成部１２、適不適ラベル付部１３及び文章分類学習処理部１４へ出力する。

【0017】

未完結文章生成部１２は、学習データの入力を学習データ取得部１１から受ける。そして、未完結文章生成部１２は、学習データに含まれる完成した各文章を分割して未完結な文章を生成する。未完結文章生成部１２は、生成した未完結な文章を適不適ラベル付部１３へ出力する。この未完成な文章が、「第２文章」の一例にあたる。また、未完結文章生成部１２が、「分割文章生成部」の一例にあたる。

【0018】

図２は、未完結な文章の生成の一例の概要を示す図である。例えば、未完結文章生成部１２は、完結した文章である文章１００に含まれる読点で文章１００を分割する。これにより、例えば、未完結文章生成部１２は、文章１００から未完結な文章である文章１１１～１１３を生成する。未完結文章生成部１２は、文章１１１のように、読点を含むように分割した文章を未完結な文章として生成してもよい。また、未完結文章生成部１２は、文章１１２のように、特定の読点から次の読点までの文、すなわち、間に読点を含まない文章を未完結な文章として生成してもよい。また、未完結文章生成部１２は、文章１１３のように、句点を含む文章を未完結な文章として生成してもよい。

【0019】

図３は、未完結な文章の生成の具体例を示す図である。ここでは、文章の対象がタクシーにおける無線通信であり、「運行情報」、「ルート情報」、「クレーム」というクラスが存在する場合で説明する。例えば、学習データには、「９時５７分、赤坂駅にて、実車開始。」という文章１２０、「１０時３０分、川崎インターから高速に入る。」という文章１３０及び「先ほどのお客様から、配車が遅いとの苦情あり。」という文章１４０が含まれる。文章１２０は、「運行情報」として文章分類モデル１０１の学習に用いられる。また、文章１３０は、「ルート情報」として文章分類モデル１０１の学習に用いられる。また、文章１４０は、「クレーム」として文章分類モデル１０１の学習に用いられる。文章１２０、１３０及び１４０は、いずれも完結した文章であり、「適切」とラベル付け可能である。

【0020】

未完結文章生成部１２は、文章１２０を分割して「９時５７分、赤坂駅にて、」という文章１２１を生成する。また、未完結文章生成部１２は、文章１３０を分割して「１０時３０分、」という文章１３１を生成する。また、未完結文章生成部１２は、「先ほどのお客様から、」という文章１４１を生成する。このように、未完結文章生成部１２は、完結した文章を句読点で分割することで、未完結な文章を生成することができる。

【0021】

適不適ラベル付部１３は、学習データの入力を学習データ取得部１１から受ける。また、適不適ラベル付部１３は、未完結な文章の入力を未完結文章生成部１２から受ける。

【0022】

そして、適不適ラベル付部１３は、学習データに含まれる完結した文章に「適切」とラベル付けする。また、適不適ラベル付部１３は、未完結文章生成部１２により生成された未完結な文章に「不適切」とラベル付けする。そして、未完結文章生成部１２は、ラベル付けした完結した文章及び未完結な文章を不適切文章検出学習処理部１５へ出力する。

【0023】

例えば、図３に示す文章であれば、文章分類学習処理部１４は、分割により生成された文章１２１、１３１及び１４１は未完結な文章であるとして、それぞれに「不適切」とラベル付けする。文章１２１、１３１及び１４１は、それぞれ「運行情報」、「ルート情報」、「クレーム」のいずれにも一意に分類することが難しいため、「不適切」とラベル付けされることが適当である。

【0024】

文章分類学習処理部１４は、学習データの入力を学習データ取得部１１から受ける。そして、文章分類学習処理部１４は、学習データに含まれるラベル付きの文章を用いて文章分類モデル１０１を学習させる。これにより、文章分類モデル１０１は、入力された文章を予め決められたクラスのいずれかに分類する機械学習モデルとしての学習が完了する。

【0025】

不適切文章検出学習処理部１５は、「適切」又は「不適切」がラベル付けされた完結した文章及び未完結な文章の入力を適不適ラベル付部１３から受ける。そして、不適切文章検出学習処理部１５は、ラベル付けされた完結した文章及び未完結な文章を用いて不適切文章検出モデル１０２を学習させる。これにより、不適切文章検出モデル１０２は、入力された文章が適切か不適切かを判定する機械学習モデルとしての学習が完了する。この不適切文章検出学習処理部１５が、「学習処理部」の一例にあたる。

【0026】

図４は、実施例に係る文章分類装置のブロック図である。次に、図４を参照して、文章分類装置３について説明する。

【0027】

文章分類装置３は、学習済みの文章分類モデル１０１及び不適切文章検出モデル１０２を用いて文章分類を実行する装置である。本実施例では、文章分類装置３は、音声入力された文章の分類を行う。

【0028】

文章分類装置３は、音声入力デバイス４が接続される。音声入力デバイス４は、例えば、マイクや電話等である。文章分類装置３は、図４に示すように、音声データ取得部３１、音声認識処理部３２、文章分類処理部３３、分類結果出力部３４及び表示装置３５を有する。また、文章分類装置３は、学習済みの文章分類モデル１０１及び不適切文章検出モデル１０２を機械学習装置１から取得して保持する。

【0029】

音声データ取得部３１は、音声入力デバイス４により収集された会話の音声データの入力を受ける。そして、音声データ取得部３１は、音声データを音声認識処理部３２へ出力する。

【0030】

音声認識処理部３２は、音声データの入力を音声データ取得部３１から受ける。次に、音声認識処理部３２は、例えば音声認識を行う機械学習モデルを用いて音声認識処理を実行する。音声認識処理により、音声認識処理部３２は、音声データを文字起こししたテキストデータである音声認識結果テキストを生成する。そして、音声認識処理部３２は、生成した音声認識結果テキストを文章分類処理部３３へ出力する。

【0031】

文章分類処理部３３は、音声データを文字起こしした音声認識結果テキストの入力を音声認識処理部３２から受ける。次に、文章分類処理部３３は、取得した音声認識結果テキストを１文ずつに分割する。例えば、文章分類処理部３３は、句点の位置で音声認識結果テキストを分割して１文ずつの複数の文章を取得する。

【0032】

次に、文章分類処理部３３は、取得した文章を１文ずつ学習済みの文章分類モデル１０１へ入力する。そして、文章分類処理部３３は、入力した音声認識結果テキストに対する文章分類モデル１０１による分類結果を取得する。ここで、分類結果は、文章分類モデル１０１がどの様な学習を行ったかにより異なる。そして、文章分類処理部３３は、１文毎の分類結果を保持する。

【0033】

また、文章分類処理部３３は、取得した音声認識結果テキストを学習済みの不適切文章検出モデル１０２へ入力する。そして、文章分類処理部３３は、入力した音声認識結果テキストに対する不適切文章検出モデル１０２によるその音声認識結果テキストにより示される文章が適切か不適切かの判定結果を取得する。以下では、不適切文章検出モデル１０２による文章が適切か不適切かの判定結果を「不適切文検出結果」と呼ぶ。そして、文章分類処理部３３は、１文毎に分類結果とともに不適切文検出結果を保持して蓄積する。

【0034】

分類結果出力部３４は、１文毎の分類結果及び不適切文検出結果を文章分類処理部３３から取得する。例えば、分類結果出力部３４は、利用者からの指示を受けて文章分類処理部３３に蓄積された情報をまとめて取得しても良いし、１文が判定される毎に文章分類処理部３３からその１文に対する情報を取得してもよい。そして、分類結果出力部３４は、１文毎の分類結果及び不適切文検出結果の表示をモニタ等の表示装置３５に行わせる。

【0035】

図５は、分類結果表示部画面の一例を示す図である。分類結果出力部３４は、例えば、図５に示すような、１文毎の分類結果及び不適切文検出結果を示す分類結果表示画面２００を生成して表示装置３５に表示させる。分類結果表示画面２００には、１文毎の分類結果及び不適切文検出結果が表示される。また、分類結果出力部３４は、図５に示すように、その文章の音声データが取得された日付や時間及び音声認識結果テキストを分類結果表示画面２００に含ませてもよい。さらに、分類結果出力部３４は、図５の文章分類結果２０１に示すように、不適切とされた文章の分類結果を色付けする等して強調表示させてもよい。

【0036】

このように、分類結果とともに不適切分検出結果が表示させることで、利用者は、各文章の分類結果の信憑性を確認することができ、文章の分類結果を利用する際に、信憑性の低い分類結果を除外することができ、確度の高い文章の分類結果を利用することが可能となる。

【0037】

また、分類結果出力部３４は、分類結果や不適切分検出結果を修正可能に分類結果表示画面２００表示させてもよい。修正可能に表示させることで、利用者が分類結果や不適切文検出結果を確認したうえで正しい情報に修正することができ、正しい分類結果を収集することが可能となる。

【0038】

ここで、以上では、機械学習装置１と文章分類装置３とを別個の装置として説明したが、これらの機能をまとめて文章分類モデル１０１及び不適切文章検出モデル１０２の学習処理及び入力された文章の分類処理を行う１つの装置として構成することも可能である。

【0039】

図６は、文章分類モデル及び不適切文章検出モデルの学習処理のフローチャートである。次に、図６を参照して、本実施例に係る機械学習装置１による文章分類モデル１０１及び不適切文章検出モデル１０２の学習処理の流を説明する。

【0040】

学習データ取得部１１は、予め決められたクラスに対応させてラベル付けされた文章のデータを含む学習データをデータ格納装置２から取得する（ステップＳ１）。

【0041】

未完結文章生成部１２は、学習データを学習データ取得部１１から取得する。そして、未完結文章生成部１２は、取得した学習データに含まれるそれぞれの文章を分割して、未完結な文章を生成する（ステップＳ２）。

【0042】

適不適ラベル付部１３は、学習データに含まれる完結した文章を学習データ取得部１１から取得する。また、適不適ラベル付部１３は、未完結な文章を未完結文章生成部１２から取得する。そして、適不適ラベル付部１３は、完結した文章に「適切」とラベル付けし、未完結な文章に「不適切」とラベル付けする（ステップＳ３）。

【0043】

文章分類学習処理部１４は、学習データを学習データ取得部１１から取得する。そして、文章分類学習処理部１４は、学習データに含まれるラベル付けされた文章を用いて文章分類モデル１０１に学習を行わせる（ステップＳ４）。

【0044】

不適切文章検出学習処理部１５は、「適切」又は「不適切」のラベルが付けられた完結した文章及び未完結な文章を適不適ラベル付部１３から取得する。そして、不適切文章検出学習処理部１５は、ラベルが付けられた完結した文章及び未完結な文章を用いて不適切文章検出モデル１０２に学習を行わせる（ステップＳ５）。

【0045】

図７は、文章分類処理のフローチャートである。次に、図７を参照して、本実施例に係る文章分類装置３による文章分類処理の流を説明する。

【0046】

音声データ取得部３１は、会話の音声データをデータ格納装置２から取得する（ステップＳ１１）。

【0047】

音声認識処理部３２は、音声データの入力を音声データ取得部３１から受ける。そして、音声認識処理部３２は、取得した音声データに対して音声認識処理を実行して音声認識結果テキストを生成する（ステップＳ１２）。

【0048】

文章分類処理部３３は、音声認識結果テキストの入力を音声認識処理部３２から受ける。そして、文章分類処理部３３は、句点で音声認識結果テキストを分割して１文ずつの文章に分ける。さらに、文章分類処理部３３は、音声認識結果テキストに含まれる文章数を取得する（ステップＳ１３）。ここでは、文章分類処理部３３が取得した文章数をＮとする。

【0049】

次に、文章分類処理部３３は、ｎ＝１とする（ステップＳ１４）。

【0050】

次に、文章分類処理部３３は、音声認識結果テキストを分割して生成した複数の文章のうち未選択の文章の中から１つ文章を選択する（ステップＳ１５）。

【0051】

次に、文章分類処理部３３は、選択した文章を学習済みの文章分類モデル１０１へ入力し、その入力に対する出力を文章分類モデル１０１から得ることで、選択した文章を予め決められたクラスのいずれかに分類する（ステップＳ１６）。

【0052】

また、文章分類処理部３３は、選択した文章を学習済みの不適切文章検出モデル１０２へ入力し、その入力に対する出力を不適切文章検出モデル１０２から得ることで、選択した文章が適切か不適切かを判定する（ステップＳ１７）。

【0053】

次に、文章分類処理部３３は、選択した文章に対応付けてのその分類結果及び不適切文検出結果を記憶する（ステップＳ１８）。

【0054】

次に、文章分類処理部３３は、ｎがＮに達した（ｎ＝Ｎ）か否かを判定する（ステップＳ１９）。ｎがＮに達していない場合（ステップＳ１９：否定）、文章分類処理部３３は、ｎを１つインクリメント（ｎ＝ｎ＋１）する（ステップＳ２０）。その後、文章分類処理部３３は、ステップＳ１５へ戻る。

【0055】

これに対して、ｎがＮに達した場合（ステップＳ１９：肯定）、分類結果出力部３４は、音声認識テキストに含まれる各文章の１文毎の分類結果及び不適切文検出結果を文章分類処理部３３から取得する。そして、分類結果出力部３４は、音声認識テキストに含まれる各文章の１文毎の分類結果及び不適切文検出結果を表示装置３５に表示させて結果を出力する（ステップＳ２１）。

【0056】

以上に説明したように、本実施例に係る機械学習装置は、学習データを用いて文章分類モデルを学習させる。さらに、機械学習装置は、学習データから得られる完結した文章を分割して未完結な文章を作成して、完結した文章に適切とラベル付けし、また、未完結な文章に不適切とラベル付けして文章の適不適を判定する不適切文章検出モデルの学習を行わせる。このようにして作成された、文章分類モデル及び不適切文章検出モデルを用いて文章の分類を行うことで、利用者は、不適切と判定された信憑性の低い分類結果を把握することが可能となる。したがって、文章分類の信頼性を向上させることが可能となる。

【0057】

また、例えば無線通信等の音声データを用いる場合、不適切とされた文章は通信途絶等により未完結となった可能性が高いと考えられ、通信途絶のタイミングを把握することが可能となる。

【0058】

（変形例）
以上の実施例では、完結した文章を分割して生成した文章を全て不適切として学習を行ったが、分割後の文章であっても内容が完結しており完結した文章といえる文章が存在することが考えられる。そこで、本変形例では、分割後の文章のうち内容が完結した文章を適切と修正して、不適切文章検出モデル１０２に学習を行わせる。

【0059】

図８は、適切とラベル付け可能な分割後の文章の一例を示す図である。未完結文章生成部１２は、文章１２０を分割して「９時５７分、赤坂駅にて、」という文章１２１を生成する。また、未完結文章生成部１２は、文章１３０を分割して「１０時３０分、」という文章１３１を生成する。また、未完結文章生成部１２は、「配車が遅いとの苦情あり。」という文章１４２を生成する。

【0060】

文章分類学習処理部１４は、分割により生成された文章１２１、１３１及び１４２は未完結な文章であるとして、それぞれに「不適切」とラベル付けする。ここで、文章１２１及び１３１は、それぞれ「運行情報」、「ルート情報」、「クレーム」のいずれにも一意に分類することが難しいため、「不適切」とラベル付けされることが適当である。これに対して、文章１４２は、明らかに「クレーム」に一意にラベル付けできる文章である。そこで、利用者は、文章１４２のラベルを「不適切」から「適切」に修正して、文章１４２に「適切」とラベル付けする。

【0061】

不適切文章検出学習処理部１５は、未完結文章生成部１２により生成された文章のうち、予め決められたクラスに対して明らかに一意にラベル付け可能な文章のラベルが「適切」と変更されたデータを用いて不適切文章検出モデル１０２に学習を行わせる。

【0062】

以上に説明したように、本変形例に係る機械学習装置は、完結した文章を分割して生成された文章のうち明らかに一意にラベル付け可能な文章のラベルを「適切」に変更して不適切文章検出モデルの学習処理を行う。これにより、不適切文章検出モデルの判定精度を向上させることが可能となる。したがって、文章分類の信頼性をより向上させることが可能となる。

【0063】

（ハードウェア構成）
図９は、コンピュータのハードウェア構成図である。機械学習装置１及び文章分類装置３は、図９に示すコンピュータ９０により実現可能である。次に、図９を参照して、機械学習装置１及び文章分類装置３の各機能を実現するためのハードウェア構成の一例について説明する。

【0064】

図９に示すように、コンピュータ９０は、例えば、ＣＰＵ（Central Processing Unit）９１、メモリ９２、ハードディスク９３及びネットワークインタフェース９４を有する。ＣＰＵ９１は、バスを介して、メモリ９２、ハードディスク９３及びネットワークインタフェース９４に接続される。

【0065】

ネットワークインタフェース９４は、機械学習装置１の場合、データ格納装置２との間の通信や文章分類装置３との間の通信インタフェースである。また、ネットワークインタフェース９４は、文章分類装置３の場合、機械学習装置１との間の通信インタフェースである。ネットワークインタフェース９４は、ＣＰＵ９１と外部装置との間の通信を中継する。

【0066】

ハードディスク９３は、補助記憶装置である。機械学習装置１の場合、ハードディスク９３は、文章分類モデル１０１及び不適切文章検出モデル１０２を格納する。また、ハードディスク９３は、図１に例示した、学習データ取得部１１、未完結文章生成部１２、適不適ラベル付部１３、文章分類学習処理部１４及び不適切文章検出学習処理部１５の機能を実現するプログラムを含む各種プログラムを格納する。また、文章分類装置３の場合、ハードディスク９３は、文章分類モデル１０１及び不適切文章検出モデル１０２を格納する。また、ハードディスク９３は、図４に例示した、音声データ取得部２１、音声認識処理部２２、文章分離処理部２３及び分類結果出力部２４の機能を実現するプログラムを含む各種プログラムを格納する。

【0067】

メモリ９２は、主記憶装置である。メモリ９２は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）を用いることができる。

【0068】

ＣＰＵ９１は、ハードディスク９３から各種プログラムを読み出して、メモリ９２に展開して実行する。これにより、機械学習装置１の場合、ＣＰＵ９１は、図１に例示した、学習データ取得部１１、未完結文章生成部１２、適不適ラベル付部１３、文章分類学習処理部１４及び不適切文章検出学習処理部１５の機能を実現する。また、文章分類装置３の場合、ＣＰＵ９１は、図４に例示した、音声データ取得部２１、音声認識処理部２２、文章分離処理部２３及び分類結果出力部２４の機能を実現する。

【符号の説明】

【0069】

１機械学習装置
２データ格納装置
３文章分類装置
４音声入力デバイス
１１学習データ取得部
１２未完結文章生成部
１３適不適ラベル付部
１４文章分類学習処理部
１５不適切文章検出学習処理部
３１音声データ取得部
３２音声認識処理部
３３文章分類処理部
３４分類結果出力部
３５表示装置
１０１文章分類モデル
１０２不適切文章検出モデル

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版