(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-16
(45)【発行日】2023-02-27
(54)【発明の名称】文章記号挿入装置及びその方法
(51)【国際特許分類】
G06F 40/253 20200101AFI20230217BHJP
【FI】
G06F40/253
(21)【出願番号】P 2019187743
(22)【出願日】2019-10-11
(62)【分割の表示】P 2018194615の分割
【原出願日】2018-10-15
【審査請求日】2021-08-13
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】110002354
【氏名又は名称】弁理士法人平和国際特許事務所
(72)【発明者】
【氏名】渡邊 績央
(72)【発明者】
【氏名】上林航
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2010-092169(JP,A)
【文献】国際公開第2009/101837(WO,A1)
【文献】特開2005-174336(JP,A)
【文献】特開2015-219480(JP,A)
【文献】特開2003-263190(JP,A)
【文献】特開2000-029496(JP,A)
【文献】特開2001-083987(JP,A)
【文献】特開2005-140988(JP,A)
【文献】国際公開第2014/132402(WO,A1)
【文献】中川 聖一 外2名,話者の同定を組み込んだニュース音声の認識,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1999年06月18日,第99巻 第121号,pp.49-56
【文献】廣瀬良文 外4名,テキスト音声合成のための意味情報の連鎖パタンによる複合語分割,日本音響学会研究発表会議講演論文集 秋I ,社団法人日本音響学会,2002年09月26日,p.399-400
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習部と、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理部と、
推定対象の文字列テキストデータが前記形態素処理部で形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定部と、
前記推定部の推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入部とからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習部は発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定部は発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、前記
学習モデルの出力データは、文章記号を挿入すべき程度を示す値、及び/又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入部は、
前記推定部が出力データを所定閾値と比較した結果に基づき文章記号を挿入
し、
前記文章記号挿入部により前記所定閾値を標準の所定閾値で文章記号を挿入した文字列テキストデータと、利用者の設定に応じて、前記文章記号挿入部により前記所定閾値を変更した所定閾値で文章記号を挿入した文字列テキストデータとを比較し、追加された文章記号及び削除された文章記号を顕示する文章記号挿入装置。
【請求項2】
推定対象の文字列テキストデータから所定の文章記号を取り除く前処理部を含む
前記請求項1に記載の文章記号挿入装置。
【請求項3】
前記前処理部が取り除く文章記号は、前記推定部が挿入すべきか否かを判断する文章記号である
前記請求項2に記載の文章記号挿入装置。
【請求項4】
ワイルドカード設定情報又は学習データの入力データのワイルドカード指定を参照し、推定対象の入力データをワイルドカード記号に置換するワイルドカード処理部を含み、
当該ワイルドカード処理部によりワイルドカードに置換された推定対象の入力データを用いて推定部で推定する
前記請求項1ないし
3のいずれに記載の文章記号挿入装置。
【請求項5】
学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習ステップと、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理ステップと、
推定対象の文字列テキストデータが前記形態素処理ステップで形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定ステップと、
前記推定ステップの推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入ステップとからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習ステップで、発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定ステップで、発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、
前記
学習モデルの出力データは、文章記号を挿入すべき程度を示す値、及び/又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入ステップは、
前記推定ステップにおいて出力データを所定閾値と比較した結果に基づき文章記号を挿入
し、
前記文章記号挿入ステップにより前記所定閾値を標準の所定閾値で文章記号を挿入した文字列テキストデータと、利用者の設定に応じて、前記文章記号挿入ステップにより前記所定閾値を変更した所定閾値で文章記号を挿入した文字列テキストデータとを比較し、追加された文章記号及び削除された文章記号を顕示する文章記号挿入方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、句点、読点等といった文章記号を挿入する文章記号挿入装置に関する。
【背景技術】
【0002】
現在、一のユーザの音声データ、又は、複数のユーザの音声データを入力することで音声認識テキストデータを出力する多種多様の音声認識エンジンが提供されている。ただし、音声認識エンジンによっては、句点を挿入する機能がないものもあり、また、句点を挿入する機能があっても、ユーザが発話しない時間が所定時間以上であれば句点を挿入するなど簡易的な機能が多い。
【0003】
これに対し、特許文献1では、自由な入力単位を文の言語処理単位に適切に変換するために、形態素解析されたテキストデータに基づき複数の単語及び品詞並びに対して句点に対応する節境界らしさを表わすスコアを予め計算して統計モデルとして記憶し、形態素解析されたテキストデータに基づいて句点挿入箇所の韻律情報の経験的知識を予め抽出して経験的規則として記憶し、これらの統計モデル及び経験的規則を参照して、加えて、無音区間を検出して音声認識した単語列について、1つの入力単位の音声認識結果を複数の言語処理単位に分割し、複数の入力単位の音声認識結果を一つの言語処理単位に接合する接合処理を実行する音声言語処理単位変換装置を開示している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記の音声言語処理単位変換装置では、統計モデルの計算式を予め作成しておく必要があり、特許文献1にも複数の計算式が提示されており、複数の計算式をテストデータで試して最もパフォーマンスの良い計算式を採用するか、その計算式をトライアンドエラーにて改良する必要があった。
【0006】
本発明はこうした課題に鑑みてなされたものであり、その目的は、より適切にテキストに対して句点等の文章記号の挿入を行う機能を提供することにある。
【課題を解決するための手段】
【0007】
本発明に係る文章記号挿入装置は、学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習部と、文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理部と、推定対象の文字列テキストデータが前記形態素処理部で形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定部と、前記推定部の推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入部とからなる。
【発明の効果】
【0008】
本発明によれば、文章記号を挿入するための計算式を利用者が作成することなく、教師データで挿入された文章記号を踏まえ、推定対象の文字列テキストデータに適切に文章記号を挿入することができる。
【図面の簡単な説明】
【0009】
【
図1】本発明に係る第1の実施形態に係る対話管理システムの構成図である。
【
図2】本発明に係る第1の実施形態に係る対話型音声認識データ例である。
【
図3】本発明に係る第1の実施形態に係る形態素解析結果例である。
【
図4】本発明に係る第1の実施形態に係る教師データ例である。
【
図5】本発明に係る第1の実施形態に係る推定処理対象の音声認識データ例である。
【
図6】本発明に係る第1の実施形態に係る推定処理対象の音声認識データ例の形態素解析結果例である。
【
図7】本発明に係る第1の実施形態に係る推定処理説明図である。
【
図8】本発明に係る第1の実施形態に係る推定処理対象の音声認識データ例に句点を挿入した例である。
【
図9】本発明に係る第1の実施形態に係る学習処理シーケンス図である。
【
図10】本発明に係る第1の実施形態に係る推定処理シーケンス図である。
【
図11】本発明に係る第2の実施形態に係るワイルドカード設定説明図である。
【
図12】本発明に係る第3の実施形態に係る学習処理シーケンス図である。
【
図13】本発明に係るその他の実施形態に係る発話主体種別別の音声認識データ例である。
【
図14】本発明に係るその他の実施形態に係る句点挿入済みの音声認識データ例の対比図である。
【発明を実施するための形態】
【0010】
(第1の実施形態)
【0011】
以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。
【0012】
図1は本実施形態に係る対話管理システムの構成図である。対話管理システム1はコールセンター等に構築され、クライアントとオペレータの対話を管理しており、対話を録音し、録音データをテキスト化し、テキストデータに句点を挿入して記録する機能を提供している。対話管理システム1は、対話録音装置100、音声認識装置200及び句点挿入装置300からなり、それぞれ有線又は無線にてネットワークに接続しており、通信可能となっている。なお、本実施形態では、対話録音装置100、音声認識装置200及び句点挿入装置300をそれぞれ別のハードウェアから構成したものの、これらの装置を一のコンピュータ上で構成することもできるし、各装置を機能単位で更に複数のコンピュータで構成することもできる。
【0013】
対話録音装置100は、一の発話者と他の発話者の対話を音声データである対話録音データとして記録し、音声認識装置200に送信する。典型的には、クライアントは携帯電話や固定電話を用いて電話公衆網を介してコールセンターのオペレータと通話を行い、この電話網を介した通話を対象として記録する。ここで、対話録音データには対話の連続した音声のデータだけでなく、発話者別の音声データであってもよい。電話公衆網を介してコールセンター側に送信されるクライアントの音声データと、典型的にはコールセンターの社内ネットワークに接続している電話機に発話されるオペレータの音声データをそれぞれ別のデータとして記録することができる。また、一の音声データであっても、話者別に音声を分離する公知慣用の音声分離技術もあり、これを用いることで話者別の音声データを取得することができる。
【0014】
音声認識装置200は、対話録音装置100から記録している対話録音データから受信し、その対話録音データを公知慣用の音声認識技術を用いて文字列であるテキストデータに変換して音声認識データとして記録し、句点挿入装置300に送信する。音声認識技術としては、体系的には、統計的手法、隠れマルコフモデル等を用いるものがある。音声認識装置は、対話の音声を文字列に変換するのみで句点や読点を挿入する機能を持たない装置もあるが、話者の切り替わりや発話の間を検出して句点や読点を挿入する機能を有するものもある。
【0015】
句点挿入装置300は、文字列テキストデータである音声認識データに対して適切に句点を挿入し、句点挿入済音声認識データを記録し、システム利用者が利用する装置からの要求を受けて記録した句点挿入済音声認識データを出力する装置であり、句点という文章記号を挿入する文章記号挿入装置の一種である。句点挿入装置300は、前処理部310、形態素処理部320、教師データ生成部330、学習部340、推定部350及び句点挿入部360からなる。なお、
図1のワイルドカード処理部370は第1の実施形態では用いず、第2の実施形態で用いるため、点線にて作画している。
【0016】
前処理部310は処理対象となる音声認識データに対し、所定の記号を取り除く処理を行う。本実施形態ではこの所定の記号には句点を含むが、句点を含まなくてもよい。本実施形態では音声認識装置200が句点を挿入する機能を有していたとしても、この前処理部310で処理対象となる音声認識データから句点が取り除かれることになり、本句点挿入装置300で改めて句点を挿入する。また、前処理部310は本実施形態において学習対象の学習データについて句点を取り除かない。
【0017】
形態素処理部320は、前処理済みの音声認識データに対して既存の形態素解析技術を用いて形態素解析を行う。ここで、形態素とは意味を持つ最小の言語単位であり、形態素解析とは、自然言語のテキストデータから、文法や単語の品詞などの情報に基づき、形態素に分割し、分割した形態素の品詞を判別することである。本実施形態では、テキストデータ中の形態素に対し、原形、品詞及び活用形を判別して付与する。
【0018】
教師データ生成部330は、形態素解析データを学習部340に入力する教師データに変換し、その教師データを学習部340に出力する。
図2はお客様とオペレータの対話の音声認識データ例を示したものであり、学習用のため、人手で句点を適切に挿入している。この学習用音声認識データ例を形態素解析したものが、
図3の通りである。この学習用形態素解析データ例を変換した教師データが
図4であり、形態素順に昇順に付与した番号、対象形態素の原形(基本形)、品詞及び活用形と、対象形態素と対象形態素の次の形態素の間に句点が挿入されている否かを示す句点有無とからなる。つまり、変換処理としては、
図3の形態素の中で句点を特定し、句点の前の形態素の句点有無を「有」にし、それ以外の形態素の句点有無を「無」にし、句点の形態素を取り除いた。
【0019】
学習部340は、入力された教師データを学習して学習モデルを形成する。教師データの入力データは、対象の形態素、その次の形態素(ここで、対象の形態素及び次の形態素のペアを着目形態素組と呼称する)、着目形態素組に隣接する2つの形態素それぞれについての原形、品詞、活用形であり、教師データの出力データは、対象の形態素の句点有無であり、言い換えれば、着目形態素組の形態素間に句点があるかどうかの情報である。
図4には、教師データの一つの入力データ例及び対応する出力データ例を示している。ここで、着目形態素組に隣接する2つの形態素を第1隣接形態素組と呼称し、着目形態素組とは逆側に第1隣接形態素組と隣接する2つの形態素を第2隣接形態素組と呼称し、以降、着目形態素組から見てn番目に隣接する2つの形態素を第n隣接形態素組と呼称する。ここで、形態素自身ではなく、形態素の原形を入力データとして用いているのは、形態素によっては活用形が異なり、学習するバリエーションが多くなるため原形を本実施形態では原形を用いている。原形の代わりに形態素自身を用いてもよいし、原形に加えて形態素自身を用いてもよい。なお、人工知能/機械学習/ディープラーニングの学習手法としては、様々なものが提案されており、いずれの手法を用いてもよいとする。
【0020】
推定部350は、推定対象となる入力データを前処理部310及び形態素処理部320を介して取得し、入力データを学習モデルに入力して出力データを取得し、入力データに紐づけて出力データを記録する。前処理部310は
図5に一例と示す推定処理対象となる音声認識データに対し、所定の記号を取り除く処理を行う。形態素処理部320は、前処理済みの音声認識データに対して既存の形態素解析技術を用いて形態素解析を行い、
図6に示す形態素解析データを得る。推定部350はこの形態素解析データから着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素それぞれについての原形、品詞、活用形を入力データとして学習モデルに入力し、出力データを取得し、着目形態素組の形態素間に句点を挿入すべきか否かを判断し、その判断結果を対象の形態素の句点有無に記録する(
図7参照)。学習モデルの出力データの具体例としては、句点を挿入すべき程度を示す値(例えば、0ないし1の値で1に近い程挿入すべきであることを示す)と、句点を挿入すべきではない程度を示す値(例えば、0ないし1の値で1に近い程挿入すべきではないことを示す)である。ここで、この具体例の場合にあっては、それぞれの値に基づき句点有無を判断することになり、例えば、句点を挿入すべき程度を示す値と句点を挿入すべきではない程度を示す値を比較し、句点を挿入すべき程度を示す値が大きければ句点有と判断し、句点を挿入すべきではない程度を示す値が大きければ句点無と判断する。
【0021】
形態素処理部320は形態素解析する前の推定対象の音声認識データ上の形態素の位置も形態素解析時に記録しており、句点挿入部360は、句点有無が「有」となっている形態素について前記推定対象の音声認識データ上の対応する位置に句点を挿入する(
図8参照)。
【0022】
次に本実施形態に係る句点挿入装置の動作について、
図9を用いて学習動作を、
図10を用いて推定動作を説明する。
【0023】
図9に示す通り、前処理部310が学習対象となる多数の対話データである音声認識データに対して前処理を実行する(ステップ105)。形態素処理部320は前処理済みの全音声認識データに対して形態素解析を行う(ステップ110)。教師データ生成部330は全形態素解析データを教師データに変換する(ステップ115)。学習部340は全教師データから一の教師データを取り出し、対象の教師データから一の入力データ及び出力データを取り出し、学習を実行する(ステップ120)。学習部340は最後の入力データ及び出力データか否かを判断し(ステップ125)、最後の入力データ及び出力データではない場合には対象の教師データの次の入力データ及び出力データを取り出し(ステップ130)、ステップ120を実行する。最後の入力データ及び出力データの場合には、学習部340は対象の対話データが最後の対話データか否かを判断し(ステップ135)、最後の対話データでなければ学習部340は次の対話データを取り出し(ステップ140)、ステップ120を実行する。最後の対話データの場合には、学習動作を終了する。
【0024】
図10に示す通り、前処理部310が推定対象となる対話データである音声認識データに対して前処理を実行する(ステップ205)。形態素処理部320は前処理済みの音声認識データに対して形態素解析を行う(ステップ210)。推定部350は形態素解析データから最初の入力データを学習モデルに入力し、出力データを得る(ステップ215)。推定部350は得た出力データに基づき対象形態素の次に句点を挿入すべきか否かを判断し、その判断結果を対象形態素と関連付けて記録する(ステップ220)。推定部350は対象の入力データが最後の入力データか否かを判断し(ステップ225)、最後の入力データでなければ次の入力データを取り出し(ステップ230)、ステップ215に移行する。最後の入力データであれば、句点挿入部360は全入力データに対する句点有無判断結果に基づき推定対象の音声認識データに対して句点を挿入する(ステップ235)。
【0025】
このように本実施形態に対話管理システムによれば、学習用の音声認識データを準備して入力することで、特に、統計式を予め検討することなく、学習して学習用データに対応した学習モデルが形成され、推定時にはこの学習モデルを用いて各形態素間に句点を挿入すべきかどうかを判断し、挿入すべき句点が適切に挿入される。
【0026】
なお、本実施形態においては、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素の原形、品詞及び活用形を入力データとして学習し、形成した学習モデルに対し、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に句点を挿入すべきか否かを判断したが、第1隣接形態素組と同様に、これらに加え第2隣接形態素組の2つの形態素の原形、品詞及び活用形を用いて学習して推定してもよいし、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素ないし第n隣接形態素の2つの形態素を用いて学習して推定してもよい。また、学習対象の音声認識データ中、着目形態素組の原形等を用いて学習し、推定対象の音声認識データ中、着目形態素組の原形等を用いて推定してもよい。
【0027】
(第2の実施形態)
【0028】
本第2の実施形態に係る対話管理システム1は、前記第1の実施形態に係る対話管理システム1と同様であり、句点挿入装置300がワイルドカード処理部370を追加で有する点を異にする構成である。
【0029】
ワイルドカード処理部370はワイルドカード設定情報を参照し、学習用形態素解析データ及び推定用形態素解析データに該当するデータがあれば、「*」(アスタリスク)等のワイルドカード記号で置換を行う。ワイルドカード設定情報はシステム設定者が予め、形態素、品詞、活用形の組み合わせでワイルドカード設定したい組み合わせを設定する。過去の対話データである音声認識データを多数用意したとしても、対話で利用される可能性がある全ての形態素、品詞及び活用形の組み合わせを網羅することは難しいため、現在の学習用対話データでカバーできない組み合わせのうち、今後、出現頻度の可能性が高い形態素、品詞及び活用形をワイルドカード設定することが望ましい。形態素、品詞及び活用形のいずれでもワイルドカード指定することができ、形態素、品詞及び活用形のうち2つをワイルドカード指定することもできる。上記ワイルドカード処理部370の具体的な処理例としては、
図11に示す通り、形態素、品詞及び活用形がそれぞれ「難しい」、「形容詞」、「*」である一のワイルドカード設定があり、学習用データには
図3に示す通り、「難しい」、「形容詞」、「連用形‐促音便」があり、前記一のワイルドカード設定に該当するため、
図11に示す通り、活用形を「連用形‐促音便」から「*」に変更する。同様に、学習用データにおいても
図6に示す通り、形態素、品詞及び活用形がそれぞれ「様」、「接尾辞」、「(null)」があり、一のワイルドカード設定で形態素、品詞及び活用形が「*」、「接尾辞」、「(null)」があって合致するため、学習用データの形態素「様」を「*」に変換する。ワイルドカード処理部370で処理された後は、前記第1の実施形態と同様に、学習時に学習部340でワイルドカード処理された形態素解析データから教師データを生成して学習し、推定時に推定部350でワイルドカード処理された形態素解析データを用いて形成済みの学習モデルに基づき推定を行う。
【0030】
このように本実施形態の対話管理システムによれば、学習用データにない形態素、品詞及び活用形をワイルドカード設定することで、推定用データに学習用データでは出現しなかった形態素、品詞及び活用形の組み合わせが出現したとしても、ワイルドカード設定でカバーされることで、学習モデルでの推定が適切に実行される。
【0031】
なお、本実施形態においては予めシステム設定者がワイルドカード設定情報を設定し、そのワイルドカード設定情報を参照して処理を行ったが、ワイルドカード設定情報を用いることなく、学習対象の音声認識データをワイルドカード指定することもでき、この場合、学習対象の音声認識データのワイルドカード指定を参照して推定対象の音声認識データをワイルドカード指定して推定処理を行うこととなる。
【0032】
また、ワイルドカード設定情報はシステム設定者が予め、形態素、品詞、活用形の組み合わせでワイルドカード設定したい組み合わせを設定するとしたが、システム設定者が任意で気づいたタイミングでワイルドカード設定をする他、例えば、
図4の教師データの入力データを出現頻度で集計したリスト(又は、必要に応じて出現頻度数にて昇順又は降順したリスト)をシステム設定者等のユーザに表示してワイルドカード設定を受け付ける構成であってもよく、ユーザによっては出現頻度件数等で足切りして出現頻度の少ない語彙をワイルドカード設定することもできる。
【0033】
(第3の実施形態)
【0034】
本第3の実施形態に係る対話管理システム1は、前記第1の実施形態に係る対話管理システム1と同様であり、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素ないし第n隣接形態素の2つの形態素を用いて学習して推定する処理を、nが1を初期値とし、nを所定閾値までそれぞれ実施し、最もテスト結果の良い推定結果となったnの値の学習モデルを用いて以降の推定処理を行うことを異にする構成である。ここで、形成されるn個の学習モデルのテストは、教師データと同様の構成であるテストデータを用いて行うが、教師データのうち学習時に用いる教師データを7割程度とし、残り3割の教師データをテストデータとして用いテスト実行しても良い。学習モデルにテストデータの入力データを入力して得られた出力データとテストデータの出力データとを比較することでテストの正誤が分かり、テストデータ個数中の正解数が正答率となり、n個の学習モデルのうち正答率が最も高い学習モデルが実運用で使用する学習モデルとなる。
【0035】
次に、
図12を用いて本実施形態に係る対話管理システム1の動作について説明するが、同じステップ番号が付与されているステップは第1の実施形態の動作のため説明を省力する。また、本実施形態のnの所定閾値は3とする。ステップ115で教師データを作成した後、nを初期値の1とし、以降の動作を実行する(ステップ305)。つまり、ステップ120ないしステップ140の各動作である学習処理を、着目形態素組と第1隣接形態素組を対象として実行することでnが1の学習モデルが形成される。ステップ315で、nが所定閾値の3であるかどうかを比較し、nが1であるため1インクリメントとし、ステップ120に戻り、同様に、着目形態素組、第1隣接形態素組及び第2隣接形態素組を対象として学習処理を実行してnが2の学習モデルが形成される。同様に、ステップ315に移行してnが3として学習処理がなされ、nが3の学習モデルが形成される。nが3であり、次のステップ315の判断ブロックで終了に移行する。以上により、n=1の学習モデル、n=2の学習モデル、n=3の学習モデルが形成されたことになり、テストデータを用いてテスト実行することで、それぞれの学習モデルの正答率が得られ、最も正答率の高い学習モデルを今後の推定処理で用いる学習モデルとする。
【0036】
このように本実施形態の対話管理システムによれば、nの閾値個数分の学習モデルを形成し、最も正答率の高い学習モデルを採用して今後の推定処理を行うため、推定処理に用いられる入力データに最適な推定処理が可能となる。
【0037】
(その他の実施形態)
【0038】
前記各実施形態においては、発話主体又は発話主体種別が異なっている場合であっても、発話主体又は発話主体種別によらず複数の発話主体又は発話主体種別による発話内容全体を対象に前処理及び形態素解析処理を実行して学習し、形成した学習モデルを用いて推定を行っているが、発話主体又は発話主体種別別に学習し、推定を行ってもよい。発話主体/発話主体種別の識別は、例えば、発話内容を録音している際に可能であり、お客様がコールセンターのオペレータと通話している例であれば、お客様とオペレータで通話チャネルが異なり、オペレータの通話チャネルから出力される音声データにはオペレータの識別情報(オペレータそれぞれに付与されているオペレータ識別情報又はオペレータという役割を示す発話主体種別識別情報)を付与し、お客様の通話チャネルから出力される音声データにはお客様の識別情報(お客様それぞれに付与されている顧客識別情報又はオペレータという役割を示す発話主体種別識別情報)を付与し、音声認識時に、それらの発話主体の識別情報を用いることで、オペレータの音声認識テキストデータと、お客様の音声認識テキストデータを識別して保存可能となる。この他にも発話主体を識別する方法はあり、いずれにしろ、音声認識装置200から句点挿入装置300に音声認識データを入力する際に、句点挿入装置300が発話主体毎に学習及び推定処理が可能であればよく、発話主体毎に音声認識テキストデータを句点挿入装置300に入力してもよい(
図13に示す通り、発話主体種別により分離可能な音声認識データでもよい)。前記オペレータとお客様の例の場合には、オペレータの音声認識テキストデータを学習してオペレータの学習モデルを形成し、推定時に推定処理対象のオペレータの音声認識テキストデータを入力し、句点挿入箇所の出力データを得て句点挿入を反映する。
【0039】
また、前記各実施形態においては、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素の原形、品詞及び活用形を入力データとし、着目形態素組の2つの形態素間の句点有無を示す出力データを学習データとして学習し、形成した学習モデルに対し、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に句点を挿入すべきか否かを判断したが、同様に、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素の原形、品詞及び活用形を入力データとし、着目形態素組の2つの形態素間の読点有無を示す出力データを学習データとして学習し、形成した学習モデルに対し、着目形態素組の2つの形態素及び第1隣接形態素組の2つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に読点を挿入すべきか否かを判断する構成であってもよい。読点に代えて、改行等の文章記号であっても同様である。
【0040】
また、本実施形態においては、対話の音声認識データを処理対象としたが、対話に限らず、発話者が一人のスピーチ、講演の音声認識データでもよく、対話も二人に限らず三人以上の議論等であってもよい。更には、音声認識データでなくてもよく、ワープロソフトで作成した文章であってもよい。音声認識データでは音声認識エンジンにより適切に文章記号が挿入されないという課題があったが、書き手が入力する文章にも文章記号が適切に挿入されていない課題がある。例えば、読点の打ち方は文法的に間違っていなくとも、人為的に取り決めている推敲基準があり、読点挿入装置に対してその推敲基準を満たした教師データで学習して推定することで、推敲基準を満たす読点を挿入することができる。
【0041】
また、前記各実施形態においては、学習モデルの出力データの具体例としては、句点を挿入すべき程度を示す値と、句点を挿入すべきではない程度を示す値とを例示したが、いずれか一方であってもよく、例えば、句点を挿入すべき程度を示す値が所定閾値以上であれば句点を挿入すべきと判断する構成であってもよく、この場合の所定閾値は利用者が設定可能で、その所定閾値毎に句点を挿入した推定対象の音声認識データを記録し、いずれかの句点を挿入した音声認識データと、他の句点を挿入した音声認識データを比較し、句点挿入の有無を顕示する構成であってもよい。ここで、例えば、句点を挿入すべき程度を示す値の所定閾値を小さいくすることで、
図14に示す通り、句点が挿入され易くなり、標準の所定閾値で句点を挿入した音声認識データと比較し、追加された句点を下線で顕示し、削除された句点を二重取り消し線顕示してもよい。
【産業上の利用可能性】
【0042】
本発明は、文字列テキストデータに文章記号を適切に挿入する文章記号挿入装置に好適に利用可能である。
【符号の説明】
【0043】
対話録音装置 100
音声認識装置 200
句点挿入装置 300
前処理部 310
形態素処理部 320
教師データ生成部 330
学習部 340
推定部 350
句点挿入部 360