(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6853752
(24)【登録日】2021年3月16日
(45)【発行日】2021年3月31日
(54)【発明の名称】対話シナリオコーパスの作成支援システム
(51)【国際特許分類】
G06F 16/90 20190101AFI20210322BHJP
G06F 40/20 20200101ALI20210322BHJP
G06F 40/242 20200101ALI20210322BHJP
G06F 40/279 20200101ALI20210322BHJP
G06F 40/40 20200101ALI20210322BHJP
G06F 40/56 20200101ALI20210322BHJP
G10L 15/22 20060101ALI20210322BHJP
【FI】
G06F16/90 100
G06F40/20
G06F40/242
G06F40/279
G06F40/40
G06F40/56
G10L15/22 300Z
【請求項の数】11
【全頁数】14
(21)【出願番号】特願2017-157641(P2017-157641)
(22)【出願日】2017年8月17日
(65)【公開番号】特開2019-36171(P2019-36171A)
(43)【公開日】2019年3月7日
【審査請求日】2019年7月9日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】池田 和史
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】
三橋 竜太郎
(56)【参考文献】
【文献】
国際公開第2016/147400(WO,A1)
【文献】
特開2004−127094(JP,A)
【文献】
特開2009−061547(JP,A)
【文献】
国際公開第2015/075975(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G10L 15/00−17/26
G06F 40/20−40/40
G06Q 10/00−99/00
(57)【特許請求の範囲】
【請求項1】
対話する各発話者の立場での発話入力を繰り返して対話シナリオを完成させる対話シナリオコーパスの作成支援システムにおいて、
発話の登録数が不足する未完成シナリオを記憶するデータベースと、
各発話者の属性情報を記憶する手段と、
各ワーカの属性情報を取得する手段と、
発話の入力作業を担うワーカへ発話入力を依頼する未完成シナリオを選択する手段と、
前記選択した未完成シナリオをワーカへ提示する手段と、
前記提示した未完成シナリオに対して入力された発話を前記データベースに登録する手段とを具備し、
前記選択する手段は、発話者の属性情報がワーカと類似する未完成シナリオを優先的に選択し、
前記未完成シナリオの選択、提示および入力された発話の登録を繰り返し、
前記提示する手段は、一のワーカにより発話が入力された未完成シナリオの次の提示先として当該一のワーカ以外を許容することを特徴とする対話シナリオコーパスの作成支援システム。
【請求項2】
対話する各発話者の立場での発話入力を繰り返して対話シナリオを完成させる対話シナリオコーパスの作成支援システムにおいて、
発話の登録数が不足する未完成シナリオを記憶するデータベースと、
各発話者の属性情報を記憶する手段と、
各ワーカの属性情報を取得する手段と、
発話の入力作業を担うワーカへ発話入力を依頼する未完成シナリオを選択する手段と、
前記選択した未完成シナリオをワーカへ提示する手段と、
前記提示した未完成シナリオに対して入力された発話を前記データベースに登録する手段とを具備し、
前記選択する手段は、発話者の属性情報がワーカと類似する未完成シナリオを優先的に選択し、
前記未完成シナリオの選択、提示および入力された発話の登録を繰り返すことを特徴とする対話シナリオコーパスの作成支援システム。
【請求項3】
前記選択する手段は、当該ワーカによる発話入力の履歴がある未完成シナリオを優先的に選択することを特徴とする請求項1または2に記載の対話シナリオコーパスの作成支援システム。
【請求項4】
未完成シナリオの話題を判別する手段と、
未完成シナリオの話題とワーカの識別情報との関連性を計算する手段とを具備し、
前記選択する手段は、ワーカの識別情報との関連性がより高い話題の未完成シナリオを優先的に選択することを特徴とする請求項1ないし3のいずれかに記載の対話シナリオコーパスの作成支援システム。
【請求項5】
前記提示する手段は、発話者の属性情報をワーカに提示する手段をさらに具備したことを特徴とする請求項1ないし4のいずれかに記載の対話シナリオコーパスの作成支援システム。
【請求項6】
不適切な発話を含む未完成シナリオをワーカに報告させる手段を更に具備し、
報告数が基準値を超えた未完成シナリオを削除することを特徴とすることを特徴とする請求項1ないし5のいずれかに記載の対話シナリオコーパスの作成支援システム。
【請求項7】
入力された各発話に含まれる語句をクラスタリングし、発話数が所定数に達したか否かに基づいて対話シナリオが完成したか否かを判断する際の当該所定数をクラスタ数に応じて可変としたことを特徴とする請求項1ないし6のいずれかに記載の対話シナリオコーパスの作成支援システム。
【請求項8】
前記データベースが、一つのルート発話から少なくとも一つのノード発話を中継してリーフ発話に至る複数の対話シナリオで構成される木構造であることを特徴とする請求項1ないし7のいずれかに記載の対話シナリオコーパスの作成支援システム。
【請求項9】
階層ごとに発話内容が類似するノードを集約する手段を更に具備したことを特徴とする請求項8に記載の対話シナリオコーパスの作成支援システム。
【請求項10】
入力発話に含まれる語句の当該入力発話と同一階層における出現頻度が所定値を超えていると当該語句を含む発話入力を禁止する手段を具備したことを特徴とする請求項8に記載の対話シナリオコーパスの作成支援システム。
【請求項11】
前記提示する手段は、n番目までの発話とn+2番目以降の発話とが登録された未完成シナリオをワーカへ提示し、n+1番目の発話入力を依頼することを特徴とする請求項8に記載の対話シナリオコーパスの作成支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話シナリオコーパスの作成支援システムに係り、特に、発話の登録数が不足する未完成シナリオを発話入力作業を担うワーカへ提示し、次の発話者の立場で発話を入力させて更新登録することを繰り返して対話シナリオを完成させる対話シナリオコーパスの作成支援システムに関する。
【背景技術】
【0002】
対話エージェントシステムに高度な対話を実現させるためには、想定される対話のやり取り(対話シナリオ)を記述した大規模な文章データ(対話シナリオコーパス)の作成が必要となる。対話シナリオコーパスは、既に存在するチャットやSNS上のデータから作成する方法や、人手で入力することで作成する方法などがあるが、一般的に人手によって作成した方が用途に合った高品質なものとなることが多い。
【0003】
特許文献1には、チャットのような複数ユーザによるテキストコミュニケーションにおける入力文章を対象に自然言語処理を行い、文章間の関係情報を取得、蓄積することで対話コーパスを生成する方法が開示されている。
【0004】
非特許文献1には、クラウドソーシングを利用してテキスト対話を行う2名の作業者を募集し、チャット形式での対話入力と、入力した文章に対してその役割などを付与するアノテーション作業を支援するシステムが開示されている。
【0005】
非特許文献2は、TwitterのようなSNS上で行われているコミュニケーションをコーパスとして収集することで、ユーザの発話と類似度が高いSNS上の投稿を発見し、当該投稿に対する返答を対話エージェントの返答とすることで対話システムを実現する方法が開示されている。ユーザ発話に類似する投稿が存在しない場合、非特許文献2では、クラウドソーシング上のワーカに返答の作成を依頼する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2008 -299754号公報
【非特許文献】
【0007】
【非特許文献1】「オープンプラットフォームとクラウドソーシングを活用した対話コーパス構築方法」塚原裕史,内海慶,言語処理学会年次大会(2015年3月)
【非特許文献2】「リアルタイムクラウドソーシングとTwitter大規模コーパスを利用した対話シテム」別所史浩,原田達也,國吉康夫,情報処理学会研究報告(2012年5月)
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1や非特許文献2では、チャットやSNSなどテキストによるコミュニケーションデータが既に存在することを前提に、それらの関係性を取得してコーパスとするが、既存のコミュニケーションデータは多様なユーザが自身の立場で情報を発信しているため、そのままでは活用が難しい。例えば、男性の投稿と女性の投稿とが混ざっており、これらが混合されたコーパスは対話エージェントの性格を破たんさせる。対話エージェンの品質向上には、性格などを考慮したコーパスを人手で作成することが求められる。
【0009】
非特許文献1では、クラウドソーシングを利用して複数のワーカを収集し、2名のワーカペアにチャットを行わせる方法が提案されている。この方法では、2名のワーカを同時刻に集合させてチャットを行う必要があるために時間的拘束が大きくなる。また、相手が文章を入力している間、他方のワーカは待ち状態となるので無駄な時間が多く、効率が悪くなる。さらに、複数のワーカペアで会話の内容が重複し、無駄になるという課題もある。
【0010】
本発明の目的は、上記の技術課題を解決し、同一のシナリオを複数人で作成可能とすることにより、作業者を拘束する必要がなくなり、作業効率を向上させることが可能な対話シナリオコーパスの作成支援システムを提供することにある。
【課題を解決するための手段】
【0011】
上記の目的を達成するために、本発明は、対話する各発話者の立場での発話入力を繰り返して対話シナリオを完成させる対話シナリオコーパスの作成支援システムにおいて、以下の構成を具備した点に特徴がある。
【0012】
(1) 発話の登録数が不足する未完成シナリオを記憶するデータベースと、発話の入力作業を担うワーカへ発話入力を依頼する未完成シナリオを選択する手段と、選択した未完成シナリオをワーカへ提示する手段と、提示した未完成シナリオに対して入力された発話を前記データベースに登録する手段とを具備し、前記未完成シナリオの選択、提示および入力された発話の登録を繰り返すようにした。
【0013】
(2) 各発話者の属性情報を記憶する手段と、各ワーカの属性情報を取得する手段とを具備し、選択する手段は、発話者の属性情報がワーカと類似する未完成シナリオを優先的に選択するようにした。
【0014】
(3) 前記選択する手段は、当該ワーカによる発話入力の履歴がある未完成シナリオを優先的に選択するようにした。
【0015】
(4) 未完成シナリオの話題を判別する手段と、未完成シナリオの話題とワーカの識別情報との関連性を計算する手段とを具備し、選択する手段は、ワーカの識別情報との関連性がより高い話題の未完成シナリオを優先的に選択するようにした。
【0016】
(5) 前記提示する手段は、発話者の属性情報をワーカに提示する手段をさらに具備した。
【0017】
(6) 不適切な発話を含む未完成シナリオをワーカに報告させる手段を更に具備し、報告数が基準値を超えた未完成シナリオを削除するようにした。
【0018】
(7) 入力された各発話に含まれる語句をクラスタリングし、発話数が所定数に達したか否かに基づいて対話シナリオが完成したか否かを判断する際の当該所定数をクラスタ数に応じて可変とした。
【0019】
(8) 前記データベースを、一つのルート発話から少なくとも一つのノード発話を中継してリーフ発話に至る複数の対話シナリオで構成される木構造とした。
【0020】
(9) 階層ごとに発話内容が類似するノードを集約する手段を具備した。
【0021】
(10) 入力発話に含まれる語句の当該入力発話と同一階層における出現頻度が所定値を超えていると当該語句を含む発話入力を禁止する手段を具備した。
【0022】
(11) 前記提示する手段は、n番目までの発話とn+2番目以降の発話とが登録された未完成シナリオをワーカへ提示し、n+1番目の発話の穴埋め的な入力を依頼するようにした。
【発明の効果】
【0023】
本発明によれば、以下のような効果が達成される。
【0024】
(1) 複数のワーカが独立して複数のシナリオを並列的に作成することが可能になるので、効率的なシナリオ構築が可能となり、かつ多様な話題を含むシナリオを簡単に構築できるようになる。
【0025】
(2) 各発話者の発話を交互に入力することを繰り返すので、構造化されたシナリオを構築することが可能となり、対話システムにおける会話の品質を高められるようになる。
【0026】
(3) 複数のワーカが、発話入力を依頼された未完成シナリオに応じて一方側の発話者及び他方側の発話者のいずれとしても発話入力することができ、一つの発話入力を終えると次の未完成シナリオが提示されるので、対話相手の発話入力を待つことなく、かつ時間的な拘束を受けることもないので効率的なシナリオ作成が可能になる。
【0027】
(4) 未完成シナリオと共に発話者の仮想的な属性情報をワーカに提示するので、同一発話者の発話を異なるワーカが入力する場合、あるいは異なる発話者の発話を同じワーカが入力する場合でも発話内容の一貫性を維持できるようになる。
【0028】
(5) 内容が類似する発話を一つに統合するので、多様な発話を残しつつ、分岐数の爆発的な増加を抑えられるようになる。
【0029】
(6) シナリオの完成条件を、入力された各発話に含まれる語句をクラスタリングした際のクラスタ数に応じて可変としたので、話題の豊富なシナリオについては階層数の多いシナリオを構築できる一方、話題に乏しいシナリオについては階層数を少なくできる。したがって、無駄の少ない効率的なシナリオ構築が可能となる。
【0030】
(7) 不適切な発話を含むシナリオを各ワーカへ報告させ、報告数の多いシナリオをデータベースから削除するようにしたので、不適切なシナリオの作成が継続されてしまう無駄が排除され、シナリオの品質を維持できるようになる。
【0031】
(8) n番目までの発話とn+2番目以降の発話とが登録された未完成シナリオをワーカへ提示し、n+1番目の穴埋め的な発話入力を依頼するようにしたので、既存の木構造を拡張することができ、一貫性のある複数のシナリオを簡単に追加できるようになる。
【図面の簡単な説明】
【0032】
【
図1】本発明を適用した対話シナリオコーパスの作成支援システムの第1実施形態のブロック図である。
【
図2】対話シナリオを木構造化した例を示した図である。
【
図3】複数のワーカW1,W2が各発話者の発話を交互に入力してシナリオを完成させる手順を示したシーケンスフローである。
【
図4】各ワーカによる発話の入力例(その1)を示した図である。
【
図5】各ワーカによる発話の入力例(その2)を示した図である。
【
図6】各ワーカによる発話の入力例(その3)を示した図である。
【
図7】本発明の第2実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図である。
【
図8】発話者P2の仮想的な属性情報の提示例を示した図である。
【
図9】本発明の第3実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図である。
【
図10】第3実施形態における発話入力画面の一例を示した図である。
【
図11】本発明の第4実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図である。
【
図12】発話の入力内容が重複する例を示した図である。
【
図13】本発明の第5実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図である。
【
図14】入力禁止語が設定される例を示した図である。
【
図15】本発明の第6実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図(その1)である。
【
図16】本発明の第6実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図(その2)である。
【
図17】本発明の第7実施形態に係る対話シナリオコーパス作成支援システムの機能ブロック図である。
【
図18】発話を穴埋め的に入力することで木構造が拡張される様子を示した図である。
【発明を実施するための形態】
【0033】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明を適用した対話シナリオコーパスの作成支援システムの構成を示したブロック図であり、シナリオ作成支援装置1、シナリオデータベース(DB)2および作業者端末3をネットワークで相互に接続して構成される。本発明の作成支援システムは、対話する各発話者の立場での発話入力を繰り返して対話シナリオを完成させる。
【0034】
シナリオDB2には、発話の登録数が不足する未完成のシナリオが多数登録されている。
図2は、本実施形態におけるシナリオの構成例を示した図であり、ルートに相当する第1発話から、ノードに相当する複数の発話への分岐を繰り返し、リーフに相当する複数の最終発話に至る複数の対話シナリオが木構造で登録され、各ノードに発話が登録される。
【0035】
シナリオ作成支援装置1において、ワーカ割当部101は、例えばクラウドソーシングにより発話の入力作業を担うワーカWiの参加登録を受け付け、参加登録した各ワーカWiにシナリオ作成タスクを割り当てる。各ワーカWiには、特定の発話者に関する発話入力タスクを割り当てても良いし、発話者を特定せずに発話入力タスクを割り当てても良い。
【0036】
シナリオ選択部102は、発話の入力を依頼する未完成のシナリオをワーカWiごとに選択する。本実施形態では、シナリオ選択部102が属性評価部102aおよび発話評価部102bを含む。前記属性評価部102aは、予め登録されている発話者P1,P2の仮想的な属性情報と各ワーカWiの属性情報とを比較し、発話者の属性がワーカWiと類似する未完成シナリオを優先的に選択する。
【0037】
前記発話評価部102bは、未完成シナリオの話題と各ワーカWiの属性情報とを比較し、ワーカWiの属性情報と関連性のより高い話題の未完成シナリオを優先的に選択する。未完成シナリオの話題は、話題が既知の文書を機械学習の学習データとして識別器に学習させ、現在のシナリオを話題判別対象とすることで推定できる。
【0038】
あるいは、ワーカWiが過去に発話入力した履歴のある未完成シナリオを優先的に選択するようにしても良い。例えば、ワーカWiが過去に発話入力した回数が多い未完成シナリオほど優先度を高くすれば、ワーカは一貫して対話に取り組めるため、対話の矛盾や破たんを軽減できるようになる。
【0039】
シナリオ提示部103は、各ワーカWiの作業者端末3に前記選択した未完成シナリオを提示して発話の入力を依頼する。シナリオ登録部104は、ワーカが作業者端末3から入力した発話をシナリオDB2上の対応する未完成シナリオの対応するノードに追加登録する。
【0040】
本実施形態では、第n発話まで登録された未完成シナリオをシナリオ選択部102がシナリオDB2から選択し、シナリオ提示部103が各ワーカWiへ提示することで当該未完成シナリオへの第n+1発話の入力を依頼する。各ワーカWiは作業者端末3を操作して未完成シナリオに第n+1発話を入力する。シナリオ登録部104は、入力された第n+1発話を未完成シナリオの対応ノードに追加登録する。このような未完成シナリオの選択、各ワーカWiへの提示、各ワーカWiによる発話入力および発話登録は、最終発話の入力が完了して対話シナリオが完成するまで繰り返される。
【0041】
図3は、複数のワーカWiが各発話者P1,P2の発話を交互に入力してシナリオを完成させる手順を示したシーケンスフローであり、
図4は、各ワーカWiによる発話の入力例を示した図である。ここでは、2人のワーカW1,W2に発話の入力を依頼する場合を例にして説明する。
【0042】
時刻t1では、例えばクラウドソーシングによりシナリオ作成のワーカを募集し、応募者の属性情報としてプロフィールなどが支援装置1に登録される。時刻t2では、シナリオ作成支援装置1のシナリオ選択部102が、ワーカW1,W2へ作成依頼する未完成シナリオをシナリオDB2からそれぞれ選択、抽出する。時刻t3では、シナリオ提示部103が、テーマと第1発話のみが登録された未完成シナリオを各ワーカW1,W2へそれぞれ提示して発話の入力を依頼する。
【0043】
本実施形態では、「休日の過ごし方」、「飲食」といったテーマごとに2人の発話者P1,P2の仮想的な対話が交互に繰り返される対話シナリオの作成支援を想定しており、未完成シナリオの初期状態は、テーマと当該テーマに対する一方側発話者P1の第1発話のみが登録されている。本実施形態では、初めは
図4(a)に示したように、テーマ「休日の過ごし方」と当該テーマに対する発話者P1の第1発話「休日は何をしていますか?」のみが登録された未完成シナリオがワーカW1,W2にそれぞれ提示され、各作業者端末3のディスプレイに表示される。
【0044】
時刻t4,t5では、ワーカW1,W2が前記提示された未完成シナリオの直前発話に対する次発話を、他方側発話者P2の立場でそれぞれ入力する。ここでは、未完成シナリオが発話者P1の第1発話まで登録されているので、
図4(b)に示したように、各ワーカW1,W2は発話者P2の立場で発話入力欄31にキー入力または音声入力等の適宜の手段により第2発話を入力する。
【0045】
本実施形態は、「サークルでテニスをやります。」と入力した例を示している。発話の入力後、時刻t6,t7において、ワーカW1,W2が送信ボタン32をクリックすると、
図4(c)に示したように、各ワーカW1,W2の入力した第2発話がシナリオ支援装置1へ通知され、各未完成シナリオの第2発話としてシナリオDB2に登録される。
【0046】
時刻t8では、ワーカW1へ依頼する未完成シナリオおよびワーカW2へ依頼する未完成シナリオがシナリオDB2から改めて選択、抽出される。時刻t9では、各ワーカW1,W2へ前記抽出された未完成シナリオが提示されてシナリオ作成が依頼される。
【0047】
時刻t10,t11では、ワーカW1,W2が前記提示された未完成シナリオに次発話をそれぞれ入力する。ここでは、
図5(a)に示したように、各未完成シナリオが発話者P2による第2発話まで登録されているので、
図5(b)に示したように、各ワーカW1,W2は発話者P1の立場で第3発話「何年くらいつづけていますか?」を入力する。時刻t12,t13では、
図5(c)に示したように、ワーカW1,W2の入力した前記第3発話がシナリオDB2に登録される。
【0048】
時刻t14では、ワーカW1へ依頼する未完成シナリオおよびワーカW2へ依頼する未完成シナリオがシナリオDB2から改めて選択、抽出される。時刻t15では、各ワーカW1,W2へ前記抽出された未完成シナリオが提示されてシナリオ作成が依頼される。
【0049】
時刻t16,t17では、ワーカW1,W2が前記提示された未完成シナリオに次発話をそれぞれ入力する。ここでは、
図6(a)に示したように、各未完成シナリオが発話者P1による第3発話まで登録されているので、
図6(b)に示したように、各ワーカW1,W2は発話者P2の立場で第4発話「大学からなので10年です。」を入力する。時刻t18,t19では、
図6(c)に示したように、ワーカW1,W2の入力した前記第4発話がシナリオDB2に登録される。以下同様に、ワーカW1,W2は、提示された未完成シナリオに第n発話まで登録されていれば、第n+1発話を入力することを繰り返す。
【0050】
本実施形態によれば、各ワーカWは発話入力を依頼された未完成シナリオに応じて一方側和発話者P1及び他方側発話者P2のいずれとしても発話入力することができ、一つの発話入力を終えると次の未完成シナリオが提示されるので、相手の発話入力を待つことなく、かつ時間的な拘束を受けることなく、効率的なシナリオ作成が可能になる。
【0051】
図7は、本発明の第2実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表しているので、その説明は省略する。本実施形態は、シナリオ提示部103が、各発話者の仮想的な属性情報としてペルソナを記憶するペルソナ記憶部103a、および未完成シナリオをワーカWiへ提示する際に発話者のペルソナも併せて提示するペルソナ提示部103bを具備した点に特徴がある。
【0052】
シナリオ提示部103は、未完成シナリオをワーカWiに提示して発話の入力を依頼する際、
図8に示したように、発話者の仮想的なペルソナを併せてワーカWiに提示し、ワーカWiが当該ペルソナを考慮した発話を入力できるようにした点に特徴がある。本実施形態では、発話者P1,P2の仮想的なペルソナが予め登録されており、名前、ニックネーム、年齢、性別、生年月日等が提示される。
【0053】
本実施形態によれば、未完成シナリオと共に発話者の仮想的なペルソナを提示するので、同一発話者の発話を異なるワーカWiが入力する場合、あるいは異なる発話者の発話を同じワーカWiが入力する場合でも発話内容の一貫性を維持できるようになる。
【0054】
図9は、本発明の第3実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態では、シナリオ提示部103が、不適切な発話を含む未完成シナリオをワーカWiに報告させる不適切報告要求部103cを具備し、シナリオ登録部104が、不適切の報告数が基準値を超えた未完成シナリオをシナリオDB2から削除するシナリオ削除部104aを具備した点に特徴がある。
【0055】
未完成シナリオをワーカWiへ提示して発話の入力を依頼する際に、不適切報告要求部103cは、
図10に示したように、発話入力欄31および送信ボタン32に加えて、既登録の発話に不適切な表現、内容が含まれていることをシステム側へ報告させるための不適切報告ボタン33を表示させる。
【0056】
図示の例では、前回発話の「初めましてこんにちは。」が、それまでの発話の経緯から不自然であるため、ワーカWiは発話入力することなく不適切報告ボタン33をクリックすることで、提示された未完成シナリオに不適切な発話が含まれていることをシナリオ作成支援装置1へ通知する。シナリオ登録部104では、前記シナリオ削除部104aが不適切報告数を未完成シナリオごとに計数し、所定数を超える不適切報告のあった未完成シナリオをシナリオDB2から削除する。
【0057】
本実施形態によれば、不適切な発話を含む未完成シナリオを排除できるので、不適切なシナリオの作成が継続されてしまう無駄が排除され、シナリオの品質を高く維持できるようになる。
【0058】
図11は、本発明の第4実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態は、テーマが同一の複数の未完成シナリオを対象に、同一階層ごとに発話内容に基づくクラスタリングを実行し、同一クラスタに分類された発話を一の代表発話に置き換えることでシナリオを集約するシナリオ集約部105を具備した点に特徴がある。
【0059】
対話シナリオが木構造であると、子ノードの数だけシナリオが分岐するため、対話が進むにつれてシナリオパターンが爆発的に増加する。例えば、一つの発話に対して10個の発話を入力させて木構造を構築すると、10段目は10億通りとなり、膨大な入力が必要となってしまう。シナリオ集約部105は、内容が類似する発話をk-means又はX-meansなどのクラスタリング手法を用いてグルーピングし、k-means手法であればクラスタの中心に近い発話、X-meansであれが最適発話のみに対して発話を継続する。
【0060】
図12の例であれば、「ビールが好きです。」、「夏はビールをよく飲みます。」、「地ビールが好きで、旅行の楽しみの一つです。」が同一クラスタに分類され、「ビールが好きです。」が代表発話に選定されている。したがって、「ビールが好きです。」と同一クラスタに属する発話は全て「ビールが好きです。」のノードに集約される。本実施形態によれば、多様な発話を残しつつ、分岐数の爆発的な増加を抑えられるようになる。
【0061】
図13は、本発明の第5実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態では、シナリオ登録部104が入力禁止語処理部104bを具備した点に特徴がある。
【0062】
入力禁止語処理部104bは、タイトルが同一の未完成シナリオを対象に発話内での語句の出現頻度を計算し、所定の頻度を超えて出現する頻出語を入力禁止語に設定する。そして、入力された発話に入力禁止語が含まれていると、ワーカWiに対して入力禁止語が含まれる旨を通知して他の発話入力を促すようにしている。
【0063】
図14に示した例では、直前発話「好きなお酒は何ですか」に対して、他のワーカWiが既に「ビールが好きです。」「発明はビールをよく飲みます。」、「地ビールが好きで、旅行の楽しみの一つです。」「家で少しボビールを飲みます」など、ビール関連の話題を多数登録しているので「ビール」が入力禁止語に設定されている。
【0064】
これにより、「ビール」を含む発話が入力されると、入力禁止語処理部104bは送信ボタン32をグレーアウトさせると共に「ビール」が入力禁止語である旨のメッセージおよび「入力禁止語が含まれている」旨のメッセージを提示して他の発話入力を促す。本実施形態によれば、多様な発話を残しつつ、分岐数の爆発的な増加を抑えられるようになる。
【0065】
図15,16は、本発明の第6実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態では、発話の登録数が所定数に達した対話シナリオを完成と評価するにあたり、発話に含まれる語句の出現頻度や発話入力に要する時間に基づいて前記所定値を動的に変更する完成条件設定部106を具備した点に特徴がある。
【0066】
図15の例では、前記完成条件設定部106がクラスタリング部106aを含み、未完成シナリオごとに各発話に含まれる語句を抽出してクラスタリングを実施する。そして、クラスタ数が多い場合は更に話題が拡がる可能性が高いと判断して所定数を大きな値に設定する一方、クラスタ数が少ない場合は類似の語句の出現頻度が高く、更に話題が拡がる可能性は低いと判断して所定数を小さな値に設定する。
【0067】
図16の例では、前記完成条件設定部106が入力時間計時部106bを含み、例えばワーカWiに入力禁止語を提示した以降の発話入力に要する時間を測定する。そして、短時間で発話が入力される場合は話題が豊富と判断して所定数を大きな値に設定する一方、発話の入力が短時間で行われなくなると話題が欠乏したと判断して所定数を小さな値に設定する。
【0068】
本実施形態によれば、話題の豊富なシナリオについては階層数の多いシナリオを構築できる一方、話題に乏しいシナリオについては階層数を少なくできるので、話題に応じて効率的なシナリオ構築が可能にはり、発話入力の効率化が可能になる。
【0069】
図17は、本発明の第7実施形態に係る対話シナリオコーパス作成支援システムの構成を示した機能ブロック図であり、前記と同一の符号は同一又は同等部分を表している。本実施形態では、シナリオ作成支援装置1がシナリオ拡張部107を具備した点に特徴がある。
【0070】
上記の各実施形態では、ワーカWiに対して未完成シナリオを提示して発話の入力を依頼する際に、それまでの発話履歴を提示し、直前発話との関連で次の発話の入力を依頼していた。これに対して、本実施形態ではシナリオ拡張部107がn番目までの発話とn+2番目以降の発話とが登録された未完成シナリオをワーカWiへ提示し、n+1番目の穴埋め的な発話入力を依頼するようにしている。
【0071】
図18(a)に示した入力例では、第1発話として「休日は何をしていますか」が登録され、第3発話として「何年位続けていますか」、第4発話として「大学からなので10年近くです。」がそれぞれ登録されている未完成シナリオがワーカへ提示されている。この場合、第2発話として「ゴルフです。」「草野球です。」「ドライブです。」などの発話入力が可能である。本実施形態によれば、一つの発話を穴埋め的に入力させることで、
図18(b)に示したように既存の木構造を拡張することができ、一貫性のある複数のシナリオを簡単に追加できるようになる。
【0072】
なお、上記の各実施形態では対話シナリオが木構造である場合を例にして説明したが、本発明はこれのみに限定されるものではなく、各対話シナリオが相互に独立していても良い。
【符号の説明】
【0073】
1…シナリオ作成支援装置,2…シナリオデータベース,3…作業者端末,31…発話入力欄,32…送信ボタン,33…不適切報告ボタン,101…ワーカ割当部,102…シナリオ選択部,102a…属性評価部,102b…発話評価部,103…シナリオ提示部,103a…ペルソナ記憶部,103b…ペルソナ提示部,103c…不適切報告要求部,104…シナリオ登録部,104a…シナリオ削除部,104b…入力禁止語処理部,105…シナリオ集約部,106…完成条件設定部,106a…クラスタリング部,106b…入力時間計時部,107…シナリオ拡張部