(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-20
(45)【発行日】2022-01-17
(54)【発明の名称】アノテーション支援装置
(51)【国際特許分類】
G06F 40/44 20200101AFI20220107BHJP
G06F 40/30 20200101ALI20220107BHJP
G06F 40/56 20200101ALI20220107BHJP
G10L 15/10 20060101ALI20220107BHJP
G10L 15/22 20060101ALI20220107BHJP
G06F 16/907 20190101ALI20220107BHJP
【FI】
G06F40/44
G06F40/30
G06F40/56
G10L15/10 500T
G10L15/10 500N
G10L15/22 300U
G06F16/907
(21)【出願番号】P 2018131051
(22)【出願日】2018-07-10
【審査請求日】2020-06-08
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】池田 和史
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2009-093481(JP,A)
【文献】米国特許出願公開第2009/0254344(US,A1)
【文献】洪 陽杓、白井 清昭,対話行為タグ付きコーパス作成支援,言語処理学会第11回年次大会発表論文集,日本,言語処理学会,2005年03月15日,pp.815-818
【文献】日野 優登 外2名,Kyutechコーパスを対象とした対話行為推定,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2017年12月13日,第117巻 第367号,pp.71-76
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06F 16/00
G10L 15/10
G10L 15/22
(57)【特許請求の範囲】
【請求項1】
対話シナリオへのアノテーションを支援するアノテーション支援装置において、
対話シナリオの発話テキストごとにその属性を推定する手段と、
推定された複数の属性から少なくとも一つの属性を選択させるアノテーションタスクのタスク条件を決定する手段と、
前記タスク条件に基づいて作成したアノテーションタスクを作業者へ提供する手段と、
前記アノテーションタスクを実行した各作業者からアノテーションの結果を集計する手段とを具備し
、
前記推定する手段は、
対話シナリオの発話テキストごとに特徴抽出を行う手段と、
前記抽出した特徴から属性を推定して推定尤度を出力する推定モデルとを含み、
前記推定モデルは、前記抽出した特徴から属性種別ごとに属性値候補を推定して推定尤度を出力し、
前記タスク条件を決定する手段は、アノテーションを依頼する発話テキストを他の発話テキストと共に時系列で表示する際の発話表示数Lを、当該アノテーションを依頼する発話テキストの属性値判断に影響を及ぼす直近の発話数に基づいて決定することを特徴とするアノテーション支援装置。
【請求項2】
対話シナリオへのアノテーションを支援するアノテーション支援装置において、
対話シナリオの発話テキストごとにその属性を推定する手段と、
推定された複数の属性から少なくとも一つの属性を選択させるアノテーションタスクのタスク条件を決定する手段と、
前記タスク条件に基づいて作成したアノテーションタスクを作業者へ提供する手段と、
前記アノテーションタスクを実行した各作業者からアノテーションの結果を集計する手段とを具備し、
前記推定する手段は、
対話シナリオの発話テキストごとに特徴抽出を行う手段と、
前記抽出した特徴から属性を推定して推定尤度を出力する推定モデルとを含み、
前記推定モデルは、前記抽出した特徴から属性種別ごとに属性値候補を推定して推定尤度を出力し、
前記タスク条件を決定する手段は、推定尤度の降順で表示する属性値候補の表示数Mを前記推定尤度に基づいて決定することを特徴とするアノテーション支援装置。
【請求項3】
対話シナリオへのアノテーションを支援するアノテーション支援装置において、
対話シナリオの発話テキストごとにその属性を推定する手段と、
推定された複数の属性から少なくとも一つの属性を選択させるアノテーションタスクのタスク条件を決定する手段と、
前記タスク条件に基づいて作成したアノテーションタスクを作業者へ提供する手段と、
前記アノテーションタスクを実行した各作業者からアノテーションの結果を集計する手段とを具備し、
前記推定する手段は、
対話シナリオの発話テキストごとに特徴抽出を行う手段と、
前記抽出した特徴から属性を推定して推定尤度を出力する推定モデルとを含み、
前記推定モデルは、前記抽出した特徴から属性種別ごとに属性値候補を推定して推定尤度を出力し、
前記タスク条件を決定する手段は、発話テキストごとにアノテーションタスクを依頼する作業者数Nを前記推定尤度に基づいて決定することを特徴とするアノテーション支援装置。
【請求項4】
前記推定する手段は、
前記アノテーションの結果と前記抽出した特徴との関係を機械学習して前記推定モデルを更新する手段をさらに含むことを特徴とする請求項
1ないし3のいずれかに記載のアノテーション支援装置。
【請求項5】
前記タスク条件を決定する手段は、アノテーションを依頼する発話テキストを他の発話テキストと共に時系列で表示する際の発話表示数Lを、当該アノテーションを依頼する発話テキストの属性値判断に影響を及ぼす直近の発話数に基づいて決定することを特徴とする請求項
2または3に記載のアノテーション支援装置。
【請求項6】
前記タスク条件を決定する手段は、アノテーションを依頼する発話テキストおよびその直近の少なくとも一つの発話テキストの属性種別ごとの各属性値候補の推定尤度の相違に基づいて発話表示数Lを決定することを特徴とする請求項
1に記載のアノテーション支援装置。
【請求項7】
前記タスク条件を決定する手段は、アノテーションを依頼する発話テキストごとに各属性種別の属性値候補の推定尤度を降順で順次に加算して求めた加算値に基づいて表示数Mとすることを特徴とする請求項
2に記載のアノテーション支援装置。
【請求項8】
前記タスク条件を決定する手段は、発話テキストごとにそのアノテーションの結果に基づいて、アノテーションされた属性値とそのアノテーション回数との積を属性値ごとに求め、各積の差分に基づいて作業者数Nを決定することを特徴とする請求項
3に記載のアノテーション支援装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データに意味付けを与えるアノテーションを効率化するアノテーション支援装置に係り、特に、対話シナリオの発話テキストに属性情報を付与するアノテーションを効率化するアノテーション支援装置に関する。
【背景技術】
【0002】
対話エージェントシステムに高度な対話を実現させるためには、想定される対話のやり取り(対話シナリオ)を記述した大規模な文章データ(対話シナリオコーパス)が必要となる。システムがより正確な対話を行うためには、対話シナリオの対話行為(挨拶、質問、返答、など)やコンテキスト(時間、場所、周辺状況、など)、感性指標(喜怒哀楽、興味レベル、など)といった属性情報が必要となる。
【0003】
特許文献1には、雑談を行う対話システムを対象に、ユーザ発話の属性(質問の種類や対話行為、話題カテゴリなど)を推定することで適切な応答選択を行う方法が開示されている。
【0004】
特許文献2には、対話行為推定を高精度に行うために、時系列モデルを用いて発話パターンを学習し、対話行為を推定する方法が開示されている。
【0005】
非特許文献1には、クラウドソーシングを利用して、2名の作業者によるチャット形式での対話入力によってシナリオ作成を行うシステムが提案されている。当該システムは、対話行為などのアノテーションをシナリオ作成と同時に実施可能な機能を提供する。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2017-027234号公報
【文献】特開2018-025747号公報
【非特許文献】
【0007】
【文献】オープンプラットフォームとクラウドソーシングを活用した対話コーパス構築方法, 塚原裕史, 内海慶, 言語処理学会年次大会 (2015年3月)
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1および特許文献2は、発話内容のテキスト情報を解析することで対話行為や質問種別などの属性情報を推定する手法を提案する。これにより、ユーザ発話の属性を推定し、対話シナリオ中から属性に応じた応答選択を行うことが可能となる。
【0009】
ユーザ発話の推定に当たっては、属性情報が付与された発話テキストの特徴を機械学習により学習する方法などが用いられる。この方法を対話シナリオに適用することで、対話シナリオに自動的に属性情報を付与することが可能となる。
【0010】
しかしながら、機械学習による推定精度は必ずしも高くないため、対話シナリオとユーザ発話の双方に推定手法を適用した場合、精度は二重に低下し、実用レベルでなくなるという課題がある。具体的には、推定精度が80%であるとすると、対話シナリオの属性情報80%×ユーザ発話の属性情報80%=64%のように、応答精度を大幅に低下させてしまうことが課題となる。
【0011】
上記の技術課題を回避するために、対話シナリオに属性情報をあらかじめ人手によってアノテーションすることで、高精度な応答を実現する方法がある。
【0012】
非特許文献3は、クラウドソーシングを利用して多数の作業者にシナリオの作成とアノテーションを行わせるシステムが提案する。しかしながら、対話行為やコンテキスト、感情指標などの属性情報は数十以上のカテゴリ(属性値)から正解となる属性値を選択する必要がある場合もあり、多くの労力と比較的高い専門性が求められる。したがって、大量の対話シナリオにアノテーションを行うには、膨大なコストを要することが課題となる。
【0013】
本発明の第1の目的は、上記の技術課題を解決し、機械学習を用いて対話シナリオの属性情報を推定し、属性値の候補を予め限定することにより、ワーカに多数の属性値を検討させる必要がなく、作業効率を向上させることが可能な対話シナリオのアノテーション支援装置を提供することにある。
【0014】
本発明の第2の目的は、推定の信頼性や作業者のアノテーション結果に応じて、必要となる冗長性を制御することにより、ワーカの作業を必要最低限に軽減することを可能にする対話シナリオのアノテーション支援装置を提供することにある。
【課題を解決するための手段】
【0015】
上記の目的を達成するために、本発明は、対話シナリオへのアノテーションを支援するアノテーション支援装置において、以下の構成を具備した点に特徴がある。
【0016】
(1)対話シナリオの発話テキストごとにその属性を推定する手段と、推定された複数の属性から少なくとも一つの属性を選択させるアノテーションタスクのタスク条件を決定する手段と、前記タスク条件に基づいて作成したアノテーションタスクを作業者へ提供する手段と、前記アノテーションタスクを実行した各作業者からアノテーションの結果を集計する手段とを具備した。
【0017】
(2)前記推定する手段は、対話シナリオの発話テキストごとに特徴抽出を行う手段と、
前記抽出した特徴から属性を推定して推定尤度を出力する推定モデルとを含むことを特徴とする。
【0018】
(3)前記推定する手段は、前記アノテーションの結果と前記抽出した特徴との関係を機械学習して前記推定モデルを更新する手段をさらに含むことを特徴とする。
【0019】
(4)前記推定モデルは、前記抽出した特徴から属性種別ごとに属性値候補を推定して推定尤度を出力することを特徴とする。
【0020】
(5)前記タスク条件を決定する手段は、アノテーションを依頼する発話テキストを他の発話テキストと共に時系列で表示する際の発話表示数Lを、当該アノテーションを依頼する発話テキストの属性値判断に影響を及ぼす直近の発話数に基づいて決定することを特徴とする。
【0021】
(6)前記タスク条件を決定する手段は、推定尤度の降順で表示する属性値候補の表示数Mを前記推定尤度に基づいて決定することを特徴とする。
【0022】
(7)前記タスク条件を決定する手段は、発話テキストごとにアノテーションタスクを依頼する作業者数Nを前記推定尤度に基づいて決定することを特徴とする。
【発明の効果】
【0023】
本発明によれば、以下のような効果が達成される。
【0024】
(1) 機械学習を用いて対話シナリオの属性情報を推定し、属性値の候補を予め限定することができるので、作業者は多数の属性値を検討する必要がなくなり、作業効率を向上させることが可能となる。
【0025】
(2) 推定の信頼性や作業者のアノテーション結果に応じて、提示する属性値候補数、提示する発話数、依頼するワーカ数といった冗長性を制御するので、必要最小限の作業者が必要最小限の情報を確認するだけでアノテーションが可能となり、作業効率を向上させることが可能となる。
【0026】
(3) アノテーションされた結果に基づいて機械学習モデルの再学習を行うので、アノテーション推定が高精度化され、さらにアノテーション対象となる属性値の数やワーカ数を限定することが可能となる。
【図面の簡単な説明】
【0027】
【
図1】本発明の一実施形態に係る対話シナリオのアノテーション支援システムの構成を示したブロック図である。
【
図3】属性情報を格納するためのフィールドの例を示した図である。
【
図4】アノテーションタスク依頼画面の一例を示した図である。
【
図5】
図3に示した各発話テキストについて、属性種別「対話行為」の属性値候補をその推定尤度の降順で示した図である。
【
図6】発話テキストごとに推定される属性値候補およびその推定尤度の例を示した図である。
【発明を実施するための形態】
【0028】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明の一実施形態に係る対話シナリオを対象としたアノテーション支援システムの構成を示したブロック図である。
【0029】
アノテーション支援システムは、クラウドソーシング等の手段によって収集された大量の対話シナリオを格納するシナリオDB2と、この対話シナリオに対して、クラウドワーカ(作業者)Wによる支援を受けてアノテーションを付与するアノテーション支援装置1とを主要な構成としている。
【0030】
アノテーション支援装置1は、アノテーション推定部11、タスク条件決定部12、アノテーションタスク生成部13およびアノテーション更新部14を主要な構成としている。このようなアノテーション支援装置1は、汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機としても構成できる。
【0031】
対話シナリオは、
図2に示したように、想定されるユーザ発話およびシステム応答の各テキスト情報(発話テキスト)ならびに次発話へのリンク情報を含み、分岐を含むように構造化されていてもよい。
【0032】
前記シナリオDB2は更に、
図3に示したように、前記発話テキストに加えて、「対話行為」、「話題カテゴリ」、「感性指標」、「コンテキスト」などの属性種別ごとに、その属性値が登録された属性情報を格納するためのフィールドを備える。
【0033】
例えば、発話「サークルでテニスをやります。」には、属性種別「対話行為」の属性値として「応答、平叙」が、属性種別「話題カテゴリ」の属性値として「スポーツ/テニス」が、属性種別「感性指標」の属性値として「容認」が、それぞれ登録されている。
【0034】
前記アノテーション支援装置1において、アノテーション推定部11は、特徴抽出部111、特徴学習部112および推定尤度算出部113を含み、シナリオDB2に格納されている対話シナリオの発話テキストごとに、その特徴と予め機械学習した推定モデルとに基づいてアノテーション候補を推定する。本実施形態では、各発話テキストに関連した属性種別ごとに複数の属性値候補が推定される。
【0035】
特徴抽出部111は、アノテーション推定に有効な特徴を対話シナリオから抽出する。具体的には、各発話テキストに対して形態素解析等を行い、単語を特徴として利用する方法などがある。その他に、単語の出現傾向に基づき、関連性の高い単語が近い数値となるよう数値変換された分散表現を特徴として利用する方法などもある。
【0036】
特徴学習部112は、推定対象の属性値がアノテーションされたシナリオから、特徴の出現パターンを機械学習により学習する。機械学習には、単独の発話で学習を行う場合はSVM等を利用する。発話を時系列で学習させ、前後の発話文脈も含めて推定を行う場合はHMMやRNN等を利用する。機械学習への入力は、発話の特徴である単語の出現頻度または分散表現と、その発話の属性値とすることができる。
【0037】
推定尤度算出部113は、特徴学習部112において学習した推定モデルを用いて、アノテーションが行われていない対話シナリオに対して各属性値候補の推定を行う。多くの機械学習ツールでは、内部で推定尤度を算出しており、属性値ごとの推定尤度を出力させることができる。
【0038】
タスク条件決定部12は、発話表示数決定部121、属性値候補数決定部122およびタスク依頼数決定部123を含み、ワーカWにアノテーションを依頼する際の条件(タスク条件)として、以下に詳述する発話表示数L、属性値候補数Mおよびタスク依頼数Nを決定する。
【0039】
図4は、アノテーション支援装置1がワーカWにアノテーションタスクを依頼する際に各ワーカWへ提供されるアノテーションタスク依頼画面の一例を示した図であり、ここでは、システム応答の発話「お上手なんですね。」に対するアノテーションタスクの依頼例が示されている。
【0040】
依頼画面には、アノテーション対象の発話「お上手なんですね。」を含む直近の過去L個(ここでは、5個)のユーザ発話およびシステム応答の各発話テキストが時系列関係を反映して交互に段差表示されている。
【0041】
このとき、発話表示数Lが多ければ、精度の高いアノテーションが可能になるもののワーカWが発話内容を読むために要する時間が長くなる。これに対して、発話表示数Lが少なければ、時間短縮となるがアノテーションの精度は低下する傾向にある。
【0042】
また、ワーカWのアノテーションタスクの負担を軽減するために、属性種別ごとにM個の属性値候補が一覧表示されている。ワーカWは、属性種別ごとにいずれかの属性値候補のラジオボタンをチェックすることでアノテーションを実施できる。
【0043】
本実施形態では、属性種別「対話行為」については3つ(M=3)の属性値候補「伝達、非過去、創造」、「質問、Yes No」および「要求」が用意されている。属性種別「話題カテゴリ」については4つ(M=4)の属性値候補「教育/大学」、「スポーツ/テニス」、「芸術/絵画」および「芸術/音楽」が用意されている。ワーカWは、過去の発話履歴を参照し、アノテーション対象の発話テキスト「お上手なんですね」に対応する属性値をラジオボタンで選択する。
【0044】
このとき、表示する属性値候補数Mが多ければ精度の高いアノテーションが期待できるもののワーカWの判断に要する時間が長くなる。これに対して、属性値候補数Mが少ないと、時間短縮となるがアノテーションの精度は低下する傾向にある。
【0045】
さらに、アノテーションは、単独のワーカWに依頼したのでは必ずしも正しい属性値が選択されるとは限らないため、発話テキストごとにN人のワーカWに依頼し、多数決等の方法によってより正確に属性値を決定することが望ましい。
【0046】
この際、発話テキストごとのアノテーション依頼数Nは、多ければ精度の高いアノテーションが可能になるもののコスト負担が増大する。これに対して、アノテーション依頼数Nを少なくすると、コスト負担は軽減できるがアノテーションの精度は低下する傾向にある。
【0047】
本実施形態では、前記タスク条件決定部12がこれらのトレードオフを考慮して発話表示数L、属性値候補数Mおよびタスク依頼数Nを最適値に決定する。
【0048】
前記発話表示数決定部121は、アノテーションを依頼する発話テキストの属性値判断に、いくつ前までの発話が影響を及ぼしているかを分析することにより、発話表示数Lを決定する。
【0049】
具体的には、HMM (Hidden Markov Model) やRNN (Recurrent Neural Network) といったアノテーション推定に用いる機械学習装置に対して、発話系列(長さL=LA)を入力することで、各属性値の推定尤度が算出される。ここで、入力する発話系列の長さLをL=LA-1,LA-2,LA-3…と徐々に短くした際の各属性値の推定尤度も同様に出力し、各属性値の推定尤度の差が閾値未満である最小のLを決定する。
【0050】
図5は、
図3に示した発話「お上手なんでしょうね。」およびその直前の4つの発話テキストに関して、属性種別「対話行為」の属性値候補をその推定尤度の降順で示した図である。
【0051】
図示の例では、発話「お上手なんでしょうね。」については、属性値候補「伝達、非過去、創造」の推定尤度が0.35で最も高く、属性値候補「質問、Yes/No」の推定尤度が0.30で2番目に高くなっている。同様に、発話「大学からなので10年近くです。」については、属性値候補「応答、平叙」の推定尤度が0.60で最も高く、属性値候補「伝達、非過去、創造」の推定尤度0.35が2番目に高くなっている。
【0052】
ここで、発話「お上手なんでしょうね。」をアノテーション対象とし、複数の属性値候補の中からワーカWへ提示する属性値候補を選抜する場合を考える。
【0053】
図5を参照すれば、L=5,4,3における推定尤度の差は十分に小さいため、直近の3つの発話L=1~3のみを提示すれば、ワーカWは対話行為のアノテーションが可能となることが見込まれる。複数の属性について同時にアノテーションを依頼する場合、属性ごとに算出したLの最大値を適用する。
【0054】
このように、本実施形態ではアノテーションを依頼する発話テキストを他の発話テキストと共に時系列で表示する際の発話表示数Lが、アノテーションを依頼する発話テキストおよびその直近の少なくとも一つの発話テキストの属性種別ごとの各属性値候補の推定尤度の相違に基づいて決定される。
【0055】
属性値候補数決定部122は、上位M件の属性値候補の推定尤度の和が閾値θ
Mを上回るように表示数Mを設定する。
図6を参照し、ここでも各発話テキストに関して、属性値候補がその推定尤度の降順で登録されているものとする。
【0056】
θM=0.9に設定する場合、発話「休日は何をしていますか?」の属性種別「対話行為」について、属性値候補「質問、what」の推定尤度0.90は、既に閾値θMに達している。したがって、当該属性値候補「質問、what」を正解と考えてアノテーションを行わないこととする。
【0057】
発話「サークルでテニスをやります。」については、属性種別「対話行為」の属性値候補「応答、平叙」の推定尤度0.75と属性値候補「伝達、非過去、実在」の推定尤度0.15との和が0.90となって閾値θMに達するため、この上位2つの属性値候補をワーカWに提示してアノテーションさせる。
【0058】
発話「大学からなので10年近くです。」については、推定尤度が上位2つの属性値候補の推定尤度の和が0.85となって閾値θMに満たないため、上位3つ以上の属性値候補をワーカに提示する。
【0059】
前記閾値θMは低く設定するほど提示される候補の件数が減少するため、アノテーションに要する時間を短縮でき、コストを削減できるが、正解となる属性値が含まれない可能性が増加するため、アノテーション品質が低下する。求めるアノテーション品質に応じて閾値θMを決定する。
【0060】
このように、本実施形態ではアノテーションを依頼する発話テキストごとに各属性種別の属性値候補の推定尤度を降順で順次に加算して求めた加算値に基づいて表示数Mが決定される。
【0061】
タスク依頼数決定部123は、アノテーション対象の発話テキストごとに、その属性値の推定尤度や前記属性値候補数Mに基づいて、アノテーションを依頼するワーカ数Nを決定する。
【0062】
例えば、最も推定尤度の高い属性値候補の推定尤度が閾値θNを上回る場合、アノテーションを行うことなく、当該属性のアノテーション結果は最も推定尤度の高い属性値に決定することができる(N=0)。
【0063】
最も推定尤度の高い属性値候補の推定尤度が閾値θMを下回る場合、ワーカWに提示するM件の属性値のそれぞれについて、Piをi番目(i=1~M)に推定尤度の高い属性値の推定尤度とし、i番目の属性値をワーカWが選択した回数をLiとしたとき、次式(1)に基づいて、更なる他のワーカへの依頼要否を判定する。
【0064】
Pi*Liの最大値-Pi*Liの二番目に大きい値<閾値θN …(1)
【0065】
本実施形態では、上式(1)が成立すれば、1名のワーカWに追加のアノテーションを依頼し、当該ワーカWのアノテーション結果に応じて、Liの値を更新する。上式(1)が成立しなければ、追加のアノテーションを依頼しない。
【0066】
図6の例では、発話「何年くらい続けていますか?」にアノテーションを依頼する場合、属性値表示数M=2であり、P1=0.85<θ
N(=0.90),P2=0.10となる。Pi*Liの最大値および二番目に大きい値は共に0である(L1=L2=0のため)ことから、1名のワーカWにアノテーションを依頼する。
【0067】
ここで、ワーカWがi=1の属性値(ここでは、推定尤度1)を選択した場合、その推定尤度は0.85なので前記「Pi*Liの最大値」は0.85となる。また、前記「Pi*Liの二番目に大きい値」は依然として0なので、その差は0.85で上式(1)を満足する。したがって、更に1名のワーカWを追加する。
【0068】
さらに、次のワーカWもi=1の属性値を選択した場合、前記「Pi*Liの最大値」は1.70、前記「Pi*Liの二番目に大きい値」は依然として0なので、その差はその差は1.70で上式(1)を満足しない。したがって、発話「何年くらい続けていますか?」に関するアノテーションを終了する。
【0069】
このように、本実施形態では発話ごとにそのアノテーションの結果に基づいて、アノテーションされた属性値とそのアノテーション回数との積を属性値ごとに求め、各積の差分に基づいて作業者数Nを決定する。
【0070】
上記の方法でアノテーションを依頼することで、推定尤度が高い属性値は、少数のワーカが当該属性値にアノテーションを実施した段階で結果を確定でき効率化が図れる。また、推定尤度が低い属性値は多数のワーカのアノテーションを得て結果が確定するため、信頼性を確保できる。
【0071】
なお、上記は実装方法の一例であり、閾値θNは求めるアノテーションの品質に応じて調整する。また、初期値Piは利用する機械学習装置によって特性が異なるため、調整するための関数を利用してもよい。
【0072】
アノテーションタスク生成部13は、前記各タスク条件L,Mの値に基づいて、前記
図4を参照して説明したアノテーション用のタスクを生成し、前記タスク依頼要否判定に基づいて、必要なワーカ数分の依頼を行う。
【0073】
アノテーション更新部14は、ワーカWのアノテーション結果を受領し、Pi*Liを最大値とする属性値をアノテーション結果として前記シナリオDB2に登録する。また、一定量のアノテーション結果がシナリオDB2に追加された際に、アノテーション推定部11の特徴学習部112で機械学習される推定モデルを更新する。
【符号の説明】
【0074】
1…アノテーション支援装置,2…シナリオDB,11…アノテーション推定部,12…タスク条件決定部,13…アノテーションタスク生成部,14…アノテーション更新部,111…特徴抽出部,112…特徴学習部,113…推定尤度算出部,121…発話表示数決定部,122…属性値候補数決定部,123…タスク依頼数決定部