IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特許7197259情報処理方法、情報処理装置およびプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-19
(45)【発行日】2022-12-27
(54)【発明の名称】情報処理方法、情報処理装置およびプログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20221220BHJP
   G10L 15/28 20130101ALI20221220BHJP
   G10L 17/00 20130101ALI20221220BHJP
   G06F 40/58 20200101ALI20221220BHJP
【FI】
G10L15/00 200C
G10L15/28 230J
G10L17/00 200C
G06F40/58
【請求項の数】 10
(21)【出願番号】P 2017162841
(22)【出願日】2017-08-25
(65)【公開番号】P2019040106
(43)【公開日】2019-03-14
【審査請求日】2020-07-28
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【弁理士】
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【弁理士】
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【弁理士】
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】辻川 美沙貴
(72)【発明者】
【氏名】西川 剛樹
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2011-248002(JP,A)
【文献】特開2014-123072(JP,A)
【文献】特開2009-139390(JP,A)
【文献】特開昭62-109099(JP,A)
【文献】特開2007-264473(JP,A)
【文献】特開平08-185308(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G06F 40/58
(57)【特許請求の範囲】
【請求項1】
第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、
前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第1発話を取得し、
前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
第2発話を取得し、
取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する
情報処理方法。
【請求項2】
前記情報処理方法は、さらに、
前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、
前記第1話者モデルを、前記第2発話を用いて更新する
請求項に記載の情報処理方法。
【請求項3】
前記情報処理方法は、さらに、
前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、
前記第2発話の翻訳の言語が誤っているか否かを判定し、
前記第2発話の翻訳の言語が誤っていないと判定されたときに、前記第1話者モデルを、前記第2発話を用いて更新する
請求項に記載の情報処理方法。
【請求項4】
前記情報処理方法は、さらに、
前記第2発話の翻訳の言語が誤っていると判定されたときには、
前記第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、
取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成する
請求項に記載の情報処理方法。
【請求項5】
前記第1発話の取得または前記第2発話の取得では、
前記第1話者または前記第2話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第1発話または前記第2発話として取得する
請求項に記載の情報処理方法。
【請求項6】
前記第1発話の取得または前記第2発話の取得では、
前記第1話者または前記第2話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第1発話または前記第2発話として取得する
請求項に記載の情報処理方法。
【請求項7】
前記情報処理方法は、さらに、
前記第2発話の話者が前記第1話者でないと認識された場合には、
取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成し、
第3発話を取得し、
取得された前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、取得された前記第3発話の話者が前記第1話者であるか、前記第2話者であるかを認識し、
前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第1言語から前記第2言語に翻訳し、
前記第2話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第2言語から前記第1言語に翻訳する
請求項に記載の情報処理方法。
【請求項8】
前記情報処理方法は、さらに、
前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、前記第3発話の話者が前記第1話者および前記第2話者の何れでもないと認識した場合には、
前記第3発話を棄却することによって、前記第3発話の翻訳を行わない
請求項に記載の情報処理方法。
【請求項9】
第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳する情報処理装置であって、
処理回路と、
前記処理回路に接続された記録媒体とを備え、
前記処理回路は、前記記録媒体を用いて、
前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前
記第2言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第1発話を音声信号として取得し、
前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
第2発話を音声信号として取得し、
取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する、
情報処理装置。
【請求項10】
第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳するためのプログラムであって、
前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第1発話を音声信号として取得し、
前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴
量のモデルである第1話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
第2発話を音声信号として取得し、
取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する、
ことをコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、互いに異なる言語で行われる会話を翻訳する情報処理方法、情報処理装置およびプログラムに関する。
【背景技術】
【0002】
従来、第1話者と第2話者との間の会話を翻訳する翻訳装置が提供されている。第1話者と第2話者とは互いに異なる言語で会話する。例えば、第1話者は、第1言語である日本語で発話し、第2話者は、第2言語である英語で発話する。
【0003】
このような場合、従来の翻訳装置は、発話ごとに、その発話の翻訳の言語を、ユーザのボタン操作などによって決定する。例えば、第1話者であるユーザは、発話するときには、翻訳装置のボタンを操作することによって、第1言語から第2言語への翻訳を選択する。また、第2話者が発話するときには、ユーザは、翻訳装置のボタンを操作することによって、第2言語から第1言語への翻訳を選択する。
【0004】
したがって、第1話者および第2話者のそれぞれが発話するたびに、翻訳装置の操作を要するため、翻訳を伴う会話をスムースに行うことができないという問題がある。
【0005】
また、特許文献1には、複数の話者の会話において、対話中の話者の組が交替したことを検出する話者交換検出装置が開示されている。さらに、特許文献2には、入力音声の到来方向を推定して高精度な音声認識を行う音声認識装置が提供されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2016-080916号公報
【文献】特開2014-048514号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上記特許文献1および特許文献2の技術を用いても、従来の翻訳装置では、翻訳を伴う会話をスムースに行うことができない。つまり、特許文献1では、対話中の話者の組が交替したことを検出するだけで、翻訳の言語を決定することができない。また、特許文献2では、入力音声の到来方向を音声認識に利用するため、話者の位置が固定されなければ、音声認識することができず、その結果、翻訳することができない。
【0008】
そこで、本発明は、翻訳を伴う会話をスムースに行うことができる情報処理方法、情報処理装置およびプログラムを提供する。
【課題を解決するための手段】
【0009】
本発明の一態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第1発話を取得し、前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する
【0010】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0011】
本発明の情報処理方法は、翻訳を伴う会話をスムースに行うことができる。
【図面の簡単な説明】
【0012】
図1図1は、実施の形態1における翻訳装置の外観の一例を示す図である。
図2A図2Aは、実施の形態1における翻訳装置の言語設定画面の一例を示す図である。
図2B図2Bは、実施の形態1における翻訳装置のモデル準備画面の一例を示す図である。
図2C図2Cは、実施の形態1における翻訳装置による会話の翻訳を開始させるための操作の一例を示す図である。
図3図3は、実施の形態1における、第1話者と第2話者との間の会話を翻訳装置100が翻訳している状況の一例を示す図である。
図4図4は、実施の形態1における翻訳装置の構成を示すブロック図である。
図5図5は、実施の形態1における翻訳装置の全体的な処理動作を示すフローチャートである。
図6A図6Aは、図5の設定処理の詳細な動作を示すフローチャートである。
図6B図6Bは、図5のモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図6C図6Cは、図5の定常翻訳処理の詳細な動作を示すフローチャートである。
図7図7は、実施の形態1の変形例1における翻訳装置の構成を示すブロック図である。
図8A図8Aは、実施の形態1の変形例1におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図8B図8Bは、実施の形態1の変形例1における定常翻訳処理の詳細な動作を示すフローチャートである。
図9図9は、実施の形態1の変形例2における翻訳装置の構成を示すブロック図である。
図10A図10Aは、実施の形態1の変形例2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図10B図10Bは、実施の形態1の変形例2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図11A図11Aは、実施の形態1の変形例3におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図11B図11Bは、実施の形態1の変形例3におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
図12図12は、実施の形態1の変形例4における翻訳装置の構成を示すブロック図である。
図13A図13Aは、実施の形態1の変形例4の設定処理において第1発話を取得する処理の詳細を示すフローチャートである。
図13B図13Bは、実施の形態1の変形例4のモデル生成翻訳処理において第2発話を取得する処理の詳細を示すフローチャートである。
図13C図13Cは、実施の形態1の変形例4の定常翻訳処理において第3発話を取得する処理の詳細を示すフローチャートである。
図14図14は、実施の形態1の変形例5における翻訳装置の構成を示すブロック図である。
図15A図15Aは、実施の形態1の変形例5の設定処理において第1発話を取得する処理の詳細を示すフローチャートである。
図15B図15Bは、実施の形態1の変形例5のモデル生成翻訳処理において第2発話を取得する処理の詳細を示すフローチャートである。
図15C図15Cは、実施の形態1の変形例5の定常翻訳処理において第3発話を取得する処理の詳細を示すフローチャートである。
図16図16は、実施の形態1の変形例6における翻訳装置の構成を示すブロック図である。
図17図17は、実施の形態1の変形例6における定常翻訳処理の詳細な動作を示すフローチャートである。
図18図18は、実施の形態2における翻訳装置の構成を示すブロック図である。
図19図19は、実施の形態2における翻訳装置の言語設定画面の一例を示す図である。
図20A図20Aは、実施の形態2における設定処理の詳細な動作を示すフローチャートである。
図20B図20Bは、実施の形態2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【発明を実施するための形態】
【0013】
上述の問題を解決するために、本発明の一態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、前記第1話者の第1発話を取得し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、会話開始の操作を受け付け、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する。
【0014】
これにより、会話開始前に第1話者および第2話者のそれぞれの言語を設定し、第1話者モデルを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
【0015】
また、本発明の他の態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第1発話を取得し、前記発話順情報に基づいて、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する。
【0016】
これにより、会話開始前に第1話者および第2話者のそれぞれの言語と発話順とを設定しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
【0017】
例えば、前記情報処理方法は、さらに、前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、前記第1話者モデルを、前記第2発話を用いて更新してもよい。
【0018】
これにより、第1発話から生成された第1話者モデルが、第2発話を用いて更新されるため、第1話者モデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0019】
例えば、前記情報処理方法は、さらに、前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、前記第2発話の翻訳の言語が誤っているか否かを判定し、前記第2発話の翻訳の言語が誤っていないと判定されたときに、前記第1話者モデルを、前記第2発話を用いて更新してもよい。
【0020】
これにより、第2発話の翻訳の言語が誤っていない場合に第1話者モデルが更新されるため、誤った言語での翻訳によって不適切に第1話者モデルが更新されてしまうことを抑えることができる。
【0021】
例えば、前記情報処理方法は、さらに、前記第2発話の翻訳の言語が誤っていると判定されたときには、前記第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成してもよい。
【0022】
これにより、第2発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第2発話の誤った言語での翻訳を正すことができる。さらに、第2話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデルたけでなく、第2話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0023】
例えば、前記第1発話の取得または前記第2発話の取得では、前記第1話者または前記第2話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第1発話または前記第2発話として取得してもよい。
【0024】
これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
【0025】
例えば、前記第1発話の取得または前記第2発話の取得では、前記第1話者または前記第2話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第1発話または前記第2発話として取得してもよい。
【0026】
これにより、例えば、第1話者または第2話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
【0027】
例えば、前記情報処理方法は、さらに、前記第2発話の話者が前記第1話者でないと認識された場合には、取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成し、第3発話を取得し、取得された前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、取得された前記第3発話の話者が前記第1話者であるか、前記第2話者であるかを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第1言語から前記第2言語に翻訳し、前記第2話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第2言語から前記第1言語に翻訳してもよい。
【0028】
これにより、第2話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデルたけでなく、第2話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0029】
例えば、前記情報処理方法は、さらに、前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、前記第3発話の話者が前記第1話者および前記第2話者の何れでもないと認識した場合には、前記第3発話を棄却することによって、前記第3発話の翻訳を行わなくてもよい。
【0030】
これにより、第1話者および第2話者の何れでもない第3話者の発話が翻訳されてしまうことを抑えることができる。つまり、第1話者および第2話者との間の翻訳を伴う会話が、第3話者の発話によって乱されることを抑え、その会話をスムースに行うことができる。
【0031】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
【0032】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0033】
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0034】
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。また、以下の各実施の形態では、本開示における情報処理装置および情報処理方法をそれぞれ、翻訳装置および翻訳方法という。
【0035】
(実施の形態1)
<概要>
図1は、実施の形態1における翻訳装置の外観の一例を示す図である。
【0036】
情報処理装置である翻訳装置100は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳する装置である。このような翻訳装置100は、例えばカードのような形状に構成され、発話を取得するマイクである収音部101と、翻訳結果を音声によって出力するスピーカである再生部109と、翻訳結果をテキストとして表示する表示部110とを備えている。
【0037】
例えば、店員または警備員などの第1話者は、その翻訳装置100を携帯しながら、自らに割り当てられた担当範囲を巡回または移動し、その範囲で会った人である第2話者と会話する。このとき、第1話者の言語と第2話者の言語とが異なる場合に、翻訳装置100は、第1話者と第2話者との間の会話を翻訳する。
【0038】
図2Aは、翻訳装置100の言語設定画面の一例を示す図である。
【0039】
翻訳装置100は、会話が開始される前に、言語設定画面を表示部110に表示する。この言語設定画面は、第1話者の言語を設定するための第1言語設定欄110aと、第2話者の言語を設定するための第2言語設定欄110bとを含む。例えば、翻訳装置100のユーザは、その翻訳装置100を操作することによって、第1言語設定欄110aに、第1話者の言語である第1言語(例えば日本語)を入力する。また、ユーザは、その翻訳装置100を操作することによって、第2言語設定欄110bに、第2話者の言語である第2言語(例えば英語)を入力する。なお、ユーザは、第1話者または第2話者であってもよく、第1話者および第2話者の何れでもない人であってもよい。
【0040】
これにより、翻訳装置100では、第1話者の言語として第1言語が設定され、第2話者の言語として第2言語が設定される。つまり、翻訳装置100は、第1話者の言語および第2話者の言語として設定された第1言語および第2言語を示す言語設定情報を生成する。
【0041】
図2Bは、翻訳装置100のモデル準備画面の一例を示す図である。
【0042】
翻訳装置100は、会話が開始される前に、第1話者モデルを生成するためのモデル準備画面を表示部110に表示する。第1話者モデルは、第1話者の発話の特徴量のモデルである。例えば、モデル準備画面には、メッセージ「第1話者のモデルを生成します。第1話者:発話してください。」が記載されている。
【0043】
このとき、翻訳装置100は、収音部101に周囲の音の取得を開始させる。そして、そのメッセージを見た第1話者は発話する。その結果、翻訳装置100は、第1話者の発話を取得して、その発話の特徴量を抽出することによって第1話者モデルを生成する。言い換えれば、翻訳装置100は、第1話者の第1発話を取得し、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデルを生成する。
【0044】
図2Cは、翻訳装置100による会話の翻訳を開始させるための操作の一例を示す図である。
【0045】
翻訳装置100は、第1話者モデルが生成されると、表示部110に会話開始ボタン110cを表示する。ここで、例えば、ユーザによってその会話開始ボタン110cが選択されると、翻訳装置100は、会話開始の操作を受け付ける。その結果、翻訳装置100は、収音部101によって取得される発話を翻訳する。そして、翻訳装置100は、その翻訳結果をテキストとして表示部110に表示するとともに、再生部109から音声によって出力する。
【0046】
図3は、第1話者と第2話者との間の会話を翻訳装置100が翻訳している状況の一例を示す図である。
【0047】
翻訳装置100には、第1話者の言語が第1言語(例えば日本語)であり、第2話者の言語が第2言語(例えば英語)であることが、上述の言語設定画面によって予め設定されている。つまり、翻訳装置100は、その設定内容を示す言語設定情報を生成して保持している。さらに、翻訳装置100には、第1話者モデルが、上述のモデル準備画面によって予め生成されている。
【0048】
そこで、例えば図3の(a)に示すように、第1話者は、第1言語である日本語で「ご用件はなんでしょうか?」と発話する。このとき、翻訳装置100は、その発話「ご用件はなんでしょうか?」の話者が第1話者であることを、その発話と第1話者モデルとに基づいて認識する。さらに、翻訳装置100は、認識された第1話者と言語設定情報に基づいて、その発話の言語として第1言語を特定する。その結果、翻訳装置100は、発話「ご用件はなんでしょうか?」を第1言語である日本語として音声認識し、その音声認識によって得られるテキスト「ご用件はなんでしょうか?」を日本語から第2言語である英語に翻訳する。その翻訳によって、テキスト「What is your purose?」が得られる。
【0049】
翻訳装置100は、その翻訳によって得られたテキスト「What is your purose?」を、翻訳前のテキスト「ご用件はなんでしょうか?」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「What is your purose?」に対して音声合成を行うことによって、音声「What is your purose?」を生成し、その音声を再生部109から出力する。
【0050】
次に、第2話者は、図3の(b)に示すように、翻訳結果である「What is your purose?」を音声として聞き、テキストとして読むと、第2言語である英語で「Where is the appliance department?」と発話する。このとき、翻訳装置100は、その発話「Where is the appliance department?」の話者が第2話者であることを、その発話と第1話者モデルとに基づいて認識する。さらに、翻訳装置100は、発話「Where is the appliance department?」から特徴量を抽出することによって、第2話者モデルを生成する。第2話者モデルは、第2話者の発話の特徴量のモデルである。
【0051】
さらに、翻訳装置100は、認識された第2話者と言語設定情報に基づいて、その発話の言語として第2言語を特定する。その結果、翻訳装置100は、発話「Where is the appliance department?」を第2言語である英語として音声認識する。そして、翻訳装置100は、その音声認識によって得られるテキスト「Where is the appliance department?」を英語から第1言語である日本語に翻訳する。その翻訳によって、テキスト「電化製品売り場はどこですか?」が得られる。
【0052】
翻訳装置100は、その翻訳によって得られたテキスト「電化製品売り場はどこですか?」を、翻訳前のテキスト「Where is the appliance department?」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「電化製品売り場はどこですか?」に対して音声合成を行うことによって、音声「電化製品売り場はどこですか?」を生成し、その音声を再生部109から出力する。
【0053】
次に、第1話者は、図3の(c)に示すように、翻訳結果である「電化製品売り場はどこですか?」を音声として聞き、テキストとして読むと、第1言語である日本語で「3階にございます。」と発話する。このとき、翻訳装置100は、その発話「3階にございます。」の話者が第1話者であることを、その発話と第1話者モデルおよび第2話者モデルとに基づいて認識する。さらに、翻訳装置100は、認識された第1話者と言語設定情報に基づいて、その発話の言語として第1言語を特定する。その結果、翻訳装置100は、発話「3階にございます。」を第1話者の言語である日本語として音声認識する。そして、翻訳装置100は、その音声認識によって得られるテキスト「3階にございます。」を日本語から第2言語である英語に翻訳する。その翻訳によって、テキスト「It is on the 3rd floor.」が得られる。
【0054】
翻訳装置100は、その翻訳によって得られたテキスト「It is on the 3rd floor.」を、翻訳前のテキスト「3階にございます。」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「It is on the 3rd floor.」に対して音声合成を行うことによって、音声「It is on the 3rd floor.」を生成し、その音声を再生部109から出力する。
【0055】
このように、本実施の形態における翻訳装置100では、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。
【0056】
<装置構成>
図4は、本実施の形態における翻訳装置100の構成を示すブロック図である。
【0057】
本実施の形態における翻訳装置100は、収音部101と、言語設定部102と、特徴量抽出部103と、話者認識部104と、言語決定部105と、音声認識部106と、翻訳部107と、音声合成部108と、再生部109と、表示部110と、モデル格納部111とを備える。なお、言語設定部102、特徴量抽出部103、話者認識部104、言語決定部105、音声認識部106、翻訳部107、および音声合成部108は、少なくとも1つの処理回路によって構成されていてもよい。
【0058】
収音部101は、上述のようにマイクであって、周囲の音を電気信号に変換することによって、その音を取得する。つまり、収音部101は、周囲で会話が行われていれば、その会話の発話を取得する。そして、収音部101は、上記電気信号である音声信号を出力する。
【0059】
言語設定部102は、図2Aに示す言語設定画面を介して、第1話者および第2話者のそれぞれの言語を設定する。例えば、言語設定部102は、第1話者に対して第1言語(例えば日本語)を対応付け、第2話者に対して第2言語(例えば英語)を対応付けることによって、第1話者および第2話者の言語を設定する。この設定によって、言語設定部102は、話者と言語との対応付けを示す言語設定情報を生成する。例えば、言語設定情報は、第1話者と第1言語とを対応付けて示し、第2話者と第2言語とを対応付けて示す。
【0060】
特徴量抽出部103は、収音部101から音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部103は、発話を音声信号として取得する。そして、特徴量抽出部103は、取得された発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるi-Vectorである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。
【0061】
話者認識部104は、特徴量抽出部103によって抽出された特徴量と、モデル格納部111に格納されているモデルとを比較することによって、その特徴量を有する発話の話者を認識する。つまり、話者認識部104は、その発話の話者として第1話者または第2話者を決定する。
【0062】
言語決定部105は、言語設定部102によって生成された言語設定情報と、話者認識部104によって決定された話者とに基づいて、収音部101によって取得された発話の言語を決定する。例えば、話者認識部104によって第1話者が認識された場合には、言語決定部105は、言語設定情報において第1言語が第1話者に対応付けられているため、発話の言語として第1言語を決定する。言語決定部105は、決定された言語を示す言語情報を音声認識部106および翻訳部107に出力する。
【0063】
音声認識部106は、収音部101によって取得された発話を、言語決定部105によって決定された言語で認識する。つまり、音声認識部106は、その発話を、決定された言語でテキスト化する。
【0064】
翻訳部107は、音声認識部106によって生成されたテキストを、言語情報に示される言語と異なる言語に翻訳する。例えば、言語情報に示される言語が第1言語である場合、翻訳部107は、第1言語の発話に対応するテキストを第2言語に翻訳する。なお、この翻訳は、例えば、ルールベースまたは統計ベースの機械翻訳、またはニューラルネットワークを利用した機械翻訳などによって行われる。
【0065】
表示部110は、例えば液晶ディスプレイまたは有機発光ダイオードなどによって構成され、音声認識部106によって生成されたテキストと、翻訳部107によって翻訳されたテキストとを表示する。
【0066】
音声合成部108は、翻訳部107から、翻訳されたテキストを取得し、そのテキストの合成音声を生成する。
【0067】
再生部109は、上述のようにスピーカであって、音声合成部108によって生成された合成音声を出力する。
【0068】
モデル格納部111は、第1話者の発話の特徴量のモデルである第1話者モデル111aと、第2話者の発話の特徴量のモデルである第2話者モデル111bとを格納するための記録媒体である。
【0069】
<処理動作>
図5は、本実施の形態における翻訳装置100の全体的な処理動作を示すフローチャートである。
【0070】
まず、翻訳装置100は、第1話者と第2話者との間の会話を翻訳するために必要とされる設定を行う(ステップS1100)。つまり、翻訳装置100は、図2Aおよび図2Bに示す画面を表示することによって、第1話者および第2話者の言語を設定し、第1話者モデル111aを生成する。
【0071】
次に、翻訳装置100は、会話開始処理を行う(ステップS1200)。つまり、翻訳装置100は、ユーザによる会話開始の操作を受け付ける。具体的には、翻訳装置100は、図2Cに示す会話開始ボタン110cの選択を受け付け、収音部101による周囲の音の取得を開始する。
【0072】
次に、翻訳装置100は、収音部101によって取得される発話に基づいて、第2話者モデル111bを生成しながら、その発話を翻訳する処理を行う(ステップS1300)。このような処理を、以下、モデル生成翻訳処理という。
【0073】
次に、翻訳装置100は、モデル格納部111に格納されている第1話者モデル111aと第2話者モデル111bとを用いた処理を行う(ステップS1400)。つまり、翻訳装置100は、収音部101によって発話が取得されるたびに、その発話の話者を、第1話者モデル111aおよび第2話者モデル111bを用いて認識する。さらに、翻訳装置100は、その発話を、認識された話者の言語と異なる他の言語に翻訳する。このような処理を、以下、定常翻訳処理という。
【0074】
そして、翻訳装置100は、終了条件が満たされたか否かを判定し(ステップS1500)、その終了条件が満たされたと判定したときには(ステップS1500のYes)、会話の翻訳を終了する。一方、翻訳装置100は、終了条件が満たされていないと判定すると(ステップS1500のNo)、ステップS1400からの処理を繰り返し実行する。例えば、終了条件は、話者によって翻訳終了の操作が翻訳装置100に行われたこと、または、発話が取得されない状態が予め定められた期間だけ継続したことである。
【0075】
図6Aは、図5の設定処理(ステップS1100)の詳細な動作を示すフローチャートである。
【0076】
まず、翻訳装置100の収音部101は、第1話者の第1発話を取得する(ステップS1110)。
【0077】
次に、特徴量抽出部103は、その取得された第1発話から特徴量を抽出し、その特徴量を第1話者モデル111aとしてモデル格納部111に保存する(ステップS1120)。つまり、特徴量抽出部103は、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデルを生成する。
【0078】
そして、言語設定部102は、ユーザによる翻訳装置200の操作に応じて、第1話者に対して第1言語を設定し、第2話者に対して第2言語を設定する(ステップS1130)。この設定によって、言語設定部102は、言語設定情報を生成し、その言語設定情報を言語決定部105に出力する。
【0079】
なお、図6Aに示すフローチャートでは、ステップS1110およびS1120の後に、ステップS1130の処理が行われるが、その順序は逆であってもよい。つまり、ステップS1130の後に、ステップS1110およびS1120の処理が行われてもよい。
【0080】
図6Bは、図5のモデル生成翻訳処理(ステップS1300)の詳細な動作を示すフローチャートである。
【0081】
まず、翻訳装置100の収音部101は、第2発話を取得する(ステップS1310)。
【0082】
次に、特徴量抽出部103は、その取得された第2発話から特徴量を抽出する(ステップS1320)。
【0083】
話者認識部104は、その第2発話の特徴量が第1話者モデル111aに合致するか否かを判定する(ステップS1330)。つまり、話者認識部104は、取得された第2発話の特徴量と第1話者モデル111aとを比較することによって、その第2発話の話者が第1話者であるか否かを認識する。
【0084】
例えば、第2発話の特徴量および第1話者モデル111aのそれぞれが特徴ベクトルとして表される場合、話者認識部104は、それらの特徴ベクトルの間の距離が閾値以下であれば、第2発話の特徴量が第1話者モデル111aに合致すると判定する。一方、その距離が閾値よりも長ければ、話者認識部104は、第2発話の特徴量が第1話者モデル111aに合致しないと判定する。
【0085】
ここで、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
【0086】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
【0087】
つまり、ステップS1340およびS1350では、翻訳装置100は、ステップS1330において第2発話の話者が第1話者であると認識された場合には、言語設定情報に基づいて、取得された第2発話を第1言語から第2言語に翻訳する。
【0088】
一方、話者認識部104は、第2発話の特徴量が第1話者モデル111aに合致しないと判定すると(ステップS1330のNo)、第2発話の話者が第1話者ではなく第2話者であると認識する。その結果、話者認識部104は、その第2発話の特徴量を第2話者モデル111bとしてモデル格納部111に保存する(ステップS1360)。そして、言語決定部105は、第2発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1370)。例えば、言語決定部105は、第2発話の言語を第2言語に決定する。
【0089】
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第2発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1380)。
【0090】
つまり、ステップS1360~S1380では、翻訳装置100は、ステップS1330において第2発話の話者が第1話者でないと認識された場合には、言語設定情報に基づいて、取得された第2発話を第2言語から第1言語に翻訳する。さらに、翻訳装置100は、ステップS1330において第2発話の話者が第1話者でないと認識された場合には、取得された第2発話から、第2話者の発話の特徴量のモデルである第2話者モデル111bを生成する。
【0091】
図6Cは、図5の定常翻訳処理(ステップS1400)の詳細な動作を示すフローチャートである。
【0092】
まず、翻訳装置100の収音部101は、第3発話を取得する(ステップS1410)。
【0093】
次に、特徴量抽出部103は、その取得された第3発話から特徴量を抽出する(ステップS1420)。
【0094】
話者認識部104は、その第3発話の特徴量が第1話者モデル111aまたは第2話者モデル111bに合致するか否かを判定する(ステップS1430)。例えば、話者認識部104は、上述のように2つの特徴ベクトルの間の距離に基づいて、合致するか否かを判定する。つまり、話者認識部104は、取得された第3発話の特徴量と、第1話者モデル111aおよび第2話者モデル111bのそれぞれとを比較することによって、取得された第3発話の話者が第1話者であるか、第2話者であるかを認識する。
【0095】
ここで、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
【0096】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
【0097】
つまり、ステップS1440およびS1450では、翻訳装置100は、ステップS1430において第3発話の話者が第1話者であると認識された場合には、言語設定情報に基づいて、取得された第3発話を第1言語から第2言語に翻訳する。
【0098】
一方、話者認識部104は、ステップS1430において第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
【0099】
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
【0100】
つまり、ステップS1460およびS1470では、翻訳装置100は、ステップS1430において第3発話の話者が第2話者であると認識された場合には、言語設定情報に基づいて、取得された第3発話を第2言語から第1言語に翻訳する。
【0101】
以上のように、本実施の形態における翻訳装置100では、会話開始前に第1話者および第2話者のそれぞれの言語を設定し、第1話者モデル111aを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
【0102】
また、本実施の形態では、会話開始前に、第1話者の多くの発話に基づいて第1話者モデル111aを生成しておけば、第1話者モデル111aの精度を高めることができる。さらに、会話開始後では、最初の発話の話者は第1話者であっても第2話者であってもよい。
【0103】
(変形例1)
図7は、実施の形態1の変形例1における翻訳装置の構成を示すブロック図である。
【0104】
本変形例における翻訳装置100aは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、モデル更新部112を備える。
【0105】
モデル更新部112は、話者認識部104によって発話の話者が認識されると、その話者に対応する第1話者モデル111aまたは第2話者モデル111bを、その発話を用いて更新する。
【0106】
本変形例の翻訳装置100aにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
【0107】
図8Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【0108】
本変形例におけるモデル生成翻訳処理(ステップS1300a)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図6Bに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300a)は、モデル更新部112が第2発話の特徴量を用いて第1話者モデル111aを更新する処理(ステップS1351)を含む。
【0109】
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
【0110】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
【0111】
ここで、本変形例では、ステップS1350の後、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。例えば、モデル更新部112は、特徴量がi-Vectorとして表される場合、第1話者モデル111aの生成または更新に用いられた発話の音声信号と、第2発話の音声信号とを結合する。結合によって生成される結合音声信号は、第2発話と、第2発話よりも前の過去の発話とを示す。そして、モデル更新部112は、その結合音声信号から新たなi-Vectorを生成し、更新前の第1話者モデル111aを、その新たなi-Vectorに置き換えることによって、第1話者モデル111aを更新する。
【0112】
なお、本変形例では、第1話者モデル111aおよび第2話者モデル111bの更新が行われるために、モデル格納部111には、それらのモデルの生成および更新に用いられた音声信号が保存されている。つまり、特徴量抽出部103、話者認識部104およびモデル更新部112は、第1話者モデル111aおよび第2話者モデル111bを生成または更新するときには、その生成または更新に用いられた音声信号をモデル格納部111に保存しておく。なお、このようなモデルの更新は、一例であって、この例に限定されるものではない。
【0113】
このように、本変形例では、第2発話が第1言語から第2言語に翻訳される場合には、第1話者モデル111aを、第2発話を用いて更新する。これにより、第1発話から生成された第1話者モデル111aが、第2発話を用いて更新されるため、第1話者モデル111aの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0114】
図8Bは、本変形例における定常翻訳処理の詳細な動作を示すフローチャートである。
【0115】
本変形例における定常翻訳処理(ステップS1400a)は、図5の定常翻訳処理(ステップS1400)に相当し、図6Cに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400a)は、モデル更新部112が第3発話の特徴量を用いて第1話者モデル111aと第2話者モデル111bとを選択的に更新する処理(ステップS1451、S1471)を含む。
【0116】
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
【0117】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
【0118】
ここで、本変形例では、ステップS1450の後、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。例えば、モデル更新部112は、上述のように結合音声信号を生成し、その結合音声信号を用いて第1話者モデル111aを更新する。
【0119】
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
【0120】
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
【0121】
ここで、本変形例では、ステップS1470の後、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。例えば、モデル更新部112は、上述のように結合音声信号を生成し、その結合音声信号を用いて第2話者モデル111bを更新する。
【0122】
このように、本変形例では、モデル更新部112は、発話が翻訳される場合には、第1話者モデル111aおよび第2話者モデル111bのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。これにより、既に生成されているモデルが、発話を用いて更新されるため、そのモデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0123】
(変形例2)
図9は、実施の形態1の変形例2における翻訳装置の構成を示すブロック図である。
【0124】
本変形例における翻訳装置100bは、変形例1における翻訳装置100aの構成要素を全て備えるとともに、誤り判定部113を備える。
【0125】
誤り判定部113は、翻訳によって再生部109から出力される音声の言語と、翻訳によって表示部110に表示されるテキストの言語とが誤っているか否かを、ユーザによる翻訳装置100bに対する操作に応じて判定する。例えば、表示部110に表示されたボタンがユーザによって選択されると、誤り判定部113は、その翻訳の言語が誤っていると判定する。また、翻訳が行われた時点から予め定められた時間が経過してもそのボタンが選択されなかった場合に、誤り判定部113は、その翻訳の言語は誤っていなかったと判定する。または、誤り判定部113は、翻訳が行われた時点から予め定められた時間が経過する前に、次の発話が収音部101によって取得された場合に、その翻訳の言語は誤っていなかったと判定する。
【0126】
本変形例におけるモデル更新部112は、音声およびテキストの言語が誤っていないと誤り判定部113によって判定されたときに、第1話者モデル111aまたは第2話者モデル111bを更新する。つまり、モデル更新部112は、話者認識部104によって発話の話者が認識されると、翻訳の言語が誤っていない場合に、その話者に対応する第1話者モデル111aまたは第2話者モデル111bを、その発話を用いて更新する。
【0127】
本変形例の翻訳装置100bにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
【0128】
図10Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【0129】
本変形例におけるモデル生成翻訳処理(ステップS1300b)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図8Aに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300b)は、誤り判定部113が翻訳の言語の誤りを判定する処理(ステップS1352)を含む。
【0130】
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
【0131】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
【0132】
ここで、本変形例では、ステップS1350の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1352)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1352のNo)、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。一方、翻訳の言語が誤っていると判定されると(ステップS1352のYes)、モデル更新部112は、第1話者モデル111aの更新を行わない。
【0133】
このように、本変形例では、第2発話が第1言語から第2言語に翻訳される場合には、第2発話の翻訳の言語が誤っているか否かを判定し、第2発話の翻訳の言語が誤っていないと判定されたときに、第1話者モデル111aを、第2発話を用いて更新する。
【0134】
これにより、第2発話の翻訳の言語が誤っていない場合に第1話者モデル111aが更新されるため、誤った言語での翻訳によって不適切に第1話者モデル111aが更新されてしまうことを抑えることができる。
【0135】
図10Bは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【0136】
本変形例における定常翻訳処理(ステップS1400b)は、図5の定常翻訳処理(ステップS1400)に相当し、図8Bに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400b)は、誤り判定部113が翻訳の言語の誤りを判定する処理(ステップS1452、S1472)を含む。
【0137】
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
【0138】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
【0139】
ここで、本変形例では、ステップS1450の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1452)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1452のNo)、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。一方、翻訳の言語が誤っていると判定されると(ステップS1452のYes)、モデル更新部112は、第1話者モデル111aの更新を行わない。
【0140】
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
【0141】
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
【0142】
ここで、本変形例では、ステップS1470の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1472)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1472のNo)、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。一方、翻訳の言語が誤っていると判定されると(ステップS1452のYes)、モデル更新部112は、第2話者モデル111bの更新を行わない。
【0143】
このように、本変形例では、翻訳装置100bは、発話が翻訳される場合には、その発話の翻訳の言語が誤っているか否かを判定する。そして、翻訳装置100bは、その発話の翻訳の言語が誤っていないと判定されたときに、第1話者モデル111aおよび第2話者モデル111bのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。
【0144】
これにより、発話の翻訳の言語が誤っていない場合にモデルが更新されるため、誤った言語での翻訳によって不適切にモデルが更新されてしまうことを抑えることができる。
【0145】
(変形例3)
本変形例における翻訳装置は、変形例2における翻訳装置100bと同様の構成を有するが、翻訳の言語が誤っていると判定したときには、逆翻訳を行うとともに、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。
【0146】
本変形例の翻訳装置における全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
【0147】
図11Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【0148】
本変形例におけるモデル生成翻訳処理(ステップS1300c)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図10Aに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300c)は、逆翻訳を行う処理(ステップS1353)と、モデルを生成する処理(ステップS1354)とを含む。
【0149】
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
【0150】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。ステップS1350の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1352)。つまり、誤り判定部113は、第2発話の第1言語から第2言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
【0151】
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1352のYes)、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられていない第2言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第2言語の第2発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1353)。
【0152】
さらに、話者認識部104は、第2発話の特徴量を第2話者モデル111bとしてモデル格納部111に保存する(ステップS1354)。これにより第2話者モデル111bが生成される。
【0153】
一方、ステップS1352において、翻訳の言語が誤っていないと判定されると(ステップS1352のNo)、変形例2と同様に、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。
【0154】
このように、本変形例では、翻訳装置は、第2発話の翻訳の言語が誤っていると判定されたときには、第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。さらに、翻訳装置は、取得された第2発話から、第2話者の発話の特徴量のモデルである第2話者モデル111bを生成する。
【0155】
これにより、第2発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第2発話の誤った言語での翻訳を正すことができる。さらに、第2話者モデル111bが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデル111aたけでなく、第2話者モデル111bとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0156】
図11Bは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
【0157】
本変形例における定常翻訳処理(ステップS1400c)は、図5の定常翻訳処理(ステップS1400)に相当し、図10Bに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400c)は、逆翻訳を行う処理(ステップS1453、S1473)と、モデルを生成する処理(ステップS1454、S1474)とを含む。
【0158】
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
【0159】
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。ステップS1450の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1452)。つまり、誤り判定部113は、第3発話の第1言語から第2言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
【0160】
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1452のYes)、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられていない第2言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1453)。
【0161】
さらに、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1454)。
【0162】
一方、ステップS1452において、翻訳の言語が誤っていないと判定されると(ステップS1452のNo)、変形例2と同様に、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。
【0163】
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
【0164】
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。ステップS1470の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1472)。つまり、誤り判定部113は、第3発話の第2言語から第1言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
【0165】
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1472のYes)、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられていない第1言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1473)。
【0166】
さらに、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1474)。
【0167】
一方、ステップS1472において、翻訳の言語が誤っていないと判定されると(ステップS1472のNo)、変形例2と同様に、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。
【0168】
このように、本変形例では、翻訳装置は、翻訳の言語が誤っていると判定されたときには、その翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。そして、翻訳装置は、第1話者モデル111aおよび第2話者モデル111bのうち、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。
【0169】
これにより、発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、発話の誤った言語での翻訳を正すことができる。さらに、翻訳の言語が誤っていた場合でも、第1話者モデル111aおよび第2話者モデル111bが適切に生成または更新されるため、その後に取得される発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
【0170】
(変形例4)
図12は、実施の形態1の変形例4における翻訳装置の構成を示すブロック図である。
【0171】
本変形例における翻訳装置100dは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、発話長判定部114を備える。
【0172】
発話長判定部114は、収音部101によって取得された発話の時間長が閾値以上であるか否かを判定する。閾値は、例えば1つの単語が発話される時間長であって、具体的には0.3~0.4秒である。なお、閾値は、0.3~0.4秒に限定されるものではなく、0.3秒未満であっても、0.4秒よりも長くてもよい。
【0173】
本変形例における特徴量抽出部103は、収音部101によって取得された発話のうち、閾値以上の時間長を有する発話から特徴量を抽出し、閾値未満の時間長を有する発話からの特徴量の抽出を行わない。
【0174】
本変形例における翻訳装置100dは、実施の形態1と同様に、図5に示すフローチャートにしたがって動作する。
【0175】
図13Aは、本変形例の設定処理(ステップS1100)において第1発話を取得する処理(ステップS1110)の詳細を示すフローチャートである。
【0176】
まず、収音部101は、第1話者の発話を取得する(ステップS1111)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1112)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1112のYes)、発話長判定部114は、その発話を示す音声信号を、第1発話を示す音声信号として特徴量抽出部103に出力する(ステップS1113)。
【0177】
図13Bは、本変形例のモデル生成翻訳処理(ステップS1300)において第2発話を取得する処理(ステップS1310)の詳細を示すフローチャートである。
【0178】
まず、収音部101は、会話開始後の発話を取得する(ステップS1311)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1312)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1312のYes)、発話長判定部114は、その発話を示す音声信号を、第2発話を示す音声信号として特徴量抽出部103に出力する(ステップS1313)。
【0179】
図13Cは、本変形例の定常翻訳処理(ステップS1400)において第3発話を取得する処理(ステップS1410)の詳細を示すフローチャートである。
【0180】
まず、収音部101は、第1話者モデル111aおよび第2話者モデル111bが生成された後の発話を取得する(ステップS1411)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1412)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1412のYes)、発話長判定部114は、その発話を示す音声信号を、第3発話を示す音声信号として特徴量抽出部103に出力する(ステップS1413)。
【0181】
このように、本変形例では、第1発話の取得、第2発話の取得、または第3発話の取得では、第1話者または第2話者の発話の時間長が閾値以上か否かを判定し、閾値以上と判定された時間長の発話を、第1発話、第2発話または第3発話として取得する。これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
【0182】
(変形例5)
図14は、実施の形態1の変形例5における翻訳装置の構成を示すブロック図である。
【0183】
本変形例における翻訳装置100eは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、雑音判定部115を備える。
【0184】
雑音判定部115は、収音部101によって取得された音が、音声すなわち発話であるか否かを判定する。言い換えれば、雑音判定部115は、その音が発話であるか、雑音であるかを判定する。例えば、雑音判定部115は、音の長さ、パワー、または音識別などに基づいて、音が発話であるか、雑音であるかを判定する。具体的には、雑音判定部115は、閾値未満の時間長の音、または、閾値以上のパワー(すなわち音圧)を有する音を、雑音と判定し、閾値を超える時間長の音、または、閾値未満のパワーを有する音を、発話と判定する。また、雑音判定部115は、音の周波数に基づいて、その音が雑音であるか、発話であるかを判定してもよい。
【0185】
そして、雑音判定部115は、音が雑音であると判定すると、その音を示す音声信号の特徴量抽出部103への出力を禁止する。一方、雑音判定部115は、音が発話であると判定すると、その発話である音を示す音声信号を特徴量抽出部103へ出力する。
【0186】
本変形例における翻訳装置100eは、実施の形態1と同様に、図5に示すフローチャートにしたがって動作する。
【0187】
図15Aは、本変形例の設定処理(ステップS1100)において第1発話を取得する処理(ステップS1110)の詳細を示すフローチャートである。
【0188】
まず、収音部101は、会話開始前の音を取得する(ステップS1115)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1116)。ここで、発話であると判定すると(ステップS1116のYes)、雑音判定部115は、その音を示す音声信号を、第1発話を示す音声信号として特徴量抽出部103に出力する(ステップS1117)。一方、発話でない、すなわち雑音であると判定すると(ステップS1116のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
【0189】
図15Bは、本変形例のモデル生成翻訳処理(ステップS1300)において第2発話を取得する処理(ステップS1310)の詳細を示すフローチャートである。
【0190】
まず、収音部101は、会話開始後の音を取得する(ステップS1315)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1316)。ここで、発話であると判定すると(ステップS1316のYes)、雑音判定部115は、その音を示す音声信号を、第2発話を示す音声信号として特徴量抽出部103に出力する(ステップS1317)。一方、発話でない、すなわち雑音であると判定すると(ステップS1316のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
【0191】
図15Cは、本変形例の定常翻訳処理(ステップS1400)において第3発話を取得する処理(ステップS1410)の詳細を示すフローチャートである。
【0192】
まず、収音部101は、第1話者モデル111aおよび第2話者モデル111bが生成された後の音を取得する(ステップS1415)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1416)。ここで、発話であると判定すると(ステップS1416のYes)、雑音判定部115は、その音を示す音声信号を、第3発話を示す音声信号として特徴量抽出部103に出力する(ステップS1417)。一方、発話でない、すなわち雑音であると判定すると(ステップS1416のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
【0193】
このように、本変形例では、第1発話の取得、第2発話の取得、または第3発話の取得では、第1話者または第2話者の周囲の音が発話か否かを判定し、発話であると判定された音を、第1発話、第2発話または第3発話として取得する。これにより、例えば、第1話者または第2話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
【0194】
(変形例6)
図16は、実施の形態1の変形例6における翻訳装置の構成を示すブロック図である。
【0195】
本変形例における翻訳装置100fは、実施の形態1における翻訳装置100の話者認識部104の代わりに、話者認識部104aを備える。
【0196】
話者認識部104aは、特徴量抽出部103によって抽出された第3発話の特徴量が第1話者モデル111aにも合致せず、第2話者モデル111bにも合致しない場合に、その第3発話を棄却する。
【0197】
本変形例の翻訳装置100fにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、定常翻訳処理(ステップS1400)の詳細が、実施の形態1と異なる。
【0198】
図17は、本変形例における定常翻訳処理(ステップS1400f)の詳細な動作を示すフローチャートである。
【0199】
本変形例における定常翻訳処理(ステップS1400f)は、図5の定常翻訳処理(ステップS1400)に相当し、図6Cに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400f)は、第3発話を棄却する処理(ステップS1480)を含む。
【0200】
すなわち、本変形例では、ステップS1430において、話者認識部104aは、第3発話の特徴量が第1話者モデル111aにも合致せず、第2話者モデル111bにも合致しないと判定すると、その第3発話を棄却する(ステップS1480)。これにより、第1話者および第2話者でもない話者からの発話と推定される第3発話が、翻訳されてしまうことを防ぐことができる。
【0201】
このように、本変形例では、翻訳装置100fは、第3発話の特徴量と、第1話者モデル111aおよび第2話者モデル111bのそれぞれとを比較することによって、第3発話の話者が第1話者および第2話者の何れでもないと認識した場合には、第3発話を棄却することによって、その第3発話の翻訳を行わない。
【0202】
これにより、第1話者および第2話者の何れでもない第3話者の発話が翻訳されてしまうことを抑えることができる。つまり、第1話者および第2話者との間の翻訳を伴う会話が、第3話者の発話によって乱されることを抑え、その会話をスムースに行うことができる。
【0203】
(実施の形態2)
本実施の形態における翻訳装置は、実施の形態1のように会話開始前に第1話者モデル111aを生成することなく、会話開始後に第1話者モデル111aおよび第2話者モデル111bを生成する。そのため、本実施の形態における翻訳装置では、会話開始前に、第1話者と第2話者のうち、会話において最初に発話する話者を設定しておく。
【0204】
図18は、本実施の形態における翻訳装置200の構成を示すブロック図である。
【0205】
本実施の形態における翻訳装置200は、実施の形態1と同様に、収音部101と、言語設定部102と、特徴量抽出部103と、話者認識部104と、言語決定部105と、音声認識部106と、翻訳部107と、音声合成部108と、再生部109と、表示部110と、モデル格納部111とを備える。さらに、本実施の形態における翻訳装置200は、発話順設定部116を備える。なお、本実施の形態において、実施の形態1の翻訳装置と同一の構成要素に対しては、実施の形態1と同一の符号を付し、その構成要素の詳細な説明を省略する。
【0206】
発話順設定部116は、会話を行う第1話者および第2話者のうち、その会話において最初に発話する話者として例えば第1話者を設定する。つまり、発話順設定部116は、その会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。
【0207】
図19は、翻訳装置200の言語設定画面の一例を示す図である。
【0208】
翻訳装置200は、会話が開始される前に、言語設定画面を表示部110に表示する。この言語設定画面は、実施の形態1の図2Aに示す言語設定画面と同様に、第1話者の言語を設定するための第1言語設定欄110aと、第2話者の言語を設定するための第2言語設定欄110bとを含む。さらに、本実施の形態における言語設定画面は、会話において最初に発話する話者を設定するためのラジオボタン110dおよび110eを含む。例えば、翻訳装置200のユーザは、その翻訳装置200を操作することによって、最初に発話する話者として第1話者を設定するためのラジオボタン110dに、チェックを入れる。このチェックによって、第1話者が最初に発話する話者として設定される。つまり、発話順設定部116は、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。そして、発話順設定部116は、その発話順情報を話者認識部104に出力する。なお、本実施の形態では、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成するが、最初に発話する話者として第2話者が設定される場合には、第2話者を示す発話順情報を生成する。
【0209】
話者認識部104は、その発話順情報に基づいて、会話開始後の最初に取得される発話の話者を第1話者として認識する。そして、話者認識部104は、特徴量抽出部103によってその発話から抽出された特徴量を第1話者モデル111aとしてモデル格納部111に格納する。これにより、第1話者モデル111aが生成される。
【0210】
言語決定部105は、話者認識部104によって認識された話者の言語を、言語設定情報に基づいて決定する。つまり、上述のように、会話における最初の発話の話者が第1話者として認識されると、言語決定部105は、言語設定情報においてその第1話者に対応付けられている第1言語を、その最初の発話の言語として決定する。その結果、音声認識部106、翻訳部107および音声合成部108は、第1言語の最初の発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる。
【0211】
本実施の形態の翻訳装置200における全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、設定処理(ステップS1100)の詳細と、モデル生成翻訳処理(ステップS1300)の詳細とが、実施の形態1と異なる。
【0212】
図20Aは、本実施の形態における設定処理(ステップS1100)の詳細な動作を示すフローチャートである。
【0213】
まず、発話順設定部116は、ユーザによる翻訳装置200の操作に応じて、第1話者および第2話者のうち、会話において最初に発話する話者として第1話者を設定する(ステップS1101)。そして、発話順設定部116は、最初の話者が第1話者であることを示す発話順情報を話者認識部104に出力する。
【0214】
次に、言語設定部102は、ユーザによる翻訳装置200の操作に応じて、第1話者に対して第1言語を設定し、第2話者に対して第2言語を設定する(ステップS1130)。
【0215】
このように、本実施の形態における翻訳装置200は、第1話者の言語および第2話者の言語として設定された第1言語および第2言語を示す言語設定情報を生成し、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。
【0216】
図20Bは、本実施の形態におけるモデル生成翻訳処理(ステップS1300)の詳細な動作を示すフローチャートである。
【0217】
本実施の形態におけるモデル生成翻訳処理は、実施の形態1の図6Bに示すモデル生成翻訳処理の各ステップを含み、さらに、ステップS1301~S1305を含む。
【0218】
まず、翻訳装置200の収音部101は、会話開始後の最初の発話である第1発話を取得する(ステップS1301)。
【0219】
次に、特徴量抽出部103は、その取得された第1発話から特徴量を抽出する(ステップS1302)。
【0220】
そして、話者認識部104は、発話順設定部116から出力された発話順情報に基づいて、第1発話の話者として第1話者を認識し、その第1発話の特徴量を、第1話者に対応する第1話者モデル111aとしてモデル格納部111に保存する(ステップS1303)。これにより、第1話者モデル111aが生成される。
【0221】
次に、言語決定部105は、言語設定情報において第1話者に対応付けられている第1言語を、その第1発話の言語として決定する(ステップS1304)。その結果、音声認識部106、翻訳部107および音声合成部108は、第1言語の最初の発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1305)。
【0222】
その後、翻訳装置200は、実施の形態1と同様に、ステップS1310~S1380の処理を行う。
【0223】
このように、本実施の形態における翻訳装置200は、会話開始の操作が受け付けられた場合には、その操作の受け付け後の最初の発話である第1発話を取得し、発話順情報に基づいて、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデル111aを生成する。そして、翻訳装置200は、言語設定情報および発話順情報に基づいて、取得された第1発話を第1言語から第2言語に翻訳する。その後に第2発話を取得したときには、翻訳装置200は、実施の形態1と同様に、第2発話の特徴量と第1話者モデル111aとを比較することによって、その第2発話の話者を認識し、認識結果に応じて翻訳を行う。
【0224】
これにより、会話開始前に第1話者および第2話者のそれぞれの言語と発話順とを設定しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
【0225】
また、本実施の形態における翻訳装置200は、実施の形態1と同様の変形例1~6の構成を有していてもよい。これにより、本実施の形態においても、上記各変形例の効果を奏することができる。
【0226】
(その他の実施の形態)
以上、一つまたは複数の態様に係る翻訳装置について、各実施の形態および各変形例に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記各実施の形態および変形例に施したものや、異なる実施の形態または変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれてもよい。
【0227】
例えば、上記各実施の形態および各変形例では、翻訳装置は、カードのような形状に構成されて、ユーザに携帯されるが、タブレットのような形状に構成されていてもよい。この場合には、翻訳装置は、例えば、ホテルまたは商業施設などのフロントに設置されたカウンターなどに、据え置かれてもよい。
【0228】
また、上記各実施の形態および各変形例では、翻訳装置は、翻訳されたテキストに対して音声合成を行うが、このときに、話者の性別に応じた合成音声を生成してもよい。例えば、男性の第1話者が第1言語で発話した場合には、翻訳装置は、男性の第2言語の合成音声を生成して出力する。この場合、言語設定部102は、第1話者および第2話者のそれぞれの言語を設定するだけでなく、それぞれの性別を設定してもよい。音声合成部108は、その設定された性別に応じた合成音声を生成する。または、話者認識部104が、発話の特徴量から、その発話の話者の性別を判定してもよい。この場合には、例えば、モデル格納部111に、一般的な男性の発話のモデルと、一般的な女性の発話のモデルとが格納されている。そして、話者認識部104は、発話の特徴量とそれらのモデルとを比較することによって、その発話の話者が男性であるか女性であるかを判定する。音声合成部108は、その判定された性別の合成音声を生成する。
【0229】
これにより、翻訳装置から出力される合成音声を、話者の音声に近づけることができ、翻訳を伴う会話をスムースに行うことができる。
【0230】
また、翻訳装置は、翻訳されたテキストに対して音声合成を行うときには、話者の音声に類似する合成音声を生成してもよい。つまり、音声合成部108は、第1話者モデル111aまたは第2話者モデル111bから、発話に対して認識された話者に対応するモデルを選択し、そのモデルを用いて音声合成を行う。これにより、翻訳装置からは、話者の音声に類似する合成音声が、その話者の発話の言語と異なる言語で出力され、翻訳を伴う会話をよりスムースに行うことができる。
【0231】
また、上記各実施の形態および各変形例では、ユーザによる操作に応じて、第1話者および第2話者の言語を設定したが、収音部101によって取得された発話に基づいて、その発話の言語を決定してもよい。例えば、言語決定部105は、第1言語の一般的な特徴量および第2言語の一般的な特徴量のそれぞれと、収音部101によって取得された発話の特徴量とを比較することによって、その発話の言語を決定する。これにより、言語の設定の手間を省くことができ、ユーザビリティのさらなる向上を図ることができる。
【0232】
また、上記実施の形態1およびその各変形例では、翻訳装置は、会話開始前に、第1話者モデル111aを生成してモデル格納部111に保存する。しかし、モデル格納部111に複数のモデルが予め格納されている場合には、翻訳装置は、会話開始前に、それらの複数のモデルから1つのモデルを第1話者モデル111aとして選択してもよい。この場合には、モデルの生成を省くことができ、翻訳装置の処理負担を軽減することができる。
【0233】
上記各実施の形態および各変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどのコンピュータ読み取り可能な非一時的な記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態および各変形例の翻訳装置などを実現するソフトウェアプログラムは、コンピュータに、図5図6A図6C図8A図8B図10A図11B図13A図13C図15A図15C図17図20A、または図20Bのフローチャートに含まれる各ステップを実行させる。
【0234】
なお、ブロック図(図4図7図9図12図14図16、または図18など)の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。例えばメモリ以外の機能ブロックが1チップ化されていても良い。
【0235】
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0236】
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサ を利用しても良い。
【0237】
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
【産業上の利用可能性】
【0238】
本発明は、翻訳を伴う会話をスムースに行うことができ、例えば、人に携帯される翻訳装置、またはカウンターなどに据え置かれた翻訳装置として利用可能である。
【符号の説明】
【0239】
100 翻訳装置
101 収音部
102 言語設定部
103 特徴量抽出部
104 話者認識部
105 言語決定部
106 音声認識部
107 翻訳部
108 音声合成部
109 再生部
110 表示部
111 モデル格納部
111a 第1話者モデル
111b 第2話者モデル
112 モデル更新部
113 誤り判定部
114 発話長判定部
115 雑音判定部
116 発話順設定部
S1100 設定処理
S1200 会話開始処理
S1300 モデル生成翻訳処理
S1400 翻訳処理
図1
図2A
図2B
図2C
図3
図4
図5
図6A
図6B
図6C
図7
図8A
図8B
図9
図10A
図10B
図11A
図11B
図12
図13A
図13B
図13C
図14
図15A
図15B
図15C
図16
図17
図18
図19
図20A
図20B