IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ABELONの特許一覧

特許7513288音声処理装置、コーパスの生産方法、およびプログラム
<>
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図1
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図2
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図3
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図4
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図5
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図6
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図7
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図8
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図9
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図10
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図11
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図12
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図13
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図14
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図15
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図16
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図17
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図18
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図19
  • 特許-音声処理装置、コーパスの生産方法、およびプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】音声処理装置、コーパスの生産方法、およびプログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20240702BHJP
   G06F 40/45 20200101ALI20240702BHJP
【FI】
G10L15/00 200C
G06F40/45
【請求項の数】 13
(21)【出願番号】P 2021522617
(86)(22)【出願日】2020-01-06
(86)【国際出願番号】 JP2020000057
(87)【国際公開番号】W WO2020240905
(87)【国際公開日】2020-12-03
【審査請求日】2022-11-17
(31)【優先権主張番号】P 2019102417
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】518244150
【氏名又は名称】株式会社ABELON
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】慎 征範
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2008-269122(JP,A)
【文献】特開2013-206253(JP,A)
【文献】特開2016-71761(JP,A)
【文献】特開2016-200764(JP,A)
【文献】遠山仁美他,CIAIR同時通訳データベースの構築と利用,電子情報通信学会技術研究報告,2004年07月,Vol.104, No.170,pp.7-12
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 40/40-40/58
(57)【特許請求の範囲】
【請求項1】
第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、
前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、
前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識部と、
前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理部と、
前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積部とを具備し、
前記音声対応処理部は、
前記第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ前記第二文章を2以上の文に分割し、2以上の第二文を取得する分割手段と、
前記分割手段が取得した1以上の第一文と1以上の第2文とを対応付ける文対応手段と、
前記文対応手段が対応付けた前記1以上の第一文に対応する1以上の第一部分音声と、前記文対応手段が対応付けた前記1以上の第二文に対応する1以上の第二部分音声とを対応付ける音声対応手段とを具備し、
前記蓄積部は、
前記音声対応処理部が対応付けた前記1以上の第一部分音声と前記1以上の第二部分音声とを蓄積する音声処理装置。
【請求項2】
前記文対応手段は、
前記分割手段が取得した2以上の第一文を第二言語に機械翻訳する、または前記分割手段が取得した2以上の第二文を機械翻訳する機械翻訳手段と、
前記機械翻訳手段が機械翻訳した2以上の第一文の翻訳結果と、前記分割手段が取得した2以上の第二文とを比較し、前記分割手段が取得した1以上の第一文と1以上の第二文とを対応付ける、または前記機械翻訳手段が機械翻訳した2以上の第二文の翻訳結果と、前記分割手段が取得した2以上の第一文とを比較し、前記分割手段が取得した1以上の第一文と1以上の第二文とを対応付ける翻訳結果対応手段とを具備する請求項記載の音声処理装置。
【請求項3】
前記文対応手段は、
前記分割手段が取得した一の第一文と2以上の第二文とを対応付ける請求項または請求項記載の音声処理装置。
【請求項4】
前記文対応手段は、
前記分割手段が取得した1以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、当該第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と2以上の第二文とを対応付ける請求項記載の音声処理装置。
【請求項5】
前記文対応手段は、
前記第一文に対応付かない第二文であり、当該第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、当該第一文に対応付かない第二文を当該第二文の前に位置する第二文に対応する第一文に対応付ける請求項記載の音声処理装置。
【請求項6】
前記文対応手段は、
前記分割手段が取得した2以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、
前記文対応手段の検出結果を出力する通訳漏れ出力部をさらに具備する請求項または請求項記載の音声処理装置。
【請求項7】
前記文対応手段における1以上の第一文と1以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得する評価取得部と、
前記評価情報を出力する評価出力部とをさらに具備する請求項から請求項いずれか一項に記載の音声処理装置。
【請求項8】
前記評価取得部は、
2以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得する請求項記載の音声処理装置。
【請求項9】
前記評価取得部は、
いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得する請求項または請求項記載の音声処理装置。
【請求項10】
前記第一音声および前記第二音声は、タイミングを特定するタイミング情報に対応付いており、
前記評価取得部は、
前記文対応手段が対応付けた第一文に対応付く第一タイミング情報と、当該第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得する請求項から請求項いずれか一項に記載の音声処理装置。
【請求項11】
前記音声対応処理部は、
前記2以上の第一文に対応付く2以上の第一タイミング情報、および前記2以上の第二文に対応付く2以上の第二タイミング情報を取得するタイミング情報取得手段と、
前記2以上の第一文に前記2以上の第一タイミング情報を対応付け、かつ前記2以上の第二文に前記2以上の第二タイミング情報を対応付けるタイミング情報対応手段とを更に具備する請求項から請求項10いずれか一項に記載の音声処理装置。
【請求項12】
第一音声受付部、第二音声受付部、音声認識部、音声対応処理部、および蓄積部によって実現される音声の対のコーパスの生産方法であって、
前記第一音声受付部が、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付ステップと、
前記第二音声受付部が、前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付ステップと、
前記音声認識部が、前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識ステップと、
前記音声対応処理部が、前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理ステップと、
前記蓄積部が、前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積ステップとを含み、
前記音声対応処理ステップは、
前記第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ前記第二文章を2以上の文に分割し、2以上の第二文を取得する分割サブステップと、
前記分割サブステップで取得された1以上の第一文と1以上の第2文とを対応付ける文対応サブステップと、
前記文対応サブステップで対応付けられた前記1以上の第一文に対応する1以上の第一部分音声と、前記文対応サブステップで対応付けられた前記1以上の第二文に対応する1以上の第二部分音声とを対応付ける音声対応サブステップとを具備し、
前記蓄積ステップにおいて、
前記音声対応処理部が対応付けた前記1以上の第一部分音声と前記1以上の第二部分音声とを蓄積する、コーパスの生産方法。
【請求項13】
コンピュータを、
第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、
前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、
前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識部と、
前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理部と、
前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積部として機能させるためのプログラムであって、
前記音声対応処理部は、
前記第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ前記第二文章を2以上の文に分割し、2以上の第二文を取得する分割手段と、
前記分割手段が取得した1以上の第一文と1以上の第2文とを対応付ける文対応手段と、
前記文対応手段が対応付けた前記1以上の第一文に対応する1以上の第一部分音声と、前記文対応手段が対応付けた前記1以上の第二文に対応する1以上の第二部分音声とを対応付ける音声対応手段とを具備し、
前記蓄積部は、
前記音声対応処理部が対応付けた前記1以上の第一部分音声と前記1以上の第二部分音声とを蓄積するものとして、前記コンピュータを機能させるためのプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、同時通訳の音声を処理する音声処理装置等に関するものである。
【背景技術】
【0002】
従来、同時通訳者が会場から離れた同時通訳センターに於いて同時通訳を行い、会場に同時通訳音声を送ることができる遠隔同時通訳システムが存在した(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-306420号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
(第一の課題)
しかし、従来、第一音声と、当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積する仕組みは存在しなかった。
【0005】
(第二の課題)
なお、従来、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定する仕組みも存在しなかった。
【課題を解決するための手段】
【0006】
(第一の課題を解決するための手段)
本第一の発明の音声処理装置は、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、第一音声と第二音声とを対応付けて蓄積する蓄積部とを具備する音声処理装置である。
【0007】
かかる構成により、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積できる。
【0008】
また、本第二の発明の音声処理装置は、第一の発明に対して、第一音声の一部分である第一部分音声と第二音声の一部分である第二部分音声とを対応付ける音声対応処理部をさらに具備し、蓄積部は、音声対応処理部が対応付けた第一部分音声と第二部分音声とを蓄積する音声処理装置である。
【0009】
かかる構成により、第一音声の部分と第二音声の部分とを対応付けて蓄積できる。
【0010】
また、本第三の発明の音声処理装置は、第二の発明に対して、第一音声に対して音声認識処理を行い、第一音声に対応する文字列である第一文章を取得し、第二音声に対して音声認識処理を行い、第二音声に対応する文字列である第二文章を取得する音声認識部をさらに具備し、音声対応処理部は、第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ第二文章を2以上の文に分割し、2以上の第二文を取得する分割手段と、分割手段が取得した1以上の第一文と1以上の第二文とを対応付ける文対応手段と、文対応手段が対応付けた1以上の第一文に対応する1以上の第一部分音声と、文対応手段が対応付けた1以上の第二文に対応する1以上の第二部分音声とを対応付ける音声対応手段とを具備し、蓄積部は、音声対応処理部が対応付けた1以上の第一部分音声と1以上の第二部分音声とを蓄積する音声処理装置である。
【0011】
かかる構成により、第一音声を音声認識した第一文章と、第二音声を音声認識した第二文章とをも対応付けて蓄積できる。
【0012】
また、本第四の発明の音声処理装置は、第三の発明に対して、文対応手段は、分割手段が取得した2以上の第一文を第二言語に機械翻訳する、または分割手段が取得した2以上の第二文を機械翻訳する機械翻訳手段と、機械翻訳手段が機械翻訳した2以上の第一文の翻訳結果と、分割手段が取得した2以上の第二文とを比較し、分割手段が取得した1以上の第一文と1以上の第二文とを対応付ける、または機械翻訳手段が機械翻訳した2以上の第二文の翻訳結果と、分割手段が取得した2以上の第一文とを比較し、分割手段が取得した1以上の第一文と1以上の第二文とを対応付ける翻訳結果対応手段とを具備する音声処理装置である。
【0013】
かかる構成により、第一文と、当該第一文の機械翻訳の結果とをも対応付けて蓄積できる。
【0014】
また、本第五の発明の音声処理装置は、第三または第四の発明に対して、文対応手段は、分割手段が取得した一の第一文と2以上の第二文とを対応付ける音声処理装置である。
【0015】
かかる構成により、一の第一文と、二以上の第二文とを対応付けて蓄積できる。
【0016】
また、本第六の発明の音声処理装置は、第五の発明に対して、文対応手段は、分割手段が取得した1以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と2以上の第二文とを対応付ける音声処理装置である。
【0017】
かかる構成により、第一文に対応付かない第二文を、その前の第二文に対応する第一文に対応付けることで、一の第一文と二以上の第二文との的確な対応付けができる。
【0018】
また、本第七の発明の音声処理装置は、第六の発明に対して、文対応手段は、第一文に対応付かない第二文であり、第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、第一文に対応付かない第二文を第二文の前に位置する第二文に対応する第一文に対応付ける音声処理装置である。
【0019】
かかる構成により、第一文に対応付かない第二文であっても、直前の第二文と関係がない第二文は、当該直前の第二文に対応する第一文に対応付けないので、一の第一文と二以上の第二文とのより的確な対応付けができる。
【0020】
また、本第八の発明の音声処理装置は、第三または第四の発明に対して、文対応手段は、分割手段が取得した2以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、文対応手段の検出結果を出力する通訳漏れ出力部をさらに具備する音声処理装置である。
【0021】
かかる構成により、対応する第二文がない第一文の検出、および検出結果の出力によって、通訳漏れの存在を認識させることができる。
【0022】
また、本第九の発明の音声処理装置は、第三から第八いずれか1つの発明に対して、文対応手段における1以上の第一文と1以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得する評価取得部と、評価情報を出力する評価出力部とをさらに具備する音声処理装置である。
【0023】
かかる構成により、第一文と第二文との対応を基に、通訳者を評価できる。
【0024】
また、本第十の発明の音声処理装置は、第九の発明に対して、評価取得部は、2以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得する音声処理装置である。
【0025】
かかる構成により、補充が多い通訳者ほど高く評価することで、的確な評価が行える。
【0026】
また、本第十一の発明の音声処理装置は、第九または第十の発明に対して、評価取得部は、いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得する音声処理装置である。
【0027】
かかる構成により、漏れが多い通訳者ほど低く評価することで、的確な評価が行える。
【0028】
また、本第十二の発明の音声処理装置は、第九から第十一いずれか1つの発明に対して、第一音声および第二音声は、タイミングを特定するタイミング情報に対応付いており、評価取得部は、文対応手段が対応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得する音声処理装置である。
【0029】
かかる構成により、遅延が大きい通訳者ほど低く評価することで、的確な評価が行える。
【0030】
また、本第十三の発明の音声処理装置は、第三から第十二いずれか1つの発明に対して、音声対応処理部は、2以上の第一文に対応付く2以上の第一タイミング情報、および2以上の第二文に対応付く2以上の第二タイミング情報を取得するタイミング情報取得手段と、2以上の第一文に2以上の第一タイミング情報を対応付け、かつ2以上の第二文に2以上の第二タイミング情報を対応付けるタイミング情報対応手段とを更に具備する音声処理装置である。
【0031】
かかる構成により、2以上の第一文に2以上の第一タイミング情報を対応付け、当該2以上の第一文に対応する2以上の第二文に2以上の第二タイミング情報を対応付けて蓄積できる。それによって、対応する第一文および第二文の間の遅延を用いた通訳者の評価などが行える。
【0032】
(第二の課題を解決するための手段)
本第一の発明のサーバ装置は、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、1または2以上、格納される格納部と、通訳者の端末装置である通訳者装置から、当該通訳者の通訳の対象である話者を識別する話者識別子と、当該通訳者の通訳言語に関する通訳言語情報とを有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信する受信部と、設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を格納部から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を通訳者識別子に対応付けて蓄積する言語設定部とを具備するサーバ装置である。
【0033】
かかる構成により、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定できる。
【0034】
本第二の発明のサーバ装置は、第一の発明に対し、通訳者が、1以上の話者のうち一の話者と、1以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を、1以上の各通訳者の通訳者装置に送信する配信部をさらに具備し、受信部は、1以上の各通訳者の通訳者装置から、当該通訳者を識別する通訳者識別子と対に、当該通訳者の通訳の対象である話者を識別する話者識別子をさらに有する設定結果を受信するサーバ装置である。
【0035】
かかる構成により、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを、容易かつ的確に設定できる。
【0036】
なお、第二の発明において、サーバ装置は、通訳者が、1以上の話者のうち一の話者と、1以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を構成する画面情報構成部をさらに具備し、配信部は、画面情報構成部が構成した通訳者設定画面情報を、1以上の各通訳者の通訳者装置に送信してもよい。
【0037】
本第三の発明のサーバ装置は、第一または第二の発明に対し、言語設定部は、取得した組を構成する第二言語識別子を格納部に蓄積し、配信部は、ユーザが、格納部に格納されている1以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報を、1以上の各ユーザの端末装置に送信し、受信部は、1以上の各ユーザの端末装置から、当該ユーザを識別するユーザ識別子と対に、当該ユーザが設定した主第二言語を識別する主第二言語識別子を少なくとも有する設定結果を受信し、言語設定部は、設定結果が有する少なくとも主第二言語識別子をユーザ識別子に対応付けて蓄積するサーバ装置である。
【0038】
かかる構成により、1以上の各ユーザの言語をも的確に設定できる。
【0039】
なお、第一の発明に従属する第三の発明において、サーバ装置は、ユーザが、格納部に格納されている1以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報を構成する画面情報構成部を備え、配信部は、画面情報構成部が構成したユーザ設定画面情報を、1以上の各ユーザの通訳者装置に送信してもよい。
【0040】
また、第二の発明に従属する第三の発明において、画面情報構成部は、ユーザが、格納部に格納されている1以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報をさらに構成し、配信部は、画面情報構成部が構成したユーザ設定画面情報を、1以上の各ユーザの通訳者装置にさらに送信してもよい。
【発明の効果】
【0041】
本発明によれば、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積する仕組みを実現できる。
【図面の簡単な説明】
【0042】
図1】実施の形態1における通訳システムのブロック図
図2】同サーバ装置の動作を説明するためのフローチャート
図3】同サーバ装置の動作を説明するためのフローチャート
図4】同端末装置の動作を説明するためのフローチャート
図5】同話者情報のデータ構造図
図6】同通訳者情報のデータ構造図
図7】同ユーザ情報のデータ構造図
図8】同変形例における通訳者装置のブロック図
図9】同変形例において図2および図3のフローチャートに追加される、言語設定処理を説明するフローチャート
図10】同通訳者・話者言語設定処理を説明するフローチャート
図11】同ユーザ言語設定処理を説明するフローチャート
図12】同通訳者設定画面の一例を示す図
図13】同ユーザ設定画面の一例を示す図
図14】実施の形態2における音声処理装置のブロック図
図15】同音声処理装置の動作を説明するフローチャート
図16】同文対応処理を説明するフローチャート
図17】同第一文章および第二文章のデータ構造図
図18】同文対応情報のデータ構造図
図19】各実施の形態におけるコンピュータシステムの外観図
図20】同コンピュータシステムの内部構成の一例を示す図
【発明を実施するための形態】
【0043】
(実施の形態1)
以下、通訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0044】
図1は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置1、および2以上の端末装置2を備える。サーバ装置1は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、2以上の端末装置2の各々と通信可能に接続される。なお、通訳システムを構成する端末装置2の数は、本実施の形態では2以上としているが、1でもよい。
【0045】
サーバ装置1は、例えば、通訳システムを運営する運営企業のサーバであるが、クラウドサーバやASPサーバ等でもよく、そのタイプや所在は問わない。
【0046】
端末装置2は、例えば、通訳システムを利用するユーザの携帯端末である。なお、携帯端末とは、携帯可能な端末であり、例えば、スマートフォン、タブレット端末、携帯電話機、ノートPC等であるが、その種類は問わない。ただし、端末装置2は、据え置き型の端末でもよく、そのタイプは問わない。
【0047】
なお、通訳システムは、通常、1または2以上の話者装置3、および1または2以上の通訳者装置4も備える。話者装置3は、講演会や討論会等で話をする話者の端末装置である。話者装置3は、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。通訳者装置4は、話者の話を通訳する通訳者の端末装置である。通訳者装置4もまた、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。話者装置3等を実現する端末は、ネットワーク等を介してサーバ装置1と通信可能に接続される。話者装置3等を実現するマイクロフォンは、例えば、有線または無線でサーバ装置1に接続されるが、ネットワーク等を介してサーバ装置1と通信可能に接続されてもよい。
【0048】
サーバ装置1は、格納部11、受信部12、処理部13、および配信部14を備える。格納部11は、話者情報群格納部111、通訳者情報群格納部112、およびユーザ情報群格納部113を備える。処理部13は、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、および評価取得部139を備える。
【0049】
端末装置2は、端末格納部21、端末受付部22、端末送信部23、端末受信部24、および端末処理部25を備える。端末格納部21は、ユーザ情報格納部211を備える。端末処理部25は、再生部251を備える。
【0050】
サーバ装置1を構成する格納部11は、各種の情報を格納し得る。各種の情報とは、例えば、後述する話者情報群、後述する通訳者情報群、後述するユーザ情報群などである。
【0051】
また、格納部11には、処理部13による処理の結果も格納される。処理部13による処理の結果とは、例えば、第一言語音声取得部131によって取得された第一言語音声、第二言語音声取得部132によって取得された第二言語音声、第一言語テキスト取得部133によって取得された第一言語テキスト、第二言語テキスト取得部134によって取得された第二言語テキスト、翻訳結果取得部135によって取得された翻訳結果、音声特徴量対応情報取得部136によって取得された音声特徴量対応情報、反応取得部137によって取得された反応情報、学習器構成部138によって構成された学習器、および評価取得部139によって取得された評価値などである。なお、こうした情報については後述する。
【0052】
話者情報群格納部111には、話者情報群が格納される。話者情報群とは、1以上の話者情報の集合である。話者情報とは、話者に関する情報である。話者とは、話をする者である。話者は、例えば、講演会で講演を行う講演者、討論会で討論を行う討論者などであるが、誰でもよい。
【0053】
話者情報は、例えば、話者識別子と、第一言語識別子とを有する。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID等であるが、話者の携帯端末を識別する端末識別子(例えば、MACアドレス、IPアドレス等)でもよく、話者を識別し得る情報であれば何でもよい。ただし、話者識別子は必須ではない。例えば、話者が一人だけの場合、話者情報は、話者識別子を有していなくてもよい。
【0054】
第一言語識別子とは、第一の言語を識別する情報である。第一の言語とは、話者が話す言語である。第一の言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。第一言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、“日”や“英”等の略語でもよいし、IDでもよく、第一の言語を識別できる情報であれば何でもよい。
【0055】
話者情報群格納部111には、例えば、会場識別子に対応付けて、1または2以上の話者情報群が格納されてもよい。会場識別子とは、会場を識別する情報である。会場とは、話者が話をする場所である。会場は、例えば、会議場、教室、ホールなどであるが、その種類や所在は問わない。会場識別子は、例えば、会場名、IDなど、会場を識別し得る情報であれば何でもよい。
【0056】
ただし、話者情報群は必須ではなく、サーバ装置1は、話者情報群格納部111を備えていなくてもよい。
【0057】
通訳者情報群格納部112には、通訳者情報群が格納される。通訳者情報群とは、1以上の通訳者情報の集合である。通訳者情報とは、通訳者に関する情報である。通訳者とは、通訳をする者である。通訳とは、ある言語の音声を聴きながら、別の言語に訳出していくことである。通訳は、例えば、同時通訳であるが、逐次通訳でもよい。同時通訳とは、話者の話を聞くとほぼ同時に訳出を行う方式である。逐次通訳とは、話者の話を適宜な長さに区切りつつ、順次訳出していく方式である。
【0058】
通訳者は、第一の言語の音声を第二の言語に通訳する。第二の言語とは、ユーザが聴く又は読む言語である。第二の言語は、第一の言語と異なる言語であれば何語でもよい。例えば、第一の言語が日本語の場合、第二の言語は、英語、中国語、フランス語などである。
【0059】
具体的には、例えば、ある会場Xで講演者αが話す日本語を、通訳者Aが英語に、通訳者Bが中国語に、通訳者Cがフランス語に、それぞれ翻訳してもよい。なお、同種の通訳を行う通訳者が2人以上いてもよい。例えば、二人の通訳者A1およびA2が、日本語から英語への通訳を行い、サーバ装置1は、一方の通訳A1またはA2の通訳音声と、他方の通訳A2またはA1の通訳テキストとを2以上の端末装置2に配信してもよい。
【0060】
または、別の会場Yで、討論者βが話す日本語を、通訳者E,Fが英語,中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者E,Gが日,中にそれぞれ通訳してもよい。なお、この例では、一の通訳者Eが、日英および英日の双方向の通訳を行っているが、通訳者Eは、日英または英日の一方の通訳のみを行い、他方の通訳は、別の通訳者Hが行ってもよい。
【0061】
通訳者は、通常、話者が話をする会場で通訳を行うが、別の場所で通訳を行ってもよく、その所在は問わない。別の場所とは、例えば、運営企業の一室でも、各通訳者の自宅でも、どこでもよい。別の場所で通訳が行われる場合、話者の音声は、話者装置3からネットワーク等を介して通訳者装置4に送信される。
【0062】
通訳者情報は、例えば、第一言語識別子と、第二言語識別子と、通訳者識別子とを有する。第二言語識別子とは、前述した第二の言語を識別する情報である。第二言語識別子は、例えば、言語名、略語、ID等、何でもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID、端末識別子等、何でもよい。
【0063】
または、通訳者情報は、通訳者言語情報と通訳者識別子とで構成される、といってもよい。通訳者言語情報とは、通訳者の言語に関する情報である、通訳者言語情報は、例えば、第一言語識別子、第二言語識別子、および評価値を有する。評価値とは、通訳者が行った通訳の品質に関する評価を示す値である。品質は、例えば、分かりやすさ、誤訳の少なさ等である。評価値は、例えば、通訳者の音声を聴いたユーザの反応を基に取得される。評価値は、例えば、“5”,“4”,“3”等の数値であるが、“A”,“B”,“C”等の文字でもよく、その表現形式は問わない。
【0064】
通訳者情報群格納部112には、例えば、会場識別子に対応付けて、1または2以上の通訳者情報群が格納されてもよい。
【0065】
ユーザ情報群格納部113には、ユーザ情報群が格納される。ユーザ情報群とは、1または2以上のユーザ情報の集合である。ユーザ情報とは、ユーザに関する情報である。ユーザとは、前述したように、通訳システムの利用者である。ユーザは、端末装置2を介して、話者の話を通訳した音声である通訳音声を聴くことができる。また、ユーザは、通訳音声を音声認識したテキストである通訳テキストを読むこともできる。
【0066】
なお、ユーザは、通常、話者が居る会場内で通訳音声を聴くが、別の場所で通訳音声を聴いてもよく、その所在は問わない。別の場所とは、例えば、ユーザの自宅、電車の中など、どこでもよい。
【0067】
ユーザ情報は、ユーザ識別子と、第二言語識別子とを有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、氏名、メールアドレス、携帯電話番号、ID、端末識別子等、何でもよい。
【0068】
ユーザ情報が有する第二言語識別子は、ユーザが聴く又は読む言語を識別する情報である。ユーザ情報が有する第二言語識別子は、ユーザ自身の選択に基づく情報であり、通常、変更可能であるが、固定的な情報でもよい。
【0069】
または、ユーザ情報は、ユーザ言語情報とユーザ識別子とで構成される、といってもよい。ユーザ言語情報とは、ユーザの言語に関する情報である。ユーザ言語情報は、例えば、主第二言語識別子、副第二言語識別子群、およびデータ形式情報などを有する。主第二言語識別子とは、主たる第二言語(以下、主第二言語)を識別する情報である。副第二言語識別子群とは、1または2以上の副第二言語識別子の集合である。副第二言語識別子とは、主たる第二言語に加えて選択可能な、副次的な第二言語(以下、副第二言語)を識別する情報である。
【0070】
例えば、主第二言語がフランス語である場合、副第二言語は、英語でもよいし、中国語でもよく、主第二言語とは異なる言語であれば何語でもよい。
【0071】
データ形式情報とは、第二言語のデータ形式に関する情報である。データ形式情報は、通常、主第二言語のデータ形式を示す。主第二言語のデータ形式は、音声またはテキストであり、データ形式情報は、“音声”または“テキスト”のうち1以上のデータ形式を含み得る。つまり、主第二言語は、音声でもよいし、テキストでもよいし、音声およびテキストの両方でもよい。
【0072】
なお、データ形式情報は、本実施の形態においては、例えば、ユーザの選択に基づく情報であり、変更可能である。ユーザは、主第二言語については、音声を聴いてもよいし、テキストを読んでもよいし、音声を聴きながらテキストを読むこともできる。
【0073】
これに対し、副第二言語のデータ形式は、本実施の形態においては、テキストであり、変更できないものとする。つまり、ユーザは、例えば、主第二言語のテキストに加えて、副第二言語のテキストをも読むことができる。
【0074】
ユーザ情報群格納部113には、例えば、会場識別子に対応付けて、1または2以上のユーザ情報群が格納されてもよい。
【0075】
受信部12は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置2の端末受付部22が受け付けた各種の情報などである。
【0076】
処理部13は、各種の処理を行う。各種の処理とは、例えば、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、および評価取得部139などの処理である。
【0077】
また、処理部13は、フローチャートで説明する各種の判別も行う。さらに、処理部13は、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、および評価取得部139の各々が取得した情報を、時刻情報に対応付けて、格納部11に蓄積する処理をも行う。
【0078】
時刻情報とは、時刻を示す情報である。時刻情報は、通常、現在時刻を示す情報である。ただし、時刻情報は、相対的な時間を示す情報でもよい。相対的な時間とは、基準となる時刻に対する時間であり、例えば、講演会等の開始時刻からの経過時間などでもよい。処理部13は、第一言語音声等の情報が取得されたことに応じて、MPUの内蔵時計やNTPサーバ等から現在時刻を示す時刻情報を取得し、第一言語音声取得部131等によって取得された情報を当該時刻情報に対応付けて格納部11に蓄積する。ただし、第一言語音声取得部131等によって取得された情報が時刻情報を含んでいてもよく、その場合、処理部13は、取得された情報の時刻情報への対応付けを行わなくてもよい。
【0079】
第一言語音声取得部131は、第一言語音声を取得する。第一言語音声とは、一の話者が話した第一の言語の音声のデータである。一の話者とは、唯一の話者(例えば、講演会で話をする講演者)でもよいし、2以上の話者(例えば、討論会で対話をする2以上の討論者)のうち発言中の話者でもよい。取得とは、通常、第一言語音声の受信である。
【0080】
すなわち、第一言語音声取得部131は、例えば、1以上の話者装置3から送信される1以上の第一言語音声を受信する。例えば、講演者の口元または近傍にマイクロフォンが設けられており、第一言語音声取得部131は、このマイクロフォンを介して、第一言語音声を取得する。
【0081】
なお、第一言語音声取得部131は、話者情報群を用いて、1以上の話者装置3から1以上の第一言語音声を取得してもよい。例えば、話者が話をする会場が、ユーザの居ないスタジオである場合に、受信部12は、自宅等に居る1以上の各ユーザの携帯端末2から、話者識別子を受信する。第一言語音声取得部131は、話者情報群(後述する図5を参照)を構成する1以上の話者情報を用いて、受信部12が受信した話者識別子で識別される話者の話者装置3に、第一言語音声の要求を送信し、当該要求に応じて話者装置3から送信される第一言語音声を受信してもよい。
【0082】
ただし、第一言語音声は必須ではなく、サーバ装置1は、第一言語音声取得部131を備えていなくてもよい。
【0083】
第二言語音声取得部132は、1以上の第二言語音声を取得する。第二言語音声とは、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである。第二の言語とは、前述したように、ユーザが聴く又は読む言語であり、第一の言語と異なる言語であれば何語でもよい。
【0084】
ただし、第二の言語は、ユーザ情報群格納部113に格納されている2以上の言語識別子のいずれかに対応する言語であり、かつ、通訳者情報群格納部112に格納されている1以上の第二言語識別子に対応する1以上の言語以外の言語であることは好適である。または、第二の言語は、ユーザ情報群格納部113に格納されている2以上の言語識別子のいずれかに対応する言語であれば、通訳者情報群格納部112に格納されている1以上の第二言語識別子に対応する1以上の言語のいずれかと重複する言語でもよい。
【0085】
第二言語音声取得部132は、例えば、1以上の通訳者装置4から送信される1以上の第二言語音声を受信する。
【0086】
または、第二言語音声取得部132は、通訳者情報群を用いて、1以上の通訳者装置4から1以上の第二言語音声を取得してもよい。詳しくは、第二言語音声取得部132は、通訳者情報群を構成する1以上の通訳者情報を用いて、1以上の通訳者識別子を取得し、取得した1以上の各通訳者識別子で識別される通訳者の通訳者装置4に、第二言語音声の要求を送信する。そして、第二言語音声取得部132は、当該要求に応じて当該通訳者装置4から送信される第二言語音声を受信する。
【0087】
第一言語テキスト取得部133は、第一言語テキストを取得する。第一言語テキストとは、一の話者が話した第一の言語のテキストのデータである。第一言語テキスト取得部133は、例えば、第一言語音声取得部131が取得した第一言語音声を音声認識することにより、第一言語テキストを取得する。または、第一言語テキスト取得部133は、話者のマイクロフォンからの音声を音声認識することにより、第一言語音声を取得してもよい。または、第一言語テキスト取得部133は、話者情報群を用いて、1以上の各話者の端末装置2からの音声を音声認識することにより、第一言語音声を取得してもよい。
【0088】
第二言語テキスト取得部134は、1以上の第二言語テキストを取得する。第二言語テキストとは、1以上の各通訳者が通訳した第二言語のテキストのデータである。第二言語テキスト取得部134は、例えば、第二言語音声取得部132が取得した1以上の第二言語音声をそれぞれ音声認識することにより、1以上の第二言語テキストを取得する。
【0089】
翻訳結果取得部135は、1以上の翻訳結果を取得する。翻訳結果とは、第一言語テキストを翻訳エンジンにより翻訳した結果である。なお、翻訳エンジンによる翻訳は公知技術であり、説明を省略する。翻訳結果は、翻訳テキストまたは翻訳音声のうち1以上のデータを含む。翻訳テキストとは、第一言語テキストを第二の言語に翻訳したテキストである。翻訳音声とは、翻訳テキストを音声変換した音声である。なお、音声変換は、音声合成といってもよい。
【0090】
翻訳結果取得部135は、例えば、ユーザ情報群が有する2以上の第二言語識別子のうち、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しないことは好適である。
【0091】
詳しくは、翻訳結果取得部135は、例えば、ユーザ情報群が有する2以上の各第二言語識別子ごとに、当該第二言語識別子が、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なるか否かの判別を行う。そして、翻訳結果取得部135は、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子を取得する一方、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ第二言語識別子を取得しない。
【0092】
音声特徴量対応情報取得部136は、第一言語音声取得部131が取得した第一言語音声と、第二言語音声取得部132が取得した1以上の第二言語音声とを用いて、1以上の各言語情報ごとに、音声特徴量対応情報を取得する。音声特徴量対応情報とは、第一言語音声および第二言語音声の組における特徴量の対応を示す情報である。
【0093】
言語情報とは、言語に関する情報である。言語情報は、例えば、第一言語識別子および第二言語識別子の組(例えば、“日英”、“日中”、“日仏”等)であるが、そのデータ構造は問わない。第一言語音声および第二言語音声の対応は、例えば、要素を単位とする対応であってもよい。ここでいう要素とは、文を構成する要素である。文を構成する要素とは、例えば、形態素である。形態素とは、自然言語の文を構成する1以上の各要素である。形態素は、例えば、単語であるが、文節などでもよい。または、要素は、一の文全体でもよく、文の要素であれば何でもよい。
【0094】
特徴量とは、例えば、要素の特徴を定量的に示す情報である、といってもよい。特徴量は、例えば、形態素を構成する音素の配列(以下、音素列)である。または、特徴量は、音素列におけるアクセントの位置などでもよい。
【0095】
音声特徴量対応情報取得部136は、例えば、2以上の各言語情報ごとに、第一言語音声および第二言語音声に対して形態素解析を行い、第一言語音声および第二言語音声の間の対応する2つの形態素を特定し、当該2つの各形態素の特徴量を取得してもよい。なお、形態素解析は公知技術であり、説明を省略する。
【0096】
または、音声特徴量対応情報取得部136は、2以上の各言語情報ごとに、第一言語音声および第二言語音声に対して、1以上の無音期間の検知、および1以上の無音期間を挟んで音声を2以上の区間に区切る分節を行ってもよい。なお、無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。音声特徴量対応情報取得部136は、第一言語音声および第二言語音声の間の対応する2つの区間を特定し、当該2つの区間の特徴量を取得してもよい。例えば、第一言語音声の2以上の各区間に“1”,“2”,“3”等の番号を対応付ける一方、第二言語音声の2以上の各区間にも“1”,“2”,“3”等の番号を対応付け、同じ番号に対応付いている2つの区間を、対応する区間とみなしても構わない。
【0097】
反応取得部137は、2以上の反応情報を取得する。反応情報とは、通訳者の通訳に対するユーザの反応に関する情報である。反応情報は、例えば、ユーザ識別子と、反応種類とを有する。反応種類とは、反応の種類を示す情報である。反応種類は、例えば、“頷く”、“首を傾げる”、“笑う”等であるが、“無反応”でもよく、その種類や表現形式は問わない。
【0098】
ただし、反応情報は、ユーザ識別子を有していなくてもよい。すなわち、一の通訳者の通訳に反応した個々のユーザが特定されなくてもよく、例えば、かかるユーザの主第二言語が特定できればよい。従って、反応情報は、例えば、ユーザ識別子に代えて、第二言語識別子を有していてもよい。さらに、例えば、通訳者がただ一人の場合、反応情報は、単に反応種別を示す情報であっても構わない。
【0099】
通訳者が2人以上の場合、例えば、会場内は、当該2以上の通訳者に対応する2以上の各第二言語の区画(例えば、英語の区画、中国語の区画等)に区分けされる。そして、これら2以上の各言語の区画の前方側に、当該区画内の1以上のユーザの顔を撮影可能なカメラが設置される。
【0100】
反応取得部137は、2以上の各言語の区画ごとのカメラから画像を受信し、当該画像に対して顔検出を行うことにより、当該区画内に居る1以上の顔画像を取得する。なお、顔検出は公知技術であり、説明を省略する。格納部11には、顔画像の特徴量と反応種別(例えば、“頷く”,“首を傾げる”,“笑う”等)との対の集合が格納されており、反応取得部137は、1以上の各顔画像ごとに、当該顔画像からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の1以上のユーザの各々または集団の視覚的な反応に関する1以上の反応情報を取得する。
【0101】
なお、会場内の左右に、2以上の各言語の区画内で発生する音(例えば、拍手音、笑い声等)を検出可能な、一対のマイクロフォンが設置されてもよい。格納部11には、音の特徴量と反応種別(例えば、“拍手する”,“笑う”等)との対の集合が格納されており、反応取得部137は、一対のマイクロフォンからの左右の音を用いて、音の発生を検知し、かつその音源の位置を特定する。そして、2以上の各言語の区画ごとに、左右の少なくとも一方のマイクロフォンの音からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の1以上のユーザの集団の聴覚的な反応に関する1以上の反応情報を取得してもよい。
【0102】
または、反応取得部137は、例えば、ユーザ情報群を用いて、2以上の各ユーザごとに、後述する端末装置2の再生部251が再生した第二言語音声に対する反応情報を取得してもよい。
【0103】
詳しくは、例えば、処理部13が、事前に、2以上の各ユーザから、当該ユーザの端末装置2を介して、当該ユーザの顔画像を受け付け、ユーザ識別子と顔画像との対の集合を格納部11に蓄積しておく。会場には、1または2以上のカメラが設置されており、反応取得部137は、当該1以上の各カメラからのカメラ画像を用いて顔認識を行い、2以上の各ユーザの顔画像を検出する。次に、反応取得部137は、カメラ画像中の2以上の各顔画像を用いて、2以上の各ユーザ識別子ごとに反応情報を取得する。処理部13は、2以上の各ユーザ識別子ごとに取得された反応情報を、時刻情報に対応付けて格納部11に蓄積する。
【0104】
または、反応取得部137は、2以上の各ユーザごとに、当該ユーザの端末装置2の内蔵カメラを介して、当該ユーザの顔画像を取得し、当該顔画像を用いて反応情報を取得してもよい。
【0105】
学習器構成部138は、1以上の各言語情報ごとに、2以上の音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。学習器とは、2以上の音声特徴量対応情報を教師データとして、第一言語音声の特徴量と第二言語音声の特徴量との対応を機械学習することにより、第一言語音声の入力に対し、対応する第二言語音声を出力するための情報である、といってもよい。機械学習は、例えば、ディープラーニング、ランダムフォレスト、決定木等であるが、種類は問わない。ディープラーニング等の機械学習は公知技術であり、説明を省略する。
【0106】
学習器構成部138は、反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。
【0107】
選別とは、高い精度の学習器の構成に好適な組を選択すること又は不適な組を捨てることである、といってもよい。好適な組か否かは、例えば、第二言語音声に対する反応情報が予め決められた条件を満たすか否かで判断される。第二言語音声に対する反応情報とは、第二言語音声の直後の反応情報である。予め決められた条件は、例えば、“拍手の音または頷く動作のうち1以上が検出される”等であってもよい。なお、選別は、例えば、好適な組または当該好適な組を構成する第二言語音声の格納部11への蓄積、または不適な組または当該不適な組を構成する第二言語音声の格納部11からの削除によって実現されてもよい。または、選別は、ある部が取得した好適な組に関する情報を他の部に引き渡す一方、不適な組に関する情報は引き渡さずに捨てることでもよい。
【0108】
選別は、サーバ装置1のどの部が行ってもよい。例えば、最も前段階の音声特徴量対応情報取得部136が選別を行うことは好適である。すなわち、音声特徴量対応情報取得部136は、例えば、2以上の各組を構成する第二言語音声に対応する反応情報が予め決められた条件を満たすか否かを判断し、当該条件を満たすと判断した反応情報に対応する第二言語音声を含む組から、音声特徴量対応情報を取得する。なお、条件を満たすと判断した反応情報に対応する第二言語音声とは、当該反応情報の直前の第二言語音声である。
【0109】
なお、学習器構成部138が選別を行ってもよい。詳しくは、学習器構成部138は、例えば、反応取得部137が取得した2以上の反応情報を用いて、1以上の各第二言語識別子ごとに、教師データとなる2以上の音声特徴量対応情報のうち、予め決められた条件を満たした音声特徴量対応情報を捨ててもよい。
【0110】
予め決められた条件は、例えば、一の第二言語音声を聴いている2以上のユーザのうち、同じ時刻に、首を傾げたユーザの数または割合が閾値以上又は閾値より多い、という条件である。学習器構成部138は、かかる条件を満たした音声特徴量対応情報として、教師データとなる2以上の音声特徴量対応情報のうち、当該第二言語音声に対応する音声特徴量対応情報であり、かつ当該時刻に対応する音声特徴量対応情報を捨てる。
【0111】
評価取得部139は、1以上の各通訳者ごとに、当該通訳者に対応する2以上の反応情報を用いて、評価情報を取得する。評価情報とは、ユーザによる通訳者の評価に関する情報である。評価情報は、例えば、通訳者識別子と、評価値とを有する。評価値とは、評価を示す値である。評価値は、例えば、5,4,3等の数値であるが、A,B,C等の文字で表現されてもよい。
【0112】
評価取得部139は、例えば、反応情報をパラメータとする関数を用いて評価値を取得する。具体的には、評価取得部139は、例えば、首を傾げた回数をパラメータとする減少関数を用いて評価値を取得してもよい。または、評価取得部139は、頷いた回数または笑った回数のうち1以上をパラメータとする増加関数を用いて評価値を取得してもよい。
【0113】
配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語音声取得部132が取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声を配信する。
【0114】
また、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語テキスト取得部134が取得した1以上の第二言語テキストのうち、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストを配信することもできる。
【0115】
さらに、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、翻訳結果取得部135が取得した1以上の翻訳結果のうち、端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する翻訳結果をも配信することもできる。
【0116】
詳しくは、配信部14は、例えば、ユーザ情報群を構成する1以上の各ユーザ情報を用いて、ユーザ識別子、主第二言語識別子、およびデータ形式情報を取得し、取得したユーザ識別子で識別されるユーザの端末装置2に、取得した主第二言語識別子で識別される主第二言語の音声およびテキストのうち、取得したデータ形式情報に対応する1以上の情報を送信する。
【0117】
従って、あるユーザ情報(例えば、後述する図7の1番目のユーザ情報を参照)が、ユーザ識別子“a”、主第二言語識別子“英”、およびデータ形式情報“音声”を有する場合は、ユーザ識別子“a”で識別されるユーザaの端末装置2に、主第二言語識別子“英”で識別される英語の音声が配信される。
【0118】
また、他のユーザ情報(例えば、図7の2番目のユーザ情報)が、ユーザ識別子“b”、主第二言語識別子“中”、およびデータ形式情報“音声&テキスト”を有する場合は、ユーザ識別子“b”で識別されるユーザbの端末装置2に、主第二言語識別子“中”で識別される中国語の音声が中国語のテキストと共に配信される。
【0119】
また、その他のユーザ情報(例えば、図7の3番目のユーザ情報)が、ユーザ識別子“c”、主第二言語識別子“独”、およびデータ形式情報“テキスト”を有する場合は、ユーザ識別子“c”で識別されるユーザcの端末装置2に、主第二言語識別子“独”で識別されるドイツ語の翻訳テキストが配信される。
【0120】
加えて、配信部14は、ユーザ情報群を用いて、2以上の各端末装置2に、第二言語テキスト取得部134が取得した1以上の第二言語テキストのうち、端末装置2に対応するユーザ情報が有する副第二言語識別子群に対応する1以上の第二言語テキストをも配信することもできる。
【0121】
詳しくは、さらにその他のユーザ情報(例えば、図7の4番目のユーザ情報)が、ユーザ識別子“d”、主第二言語識別子“仏”、副言語識別子群“英”、およびデータ形式情報“音声&テキスト”を有する場合は、ユーザ識別子“d”で識別されるユーザdの端末装置2に、主第二言語識別子“仏”で識別されるフランス語の音声が、フランス語および英語の2種類のテキストと共に配信される。
【0122】
なお、配信部14は、第二言語音声または第二言語テキストのうち1以上を、例えば、第二言語識別子と対に配信してもよい。または、配信部14は、第二言語音声または第二言語テキストのうち1以上を、通訳者識別子および第二言語識別子と対に配信してもよい。
【0123】
また、配信部14は、第一言語音声または第一言語テキストのうち1以上を、例えば、第一言語識別子と対に配信してもよい。または、配信部14は、第一言語音声または第一言語テキストのうち1以上を、話者識別子および第一言語識別子と対に配信してもよい。
【0124】
さらに、配信部14は、1以上の翻訳結果を、例えば、第二言語識別子と対に配信してもよい。または、配信部14は、1以上の翻訳結果を、第二言語識別子、および翻訳エンジンによる翻訳である旨の情報と対に配信してもよい。
【0125】
ただし、第二言語識別子等の言語識別子の配信は必須ではなく、配信部14は、第二言語音声等の音声または第二言語テキスト等のテキストのうち1種類以上の情報のみを配信すればよい。
【0126】
端末装置2を構成する端末格納部21は、各種の情報を格納し得る。各種の情報とは、例えば、ユーザ情報である。また、端末格納部21には、後述する端末受信部24が受信した各種の情報も格納される。
【0127】
ユーザ情報格納部211には、当該端末装置2のユーザに関するユーザ情報が格納される。ユーザ情報は、前述したように、例えば、ユーザ識別子、および言語情報を有する。言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。
【0128】
ただし、端末装置2にユーザ情報が記憶されることは必須ではなく、端末格納部21は、ユーザ情報格納部211を備えていなくてもよい。
【0129】
端末受付部22は、例えば、タッチパネルやキーボード等の入力デバイスを介して、各種の操作を受け付け得る。各種の操作とは、例えば、主第二言語を選択する操作である。端末受付部22は、かかる操作を受け付け、主第二言語識別子を取得する。
【0130】
また、端末受付部22は、主第二言語に関し、音声またはテキストのうち1以上のデータ形式を選択する操作をさらに受け付け得る。端末受付部22は、かかる操作を受け付け、データ形式情報を取得する。
【0131】
さらに、端末受付部22は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する2以上の第二言語識別子のうち、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子とは異なる1以上の第二言語識別子をさらに選択する操作をも受け付け得る。端末受付部22は、かかる操作を受け付け、副第二言語識別子群を取得する。
【0132】
端末送信部23は、端末受付部22が受け付けた各種の情報(例えば、主第二言語識別子、副第二言語識別子群、データ形式情報など)をサーバ装置1に送信する。
【0133】
端末受信部24は、サーバ装置1から配信される各種の情報(例えば、第二言語音声、1以上の第二言語テキスト、翻訳結果など)を受信する。
【0134】
端末受信部24は、サーバ装置1から配信される第二言語音声を受信する。なお、サーバ装置1から当該端末装置2に配信される第二言語音声は、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声である。
【0135】
また、端末受信部24は、サーバ装置1から配信される1以上の第二言語テキストをも受信する。なお、サーバ装置1から当該端末装置2に配信される1以上の第二言語テキストとは、例えば、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストである。または、サーバ装置1から当該端末装置2に配信される1以上の第二言語テキストとは、当該端末装置2に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキスト、および当該ユーザ情報が有する副第二言語識別子群に対応する1以上の第二言語テキストであってもよい。
【0136】
すなわち、端末受信部24は、例えば、上記第二言語音声を音声認識した第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信する。
【0137】
端末処理部25は、各種の処理を行う。各種の処理とは、例えば、再生部251の処理である。また、端末処理部25は、例えば、フローチャートで説明する各種の判別や蓄積をも行う。蓄積とは、端末受信部24が受信した情報を、時刻情報に対応付けて、端末格納部21に蓄積する処理である。
【0138】
再生部251は、端末受信部24が受信した第二言語音声を再生する。第二言語音声を再生することは、通常、スピーカを介した音声出力も含むが、含まないと考えてもよい。
【0139】
再生部251は、1以上の第二言語テキストをも出力する。第二言語テキストを出力することは、通常、ディスプレイへの表示であるが、例えば、記録媒体への蓄積、プリンタでのプリントアウト、外部の装置への送信、他のプログラムへの引渡しなどをも含むと考えてもよい。
【0140】
再生部251は、端末受信部24が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。
【0141】
再生部251は、第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する。追っかけ再生とは、再生を中断した後に、サーバ装置1から受信した第二言語音声を格納部11に蓄積する動作(例えば、バッファリング、キューイングといってもよい)を行いながら、格納部11に格納されている未再生部分の先頭から再生を行うことである。追っかけ再生の再生速度が通常の再生速度と同じであれば、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に対して、一定時間だけ遅延した状態が継続する。一定時間とは、再生再開の時点での遅延時間である。遅延時間とは、例えば、当該未再生部分が再生されるべきであった時刻に対して遅れている時間である、といってもよい。
【0142】
これに対して、追っかけ再生の再生速度が通常の再生速度よりも早ければ、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に徐々に追いついていく。追いつくまでの時間は、再生再開時点での遅延時間と、追っかけ再生の再生速度とに依存する。
【0143】
詳しくは、例えば、一の端末装置2において、第二言語音声の再生中に、端末格納部21に格納されている当該第二言語音声の未再生部分に欠落部(例えば、ロストパケット)がある場合、端末送信部23は、当該欠落部の再送要求(例えば、第二言語識別子、時刻情報などを有する)を端末識別子(ユーザ識別子と兼用でよい)と対にサーバ装置1に送信する。
【0144】
サーバ装置1の配信部14は、当該欠落部を当該端末装置2に再送する。当該端末装置2の端末受信部24は、当該欠落部分を受信し、端末処理部25は、当該欠落部を端末格納部21に蓄積し、それによって、端末格納部21に格納されている未再生部分が再生可能となる。しかし、再生再開後の第二言語音声は、話者の話または通訳者の音声に対して遅延するため、再生部251は、端末格納部21に格納されている第二言語音声を早送りで追っかけ再生する。
【0145】
再生部251は、未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う。
【0146】
なお、未再生部分の遅延時間は、第二言語音声がストリームである場合は、例えば、未再生部分の先頭のパケット(最も古いパケット)のタイムスタンプと、内蔵時計等が示す現在時刻との差分を用いて取得できる。すなわち、再生部251は、例えば、再生再開時、未再生部分の先頭のパケットからタイムスタンプを、内蔵時計等からは現在時刻をそれぞれ取得し、タイムスタンプの時刻と現在時刻との差分を算出することにより、遅延時間を取得する。例えば、端末格納部21に、差分と遅延時間との対の集合が格納されており、再生部251は、算出した差分と対になる遅延時間を取得してもよい。
【0147】
また、当該未再生部分のデータ量は、例えば、端末格納部21の音声用のバッファの残量を用いて取得できる。すなわち、再生部251は、例えば、再生再開時、音声用のバッファの残量を取得し、当該バッファの容量から当該残量を減算することにより、未再生部分のデータ量を取得する。または、当該未再生部分のデータ量は、キューイングされているパケット数でもよい。すなわち、再生部251は、再生再開時、端末格納部21の音声用のキューにキューイングされているパケット数をカウントし、そのパケット数、またはパケット数に応じたデータ量を取得してもよい。
【0148】
さらに、早送りは、第二言語音声がストリームである場合は、例えば、ストリームを構成する一連のパケットのうち一部のパケットを一定の割合で間引くことで実現される。例えば、2個のうち1個の割合で間引けば2倍速、3個のうち1個の割合で間引けば1.5倍速となる。
【0149】
例えば、端末格納部21に、遅延時間またはデータ量のうち1以上の情報と再生速度との対の集合が格納されており、再生部251は、再生再開時、前述のようにして取得した遅延時間またはデータ量のうち1以上の情報と対になる再生速度を取得し、取得した再生速度に応じた割合で間引きを行うことで、未再生部分を当該再生速度の早送りで追っかけ再生できる。
【0150】
例えば、格納部11に、遅延時間またはデータ量のうち1以上と、速度との対応に関する対応情報が格納されており、再生部251は、対応情報を用いて、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に対応する速度を取得し、取得した速度の早送り再生を行う。
【0151】
または、格納部11に、上記対応情報に対応する関数が格納されており、再生部251は、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上を関数に代入することにより、速度を算出し、算出した速度の早送り再生を行ってもよい。
【0152】
再生部251は、例えば、未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する。
【0153】
再生部251は、翻訳結果をも出力する。翻訳結果を出力することは、スピーカを介した翻訳音声の出力を含むと考えても、含まないと考えてもよいし、ディスプレイへの翻訳テキストの表示を含むと考えても、含まないと考えてもよい。
【0154】
格納部11、話者情報群格納部111、通訳者情報群格納部112、ユーザ情報群格納部113、端末格納部21、およびユーザ情報格納部211は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
【0155】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。
【0156】
受信部12、および端末受信部24は、通常、有線または無線の通信手段(例えば、NIC(Network interface controller)やモデム等の通信モジュール)で実現されるが、放送を受信する手段(例えば、放送受信モジュール)で実現されてもよい。
【0157】
処理部13、第一言語音声取得部131、第二言語音声取得部132、第一言語テキスト取得部133、第二言語テキスト取得部134、翻訳結果取得部135、音声特徴量対応情報取得部136、反応取得部137、学習器構成部138、評価取得部139、端末処理部25、および再生部251は、通常、MPUやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現してもよい。
【0158】
配信部14、および端末送信部23は、通常、有線または無線の通信手段で実現されるが、放送手段(例えば、放送モジュール)で実現されてもよい。
【0159】
端末受付部22は、入力デバイスを含むと考えても、含まないと考えてもよい。端末受付部22は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
【0160】
次に、通訳システムの動作について、図2図4のフローチャートを用いて説明する。図2および図3は、サーバ装置1の動作を説明するためのフローチャートである。
【0161】
(ステップS201)処理部13は、第一言語音声取得部131が第一言語音声を取得したか否かを判別する。第一言語音声取得部131が第一言語音声を取得した場合はステップS202に進み、取得していない場合はステップS203に進む。
【0162】
(ステップS202)処理部13は、ステップS201で取得された第一言語音声を第一言語識別子に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
【0163】
(ステップS203)処理部13は、ステップS201で取得された第一言語音声に対応する第二言語音声を第二言語音声取得部132が取得したか否かを判別する。対応する第二言語音声を第二言語音声取得部132が取得した場合はステップSに進み、取得していない場合はステップS207に進む。
【0164】
(ステップS204)処理部13は、ステップS203で取得された第二言語音声を当該第一言語識別子、第二言語識別子、および通訳者識別子に対応付けて格納部11に蓄積する。
【0165】
(ステップS205)音声特徴量対応情報取得部136は、ステップS201で取得された第一言語音声と、ステップS203で取得された第二言語音声とを用いて、音声特徴量対応情報を取得する。
【0166】
(ステップS206)処理部13は、ステップS205で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
【0167】
(ステップS207)配信部14は、配信を行うか否かを判断する。例えば、ステップS203で第二言語音声が取得されたことに応じて、配信部14は配信を行うと判断する。
または、格納部11に格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信部14は配信を行うと判断してもよい。または、格納部11に配信のタイミングを示す配信タイミング情報が格納されており、配信部14は、内蔵時計等から取得された現在時刻が配信タイミング情報の示すタイミングに対応し、かつ、格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信を行うと判断してもよい。配信を行う場合はステップS208に進み、配信を行わない場合はステップS209に進む。
【0168】
(ステップS208)配信部14は、ユーザ情報群を用いて、当該第二言語識別子を有するユーザ情報に対応する1以上の各端末装置2に、ステップS203で取得された第二言語音声または格納部11に格納されている第二言語音声を配信する。その後、ステップS201に戻る。
【0169】
(ステップS209)処理部13は、ステップS208で配信された第二言語音声に対する反応情報を反応取得部137が取得したか否かを判断する。配信された第二言語音声に対する反応情報を反応取得部137が取得した場合はステップS210に進み、取得していない場合はステップS211に進む。
【0170】
(ステップS210)処理部13は、ステップS209で取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
【0171】
(ステップS211)処理部13は、格納部11に格納されている2以上の音声特徴量対応情報のうち、条件を満たす音声特徴量対応情報があるか否かを判別する。条件を満たす音声特徴量対応情報がある場合はステップS212に進み、ない場合はステップS213に進む。
【0172】
(ステップS212)処理部13は、条件を満たす音声特徴量対応情報を格納部11から削除する。その後、ステップS201に戻る。
【0173】
(ステップS213)学習器構成部138は、学習器の構成を行うか否かを判断する。例えば、格納部11に、学習器の構成を行うタイミングを示す構成タイミング情報が格納されており、学習器構成部138は、現在時刻が構成タイミング情報の示すタイミングに対応し、かつ、格納部11内の当該言語情報に対応する音声特徴量対応情報の数が閾値以上または閾値より多い場合に、学習器の構成を行うと判断する。学習器の構成を行う場合はステップS214に進み、行わない場合はステップS201に戻る。
【0174】
(ステップS214)学習器構成部138は、当該言語情報に対応する2以上の音声特徴量対応情報を用いて、学習器を構成する。その後、ステップS201に戻る。
【0175】
(ステップS215)評価取得部139は、通訳者の評価を行うか否かを判断する。例えば、格納部11に、通訳者の評価を行うタイミングを示す評価タイミング情報が格納されており、評価取得部139は、現在時刻が評価タイミング情報の示すタイミングに対応する場合に、通訳者の評価を行うと判断する。通訳者の評価を行う場合はステップS216に進み、行わない場合はステップS201に戻る。
【0176】
(ステップS216)評価取得部139は、1以上の各通訳者識別子ごとに、当該通訳者識別子に対応する2以上の反応情報を用いて、評価情報を取得する。
【0177】
(ステップS217)処理部13は、ステップS216で取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。その後、ステップS201に戻る。
【0178】
なお、図2および図3のフローチャートでは省略しているが、処理部13は、例えば、端末装置2からの欠落部の再送要求の受信、および再送要求に応じた再送制御などの処理も行っている。
【0179】
また、図2および図3のフローチャートにおいて、サーバ装置1の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
【0180】
図4は、端末装置2の動作を説明するためのフローチャートである。
【0181】
(ステップS401)端末処理部25は、端末受信部24が第二言語音声を受信したか否かを判別する。端末受信部24が第二言語音声を受信した場合はステップS402に進み、受信していない場合はステップS403に進む。
【0182】
(ステップS402)端末処理部25は、第二言語音声を端末格納部21に蓄積する。その後、ステップS401に戻る。
【0183】
(ステップS403)端末処理部25は、第二言語音声の再生が中断しているか否かを判別する。第二言語音声の再生が中断している場合はステップS404に進み、中断していない場合はステップS407に進む。
【0184】
(ステップS404)端末処理部25は、端末格納部21に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。格納されている第二言語音声の未再生部分のデータ量が、閾値以上である場合はステップS405に進み、閾値以上でない場合はステップS401に戻る。
【0185】
(ステップS405)端末処理部25は、当該未再生部分のデータ量および遅延時間に応じた早送り速度を取得する。
【0186】
(ステップS406)再生部251は、第二言語音声を、ステップS405で取得した早送り速度で追っかけ再生する処理を開始する。その後、ステップS401に戻る。
【0187】
(ステップS407)端末処理部25は、追っかけ再生中か否かを判別する。追っかけ再生中である場合はステップS408に進み、追っかけ再生中でない場合はステップS410に進む。
【0188】
(ステップS408)端末処理部25は、遅延時間が閾値以下であるか否かを判別する。遅延時間が閾値以下である場合はステップS409に進み、遅延時間が閾値以下でない場合はステップS401に戻る。
【0189】
(ステップS409)再生部251は、第二言語音声の追っかけ再生を終了する。
【0190】
(ステップS410)再生部251は、第二言語音声を通常再生する。なお、通常再生とは、通常の速度でリアルタイムに再生を行うことである。その後、ステップS401に戻る。
【0191】
なお、図4のフローチャートでは省略しているが、端末処理部25は、例えば、欠落部の再送要求のサーバ装置1への送信、および欠落部の受信などの処理も行っている。
【0192】
また、図4のフローチャートにおいて、端末装置2の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
【0193】
以下、本実施の形態における通訳システムの具体的な動作例について説明する。本来の通訳システムは、サーバ装置1、2以上の端末装置2、および2以上の話者装置3を備える。サーバ装置1は、ネットワークまたは通信回線を介して、2以上の端末装置2および2以上の話者装置3の各々と通信可能に接続される。サーバ装置1は、運営企業のサーバであり、端末装置2は、ユーザの携帯端末である。話者装置3および通訳者装置4は、会場に設置された端末である。
【0194】
本日、ある会場Xで、唯一の話者である講演者αが日本語で話をする。会場Xには、3人の通訳者A~Cが居り、講演者αが話す日本語を、通訳者Aが英語に、通訳者Bが中国語に、通訳者Cがフランス語に、それぞれ通訳する。
【0195】
また、別の会場Yでは、二人の話者による討論会が行われる。一方の話者である討論者βは、日本語で話をし、他方の話者である討論者γは、英語で話をする。会場Yには、3人の通訳E~Gが居り、討論者βが話す日本語を、通訳者E,Fが英語,中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者E,Gが日,中にそれぞれ通訳する。
【0196】
会場Xには、2以上のユーザa~d等が居り、会場Yには、2以上のユーザf~h等が居る。各ユーザは、自分の端末装置2で、通訳音声を聴いたり、通訳テキストを読んだりすることができる。
【0197】
サーバ装置1の話者情報群格納部111には、例えば、図5に示すような2以上の話者情報群が、会場識別子に対応付けて格納され得る。図5は、話者情報のデータ構造図である。話者情報は、話者識別子、および第一言語識別子を有する。
【0198】
会場識別子“X”に対応付いた1番目の話者情報群は、一の話者情報のみで構成され、会場識別子“Y”に対応付いた2番目の話者情報群は、2つの話者情報で構成される。
【0199】
一の話者情報群を構成する1以上の各話者情報には、ID(例えば、“1”,“2”等)が対応付いている。例えば、1番目の話者情報群を構成する唯一の話者情報には、ID“1”が対応付いている。また、2番目の話者情報群を構成する2つの話者情報のうち、1番目の話者情報には、ID“1”が対応付き、2番目の話者情報には、ID“2”が対応付いている。なお、以下では、ID“k”が対応付いた話者情報を「話者情報k」と記す。また、かかる事項は、図6に示す通訳者情報、および図7に示すユーザ情報にも共通する。
【0200】
会場識別子Xに対応付いた話者情報1は、話者識別子“α”、および第一言語識別子“日”を有する。同様に、会場識別子Yに対応付いた話者情報1は、話者識別子“β”、および第一言語識別子“日”を有する。また、会場識別子Yに対応付いた話者情報2は、話者識別子“γ”、および第一言語識別子“英”を有する。
【0201】
また、通訳者情報群格納部112には、例えば、図6に示すような2以上の通訳者情報群が、会場識別子に対応付けて格納され得る。図6は、通訳者情報のデータ構造図である。通訳者情報は、通訳者識別子、および通訳者言語情報を有する。通訳者言語情報は、第一言語識別子、第二言語識別子、および評価値を有する。
【0202】
会場識別子Xに対応付いた通訳者情報1は、通訳者識別子“A”、および通訳者言語情報“日,英,4”を有する。同様に、会場識別子Xに対応付いた通訳者情報2は、通訳者識別子“B”、および通訳者言語情報“日,中,5”を有する。また、会場識別子Xに対応付いた通訳者情報3は、通訳者識別子“C”、および通訳者言語情報“日,仏,4”を有する。さらに、会場識別子Xに対応付いた通訳者情報4は、通訳者識別子“翻訳エンジン”、および通訳者言語情報“日,独,Null”を有する。
【0203】
会場識別子Yに対応付いた通訳者情報1は、通訳者識別子“E”、および通訳者言語情報“日,英,5”を有する。同様に、会場識別子Yに対応付いた通訳者情報2は、通訳者識別子“F”、および通訳者言語情報“日,中,5”を有する。また、会場識別子Yに対応付いた通訳者情報3は、通訳者識別子“E”、および通訳者言語情報“英,日,3”を有する。さらに、会場識別子Yに対応付いた通訳者情報4は、通訳者識別子“G”、および通訳者言語情報“英,中,4”を有する。
【0204】
さらに、ユーザ情報群格納部113には、例えば、図7に示すような2以上のユーザ情報群が、会場識別子に対応付けて格納され得る。図7は、ユーザ情報のデータ構造図である。ユーザ情報は、ユーザ識別子、およびユーザ言語情報を有する。ユーザ言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。
【0205】
会場識別子Xに対応付いたユーザ情報1は、ユーザ識別子“a”、およびユーザ言語情報“英,Null,音声”を有する。同様に、会場識別子Xに対応付いたユーザ情報2は、ユーザ識別子“b”、およびユーザ言語情報“中,Null,音声&テキスト”を有する。また、会場識別子Xに対応付いたユーザ情報3は、ユーザ識別子“c”、およびユーザ言語情報“毒,Null,テキスト”を有する。さらに、会場識別子Xに対応付いたユーザ情報4は、ユーザ識別子“d”、およびユーザ言語情報“仏,英,音声&テキスト”を有する。
【0206】
会場識別子Yに対応付いたユーザ情報1は、ユーザ識別子“f”、およびユーザ言語情報“英,Null,音声”を有する。同様に、会場識別子Yに対応付いたユーザ情報2は、ユーザ識別子“g”、およびユーザ言語情報“中,Null,音声”を有する。また、会場識別子Yに対応付いたユーザ情報3は、ユーザ識別子“h”、およびユーザ言語情報“日,英,テキスト”を有する。
【0207】
会場Xでの講演会および会場Yでの討論会の開始前、情報システムAのオペレータが、キーボード等の入力デバイスを介して、会場ごとに、話者情報群および通訳者情報群の入力を行う。サーバ装置1の処理部13は、入力された話者情報群を会場識別子に対応付けて話者情報群格納部111に蓄積し、入力された通訳者情報群を会場識別子に対応付けて通訳者情報群格納部112に蓄積する。その結果、話者情報群格納部111には、図5に示したような2以上の話者情報が格納され、通訳者情報群格納部112には、図6に示したような2以上の通訳者情報が格納される。ただし、この時点では、各通訳者情報が有する評価値は、いずれも“Null”である。
【0208】
2以上の各ユーザは、端末装置2の入力デバイスを介して、会場識別子およびユーザ情報等の情報を入力する。入力された情報は、端末装置2の端末受付部22によって受け付けられ、ユーザ情報格納部211に蓄積されると共に、端末送信部23によってサーバ装置1に送信される。
【0209】
サーバ装置1の受信部12は、2以上の端末装置2の各々から上記のような情報を受信し、ユーザ情報群格納部113に蓄積する。その結果、ユーザ情報群格納部113には、図7に示したような2以上のユーザ情報が格納される。
【0210】
2以上の話者装置3の各々には、当該話者装置3を識別する識別子も兼ねる話者識別子が格納されている。2以上の通訳者装置4の各々には、当該通訳者装置4を識別する識別子も兼ねる通訳者識別子が格納されている。
【0211】
会場Xで講演会が開催されている期間、情報システムAは、以下のような処理を行う。
【0212】
話者αが発話すると、当該話者αに対応する話者装置3から第一言語音声が話者識別子“α”と対に、サーバ装置1に送信される。
【0213】
サーバ装置1において、第一言語音声取得部131が上記第一言語音声を話者識別子“α”と対に受信し、処理部13は、当該話者識別子“α”に対応する第一言語識別子“日”を話者情報群格納部111から取得する。そして、処理部13は、受信された第一言語音声を当該第一言語識別子“日”に対応付けて格納部11に蓄積する。
【0214】
また、第一言語テキスト取得部133は、上記第一言語音声を音声認識し、第一言語テキストを取得する。処理部13は、取得された第一言語テキストを上記第一言語音声に対応付けて格納部11に蓄積する。
【0215】
さらに、翻訳結果取得部135は、上記第一言語テキストを翻訳エンジンを用いてドイツ語に翻訳し、翻訳テキストおよび翻訳音声を含む翻訳結果を取得する。処理部13は、取得された翻訳結果を上記第一言語音声に対応付けて格納部11に蓄積する。
【0216】
通訳者Aが話者αの話を英語に通訳すると、通訳者Aに対応する通訳者装置4から、第二言語音声が通訳者識別子“A”と対に送信される。
【0217】
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“A”と対に受信し、処理部13は、当該通訳者識別子“A”に対応する第一および第二の2つの言語識別子“日”および“英”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“英”、および当該通訳者識別子“A”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を、当該第一言語識別子“日”および当該第二言語識別子“英”の組である言語情報“日英”に対応付けて格納部11に蓄積する。
【0218】
通訳者Bが話者αの話を中国語に通訳すると、通訳者Bに対応する通訳者装置4から、第二言語音声が通訳者識別子“B”と対に送信される。
【0219】
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“B”と対に受信し、処理部13は、当該通訳者識別子“B”に対応する第一および第二の2つの言語識別子“日”および“中”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“中”、および当該通訳者識別子“B”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を言語情報“日中”に対応付けて格納部11に蓄積する。
【0220】
通訳者Cが話者αの話をフランス語に通訳すると、通訳者Cに対応する通訳者装置4から、第二言語音声が通訳者識別子“C”と対に送信される。
【0221】
サーバ装置1において、第二言語音声取得部132が上記第二言語音声を通訳者識別子“C”と対に受信し、処理部13は、当該通訳者識別子“C”に対応する第一および第二の2つの言語識別子“日”および“仏”を通訳者情報群格納部112から取得する。そして、処理部13は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“仏”、および当該通訳者識別子“C”に対応付けて格納部11に蓄積する。他方、音声特徴量対応情報取得部136は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部13は、取得された音声特徴量対応情報を言語情報“日仏”に対応付けて格納部11に蓄積する。
【0222】
現在時刻が配信タイミング情報の示すタイミングである場合、配信部14は、会場識別子Xに対応するユーザ情報群を用いて、第二言語音声、第二言語テキスト、および翻訳結果の配信を行う。
【0223】
詳しくは、配信部14は、会場識別子Xに対応するユーザ情報1を用いて、主第二言語識別子“英”に対応する第二言語音声をユーザaの端末装置2に送信する。また、配信部14は、会場識別子Xに対応するユーザ情報2を用いて、主第二言語識別子“中”に対応する第二言語音声と、主第二言語識別子“中”に対応する第二言語テキストとを、ユーザbの端末装置2に送信する。また、配信部14は、会場識別子Xに対応するユーザ情報3を用いて、主第二言語識別子“独”に対応する翻訳テキストをユーザcの端末装置2に送信する。さらに、配信部14は、会場識別子Xに対応するユーザ情報4を用いて、主第二言語識別子“仏”に対応する第二言語音声と、主第二言語識別子“仏”に対応する第二言語テキストと、副第二言語識別子群“英”に対応する第二言語テキストとを、ユーザdの端末装置2に送信する。
【0224】
第二言語音声の送信先となった端末装置2において、端末受信部24が第二言語音声を受信し、端末処理部25は、受信された第二言語音声を端末格納部21に蓄積する。再生部251は、端末格納部21に格納されている第二言語音声を再生する。
【0225】
ただし、第二言語音声の再生が中断している場合、端末処理部25は、端末格納部21に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。そして、当該未再生部分のデータ量が閾値以上である場合、端末処理部25は、当該未再生部分のデータ量および当該未再生部分の遅延時間に応じた早送り速度を取得する。
【0226】
例えば、通常再生の速度を10パケット/秒として、当該未再生部分のデータ量が50パケット、当該未再生部分の遅延時間が5秒である場合、端末処理部25は、早送り速度Vを“10+(50/5)=20パケット/秒”のように計算してもよい。再生部251は、こうして取得された早送り速度で、当該未再生部分の追っかけ再生を行う。
【0227】
第二言語テキストまたは翻訳テキストのうち1以上のテキストの送信先となった端末装置2において、端末受信部24が当該1以上のテキストを受信し、再生部251は、受信された1以上のテキストを出力する。
【0228】
サーバ装置1において、反応取得部137は、会場X内に設置されたカメラで撮影された画像、または会場X内に居る2以上の各ユーザa~dが保持している端末装置2の内蔵マイクで捉えられた当該ユーザの声のうち、1種類以上の情報を用いて、上記のようにして配信された第二言語音声に対する反応情報を取得する。処理部13は、取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部11に蓄積する。格納部11に格納されている2以上の反応情報は、例えば、評価取得部139が1以上の各通訳者の評価を行うのに用いられる。
【0229】
また、格納されている2以上の反応情報は、処理部13が、格納部11に格納されている2以上の音声特徴量対応情報のうち、予め決められた条件を満たす音声特徴量対応情報の削除を行う際にも用いられる。なお、予め決められた条件については、前述したので繰り返さない。これによって、学習器構成部138が構成する学習器の精度を高めることができる。
【0230】
格納部11には、構成タイミング情報が格納されており、学習器構成部138は、内蔵時計等から取得される現在時刻が、構成タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が構成タイミング情報の示すタイミングである場合、学習器構成部138は、2以上の各言語情報ごとに、当該言語情報に対応付けて格納部11に格納されている2以上の音声特徴量対応情報を用いて、学習器を構成する。なお、学習器については、前述したので繰り返さない。
【0231】
こうして、2以上の各言語情報ごとに学習器を構成することで、例えば、ある言語情報に対応する通訳者が不在の場合でも、当該言語情報に対応する学習器を用いた通訳を行うことができる。
【0232】
また、格納部11には、評価タイミング情報が格納されており、評価取得部139は、内蔵時計等から取得される現在時刻が、評価タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が評価タイミング情報の示すタイミングである場合、評価取得部139は、1以上の各通訳者識別子ごとに、当該通訳者識別子に対応する2以上の反応情報を用いて、評価情報を取得する。なお、評価情報については、前述したので繰り返さない。処理部13は、取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。
【0233】
これによって、会場識別子“X”に対応する通訳者情報群を構成する通訳者情報1~4のうち、通訳者識別子“翻訳エンジン”を有する通訳者情報4を除く3つの通訳者情報1~3における評価値“Null”が、それぞれ“4”,“5”,“4”に更新される。
【0234】
なお、会場Yで討論会が開催されている期間における情報システムAの処理も、上記と同様であり、説明を省略する。また、講演会および討論会が同時に開催されている期間における情報システムAの処理も、上記と同様であり、説明を省略する。
【0235】
以上、本実施の形態によれば、通訳システムは、サーバ装置1と1または2以上の端末装置2とで実現される通訳システムであって、通訳者情報群格納部112には、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納され、ユーザ情報群格納部113には、1以上の各端末装置2のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納される。
【0236】
サーバ装置1は、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得し、ユーザ情報群を用いて、1以上の各端末装置2に、取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する。
【0237】
1以上の各端末装置2は、サーバ装置1から配信される第二言語音声を受信し、受信した第二言語音声を再生する。
【0238】
これにより、サーバ装置1と1以上の端末装置2とで実現され、一の話者の話を1以上の通訳者が通訳した1以上の通訳音声を1以上のユーザに配信する通訳システムであって、サーバ装置1が1以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。
【0239】
その結果、1以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、1以上の各端末装置2に、当該端末装置2のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、2以上の話者が討論する国際会議において、2以上の各端末装置2に、当該端末装置2のユーザが聴く又は読む言語に対応する1以上の各通訳者の音声を配信できる。
【0240】
また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置1は、取得した1以上の第二言語音声をそれぞれ音声認識したテキストのデータである1以上の第二言語テキストを取得し、取得した1以上の第二言語テキストを1以上の各端末装置2に配信し、端末装置2は、サーバ装置1から配信される1以上の第二言語テキストをも受信し、1以上の第二言語テキストをも出力する。
【0241】
これにより、1以上の各通訳者の音声に加えて、当該音声を音声認識した1以上のテキストの配信も行える。
【0242】
また、端末装置2は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する。
【0243】
これにより、1以上の各端末装置2において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。
【0244】
また、端末装置2は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち1以上に応じた速度の早送りで行う。これにより、的確な速度の早送りで、遅れを無理なく取り戻すことができる。
【0245】
また、端末装置2は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始することにより、再度の途切れを回避しつつ、遅れを取り戻すことができる。
【0246】
また、サーバ装置1は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得し、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち1以上のデータを含む1以上の翻訳結果を取得し、ユーザ情報群を用いて、1以上の各端末装置2に、取得した1以上の翻訳結果のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末装置2は、サーバ装置1から配信される翻訳結果をも受信し、再生する。これにより、ユーザは、翻訳エンジンによる翻訳結果も利用できる。
【0247】
なお、上記構成において、話者情報群格納部111に、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する1以上の話者情報が格納されており、サーバ装置1は、話者情報群を用いて、1以上の各話者に対応する第一言語テキストを取得してもよい。
【0248】
また、サーバ装置1は、ユーザ情報群が有する1以上の第二言語識別子のうち、通訳者情報群が有する1以上の第二言語識別子のいずれとも異なる1以上の第二言語識別子に対応する1以上の翻訳結果のみを取得し、通訳者情報群が有する1以上の第二言語識別子のいずれかと同じ1以上の第二言語識別子に対応する1以上の翻訳結果を取得しないことにより、必要な翻訳のみを効率よく行える。
【0249】
また、端末装置2は、音声またはテキストのうち1以上のデータ形式を選択する操作を受け付け、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された1以上のデータ形式に対応する1以上のデータを再生する。これにより、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち1以上を利用できる。
【0250】
また、端末装置2は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。
【0251】
これにより、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。
【0252】
なお、上記構成において、端末装置2は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する2以上の第二言語識別子のうち、当該端末装置2のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる1以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、副第二言語識別子群が選択された場合に、サーバ装置1から副第二言語識別子群に対応する1以上の第二言語テキストをも受信し、副第二言語識別子群に対応する1以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。
【0253】
また、通訳者情報群格納部112およびユーザ情報群格納部113には、会場を識別する会場識別子に対応付けて、1以上の通訳者情報群および1以上のユーザ情報群がそれぞれ格納されており、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部132および配信部14は、2以上の各会場識別子ごとに、1以上の第二言語音声の取得および配信を行う。これにより、2以上の各会場ごとに、1以上の第二言語音声の取得および配信を行える。
【0254】
また、サーバ装置1は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得し、取得した第一言語音声と、取得した1以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である1以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得し、1以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。
【0255】
従って、学習器による第一言語から1以上の第二言語への通訳も行える。
【0256】
また、サーバ装置1は、再生部251が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、反応情報を用いて選別された、2以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。
【0257】
こうして、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。
【0258】
また、サーバ装置1は、端末装置2が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、1以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する。
【0259】
これにより、ユーザの反応を利用して、1以上の各通訳者を評価できる。
【0260】
なお、本実施の形態において、処理部13は、格納部11に格納されている2以上の反応情報を用いて、予め決められた条件を満たす音声特徴量対応情報が有るか否かを判別し(S211)、当該条件を満たす音声特徴量対応情報が有る場合に、当該音声特徴量対応情報を削除した(S212)が、これに代えて、反応取得部137が取得した反応情報が、例えば、“拍手の音または頷く動作のうち1以上が検出される”等の予め決められた条件を満たすか否かを判別し、当該条件を満たす反応情報に対応する第二言語音声のみを格納部11に蓄積し、当該条件を満たさない反応情報に対応する第二言語音声の蓄積を行わないようにしてもよい。
【0261】
この場合、図2のフローチャートは、例えば、以下のように変更される。
【0262】
2つのステップS205およびS206を削除し、ステップS204の後、ステップS201に戻るように変更する。また、ステップS211およびS212を、次のように変更する。
【0263】
(ステップS211)処理部13は、ステップS209で取得された反応情報が予め決められた条件を満たすか否かを判断する。取得された反応情報が予め決められた条件を満たす場合はステップS212に進み、満たさない場合ステップS213に進む。
【0264】
(ステップS212)音声特徴量対応情報取得部136は、ステップS201で取得された第一言語音声と、ステップS211で当該条件を満たすと判断された反応情報に対応する第二言語音声とを用いて、音声特徴量対応情報を取得する。
【0265】
さらに、ステップS212の後に、削除した上記ステップS206に対応する新たなステップS213を追加する。
【0266】
(ステップS213)処理部13は、ステップS112で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部11に蓄積する。その後、ステップS201に戻る。
【0267】
さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布してもよい。
【0268】
なお、本実施の形態におけるサーバ装置1を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する1以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部112と、1または2以上の各端末装置2のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する1以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部113とを具備し、このプログラムは、前記コンピュータを、一の話者が話す第一の言語の音声を1以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである1以上の第二言語音声を取得する第二言語音声取得部132と、前記ユーザ情報群を用いて、前記1以上の各端末装置2に、前記第二言語音声取得部132が取得した1以上の第二言語音声のうち、当該端末装置2に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部14として機能させるためのプログラムである。
【0269】
また、本実施の形態における端末装置2を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、上記配信部14によって配信される第二言語音声を受信する端末受信部24と、前記端末受信部24が受信した第二言語音声を再生する再生部251として機能させるためのプログラムである。
【0270】
なお、上記実施の形態1において、話者情報を構成する第一言語識別子(図5参照)、通訳者情報が有する通訳者言語情報を構成する第一言語識別子と第二言語識別子(図6参照)、およびユーザ情報が有するユーザ言語情報を構成する主第二言語識別子と副第二言語識別子群(図7参照)は、それぞれ、話者情報群格納部111、通訳者情報群格納部112、およびユーザ情報群格納部113に、予め格納されているものとして説明したが、例えば、次に説明する変形例のように、処理部13等によって蓄積されてもよい。
【0271】
(変形例)
この変形例において、サーバ装置1を構成する格納部11には、前述した各種の情報に加えて、通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、1または2以上、格納される。通訳言語情報とは、通訳者の通訳言語を示す情報である。通訳言語とは、通訳者が行う通訳の、言語に関する種類である。通訳言語情報は、例えば、“日英”や“英日”等のような、2つの言語識別子の配列であるが、かかる配列に対応付いた“1”や“2”等のIDでもよく、その形式は問わない。
【0272】
第一言語識別子とは、第一言語を識別する情報である。第一言語とは、通訳者が聴き取る言語である。なお、第一言語は、話者が話す言語でもある。第一言語識別子は、例えば、“日”や“英”等であるが、その形式は問わない。
【0273】
第二言語識別子とは、第二言語を識別する情報である。第二言語とは、通訳者が話す言語である。なお、第二言語は、ユーザが聴き取る言語でもある。第二言語識別子は、例えば、“英”や“日”等であるが、その形式は問わない。
【0274】
また、格納部11には、画面構成情報も格納される。画面構成情報とは、画面を構成するための情報である。画面は、例えは、後述する通訳者設定画面、後述するユーザ設定画面などであるが、その種類は問わない。画面構成情報は、例えば、HTML、XML、プログラムなどであるが、その形式は問わない。
【0275】
画面構成情報は、例えば、画像、文字列、レイアウト情報などを有する。画像とは、例えば、後述する「設定」等のボタンや、図表、ダイアログボックスなどの画像である。文字列とは、例えば、“話者を選択して下さい”等のダイアログ、ボタン等に対応付いた文字列などである。レイアウト情報とは、画面内における画像や文字列の配置を示す情報である。ただし、画面構成情報のデータ構造は問わない。
【0276】
処理部13等は、実施の形態1で説明した各種の動作に加えて、例えば、以下のような動作を行う。
【0277】
受信部12は、配信部14による通訳者設定画面情報の送信に応じて、1以上の各話者装置4から、通訳者識別子と対に設定結果を受信する。設定結果とは、言語に関する設定の結果に関する情報である。通訳者識別子と対に受信される設定結果は、通訳言語情報を有する。また、通訳者識別子と対に受信される設定結果は、通常、話者識別子も有する。
【0278】
または、例えば、一の会場で話をする話者が一人だけであり、格納部11に、当該一の会場を識別する会場識別子と、当該一人の話者を識別する話者識別子の対が格納されている場合、通訳者識別子と対に受信される設定結果は、話者識別子に代えて、会場識別子を有していてもよく、その構造は問わない。
【0279】
また、受信部12は、配信部14によるユーザ設定画面情報の送信に応じて、1以上の各端末装置2から、ユーザ識別子と対に設定結果を受信する。ユーザ識別子と対に受信される設定結果は、主第二言語識別子を有する。また、ユーザ識別子と対に受信される設定結果は、例えば、副第二言語識別子群を有していてもよい。さらに、ユーザ識別子と対に受信される設定結果は、例えば、話者識別子を有していてもよく、その構造は問わない。なお、受信部12は、例えば、ユーザ識別子と対に、設定結果と会場識別子とを受信してもよい。
【0280】
処理部13は、受信部12が受信した設定結果を用いて、言語設定処理を行う。言語設定処理とは、言語に関する各種の設定を行う処理である。各種の設定とは、通常、通訳者の通訳言語の設定、および話者の言語の設定である。また、各種の設定には、例えば、ユーザの言語の設定も含まれてもよい。
【0281】
通訳者の通訳言語の設定とは、第一言語識別子と第二言語識別子の組を通訳者識別子に対応付けて蓄積することである。第一言語識別子と第二言語識別子の組は、通常、通訳者識別子に対応付けて通訳者情報群格納部112に蓄積されるが、その蓄積先は問わない。
【0282】
話者の言語の設定とは、通訳者識別子に対応付けて蓄積された第一言語識別子を、話者識別子に対応付けて蓄積することである。第一言語識別子は、通常、話者識別子に対応付けて話者情報群格納部111に蓄積されるが、その蓄積先は問わない。
【0283】
ユーザの言語の設定とは、通訳者識別子または会場識別子に対応付けて蓄積された1または2以上の第二言語識別子のうち、一の第二言語識別子に対応する主第二言語識別子を、ユーザ識別子に対応付けて蓄積することである。ユーザの言語の設定では、例えば、当該一の第二言語識別子に対応する副第二言語識別子群も、ユーザ識別子に対応付けて蓄積されてもよい。
【0284】
また、ユーザの言語の設定では、例えば、第二言語の出力態様も、ユーザ識別子に対応付けて蓄積されてもよい。第二言語の出力態様は、通常、音声または文字のいずれかの態様である。本変形例では、通常、主第二言語についてのみ、音声の態様で出力(以下、音声出力)するか、または文字の態様で出力(以下、文字出力)するか、が設定される。ただし、副第二言語群を構成する各副第二言語についても、音声または文字のいずれの態様で出力するかの設定が可能であってもよい。
【0285】
より詳しくは、処理部13は、例えば、言語設定部130a(図示しない)、および画面情報構成部130b(図示しない)を備える。言語設定部130aは、前述した言語設処理を行う。
【0286】
画面情報構成部130bは、例えば、格納部11に格納されている画面構成情報を用いて、通訳者設定画面情報を構成する。通訳者設定画面情報とは、通訳者設定画面の情報である。通訳者設定画面とは、通訳者が通訳言語等の設定を行うための画面である。通訳者設定画面は、例えば、予め決められた1または2以上の通訳言語のうち一の通訳言語を通訳者が選択するための部品を有する。また、通訳者設定画面は、例えば、1または2以上の話者のうち一の話者を通訳者が選択するための部品も有することは好適である。さらに、通訳者設定画面は、例えば、通訳者が選択した通訳言語等の設定を行うようコンピュータに指示するための部品をも有していてもよい。なお、部品は、例えば、図表、ボタン等であるが、その種類は問わない。
【0287】
通訳者設定画面は、具体的には、例えば、“話者を選択して下さい。”や“通訳言語を選択して下さい”等のダイアログ、通訳言語等を選択するための図表、選択結果の設定を行うための「設定」ボタンなど有するが、その構造は問わない。通訳者設定画面情報は、かかる通訳者設定画面を、例えば、HTML等の形式で記述した情報である。構成された通訳者設定画面情報は、配信部13を介して1以上の各通訳者装置4に送信される。
【0288】
言語設定部130aは、受信部12が通訳者識別子と対に設定結果を受信した場合に、当該受信された設定結果が有する通訳言語情報に対応する第一言語識別子と第二言語識別子を、受信された通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。
【0289】
また、言語設定部130aは、通訳者情報群格納部112に蓄積したものと同じ第一言語識別子を、受信された設定結果が有する話者識別子に対応付けて話者情報群格納部111に蓄積する。
【0290】
さらに、言語設定部130aは、通訳者情報群格納部112に蓄積したものと同じ第二言語識別子を、受信された設定結果が有する話者識別子に対応する会場識別子に対応付けて格納部11に蓄積する。
【0291】
以上のような処理(以下、「通訳者・話者言語設定処理」と記す場合がある)が、1以上の各通訳者ごとに実行されることで、話者情報格納部111には、話者識別子に対応付けて、1または2以上の第一言語識別子が格納される。また、通訳者情報格納部112には、通訳者識別子に対応付けて、第一言語識別子と第二言語識別子の組が、1または2組以上、格納される。さらに、格納部11には、通訳者識別子または会場識別子に対応付けて、1または2以上の第二言語識別子(以下、「第二言語識別子群」と記す場合がある)が格納される。
【0292】
その後、言語設定部130aは、話者情報群格納部111等に格納されている1以上の会場識別子のうち、一の会場識別子を取得する。画面情報構成部130bは、格納部11に格納されている1以上の第二言語識別子群のうち、当該取得した会場識別子に対応する第二言語識別子群と、格納部11に格納されている画面構成情報とを用いて、ユーザ言語設定画面情報を構成する。
【0293】
ユーザ言語設定画面情報とは、ユーザ言語設定画面の情報である。ユーザ設定画面とは、ユーザが言語等の設定を行うための画面である。ユーザ設定画面は、例えば、1または2以上の主第二言語のうち一の主第二言語をユーザが選択するための部品を有する。また、ユーザ設定画面は、例えば、格納部11に、通訳者識別子または会場識別子に対応付けて格納されている1または2以上の第二言語識別子に対応する1または2以上の副第二言語のうち、1または2以上の副第二言語をユーザが選択するための部品も有することは好適である。さらに、ユーザ設定画面は、例えば、ユーザが選択した主第二言語等の設定を行うようコンピュータに指示するための部品をも有していてもよい。
【0294】
通訳者設定画面は、具体的には、例えば、“主言語を選択して下さい。”や“副言語群を選択して下さい”等のダイアログ、主言語等を選択するための図表、選択結果の設定を行うための「設定」ボタンなど有するが、その構造は問わない。ユーザ設定画面情報は、かかるユーザ設定画面を、例えば、HTML等の形式で記述した情報である。
【0295】
なお、構成されたユーザ言語設定画面情報は、配信部14によって、1以上の各端末装置2に送信される。これに応じて、1以上の各端末装置2から、ユーザ識別子と対に設定結果がサーバ装置1に送信される。なお、各端末装置2からは、設定結果等と共に、会場識別子も送信されてもよい。
【0296】
受信部12がユーザ識別子と対に設定結果を受信すると、言語設定部130aは、当該受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該受信された設定結果が有する話者識別子と対になる会場識別子、および当該受信されたユーザ識別子の組、に対応付けてユーザ情報群格納部113に蓄積する。ここで、話者識別子と対になる会場識別子は、例えば、通訳者情報群格納部111等から取得される。
【0297】
なお、受信部12が設定結果等と共に会場識別子も受信した場合には、言語設定部130aは、当該受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該受信された会場識別子、および当該受信されたユーザ識別子の組、に対応付けてユーザ情報群格納部113に蓄積すればよい。
【0298】
以上のような処理(以下、「ユーザ言語設定処理」と記す場合がある)が、1以上の各会場ごとに実行されることで、ユーザ情報格納部113には、会場識別子とユーザ者識別子の組に対応付けて、第二言語識別子が格納される。
【0299】
配信部14は、画面情報構成部130bが構成した通訳者設定画面情報を、1以上の各通訳者装置4に送信する。
【0300】
また、配信部14は、画面情報構成部130bが構成したユーザ設定画面情報を、1以上の各端末装置2に送信する。
【0301】
端末装置2は、実施の形態1で説明した動作に加えて、例えば、次のような動作を行う。すなわち、端末装置2は、サーバ装置1からユーザ設定画面情報を受信し、当該受信したユーザ設定画面情報を用いてユーザ設定画面を構成し、当該構成したユーザ設定画面を出力し、当該出力したユーザ設定画面に対するユーザの設定結果を受け付け、当該受け付けた設定結果をユーザ識別子と対にサーバ装置1に送信する。
【0302】
より詳しくは、ユーザ識別子は、前述したように、ユーザ情報格納部211に格納されている。なお、図1では省略しているが、端末装置2は、端末出力部26を備えている。
【0303】
端末受付部22は、各種の情報を受け付ける。各種の情報とは、例えば、設定結果である。端末受付部22は、例えば、ディスプレイに表示されているユーザ設定画面に対し、ユーザが設定した設定結果を、タッチパネル等の入力デバイスを介して受け付ける。
【0304】
なお、端末受付部22は、例えば、入力デバイスを介して、会場識別子も受け付けてもよい。または、例えば、会場内に設置された無線LANアクセスポイント等の送信装置(図示しない)が、定期的に又は不定期に、当該会場を識別する会場識別子の送信を行っており、処理部13は、例えば、送信装置から送信される会場識別子を、受信部12を介して受信してもよい。
【0305】
端末送信部23は、各種の情報を送信する。各種の情報とは、例えば、設定結果である。端末送信部23は、例えば、端末受付部22が受け付けた設定結果を、ユーザ情報格納部211に格納されているユーザ識別子と対に、サーバ装置1に送信する。
【0306】
なお、端末送信部23は、例えば、端末受付部22が受け付けた会場識別子も、設定結果等と共に送信してもよい。
【0307】
端末受信部24は、各種の情報を受信する。各種の情報とは、例えば、ユーザ設定画面情報である。端末受信部24は、例えば、サーバ装置1からユーザ設定画面情報を受信する。
【0308】
端末処理部25は、各種の処理を行う。各種の処理とは、例えば、端末受信部24がサーバ装置1からユーザ設定画面情報を受信したか否かの判別や、受け付けられた設定結果の、送信される設定結果への変換などである。
【0309】
端末出力部26は、各種の情報を出力する。各種の情報とは、例えば、ユーザ設定画面である。端末出力部26は、例えば、端末受信部24がサーバ装置1から受信したユーザ設定画面情報を用いて端末処理部25が構成したユーザ設定画面を、ディスプレイ等の出力デバイスを介して出力する。
【0310】
なお、話者装置3については、特に追加の動作を行う必要はない。
【0311】
通訳者装置4は、実施の形態1で説明した動作に加えて、例えば、次のような動作を行う。すなわち、通訳者装置4は、サーバ装置1から通訳者設定画面を受信し、当該受信した通訳者設定画面を出力し、当該出力した通訳者設定画面に対する通訳者の設定結果を受け付け、当該受け付けた設定結果を通訳者識別子と対にサーバ装置1に送信する。
【0312】
より詳しくは、例えば、図8に示した各部が、以下のような動作を行う。図8は、本変形例における通訳者装置4のブロック図である。通訳者装置4は、通訳者格納部41、通訳者受付部42、通訳者送信部43、通訳者受信部44、通訳者処理部45、および通訳者出力部46を備える。
【0313】
通訳者格納部41には、通訳者識別子などの情報が格納される。
【0314】
通訳者受付部42は、各種の情報を受け付ける。各種の情報とは、例えば、設定結果である。通訳者受付部42は、例えば、ディスプレイに表示されている通訳者設定画面に対し、通訳者が設定した設定結果を、タッチパネル等の入力デバイスを介して受け付ける。
【0315】
通訳者送信部43は、各種の情報を送信する。各種の情報とは、例えば、設定結果である。通訳者送信部43は、例えば、通訳者受付部42が受け付けた設定結果を、通訳者格納部41に格納されている通訳者識別子と対に、サーバ装置1に送信する。
【0316】
通訳者受信部44は、各種の情報を受信する。各種の情報とは、例えば、通訳者設定画面情報である。通訳者受信部44は、例えば、サーバ装置1から通訳者設定画面情報を受信する。
【0317】
通訳者処理部45は、各種の処理を行う。各種の処理とは、例えば、通訳者受付部42が設定結果等の情報を受け付けたか否かの判別や、受け付けられた情報の、送信される情報への変換などである。
【0318】
通訳者出力部46は、各種の情報を出力する。各種の情報とは、例えば、通訳者設定画面情報である。通訳者出力部46は、例えば、通訳者受信部44が受信した通訳者設定画面情報を用いて通訳者処理部45が構成した通訳者設定画面を、ディスプレイ等の出力デバイスを介して出力する。
【0319】
この変形例におけるサーバ装置1のフローチャートは、図2および図3に示したフローチャートに対し、例えば、図9に示す4つのステップS200a~S200dを追加したものである。図9は、変形例において図2および図3のフローチャートに追加される、言語設定処理を説明するフローチャートである。
【0320】
(ステップS200a)処理部13は、通訳者と話者に関する言語設定を行うか否かを判断する。例えば、サーバ装置1の電源がオンされ、プログラムの起動が完了した後、処理部13は、通訳者等に関する言語設定を行うと判断してもよい。通訳者等に関する言語設定を、行うと判断された場合はステップS200bに進み、行わないと判断された場合はステップS200cに進む。
【0321】
(ステップS200b)言語設定部130aは、通訳者・話者言語設定処理を行う。なお、通訳者・話者言語設定処理については、図10のフローチャートを用いて説明する。
【0322】
(ステップS200c)処理部13は、ユーザに関する言語設定を行うか否かを判断する。例えば、ステップS200bの通訳者・話者言語設定処理が完了したことに応じて、処理部13は、ユーザに関する言語設定を行うと判断してもよい。ユーザに関する言語設定を、行うと判断された場合はステップS200dに進み、行わないと判断された場合はステップS201(図2参照)に進む。
【0323】
(ステップS200d)言語設定部130aは、ユーザ言語設定処理を行う。なお、ユーザ言語設定処理については、図11のフローチャートを用いて説明する。
【0324】
なお、本変形例では、図2および図3に示された7つの各ステップS202,S206,S208,S210,S211,S214,およびS217の後の戻り先、ならびにS215でNOの場合の戻り先は、図9のステップS200aとなる。
【0325】
図10は、通訳者・話者言語設定処理を説明するフローチャートである。
【0326】
(ステップS1001)画面情報構成部130bは、格納部11に格納されている画面構成情報を用いて、通訳者設定画面情報を構成する。
【0327】
(ステップS1002)配信部14は、ステップS1001で構成された通訳者設定画面情報を1以上の各通訳者装置4に送信する。
【0328】
(ステップS1003)処理部13は、受信部12が通訳者識別子と対に設定結果を受信したか否かを判別する。受信部12が通訳者識別子と対に設定結果を、受信したと判別された場合はステップS1004に進み、受信していないと判別された場合はステップS1003に戻る。
【0329】
(ステップS1004)言語設定部130aは、ステップS1003で受信された設定結果が有する通訳言語情報に対応する第一言語識別子と第二言語識別子を、ステップS1003で受信された通訳者識別子に対応付けて通訳者情報群格納部112に蓄積する。
【0330】
(ステップS1005)言語設定部130aは、ステップS1004で通訳者情報群格納部112に蓄積したものと同じ第一言語識別子を、ステップS1003で受信された設定結果が有する話者識別子に対応付けて話者情報群格納部111に蓄積する。
【0331】
(ステップS1006)言語設定部130aは、ステップS1004で通訳者情報群格納部112に蓄積したものと同じ第二言語識別子を、ステップS1003で受信された設定結果が有する話者識別子に対応する会場識別子に対応付けて格納部11に蓄積する。
【0332】
(ステップS1007)処理部13は、終了条件を満たしたか否かを判別する。ここでの終了条件は、例えば、“通訳者設定画面情報の送信先となった1以上の全ての通訳者装置4から設定結果が受信されたこと”でもよいし、“通訳者設定画面情報の送信からの経過時間が閾値を超えた又は閾値以上となったこと”でもよい。
【0333】
終了条件を満たしたと判別された場合は上位の処理にリターンし、満たしていないと判別された場合はステップS1003に戻る。
【0334】
なお、図10のフローチャートにおいて、ステップS1006が繰り返し実行される結果、格納部11には、1または2以上の第二言語識別子群が会場識別子に対応付けて格納される。
【0335】
図11は、ユーザ言語設定処理を説明するフローチャートである。なお、図11のフローチャートは、話者情報群格納部111等に格納されている1以上の会場識別子のうち、一の会場識別子で識別される会場を対象とするフローチャートであり、1以上の各会場識別子ごとに実行される。
【0336】
(ステップS1101)処理部13は、話者情報群格納部111等に格納されている1以上の会場識別子のうち、一の会場識別子を取得する。
【0337】
(ステップS1102)画面情報構成部130bは、格納部11に格納されている1以上の第二言語識別子群のうち、ステップS1101で取得された会場識別子に対応する第二言語識別子群と、格納部11に格納されている画面構成情報とを用いて、ユーザ言語設定画面情報を構成する。
【0338】
(ステップS1103)配信部14は、ステップS1102で構成されたユーザ言語設定画面情報を1以上の各端末装置2に送信する。
【0339】
(ステップS1104)処理部13は、ユーザ識別子と対に設定結果を受信したか否かを判別する。受信部12がユーザ識別子と対に設定結果を、受信したと判別された場合はステップS1105に進み、受信していないと判別された場合はステップS1104に戻る。
【0340】
(ステップS1105)言語設定部130aは、ステップS1104で受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該設定結果が有する話者識別子と対になる会場識別子、およびステップS1104で受信されたユーザ識別子、に対応付けてユーザ情報群格納部113に蓄積する。
【0341】
(ステップS1106)処理部13は、終了条件を満たしたか否かを判別する。ここでの終了条件は、例えば、“ユーザ設定画面情報の送信先となった1以上の全ての端末装置2から設定結果が受信されたこと”でもよいし、“ユーザ設定画面情報の送信からの経過時間が閾値を超えた又は閾値以上となったこと”でもよい。
【0342】
終了条件を満たしたと判別された場合は上位の処理にリターンし、満たしていないと判別された場合はステップS1104に戻る。
【0343】
以下、この変形例における具体例を説明する。本具体例では、会場Xにおいて、日本語で話をする話者αに対し、二人の通訳者AおよびBが、それぞれ、英語および中国語への通訳を行うものとする。
【0344】
サーバ装置1の電源がオンされ、プログラムの起動が完了すると、画面情報構成部130bは、格納部11に格納されている画面構成情報を用いて、通訳者設定画面情報を構成し、配信部14は、当該構成された通訳者設定画面情報を、2以上の各通訳者装置4に送信する。
【0345】
上記2以上の通訳者装置4のうち、通訳者Aの装置である通訳者装置4Aにおいて、上記通訳者設定画面情報が受信され、当該受信された通訳者設定画面情報を用いて通訳者設定画面が構成され、当該構成された通訳者設定画面がディスプレイを介して出力される。これにより、通訳者装置4Aのディスプレイには、例えば、図12に示すような通訳者設定画面が表示される。
【0346】
図12は、通訳者設定画面の一例を示す図である。この通訳者設定画面は、例えば、“話者を選択して下さい。”等のダイアログ、および話者を選択するための図表の組と、“通訳言語を選択して下さい”等のダイアログ、および通訳言語等を選択するための図表の組と、選択結果の設定を行うための「設定」ボタンなどを有する。
【0347】
なお、通訳者設定画面の各ダイアログは、多言語で表記される。多言語とは、第二言語識別子群に対応する言語群である。なお、かかる事項は、後述するユーザ設定画面(図13参照)の各ダイアログにも当てはまる。
【0348】
通訳者Aは、ディスプレイ上の通訳者設定画面に対し、話者として“α”を選択し、通訳言語として“日英”を選択した後、設定ボタンを押下する。
【0349】
これに応じて、話者装置4Aにおいて、通訳者識別子“α”と、通訳言語情報“日英”とを有する設定結果“(α,日英)”が取得され、当該取得された設定結果が、通訳者識別子“A”と対にサーバ装置1に送信される。
【0350】
サーバ装置1において、受信部12が上記設定結果“(α,日英)”を通訳者識別子“A”と対に受信し、言語設定部130aは、通訳者情報群格納部112に格納されている2以上のいずれかの通訳者情報に含まれる通訳者言語情報であり、当該受信された通訳者識別子“A”と対になる通訳者言語情報、を構成する第一言語識別子“Null”と第二言語識別子“Null”を、それぞれ“日”と“英”に更新する。
【0351】
また、言語設定部130aは、話者情報群格納部111に格納されている1以上の話者情報のうち、当該受信された設定結果が有する話者識別子“α”を含む話者情報1、が有する第一言語識別子“Null”を、“日”に更新する。
【0352】
さらに、言語設定部130aは、通訳者情報群格納部112に格納されている1以上のいずれかの話者情報が有する第一言語識別子であり、当該受信された設定結果が有する話者識別子“α”と対になる第一言語識別子“Null”を、当該受信された設定結果が有する第一言語識別子“日”に更新する。
【0353】
もう一人の通訳者Bについても、上記と同様の通訳者・話者言語設定処理が行われ、通訳者識別子“B”と対になる通訳者言語情報を構成する第一言語識別子“Null”と第二言語識別子“Null”は、それぞれ“日”と“中”に更新される。
【0354】
以上で、会場Xで話をする話者αと、話者αの話を通訳する二人の通訳者AおよびBについての言語設定は、完了となる。画面情報構成部130bは、会場識別子“X”に対応付けて格納部11に格納されている2つの第二言語識別子と、格納部11に格納されている画面構成情報とを用いて、ユーザ設定画面情報を構成し、配信部14は、1以上の各端末装置2に配信する。
【0355】
ユーザaの端末装置2(以下、端末装置2a)において、上記ユーザ設定画面情報が受信され、当該受信されたユーザ設定画面情報を用いてユーザ設定画面が構成され、当該構成されたユーザ設定画面がディスプレイを介して出力される。これにより、端末装置2aのディスプレイには、例えば、図13に示すようなユーザ設定画面が表示される。
【0356】
図13は、ユーザ設定画面の一例を示す図である。このユーザ設定画面は、例えば、“ここは会場Xです。主言語(音声/文字)を選択して下さい。”等のダイアログ、および主言語等を選択するための図表の組と、“副言語群を選択して下さい”等のダイアログ、および副言語群を選択するための図表の組と、選択結果の設定を行うための「設定」ボタンとを有する。
【0357】
ユーザaは、ディスプレイ上のユーザ設定画面に対し、主言語として“英”を選択し、主言語の出力態様として“音声”を選択し、副言語群として“副言語なし”を選択した後、設定ボタンを押下する。
【0358】
端末装置2aにおいて、話者識別子“α”と、主第二言語識別子“英”と、副第二副言語識別子群“Null”と、データ形式情報“音声”と、を有する設定結果“(α,英,Null,音声)”が取得され、当該取得された設定結果がユーザ識別子“a”と対に、サーバ装置1に送信される。
【0359】
サーバ装置1において、受信部12が上記設定結果“(α,英,Null,音声)”をユーザ識別子“a”と対に受信し、言語設定部130aは、当該受信された設定結果“(α,英,Null)”から、主第二言語識別子“英”と、副第二言語識別子群“Null”と、データ形式情報“音声”とを取得する。
【0360】
そして、言語設定部130aは、ユーザ情報群格納部113の2以上のユーザ情報のうち、受信されたユーザ識別子“a”と対になるユーザ情報1が有する主第二言語識別子“Null”と副第二言語識別子群“Null”とデータ形式情報“Null”を、それぞれ“英”と“Null”と“音声”に更新する。
【0361】
これにより、会場識別子“X”とユーザ識別子“a”の組に対応付いたユーザ言語情報は、図7に示された内容となる。
【0362】
会場Xに対応する他のユーザb~dの各々についても、上記と同様のユーザ言語設定処理が行われ、各々が有するユーザ言語情報は、図7に示された内容となる。
【0363】
以上から明らかなように、本変形例では、格納部11に、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、1または2以上、格納されており、サーバ装置1は、通訳者の端末装置である通訳者装置4から、当該通訳者の通訳言語に関する通訳言語情報を有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信し、前記設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を前記格納部11から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を前記通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を当該通訳者の通訳の対象である話者を識別する話者識別子に対応付けて蓄積することにより、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定できる。
【0364】
また、サーバ装置1は、通訳者が、1以上の話者のうち一の話者と、1以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を、1以上の各通訳者の通訳者装置4に送信し、前記受信部12は、前記1以上の各通訳者の通訳者装置4から、当該通訳者を識別する通訳者識別子と対に、当該通訳者の通訳の対象である話者を識別する話者識別子をさらに有する設定結果を受信することにより、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを、容易かつ的確に設定できる。
【0365】
また、サーバ装置1は、前記取得した組を構成する第二言語識別子を前記格納部11に蓄積し、ユーザが、前記格納部11に格納されている1以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面を、1以上の各ユーザの端末装置2に送信し、前記1以上の各ユーザの端末装置2から、当該ユーザを識別するユーザ識別子と対に、当該ユーザが設定した主第二言語を識別する主第二言語識別子を少なくとも有する設定結果を受信し、前記設定結果が有する少なくとも主第二言語識別子を前記ユーザ識別子に対応付けて蓄積することにより、1以上の各ユーザの言語をも的確に設定できる。
【0366】
なお、本変形例のサーバ装置1を実現するプログラムは、例えば、次のようなプログラムである。つまり、このプログラムは、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、1または2以上、格納される格納部にアクセス可能なコンピュータを、通訳者の端末装置である通訳者装置から、当該通訳者の通訳言語に関する通訳言語情報を有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信する受信部12と、前記設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を前記格納部11から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を前記通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を当該通訳者の通訳の対象である話者を識別する通訳者識別子に対応付けて蓄積する言語設定部130aとして機能させるためのプログラムである。
【0367】
(実施の形態2)
以下、音声処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0368】
本実施の形態における音声処理装置は、例えば、サーバである。サーバは、例えば、同時通訳サービスを提供する企業や団体等の組織内のサーバである。または、サーバは、例えば、クラウドサーバやASPサーバ等でもよく、そのタイプは問わない。音声処理装置は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、1または2以上の第一端末(図示しない)、および1または2以上の第二端末(図示しない)の各々と通信可能に接続される。
【0369】
第一端末とは、後述する第一話者の端末である。第一端末は、第一話者の音声を受け付け、音声処理装置に送信する。第二端末とは、後述する第一話者の端末である。第二端末は、音声を受け付け、音声処理装置に送信する。第一端末および第二端末は、例えば、携帯端末であるが、据え置き型の端末でもいし、マイクロフォンでもよく、そのタイプは問わない。携帯端末とは、携帯可能な端末である。携帯端末は、例えば、スマートフォン、タブレット端末、携帯電話機、ノートPC等であるが、その種類は問わない。
【0370】
また、音声処理装置は、他の端末とも通信可能であってもよい。他の端末とは、例えば、組織内の端末などであるが、そのタイプや所在は問わない。
【0371】
ただし、音声処理装置は、例えば、スタンドアロンの端末でもよく、その実現手段は問わない。
【0372】
図14は、本実施の形態における音声処理装置5のブロック図である。この音声処理装置5は、格納部51、受付部52、処理部53、および出力部54を備える。受付部52は、第一音声受付部521、および第二音声受付部522を備える。処理部53は、蓄積部531、音声対応処理部532、音声認識部533、および評価取得部534を備える。音声対応処理部532は、分割手段5321、文対応手段5322、音声対応手段5323、タイミング情報取得手段5324、およびタイミング情報対応手段5325を備える。文対応手段5322は、機械翻訳手段53221、および翻訳結果対応手段53222を備える。出力部54は、通訳漏れ出力部541、評価出力部542を備える。
【0373】
音声処理装置を構成する格納部51は、各種の情報を格納し得る。各種の情報とは、例えば、第一音声、第二音声、第一部分音声、第二部分音声、第一文章、第二文章、第一文、第二文、第一文の機械翻訳の結果、第一タイミング情報、第二タイミング情報などである。なお、これらの情報については後述する。
【0374】
また、格納部51には、通常、1または2以上の第一話者情報、および1または2以上の第二話者情報も格納される。第一話者情報とは、第一話者に関する情報である。第一話者情報は、通常、第一話者識別子を有する。第一話者識別子とは、第一話者を識別する情報である。第一話者識別子は、例えば、メールアドレス、電話番号、ID等であるが、第一話者の第一端末を識別する端末識別子(例えば、MACアドレス、IPアドレス等)でもよく、第一話者を識別し得る情報であれば何でもよい。ただし、例えば、第一話者が一人だけの場合、第一話者情報は、第一話者識別子を有していなくてもよい。
【0375】
第二話者情報とは、第二話者に関する情報である。第二話者情報は、通常、第二話者識別子を有する。第二話者識別子とは、第二話者を識別する情報である。第二話者識別子は、例えば、メールアドレス、電話番号、ID等であるが、第二話者の第二端末を識別する端末識別子(例えば、MACアドレス、IPアドレス等)でもよく、第二話者を識別し得る情報であれば何でもよい。ただし、例えば、第二話者が一人だけの場合、第二話者情報は、第二話者識別子を有していなくてもよい。また、第二話者情報は、例えば、後述する評価情報を有していてもよい。
【0376】
さらに、格納部51には、例えば、1または2以上の組情報も格納されてもよい。組情報とは、第一話者および第二話者の組に関する情報である。組情報は、例えば、第一話者識別子、および第二話者識別子を有する。ただし、例えば、第一話者および第二話者の組が一組だけの場合、格納部51に組情報は格納されていなくてもよい。
【0377】
受付部52は、各種の情報を受け付ける。各種の情報とは、例えば、後述する第一音声、後述する第二音声、後述する評価情報の出力指示などである。
【0378】
受付部52は、第一音声等の情報を、例えば、第一端末等の端末から受信するが、音声処理装置内のマイクロフォン等の入力デバイスを介して受け付けてもよい。
【0379】
第一音声受付部521は、第一音声を受け付ける。第一音声とは、第一話者が発声した音声である。第一話者とは、第一言語で話をする者である。第一言語とは、第一話者が話す言語である、といってもよい。第一言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。話は、例えば、講演であるが、討論や会話など、双方向の話でもよく、その種類は問わない。第一話者は、具体的には、例えば、講演者であるが、討論者、会話者などでもよい。
【0380】
第一音声受付部521は、第一話者による第一音声を、例えば、当該第一話者の第一端末から、当該第一話者を識別する第一話者識別子と対に受信するが、音声処理装置内の第一マイクロフォンを介して受け付けてもよい。第一マイクロフォンとは、第一話者による第一音声を捉えるためのマイクロフォンである。第一音声を第一話者識別子と対に受信することは、例えば、第一話者識別子を受信した後に第一音声を受信することであるが、第一音声の受信中に第一話者識別子を受信することでもよいし、第一音声の受信後に第一話者識別子を受信することでもよい。
【0381】
第二音声受付部522は、第二音声を受け付ける。第二音声とは、第一話者による第一音声に対する、第二話者による第二言語への同時通訳の音声である。第二話者とは、第一話者の話を同時通訳する者であり、同時通訳者といってもよい。同時通訳とは、第一話者の話を聞くとほぼ同時に訳出を行う方式である。同時通訳において、第一音声に対する第二音声の遅延は、小さい方が好適であるが、部分的に大きくてもよく、その大小は問わない。なお、遅延については後述する。
【0382】
第二音声受付部522は、第二話者による第二音声を、例えば、当該第二話者の第二端末から、当該第二話者を識別する第二話者識別子と対に受信するが、音声処理装置内の第二マイクロフォンを介して受け付けてもよい。第二マイクロフォンとは、第二話者による第二音声を捉えるためのマイクロフォンである。第二音声を第二話者識別子と対に受信することは、例えば、第二話者識別子を受信した後に第二音声を受信することであるが、第二音声の受信中に第二話者識別子を受信することでもよいし、第二音声の受信後に第二話者識別子を受信することでもよい。
【0383】
処理部53は、各種の処理を行う。各種の処理とは、例えば、蓄積部531、音声対応処理部532、音声認識部533、評価取得部534、分割手段5321、文対応手段5322、音声対応手段5323、タイミング情報取得手段5324、タイミング情報対応手段5325、機械翻訳手段53221、翻訳結果対応手段53222などの処理である。また、処理部53は、フローチャートで説明する各種の判別なども行う。
【0384】
蓄積部531は、各種の情報を蓄積する。各種の情報とは、例えば、第一音声、第二音声、第一部分音声、第二部分音声、第一文章、第二文章、第一文、第二文などである。なお、第一部分音声、第二部分音声、第一文章、第二文章、第一文、および第二文については後述する。また、蓄積部531が、かかる情報を蓄積する動作についても、適時説明する。
【0385】
蓄積部531は、受付部52が受け付けた第一音声等の情報を、例えば、第一話者識別子に対応付けて格納部51に蓄積するが、外部の記録媒体に蓄積してもよく、その蓄積先は問わない。また、蓄積部531は、受付部52が受け付けた第二音声等の情報を、例えば、第二話者識別子に対応付けて格納部51に蓄積するが、外部の記録媒体に蓄積してもよく、その蓄積先は問わない。
【0386】
蓄積部531は、例えば、第一音声受付部521が受け付けた第一音声と、第二音声受付部522が受け付けた第二音声とを対応付けて蓄積する。
【0387】
蓄積部531は、例えば、格納部1に格納されている1以上の各組情報を構成する第一話者識別子および第二話者識別子の組ごとに、第一音声受付部521が当該第一話者識別子と対に受信した第一音声と、第二音声受付部22が当該第二話者識別子と対に受信した第二音声とを対応付けて蓄積してもよい。なお、後述する音声対応処理部32の処理もまた、格納されている1以上の各組情報を構成する第一話者識別子および第二話者識別子の組ごとに行われてもよい。
【0388】
対応付けは、例えば、第一音声の全体と第二音声の全体との対応付けでもよいし、第一音声の1または2以上の部分と、第二音声の1または2以上の部分との対応付けでもよい。後者の場合、蓄積部31は、例えば、音声対応処理部32が対応付けた1以上の第一部分音声と1以上の第二部分音声とを蓄積する。なお、こうして蓄積される、第一音声または当該第一音声の1以上の第一部分音声と、第二音声または当該第二音声の1以上の第二部分音声と対は、例えば、「音声の対のコーパス」と呼んでもよい。
【0389】
音声対応処理部532は、第一部分音声と第二部分音声とを対応付ける。第一部分音声とは、第一音声の一部分であり、第二部分音声とは、第二音声の一部分である。一部分とは、通常、一の文に対応する部分であるが、例えば、段落、文節、自立語などに対応する部分でもよい。
【0390】
第一文章とは、第一音声の全体に対応する文章であり、第二文章とは、第二音声の全体に対応する文章である。第一文とは、第一文章を構成する1または2以上の各文であり、第二文とは、第二文章を構成する1または2以上の各文である。
【0391】
音声対応処理部532は、例えば、第一音声および第二音声の各々に対して、無音期間に基づく分割処理を行ってもよい。無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。
【0392】
無音期間に基づく分割処理とは、一の音声の1以上の無音期間を検知し、当該一の音声を当該1以上の無音期間を挟んで2以上の区間に区切る処理である。2以上の各区間は、通常、一の文に対応するが、一の段落に対応してもよい。なお、第一文と第二文で語順が一致する場合は、一の文節、一の自立語等に対応してもよい。
【0393】
そして、音声対応処理部532は、第一音声および第二音声の間の対応する2つの区間を特定し、当該2つの区間の音声である第一部分音声および第二部分音声を対応付けてもよい。
【0394】
例えば、音声対応処理部532は、第一音声の2以上の各区間に“1”,“2”,“3”等の番号を対応付ける一方、第二音声の2以上の各区間にも“1”,“2”,“3”等の番号を対応付け、同じ番号に対応付いている2つの区間を、対応する第一部分音声および第二部分音声とみなしても構わない。つまり、音声対応処理部32は、第一音声の2以上の区間と、第二音声の2以上の区間とを、順番に対応付けてもよい。
【0395】
または、例えば、各区間にタイミング情報が対応付いており、音声対応処理部32は、第一音声の2以上の区間のうちm番目(mは1以上の整数:例えば、1番目)の区間に対応付いているタイミング情報と、第二音声の2以上の区間のうちm番目の区間(例えば、1番目の区間)に対応付いているタイミング情報とを取得し、当該2つのタイミング情報の差分を取得する。または、音声対応処理部32は、第一音声の2以上の区間のうちm番目からn番目(nはmより大きい整数:例えば、3番目)までの2以上(例えば、3つ)の各区間に対応付いているタイミング情報と、第二音声の2以上の区間のうちm番目からn番目までの2以上(例えば、3つ)の各区間に対応付いているタイミング情報とを取得し、対応する2つのタイミング情報の差分を取得し、取得した2以上(例えば、3つ)の差分の平均値を取得する。そして、音声対応処理部32は、取得した差分または差分の平均値を、第一音声に対する第二音声の遅延とみなし、第一音声の2以上の区間と、第二音声の2以上の区間との間で、差分が当該遅延と同じ又は同じとみなし得るほど近い2つの区間を、対応する区間とみなしてもよい。
【0396】
または、音声対応処理部532は、例えば、第一音声および第二音声に対応する第一文章および第二文章に対して、形態素解析を行い、対応する第一文と第二文を特定し、第一文および第二文に対応する第一部分音声および第二部分音声を対応付けてもよい。
【0397】
詳しくは、音声対応処理部532は、例えば、第一音声および第二音声の各々に対して、音声認識を行い、第一文章および第二文章を取得する。次に、音声対応処理部32は、取得した第一文章および第二文章の各々に対して形態素解析を行い、第一音声および第二音声の間の対応する2つの形態素(例えば、文。段落、文節、自立語等でもよい。)を特定する。そして、音声対応処理部32は、特定した2つの形態素に対応する第一部分音声および第二部分音声を対応付ける。
【0398】
より詳しくは、音声対応処理部532を構成する分割手段5321が、第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ第二文章を2以上の文に分割し、2以上の第二文を取得する。分割は、例えば、形態素解析や自然言語処理や機械学習等により行うが、第一音声および第二音声の無音期間に基づいて行ってもよい。なお、分割は、一の文章の2以上の文への分割に限らず、例えば、一の文の2以上の単語への分割などでもよい。自然言語処理等により文を単語に区切る技術は公知であり、詳しい説明を省略する(例えば、「機械学習による自然言語処理」,坪井祐太,日本IBM,ProVISION No.83/Fall 2014)。
【0399】
文対応手段5322は、分割手段5321が取得した2以上の第一文のうち1以上の第一文と、分割手段5321が取得した2以上の第二文のうち1以上の第一文とを対応付ける。文対応手段5322は、例えば、1以上の第一文と1以上の第二文とを順番に対応付ける。また、文対応手段5322は、対応する第一文および第二文において、同種の2つの形態素(例えば、第一文の動詞と第二文の動詞など)を対応付けてもよい。
【0400】
なお、文対応手段5322は、分割手段5321が取得した一の第一文と、2以上の第二文とを対応付けてもよい。2以上の第二文とは、第一文の通訳文、および当該通訳文の補充文でもよい。第一文は、例えば、ことわざ、四字熟語等を含む文であり、補充文は、当該ことわざ等をそのまま含む通訳文に対し、当該ことわざ等の意味について説明する文でもよい。または、第一文は、例えば、比喩を用いた文であり、補充文は、当該比喩を用いた文を直訳した通訳文であり、補充文は、直訳された比喩の意味について説明する文でもよい。
【0401】
詳しくは、文対応手段5322は、分割手段5321が取得した1以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と2以上の第二文とを対応付けてもよい。第一文に対応する第二文とは、当該第一文の通訳文であり、第一文に対応付かない第二文とは、例えば、当該通訳文の補充文である。
【0402】
より詳しくは、文対応手段5322は、例えば、取得された1以上の各第一文ごとに、当該第一文に対応付かない1以上の第二文を検出し、検出した1以上の各第二文について、当該第二文がその直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、当該第二文を、当該第二文の前に位置する第二文に対応する第一文に対応付ける処理を行うことは好適である。
【0403】
予め決められた関係とは、例えば、当該第二文が、その前の第二文を説明している文である、という関係である。例えば、当該第二文が、“Me kara uroko means that the image is such clear as the scales fall from one’s eyes.”であり、その前の第二文が“The clear image of this camera is just me kara uroko.”である場合、この関係を満たすと判断される。
【0404】
または、予め決められた関係は、例えば、当該第二文が、前の第二文に含まれる自立語を含む文である、という関係であってもよい。例えば、当該第二文とその前の第二文とが上記2つの例文である場合、この関係を満たすと判断される。
【0405】
または、予め決められた関係は、例えば、当該第二文が、前の第二文に含まれる自立語を主語とする文である、という関係であってもよい。例えば、当該第二文とその前の第二文が上記2つの例文である場合、この関係を満たすと判断される。
【0406】
また、文対応手段5322は、分割手段5321が取得した2以上の各第一文に対応付く第二文を検知すると共に、いずれの第二文にも対応付かない第一文をも検出してもよい。いずれの第二文にも対応付かない第一文とは、通訳文を欠いた原文であり、翻訳されなかった翻訳漏れ文である、といってもよい。
【0407】
なお、文対応手段5322は、具体的には、例えば、2以上の文対応情報(図18参照:後述)を構成してもよい。文対応情報とは、第一文を構成する2以上の第一文と、当該第一文に対応する第二文を構成する2以上の第二文との対応に関する情報である。文対応情報については、具体例で説明する。
【0408】
機械翻訳手段53221は、例えば、分割手段5321が取得した2以上の第一文を第二言語に機械翻訳する。
【0409】
または、機械翻訳手段53221は、分割手段5321が取得した2以上の第二文を機械翻訳してもよい。
【0410】
翻訳結果対応手段53222は、機械翻訳手段53221が機械翻訳した2以上の第一文の翻訳結果と、分割手段5321が取得した2以上の第二文とを比較し、分割手段5321が取得した1以上の第一文と1以上の第二文とを対応付ける。
【0411】
または、翻訳結果対応手段53222は、機械翻訳手段53221が機械翻訳した2以上の第二文の翻訳結果と、分割手段5321が取得した2以上の第一文とを比較し、分割手段5321が取得した1以上の第一文と1以上の第二文とを対応付ける。
【0412】
音声対応手段5323は、文対応手段5322が対応付けた1以上の第一文に対応する第一部分音声と、文対応手段5322が対応付けた1以上の第二文に対応する第二部分音声とを対応付ける。
【0413】
タイミング情報取得手段5324は、2以上の第一文に対応付く2以上の第一タイミング情報、および2以上の第二文に対応付く2以上の第二タイミング情報を取得する。第一タイミング情報とは、第一文に対応付くタイミング情報であり、第二タイミング情報とは、第一文に対応付くタイミング情報である。なお、タイミング情報について後述する。
【0414】
タイミング情報対応手段5325は、2以上の第一文に2以上の第一タイミング情報を対応付け、かつ2以上の第二文に2以上の第二タイミング情報を対応付ける。
【0415】
音声認識部533は、例えば、第一音声に対して音声認識処理を行い、第一文章を取得する。第一文字列とは、第一音声に対応する文字列である。なお、音声認識処理は公知技術であり、詳しい説明を省略する。
【0416】
また、音声認識部533は、第二音声に対して音声認識処理を行い、第二文章を取得する。第二文章とは、第二音声に対応する文字列である。
【0417】
評価取得部534は、例えば、文対応手段5322における1以上の第一文と1以上の第二文との対応付けの結果を用いて、評価情報を取得する。評価情報とは、同時通訳を行った通訳者の評価に関する情報である。評価情報は、例えば、第一評価情報、第二評価情報、第三評価情報、総合評価情報などであるが、通訳者の評価に関する情報であれば何でもよい。
【0418】
第一評価情報とは、翻訳漏れに関する評価情報である。第一評価情報は、例えば、翻訳漏れが少ないほど高い評価値を示し、翻訳漏れが多いほど低い評価値を示す情報である。なお、評価値は、具体的には、例えば、最低評価を示す“1”から、最高評価を示す“5”までの5個の整数値等で表現されるが、小数部も有する“4.5”等の数値でもよいし、ABCや優良可等でもよく、その形式は問わない。また、かかる事項は、第二評価情報、第三評価情報の評価値にも当てはまる。
【0419】
第二評価情報とは、補充に関する評価情報である。第二評価情報は、例えば、補充文の数が多いほど高い評価値を示し、補充文の数が少ないほど低い評価値を示す情報である。なお、補充文の数は、2以上の第二文が対応付いた第一文の数といってもよい。
【0420】
第三評価情報とは、遅延に関する評価情報である。第三評価情報は、例えば、遅延が小さいほど高い評価値を示し、遅延が大きいほど低い評価値を示す情報である。
【0421】
総合評価情報とは、総合的な評価情報である。総合評価情報は、例えば、第一~第三の3つの評価情報のうち2以上の評価情報を基に取得される。総合評価情報は、具体的には、例えば、“A”,“A-”,“B”等で表現されるが、数値等でもよく、その形式は問わない。
【0422】
対応付けの結果とは、例えば、対応付けられた第一文と第二文との対(つまり、原文と、その通訳文との対。以下、原訳対と記す場合がある)の集合であるが、いずれの第二文と対応付かない1または2以上の第一文、いずれの第一文と対応付かない1または2以上の第二文も含む。
【0423】
評価取得部534は、例えば、いずれの第二文とも対応付かない1または2以上の第一文(つまり、前述した通訳漏れ文)を検出し、検出した通訳漏れ文の数を取得してもよい。そして、評価取得部534は、通訳漏れ文の数が多いほど低い評価となる第一評価情報を取得する。
【0424】
具体的には、評価取得部534は、例えば、通訳漏れ文の数をパラメータとする減少関数を用いて算出された評価値を示す第一評価情報を取得してもよい。または、例えば、格納部1に、補充文の数と評価値との対の集合である第一対応情報が格納されており、評価取得部534は、取得した通訳漏れ文の数をキーとして第一対応情報を検索し、当該数と対になる評価値を示す第一評価情報を取得してもよい。
【0425】
また、評価取得部534は、例えば、いずれの第一文とも対応付かない1または2以上の第二文(つまり、前述した補充文)を検出し、検出した補充文の数を取得してもよい。そして、評価取得部534は、補充文の数が多いほど高い評価となる第二評価情報を取得する。
【0426】
具体的には、評価取得部534は、例えば、補充文の数をパラメータとする増加関数を用いて算出された評価値を示す第二評価情報を取得してもよい。または、例えば、格納部51に、補充文の数と評価値との対の集合である第二対応情報が格納されており、評価取得部534は、取得した補充文の数をキーとして第二対応情報を検索し、当該数と対になる評価値を示す第二評価情報を取得してもよい。
【0427】
なお、補充文の数に代えて、補充付き原文の数が用いられてもよい。補充付き原文とは、訳文に加えて、1以上の補充文も存在する原文であり、例えば、2以上の第二文が対応付けられた一の第一文、といってもよい。評価取得部534は、1または2以上の補充付き原文を検知し、検知した補充付き原文の数が多いほど高い評価となる第二評価情報を取得してもよい。この場合に用いる関数は、補充付き原文の数をパラメータとする増加関数であり、第二対応情報は、補充付き原文の数と評価値との対の集合である。
【0428】
さらに、評価取得部534は、例えば、第一音声に対する第二音声の遅延を取得してもよい。遅延は、例えば、一の原訳対を構成する第一文と第二文との間で、当該第一文に対応付いた第一タイミング情報と、当該第二文に対応付いた第二タイミング情報との差分でもよい。
【0429】
詳しくは、例えば、第一音声および第二音声は、タイミング情報に対応付いている。タイミング情報とは、タイミングを特定する情報である。特定されるタイミングは、例えば、一の文章を構成する2以上の文に対応する2以上の各部分音声が発声されたタイミングである。発声されたタイミングとは、部分音声の発声が開始された開始タイミングでもよいし、発声が終了された終了タイミングでもよいし、開始タイミングおよび終了タイミングを平均した平均タイミングでもよい。第一音声および第二音声には、かかるタイミング情報が、予め対応付いていてもよい。なお、タイミング情報は、例えば、予め決められた時点(例えば、第一音声の発声が開始された時点)から、第一音声中の当該部分音声が発声されるまでの時間を示す情報(例えば、“0:05”等)であるが、当該部分音声が発声された時点の現在時刻を示す情報などでもよく、その形式は問わない。
【0430】
または、タイミング情報取得手段5324が、2以上の第一文に対応付く2以上の第一タイミング情報、および2以上の第二文に対応付く2以上の第二タイミング情報を取得し、タイミング情報対応手段5325が、取得された2以上の第一タイミング情報を2以上の第一文に対応付け、かつ取得された2以上の第二タイミング情報を2以上の第二文に対応付けてもよい。
【0431】
詳しくは、例えば、第一音声受付部521が、第一音声を受け付けている期間中、予め決められた時間(例えば、1秒、1/30秒等)ごとに、時刻または番号等の時間情報を取得し、受け付けた第一音声に取得した時間情報を対応付けて蓄積部531に引き渡す処理を行っている。また、第二音声受付部522も、第二音声を受け付けている期間中、予め決められた時間ごとに時間情報を取得し、受け付けた第二音声に取得した時間情報を対応付けて蓄積部531に引き渡す処理を行っている。さらに、蓄積部531は、2以上の時間情報が対応付けられた第一音声と、2以上の時間情報が対応付けられた第二音声とを対応付けて格納部51に蓄積する処理を行っている。
【0432】
タイミング情報取得手段5324は、分割手段5321が2以上の第一文を取得したタイミングで、当該2以上の第一文に対応する2以上の第一部分音声に対応付いた2以上の時間情報を格納部51から取得し、かつ、分割手段5321が2以上の第二文を取得したタイミングで、当該2以上の第二文に対応する2以上の第二部分音声に対応付いた2以上の時間情報を格納部51から取得する。
【0433】
タイミング情報対応手段5325は、2以上の第一文の取得に応じて取得された2以上の時間情報に対応する2以上の第一タイミング情報を2以上の第一文に対応付け、かつ2以上の第二文の取得に応じて取得された2以上の時間情報に対応する2以上の第二タイミング情報を2以上の第二文に対応付ける。
【0434】
評価取得部534は、例えば、文対応手段5322が対応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差分(つまり、前述した遅延)を取得してもよい。そして、評価取得部534は、取得した差分が大きいほど低い評価値を示す第三評価情報を取得する。
【0435】
具体的には、評価取得部534は、例えば、遅延をパラメータとする増加関数を用いて算出された評価値を示す第三評価情報を取得してもよい。または、例えば、格納部51に、遅延の値と評価値との対の集合である第三対応情報が格納されており、評価取得部534は、取得した遅延の値をキーとして第三対応情報を検索し、当該遅延の値と対になる評価値を示す第三評価情報を取得してもよい。
【0436】
評価取得部534は、例えば、上記のような第一~第3の3つの評価情報のうち2以上の評価情報を基に、総合評価情報を取得する。総合評価情報は、例えば、2以上の評価情報の代表値(例えば、平均値、中央値、最頻値など)でもよいし、代表値に対応付いた“A”,“B”等の評価情報でもよい。なお、各種の評価情報については、具体例で説明する。
【0437】
以上のようにして取得された各種の評価情報は、例えば、通訳者識別子に対応付けて、格納部51に蓄積されてもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、メールアドレス、電話番号、氏名、ID等、何でもよい。
【0438】
出力部54は、各種の情報を出力する。各種の情報とは、例えば、翻訳漏れ文、評価情報などである。出力部54は、各種の情報を、例えば、端末に送信したり、ディスプレイに表示したりするが、プリンタでプリントアウトしたり、記録媒体に蓄積したり、他のプログラムに引渡したりしてもよく、その出力態様は問わない。
【0439】
通訳漏れ出力部541は、文対応手段5322の検出結果を出力する。検出結果とは、例えば、検出された1以上の通訳漏れ文であるが、検出された通訳漏れ文の数などでもよい。また、出力される通訳漏れ文は、例えば、通訳されなかった第一言語の第一文を第二言語に機械翻訳した翻訳文であるが、通訳されなかった第一文自体でもよい。または、通訳漏れ出力部541は、通訳されなかった第一文と、それを機械翻訳した翻訳文とを出力してもよい。
【0440】
評価出力部542は、評価取得部534が取得した評価情報を出力する。評価出力部542は、例えば、受付部52が評価情報の出力指示を端末識別子と対に受信したことに応じて評価取得部534が取得した評価情報を、当該端末識別子で識別される端末に送信する。
【0441】
または、評価出力部542は、例えば、受付部52が評価情報の出力指示をタッチパネル等の入力デバイスを介して受け付けたことに応じて評価取得部534が取得した評価情報を、ディスプレイ等の出力デバイスを介して出力してもよい。
【0442】
格納部51は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
【0443】
格納部51に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部1で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部1で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部51で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル、マイクロフォン等、何でもよい。
【0444】
受付部52、第一音声受付部521、および第二音声受付部522は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部52等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
【0445】
処理部53、蓄積部531、音声対応処理部532、音声認識部533、評価取得部534、分割手段5321、文対応手段5322、音声対応手段5323、タイミング情報取得手段5324、タイミング情報対応手段5325、機械翻訳手段53221、および翻訳結果対応手段53222は、通常、MPUやメモリ等から実現され得る。処理部53等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現してもよい。
【0446】
出力部54、通訳漏れ出力部541、および評価出力部542は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。出力部54等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。
【0447】
受付部52の受信機能は、通常、無線または有線の通信手段(例えば、NIC(Network interface controller)やモデム等の通信モジュール)で実現されるが、放送を受信する手段(例えば、放送受信モジュール)で実現されてもよい。
【0448】
出力部54の送信機能は、通常、無線または有線の通信手段で実現されるが、放送手段(例えば、放送モジュール)で実現されてもよい。
【0449】
次に、音声処理装置の動作について図15および図16のフローチャートを用いて説明する。図15は、音声処理装置の動作を説明するフローチャートである。
【0450】
(ステップS1501)処理部53は、第一音声受付部521が第一音声を受け付けたか否かを判別する。第一音声受付部521が第一音声を受け付けたと判別された場合はステップS1502に進み、受け付けていないと判別された場合はステップS1501に戻る。
【0451】
(ステップS1502)蓄積部531は、ステップS201で受け付けられた第一音声を格納部1に蓄積する。
【0452】
(ステップS1503)音声認識部533は、ステップS1501で受け付けられた第一音声に対して音声認識処理を行い、第一文章を取得する。
【0453】
(ステップS1504)分割手段5321は、ステップS1503で取得された第一文章を2以上に分割し、2以上の第一文を取得する。
【0454】
(ステップS1505)処理部53は、第二音声受付部22が第二音声を受け付けたか否かを判別する。第二音声受付部522が第2音声を受け付けたと判別された場合はステップS1506に進み、受け付けていないと判別された場合はステップS1505に戻る。
【0455】
(ステップS1506)蓄積部531は、ステップS1505で受け付けられた第二音声を上記第一音声に対応付けて格納部1に蓄積する。
【0456】
(ステップS1507)音声認識部533は、ステップS1505で受け付けられた第二音声に対して音声認識処理を行い、第二文章を取得する。
【0457】
(ステップS1508)分割手段5321は、ステップS1507で取得された第二文章を2以上に分割し、2以上の第二文を取得する。
【0458】
(ステップS1509)文対応手段5322は、ステップS1504で取得された2以上の第一文のうち1以上の第一文と、ステップS1508で取得された2以上の第二文のうち1以上の第二文とを対応付ける処理である文対応処理を実行する。なお、文対応処理については、図16を用いて説明する。
【0459】
(ステップS1510)蓄積部531は、ステップS1509で対応付けられた1以上の第一文と1以上の第二文とを格納部1に蓄積する。
【0460】
(ステップS1511)音声対応手段5323は、当該1以上の第一文に対応する1以上の第一部分音声と、当該1以上の第二文に対応する1以上の第二部分音声とを対応付ける。
【0461】
(ステップS1512)蓄積部531は、ステップS1511で対応付けられた1以上の第一部分音声と1以上の第二部分音声とを格納部1に蓄積する。
【0462】
(ステップS1513)処理部53は、ステップS1509の文対応処理の結果を用いて、翻訳漏れフラグが対応付いた第一文があるか否かを判別する。翻訳漏れフラグが対応付いた第一文があると判別された場合はステップS1514に進み、ないと判別された場合はステップS1515に進む。
【0463】
(ステップS1514)通訳漏れ出力部541は、当該第一文を出力する。なお、このフォローチャートにおける出力は、例えば、ディスプレイへの表示であるが、端末への送信でもよい。
【0464】
(ステップS1515)処理部53は、第二話者の評価を行うか否かを判断する。例えば、受付部52が評価情報の出力指示を受け付けた場合に、処理部53は、第二話者の評価を行うと判断する。または、ステップS1509の文対応処理が完了したことに応じて、処理部53は、第二話者の評価を行うと判断してもよい。第二話者の評価を行うと判断された場合はステップS1516に進み、行わないと判断された場合は、この処理を終了する。
【0465】
(ステップS1516)評価取得部534は、ステップS1509の文対応処理の結果を用いて、第二音声を発した第二話者の評価情報を取得する。
【0466】
(ステップS1517)評価出力部542は、ステップS1516で取得された評価情報を出力する。その後、処理を終了する。
【0467】
図16は、ステップS1507の文対応処理を説明するフローチャートである。
【0468】
(ステップS1601)文対応手段5322は、変数iに初期値“1”をセットとする。変数iとは、ステップS1504で取得された2以上の第一文のうち、未選択の第一文を順番に選択していくための変数である。
【0469】
(ステップS1602)文対応手段5322は、i番目の第一文があるか否かを判別する。i番目の第一文があると判別された場合はステップS1603に進み、i番目の第一文がないと判別された場合はステップS1610に進む。
【0470】
(ステップS1603)文対応手段5322は、i番目の第一文に対応する第二文を検出する。
【0471】
詳しくは、機械翻訳手段53221が、i番目の第一文を第二言語に機械翻訳し、翻訳結果対応手段53222は、i番目の第一文の翻訳結果を、ステップS1508で取得された2以上の各第二文と比較し、類似度を取得する。そして、翻訳結果対応手段53222は、翻訳結果との類似度が最も高い第二文を特定し、特定した第二文の類似度が閾値以上である場合に、その特定した第二文を検出する。なお、特定した第二文の類似度が閾値未満である場合には、i番目の第一文に対応する第二文は検出されない。
【0472】
(ステップS1604)文対応手段5322は、ステップS1603での検出が成功したか否かを判断する。検出が成功したと判断された場合はステップS1605に進み、検出が成功しなかったと判断された場合はステップS1606に進む。
【0473】
(ステップS1605)文対応手段5322は、i番目の第一文を、ステップS1603で検出された第二文に対応付ける。その後、ステップS1607に進む。
【0474】
(ステップS1606)文対応手段5322は、i番目の第一文に翻訳漏れフラグを対応付ける。
【0475】
(ステップS1607)タイミング情報取得手段5324は、i番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報を取得する。
【0476】
(ステップS1608)タイミング情報対応手段5325は、i番目の第一文に当該第一タイミング情報を対応付ける。
【0477】
(ステップS1609)文対応手段5322は、変数iをインクリメントする。その後、ステップS1602に戻る。
【0478】
(ステップS1610)文対応手段5322は、変数jに初期値“1”をセットとする。変数jとは、ステップS1508で取得された2以上の第二文のうち、未選択の第二文を順番に選択していくための変数である。
【0479】
(ステップS1611)文対応手段5322は、j番目の第二文があるか否かを判別する。j番目の第二文があると判別された場合はステップS1612に進み、j番目の第二文がないと判別された場合は上位処理にリターンする。
【0480】
(ステップS1612)文対応手段5322は、j番目の第二文がいずれかの第一文に対応付いているか否かを判別する。j番目の第二文が、いずれかの第一文に対応付いている場合はステップS1613に進み、いずれの第一文にも対応付いていない場合はステップS1615に進む。
【0481】
(ステップS1613)文対応手段5322は、j番目の第二文が(j-1)番目の第二文と予め決められた関係があるか否かを判断する。j番目の第二文が(j-1)番目の第二文と予め決められた関係があると判断された場合はステップS1614に進み、予め決められた関係がないと判断された場合はステップS1615に進む。
【0482】
(ステップS1614)文対応手段5322は、j番目の第二文を(j-1)番目の第二文に対応する第一文に対応付ける。
【0483】
(ステップS1615)タイミング情報取得手段5324は、j番目の第二文に対応する第二部分音声に対応付いた第二タイミング情報を取得する。
【0484】
(ステップS1616)タイミング情報対応手段5325は、j番目の第二文に当該第二タイミング情報を対応付ける。
【0485】
(ステップS1617)文対応手段5322は、変数jをインクリメントする。その後、ステップS1611に戻る。
【0486】
以下、本実施の形態における音声処理装置の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明の範囲を何ら制限するものではない。
【0487】
本来における音声処理装置は、例えば、講演会場に設置されたスタンドアロンの端末である。この端末には、会場内の演壇に設置された第一話者用の第一マイクロフォンと、会場内の通訳者ブースに設置された第二話者用の第二マイクロフォンと、聴衆用の外部ディスプレイとが接続されている。第一話者は、講演者であり、第一言語である日本語の第一音声を発する。第二話者は、第一話者が発する第一音声を聴きながら、第二言語である英語への同時通訳を行い、英語の第二音声を発する。
【0488】
音声処理装置において、第一音声受付部521が第一マイクロフォンを介して第一音声「今日はわが社の2つの新製品をご紹介します。1つ目はスマートフォンです。このスマートフォンは新開発のカメラを搭載しています。このカメラはA社製です。このカメラの鮮明な画像はまさに目からうろこです。」を受け付け、蓄積部531は、受け付けられた第一音声を格納部51に蓄積する。蓄積される第一音声には、1秒ごとに第一時刻情報(“0:01”,“0:02”等)が対応付けられる。
【0489】
音声認識部533は、受け付けられた第一音声に対して音声認識処理を行い、第一文章“今日はわが社の2つの新製品をご紹介します。1つ目はスマートフォンです。このスマートフォンは新開発のカメラを搭載しています。このカメラはA社製です。このカメラの鮮明な画像はまさに目からうろこです。”を取得する。
【0490】
分割手段5321は、取得された第一文章を5分割し、5つの第一文“今日はわが社の2つの新製品をご紹介します。”,“1つ目はスマートフォンです。”,“このスマートフォンは新開発のカメラを搭載しています。”,“このカメラはA社製です。”,“このカメラの鮮明な画像はまさに目からうろこです。”を取得する。
【0491】
第二音声受付部522は、第二マイクロフォンを介して第二音声「Today we introduce two new products of our company. The first is a smartphone. This smartphone is equipped with a newly developed camera. The clear image of this camera is just me kara uroko. Me kara uroko means that the image is such clear as the scales fall from one’s eyes.」を受け付け、蓄積部531は、受け付けられた第二音声を上記第一音声に対応付けて格納部51に蓄積する。蓄積される第二音声には、1秒ごとに第二時刻情報(“0:05”,“0:06”等)が対応付けられる。
【0492】
音声認識部533は、受け付けられた第二音声に対して音声認識処理を行い、第二文章“Today we introduce two new products of our company. The first is a smartphone. This smartphone is equipped with a newly developed camera. The clear image of this camera is just me kara uroko. Me kara uroko means that the image is such clear as the scales fall from one’s eyes.”を取得する。
【0493】
分割手段5321は、取得された第二文章を5分割し、5つの第二文“Today we introduce two new products of our company.”,“The first is a smartphone.”,“This smartphone is equipped with a newly developed camera.”,“The clear image of this camera is just me kara uroko.”,“Me kara uroko means that the image is such clear as the scales fall from one’s eyes.”を取得する。
【0494】
蓄積部531は、取得された第一文章および取得された第二文章を、例えば、図17に示すように対応付けて格納部51に蓄積する。図17は、対応付けて格納された第一文章および第二文章の構造図である。第一文章は、2以上の第一文(ここでは、5つの第一文)で構成される。第二文章は、2以上の第二文(ここでは、5つの第二文)で構成される。
【0495】
第一文章を構成する2以上の各第一文には、フローチャートで説明した変数iが対応付けられる。また、2以上の各第一文には、第一時刻情報も対応付けられ得る。さらに、2以上の各第一文には、当該第一文の翻訳文も対応付けられ得る。
【0496】
同様に、第二文章を構成する2以上の各第二文には、変数jが対応付けられる。また、2以上の各第二文には、第二時刻情報も対応付けられる。
【0497】
文対応手段5322は、取得された2以上(ここでは5つ)の第一文のうち1以上の第一文と、取得された2以上の第二文(ここでは5つ)のうち1以上の第二文とを対応付ける下記のような文対応処理を実行する。
【0498】
すなわち、文対応手段5322は、まず、1番目の第一文に対応する第二文を検出する。詳しくは、機械翻訳手段53221が、1番目の第一文“今日はわが社の2つの新製品をご紹介します。”を機械翻訳し、翻訳結果“Today we introduce two new products of our company.”を取得する。なお、この翻訳結果は、例えば、図17に示したように、1番目の第一文に対応付けて蓄積されてもよい。
【0499】
翻訳結果対応手段53222は、この翻訳結果を、取得された上記2以上の各第二文と比較し、翻訳結果と一致する第二文である1番目の第二文“Today we introduce two new products of our company.”を検出する。文対応手段5322は、1番目の第一文“今日はわが社の2つの新製品をご紹介します。”を、検出された1番目の第二文“Today we introduce two new products of our company.”に対応付ける。
【0500】
また、タイミング情報取得手段5324が、1番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報を取得する。ここでは、第一タイミング情報“0:01”が取得されたとする。タイミング情報対応手段5325は、1番目の第一文に当該第一タイミング情報“0:01”を対応付ける。
【0501】
次に、2番目の第一文“1つ目はスマートフォンです。”の翻訳結果“The first product is a smartphone.”が取得され、この翻訳結果に類似する第二文である2番目の第二文“The first is a smartphone.”が検出される結果、2番目の第一文“1つ目はスマートフォンです。”と2番目の第二文“The first is a smartphone.”とが対応付けられる。また、2番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報(ここでは、“0:04”)が取得され、2番目の第一文に当該第一タイミング情報“0:04”が対応付けられる。
【0502】
次に、3番目の第一文“このスマートフォンは新開発のカメラを搭載しています。”の翻訳結果“This smartphone is provided with a newly developed camera.”が取得され、この翻訳結果に類似する第二文“This smartphone is equipped with a newly developed camera.”が検出される結果、3番目の第一文“1つ目はスマートフォンです。”と3番目の第二文“The first is a smartphone.”とが対応付けられる。また、3番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報(ここでは、“0:06”)が取得され、3番目の第一文に当該第一タイミング情報“0:06”が対応付けられる。
【0503】
次に、4番目の第一文“このカメラはA社製です。”の翻訳結果“This camera is made by company A.”が取得されるが、この翻訳結果に一致または類似する第二文は検出されないため、4番目の第一文“このカメラはA社製です。”には、翻訳漏れフラグが対応付けられる。また、4番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報(ここでは、“0:10”)が取得され、4番目の第一文に当該第一タイミング情報“0:10”が対応付けられる。
【0504】
次に、5番目の第一文“このカメラの鮮明な画像はまさに目からうろこです。”の翻訳結果“The clear image of this camera is just from the eye.”が取得され、この翻訳結果に類似する第二文である4番目の第二文“The clear image of this camera is just me kara uroko.”が検出される結果、5番目の第一文“このカメラの鮮明な画像はまさに目からうろこです。”と4番目の第二文“The clear image of this camera is just me kara uroko.”とが対応付けられる。また、5番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報(ここでは、“0:13”)が取得され、5番目の第一文に当該第一タイミング情報“0:13”が対応付けられる。
【0505】
次に、文対応手段5322は、取得された上記5つの第二文の各々について、当該第二文がいずれかの第一文に対応付いているか否かを判別する。1番目の第二文は、1番目の第二文に対応付いているため、判別結果は肯定的である。また、2番目,3番目,4番目の第二文も、それぞれ2番目,3番目,5番目の第1文に対応付いているため、判別結果は肯定的である。
【0506】
5番目の第二文は、いずれの第二文にも対応付いていないため、判別結果は否定的である。これに応じて、文対応手段5322は、5番目の第二文が、その直前の第二文である4番目の第二文と予め決められた関係があるか否かを判断する。本例において、予め決められた関係は、例えば、“当該第二文が、その直前の第二文に含まれる自立語を含む文である”、という関係である。
【0507】
5番目の第二文“Me kara uroko means that the image is such clear as the scales fall from one’s eyes.”と、4番目の第二文“The clear image of this camera is just me kara uroko.”とは、同じ自立語“me kara uroko”を含んでいるため、上記の予め決められた関係を満たすと判断される。
【0508】
かかる判断結果を受け、文対応手段5322は、5番目の第二文“Me kara uroko means that the image is such clear as the scales fall from one’s eyes.”を、4番目の第二文に対応する第一文である5番目の第一文に対応付ける。これによって、5番目の第一文には、4番目および5番目の2つの第二文が対応付けられる結果となる。
【0509】
次に、取得された上記5つの第二文の各々について、タイミング情報取得手段5324が、当該第二文に対応する第二部分音声に対応付いた第二タイミング情報を取得し、タイミング情報対応手段5325は、当該第二文に当該第二タイミング情報を対応付ける。ここでは、1番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“0:05”が取得され、1番目の第二文に当該第二タイミング情報“0:05”が対応付けられる。
【0510】
同様に、2番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“0:08”が取得され、2番目の第二文に当該第二タイミング情報“0:08”が対応付けられる。また、3番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“0:11”が取得され、3番目の第二文に当該第二タイミング情報“0:11”が対応付けられる。また、4番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“0:15”が取得され、4番目の第二文に当該第二タイミング情報“0:15”が対応付けられる。さらに、5番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“0:18”が取得され、5番目の第二文に当該第二タイミング情報“0:18”が対応付けられる。
【0511】
こうして、上記5つの第一文および上記5つの第二文に関し、1番目の第一文と1番目の第二文とが対応付けられ、2番目の第一文と2番目の第二文とが対応付けられ、4番目の第一文と3番目の第二文とが対応付けられ、5番目の第一文と4番目および5番目の2つの第二とが対応付けられると共に、3番目の第一文に、翻訳漏れフラグが対応付けられる結果となる。
【0512】
なお、上記のような対応付けは、例えば、図18に示すような2以上の対応情報を構成し、格納部51に蓄積することでもよい。図18は、文対応情報の構造図である。文対応情報は、変数iおよび変数jの組(i,j)を有する。2以上の各文対応情報には、ID(例えば、“1”,“2”等)が対応付いている。ID“1”に対応付いた文対応情報(以下、文対応情報1)は(1,1)を有する。
【0513】
同様に、ID“2”に対応付いた文対応情報2は(2,2)を有し、文対応情報3は(3,3)を有する。また、文対応情報4は(4,通訳漏れフラグ)を有する。さらに、文対応情報5は(5,4,5)を有する。
【0514】
蓄積部531は、上記のような文対応処理によって対応付けられた上記5つの第一文および上記5つの第二文を格納部51に蓄積する。なお、対応付けられた上記5つの第一文および上記5つの第二文の蓄積は、例えば、図18に示したような2以上の文対応情報の蓄積でもよい。
【0515】
次に、音声対応手段5323が、上記5つの第一文に対応する5つの第一部分音声と、上記5つの第二文に対応する5つの第二部分音声とを対応付け、蓄積部531は、対応付けられた上記5つの第一部分音声と上記5つの第二部分音声とを格納部51に蓄積する。
【0516】
次に、処理部53は、翻訳漏れフラグが対応付いた第一文があるか否かを判別し、その判別結果が肯定的である場合に、通訳漏れ出力部541は、当該第一文を、外部ディスプレイを介して出力する。ここでは、3番目の第一文に翻訳漏れフラグが対応付いていることから、外部ディスプレイに当該3番目の第一文“このカメラはA社製です”とその翻訳文“This camera is made by company A.”とが表示される。なお、3番目の第一文の翻訳文のみが表示され、3番目の第一文自体は表示されなくてもよい。これによって、聴衆は、同時通訳されなかった第一文である3番目の翻訳文“This camera is made by company A.”を見ることができる。
【0517】
以上が、上記第一音声「今日はわが社の2つの新製品をご紹介します。・・・このカメラの鮮明な画像はまさに目からうろこです。」および上記第二音声「Today we introduce two new products of our company.・・・ Me kara uroko means that the image is such clear as the scales fall from one’s eyes.」に関する動作である。これに続く他の第一音声および他の第二音声についても、同様の動作が行われる。
【0518】
講演会の終了後、第二話者所が所属する同時通訳サービス会社の担当者が、音声処理装置に対し、キーボード等の入力デバイスを介して、評価情報の出力指示を入力したとする。
【0519】
音声処理装置において、受付部52が評価情報の出力指示を受け付け、評価取得部534は、図18に示したような文対応処理の結果を参照して、通訳漏れ文の数m、2以上の第二文が対応付いた第一文の数n、および第一文に対する第二文の遅延tを取得する。ここでは、m=2、n=5、およびt=4秒が取得されたとする。
【0520】
なお、遅延tは、例えば、以下のように取得される。すなわち、評価取得部534は、1番目の第一文に対応付いた第一タイミング情報“0:01”と、これに対応する1番目の第二文に対応付いた第二タイミング情報“0:05”との差分“4秒”を取得する。また、評価取得部534は、2番目の第一文に対応付いた第一タイミング情報“0:04”と、これに対応する2番目の第二文に対応付いた第二タイミング情報“0:08”との差分“4秒”を取得する。また、評価取得部534は、3番目の第一文に対応付いた第一タイミング情報“0:06”と、これに対応する3番目の第二文に対応付いた第二タイミング情報“0:11”との差分“5秒”を取得する。なお、4番目の第一文には通訳漏れフラグが対応付いているので、差分は取得されない。
【0521】
さらに、評価取得部534は、5番目の第一文に対応付いた第一タイミング情報“0:14”と、これに対応する4番目および5番目の2つの第二文に対応付いた2つの第二タイミング情報“0:15”および“0:18”のうち前者との差分“2秒”を取得する。そして、評価取得部534は、取得した4つの差分“4秒”,“4秒”,“5秒”,“2秒の代表値(ここでは、最頻値)“4秒”を取得する。
【0522】
次に、評価取得部534は、通訳漏れ文の数mをパラメータとする減少関数に、取得したm=2を代入して算出された第一評価値を示す第一評価情報を取得する。第一評価値とは、翻訳漏れの少なさを示す評価値である。第一評価値は、例えば、最低評価を示す“1”から最高評価を示す“5”までの整数値で表現される。ここでは、第一評価情報“第一評価値=5”が取得されたとする。
【0523】
また、評価取得部534は、2以上の第二文が対応付いた第一文の数nをパラメータとする増加関数に、取得したn=5を代入して算出された第二評価値を示す第二評価情報を取得する。第二評価値とは、補充の多さを示す評価値である。第二評価値もまた、最低評価を示す“1”から最高評価を示す“5”までの整数値で表現される。ここでは、第二評価情報“第二評価値=4”が取得されたとする。
【0524】
さらに、評価取得部534は、遅延tをパラメータとする増加関数に、取得したt=4を代入して算出された第三評価値を示す第三評価情報を取得する。第三評価値とは、遅延の小さを示す評価値である。第三評価値は、例えば、最低評価を示す“1”から最高評価を示す“5”までの整数値で表現される。ここでは、第一評価情報“第一評価値=5”が取得されたとする。
【0525】
そして、評価取得部534は、第一~第三の3つの評価値を基に、総合評価を示す総合用評価情報を取得する。
【0526】
詳しくは、例えば、格納部51に、第一~第三の3評価値の平均値と総合評価との対の集合が格納されている。平均値と総合評価との対とは、例えば、平均値“4.5以上”と評価“A”との対、平均値“4以上4.5未満”と評価“A-”、平均値“3.5以上4未満”と評価“B”との対などである。評価取得部534は、取得した第一~第3の3評価値“4”,“5”,“5”の平均値“4.7”を取得し、当該平均値“4.7”に対応する総合評価情報“A”を取得する。
【0527】
評価出力部42は、取得された第一評価情報“第一評価値=4、取得された第二評価情報”第二評価値=5“、取得された第三評価情報”第三評価値=5“、および取得された総合評価情報”A”を基に、出力用の評価情報“翻訳漏れの少なさ:4,補充の多さ:5,遅延の短さ:5,総合評価:A”を構成し、ディスプレイを介して出力する。
【0528】
これによって、音声処理装置のディスプレイには、第二話者の評価情報“翻訳漏れの少なさ:4,補充の多さ:5遅延の短さ:5,総合評価:A”が表示され、担当者は、第二話者の評価を知ることができる。
【0529】
以上、本実施の形態によれば、音声処理装置は、第一言語の第一話者が発声した第一音声を受け付け、第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付け、第一音声と第二音声とを対応付けて蓄積することにより、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積できる。
【0530】
また、音声処理装置は、第一音声の一部分である第一部分音声と第二音声の一部分である第二部分音声とを対応付け、対応付けた第一部分音声と第二部分音声とを応付けて蓄積する音声処理装置である。
【0531】
かかる構成により、第一音声の部分と第二音声の部分とを対応付けて蓄積できる。
【0532】
また、音声処理装置は、第一音声に対して音声認識処理を行い、第一音声に対応する文字列である第一文章を取得し、第二音声に対して音声認識処理を行い、第二音声に対応する文字列である第二文章を取得し、第一文章を2以上の文に分割し、2以上の第一文を取得し、かつ第二文章を2以上の文に分割し、2以上の第二文を取得し、取得した1以上の第一文と1以上の第二文とを対応付け、対応付けた1以上の第一文に対応する1以上の第一部分音声と、対応付けた1以上の第二文に対応する1以上の第二部分音声とを対応付け、対応付けた1以上の第一部分音声と1以上の第二部分音声とを蓄積することにより、第一音声を音声認識した第一文章と、第二音声を音声認識した第二文章とをも対応付けて蓄積できる。
【0533】
また、音声処理装置は、取得した2以上の第一文を第二言語に機械翻訳し、または取得した2以上の第二文を機械翻訳し、機械翻訳した2以上の第一文の翻訳結果と、取得した2以上の第二文とを比較し、取得した1以上の第一文と1以上の第二文とを対応付ける、または機械翻訳した2以上の第二文の翻訳結果と、取得した2以上の第一文とを比較し、取得した1以上の第一文と1以上の第二文とを対応付けることにより、第一文と、当該第一文の機械翻訳の結果とをも対応付けて蓄積できる。
【0534】
また、音声処理装置は、取得した一の第一文と2以上の第二文とを対応付けることにより、一の第一文と、二以上の第二文とを対応付けて蓄積できる。
【0535】
また、音声処理装置は、取得した1以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と2以上の第二文とを対応付けることにより、第一文に対応付かない第二文を、その前の第二文に対応する第一文に対応付けることで、一の第一文と二以上の第二文との的確な対応付けができる。
【0536】
また、音声処理装置は、第一文に対応付かない第二文であり、第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、第一文に対応付かない第二文を当該第二文の前に位置する第二文に対応する第一文に対応付けることにより、第一文に対応付かない第二文であっても、直前の第二文と関係がない第二文は、当該直前の第二文に対応する第一文に対応付けないので、一の第一文と二以上の第二文とのより的確な対応付けができる。
【0537】
また、音声処理装置は、取得した2以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、検出結果を出力することにより、対応する第二文がない第一文の検出、および検出結果の出力によって、通訳漏れの存在を認識させることができる。
【0538】
また、音声処理装置は、1以上の第一文と1以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得し、評価情報を出力することにより、第一文と第二文との対応を基に、通訳者を評価できる。
【0539】
また、音声処理装置は、2以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得することにより、補充が多い通訳者ほど高く評価することで、的確な評価が行える。
【0540】
また、音声処理装置は、いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得することにより、漏れが多い通訳者ほど低く評価することで、的確な評価が行える。
【0541】
また、上記構成において、第一音声および第二音声は、タイミングを特定するタイミング情報に対応付いており、音声処理装置は、応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得することにより、遅延が大きい通訳者ほど低く評価することで、的確な評価が行える。
【0542】
また、音声処理装置は、2以上の第一文に対応付く2以上の第一タイミング情報、および2以上の第二文に対応付く2以上の第二タイミング情報を取得し、2以上の第一文に2以上の第一タイミング情報を対応付け、かつ2以上の第二文に2以上の第二タイミング情報を対応付けることにより、2以上の第一文に2以上の第一タイミング情報を対応付け、当該2以上の第一文に対応する2以上の第二文に2以上の第二タイミング情報を対応付けて蓄積できる。それによって、対応する第一文および第二文の間の遅延を用いた通訳者の評価などが行える。
【0543】
さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。
【0544】
本実施の形態における情報処理装置を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部521と、前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部522と、前記第一音声と前記第二音声とを対応付けて蓄積する蓄積部531として機能させるためのプログラムである。
【0545】
図19は、各実施の形態におけるプログラムを実行して、サーバ装置1や音声処理装置5等を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図19において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904とを備える。コンピュータ901には、図示しない第一マイクロフォンと、図示しない第二マイクロフォンと、図示しない外部ディスプレイとが接続されている。なお、キーボード902やマウス903やディスプレイ904等をも含むシステム全体をコンピュータと呼んでもよい。
【0546】
図20は、コンピュータシステム900の内部構成の一例を示す図である。図20において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、第一マイクロフォン917と、第二マイクロフォン918と、外部ディスプレイ919と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。
【0547】
コンピュータシステム900に、サーバ装置1や音声処理装置5等の機能を実行させるプログラムは、例えば、DVD、CD-ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されてもよい。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされてもよい。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれてもよい。
【0548】
プログラムは、コンピュータの詳細を示す901に、サーバ装置1や音声処理装置5等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
【0549】
なお、上述したコンピュータシステム900は、サーバまたは据え置き型の端末であるが、端末装置2や通訳者装置4や音声処理装置5等は、例えば、タブレット端末やスマートフォンやノートPCといった、携帯端末で実現されてもよい。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられてもよい。ただし、以上は例示であり、サーバ装置1や音声処理装置5等を実現するコンピュータのハードウェア構成は問わない。
【0550】
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0551】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0552】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(受付部52の受信機能、および出力部54の送信機能など)は、物理的に一の媒体で実現されてもよいことは言うまでもない。
【0553】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0554】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0555】
以上のように、本発明にかかる音声処理装置は、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積できるという効果を有し、音声処理装置等として有用である。
【0556】
また、本発明にかかるサーバ装置は、1以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定できるという効果を有し、サーバ装置等として有用である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20