特許7513288 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＡＢＥＬＯＮの特許一覧

特許7513288音声処理装置、コーパスの生産方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-01

(45)【発行日】2024-07-09

(54)【発明の名称】音声処理装置、コーパスの生産方法、およびプログラム

(51)【国際特許分類】

G10L 15/00 20130101AFI20240702BHJP

G06F 40/45 20200101ALI20240702BHJP

【ＦＩ】

G10L15/00 200C

G06F40/45

【請求項の数】 13

(21)【出願番号】P 2021522617

(86)(22)【出願日】2020-01-06

(86)【国際出願番号】 JP2020000057

(87)【国際公開番号】W WO2020240905

(87)【国際公開日】2020-12-03

【審査請求日】2022-11-17

(31)【優先権主張番号】P 2019102417

(32)【優先日】2019-05-31

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】518244150

【氏名又は名称】株式会社ＡＢＥＬＯＮ

(74)【代理人】

【識別番号】100115749

【弁理士】

【氏名又は名称】谷川英和

(72)【発明者】

【氏名】慎征範

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００８－２６９１２２（ＪＰ，Ａ）

【文献】特開２０１３－２０６２５３（ＪＰ，Ａ）

【文献】特開２０１６－７１７６１（ＪＰ，Ａ）

【文献】特開２０１６－２００７６４（ＪＰ，Ａ）

【文献】遠山仁美他，ＣＩＡＩＲ同時通訳データベースの構築と利用，電子情報通信学会技術研究報告，2004年07月，Vol.104, No.170，pp.7-12

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｆ４０／４０－４０／５８

(57)【特許請求の範囲】

【請求項1】

第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、
前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、
前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識部と、
前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理部と、
前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積部とを具備し、
前記音声対応処理部は、
前記第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ前記第二文章を２以上の文に分割し、２以上の第二文を取得する分割手段と、
前記分割手段が取得した１以上の第一文と１以上の第２文とを対応付ける文対応手段と、
前記文対応手段が対応付けた前記１以上の第一文に対応する１以上の第一部分音声と、前記文対応手段が対応付けた前記１以上の第二文に対応する１以上の第二部分音声とを対応付ける音声対応手段とを具備し、
前記蓄積部は、
前記音声対応処理部が対応付けた前記１以上の第一部分音声と前記１以上の第二部分音声とを蓄積する音声処理装置。

【請求項2】

前記文対応手段は、
前記分割手段が取得した２以上の第一文を第二言語に機械翻訳する、または前記分割手段が取得した２以上の第二文を機械翻訳する機械翻訳手段と、
前記機械翻訳手段が機械翻訳した２以上の第一文の翻訳結果と、前記分割手段が取得した２以上の第二文とを比較し、前記分割手段が取得した１以上の第一文と１以上の第二文とを対応付ける、または前記機械翻訳手段が機械翻訳した２以上の第二文の翻訳結果と、前記分割手段が取得した２以上の第一文とを比較し、前記分割手段が取得した１以上の第一文と１以上の第二文とを対応付ける翻訳結果対応手段とを具備する請求項１記載の音声処理装置。

【請求項3】

前記文対応手段は、
前記分割手段が取得した一の第一文と２以上の第二文とを対応付ける請求項１または請求項２記載の音声処理装置。

【請求項4】

前記文対応手段は、
前記分割手段が取得した１以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、当該第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と２以上の第二文とを対応付ける請求項３記載の音声処理装置。

【請求項5】

前記文対応手段は、
前記第一文に対応付かない第二文であり、当該第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、当該第一文に対応付かない第二文を当該第二文の前に位置する第二文に対応する第一文に対応付ける請求項４記載の音声処理装置。

【請求項6】

前記文対応手段は、
前記分割手段が取得した２以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、
前記文対応手段の検出結果を出力する通訳漏れ出力部をさらに具備する請求項１または請求項２記載の音声処理装置。

【請求項7】

前記文対応手段における１以上の第一文と１以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得する評価取得部と、
前記評価情報を出力する評価出力部とをさらに具備する請求項１から請求項６いずれか一項に記載の音声処理装置。

【請求項8】

前記評価取得部は、
２以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得する請求項７記載の音声処理装置。

【請求項9】

前記評価取得部は、
いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得する請求項７または請求項８記載の音声処理装置。

【請求項10】

前記第一音声および前記第二音声は、タイミングを特定するタイミング情報に対応付いており、
前記評価取得部は、
前記文対応手段が対応付けた第一文に対応付く第一タイミング情報と、当該第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得する請求項７から請求項９いずれか一項に記載の音声処理装置。

【請求項11】

前記音声対応処理部は、
前記２以上の第一文に対応付く２以上の第一タイミング情報、および前記２以上の第二文に対応付く２以上の第二タイミング情報を取得するタイミング情報取得手段と、
前記２以上の第一文に前記２以上の第一タイミング情報を対応付け、かつ前記２以上の第二文に前記２以上の第二タイミング情報を対応付けるタイミング情報対応手段とを更に具備する請求項１から請求項１０いずれか一項に記載の音声処理装置。

【請求項12】

第一音声受付部、第二音声受付部、音声認識部、音声対応処理部、および蓄積部によって実現される音声の対のコーパスの生産方法であって、
前記第一音声受付部が、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付ステップと、
前記第二音声受付部が、前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付ステップと、
前記音声認識部が、前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識ステップと、
前記音声対応処理部が、前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理ステップと、
前記蓄積部が、前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積ステップとを含み、
前記音声対応処理ステップは、
前記第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ前記第二文章を２以上の文に分割し、２以上の第二文を取得する分割サブステップと、
前記分割サブステップで取得された１以上の第一文と１以上の第２文とを対応付ける文対応サブステップと、
前記文対応サブステップで対応付けられた前記１以上の第一文に対応する１以上の第一部分音声と、前記文対応サブステップで対応付けられた前記１以上の第二文に対応する１以上の第二部分音声とを対応付ける音声対応サブステップとを具備し、
前記蓄積ステップにおいて、
前記音声対応処理部が対応付けた前記１以上の第一部分音声と前記１以上の第二部分音声とを蓄積する、コーパスの生産方法。

【請求項13】

コンピュータを、
第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、
前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、
前記第一音声に対して音声認識処理を行い、当該第一音声に対応する文字列である第一文章を取得し、前記第二音声に対して音声認識処理を行い、当該第二音声に対応する文字列である第二文章を取得する音声認識部と、
前記第一音声の一部分である第一部分音声と前記第二音声の一部分である第二部分音声とを対応付ける音声対応処理部と、
前記音声対応処理部が対応付けた前記第一部分音声と前記第二部分音声とを対応付けて蓄積する蓄積部として機能させるためのプログラムであって、
前記音声対応処理部は、
前記第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ前記第二文章を２以上の文に分割し、２以上の第二文を取得する分割手段と、
前記分割手段が取得した１以上の第一文と１以上の第２文とを対応付ける文対応手段と、
前記文対応手段が対応付けた前記１以上の第一文に対応する１以上の第一部分音声と、前記文対応手段が対応付けた前記１以上の第二文に対応する１以上の第二部分音声とを対応付ける音声対応手段とを具備し、
前記蓄積部は、
前記音声対応処理部が対応付けた前記１以上の第一部分音声と前記１以上の第二部分音声とを蓄積するものとして、前記コンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、同時通訳の音声を処理する音声処理装置等に関するものである。

【背景技術】

【0002】

従来、同時通訳者が会場から離れた同時通訳センターに於いて同時通訳を行い、会場に同時通訳音声を送ることができる遠隔同時通訳システムが存在した（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００７－３０６４２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

（第一の課題）
しかし、従来、第一音声と、当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積する仕組みは存在しなかった。

【0005】

（第二の課題）
なお、従来、１以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定する仕組みも存在しなかった。

【課題を解決するための手段】

【0006】

（第一の課題を解決するための手段）
本第一の発明の音声処理装置は、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部と、第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部と、第一音声と第二音声とを対応付けて蓄積する蓄積部とを具備する音声処理装置である。

【0007】

かかる構成により、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積できる。

【0008】

また、本第二の発明の音声処理装置は、第一の発明に対して、第一音声の一部分である第一部分音声と第二音声の一部分である第二部分音声とを対応付ける音声対応処理部をさらに具備し、蓄積部は、音声対応処理部が対応付けた第一部分音声と第二部分音声とを蓄積する音声処理装置である。

【0009】

かかる構成により、第一音声の部分と第二音声の部分とを対応付けて蓄積できる。

【0010】

また、本第三の発明の音声処理装置は、第二の発明に対して、第一音声に対して音声認識処理を行い、第一音声に対応する文字列である第一文章を取得し、第二音声に対して音声認識処理を行い、第二音声に対応する文字列である第二文章を取得する音声認識部をさらに具備し、音声対応処理部は、第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ第二文章を２以上の文に分割し、２以上の第二文を取得する分割手段と、分割手段が取得した１以上の第一文と１以上の第二文とを対応付ける文対応手段と、文対応手段が対応付けた１以上の第一文に対応する１以上の第一部分音声と、文対応手段が対応付けた１以上の第二文に対応する１以上の第二部分音声とを対応付ける音声対応手段とを具備し、蓄積部は、音声対応処理部が対応付けた１以上の第一部分音声と１以上の第二部分音声とを蓄積する音声処理装置である。

【0011】

かかる構成により、第一音声を音声認識した第一文章と、第二音声を音声認識した第二文章とをも対応付けて蓄積できる。

【0012】

また、本第四の発明の音声処理装置は、第三の発明に対して、文対応手段は、分割手段が取得した２以上の第一文を第二言語に機械翻訳する、または分割手段が取得した２以上の第二文を機械翻訳する機械翻訳手段と、機械翻訳手段が機械翻訳した２以上の第一文の翻訳結果と、分割手段が取得した２以上の第二文とを比較し、分割手段が取得した１以上の第一文と１以上の第二文とを対応付ける、または機械翻訳手段が機械翻訳した２以上の第二文の翻訳結果と、分割手段が取得した２以上の第一文とを比較し、分割手段が取得した１以上の第一文と１以上の第二文とを対応付ける翻訳結果対応手段とを具備する音声処理装置である。

【0013】

かかる構成により、第一文と、当該第一文の機械翻訳の結果とをも対応付けて蓄積できる。

【0014】

また、本第五の発明の音声処理装置は、第三または第四の発明に対して、文対応手段は、分割手段が取得した一の第一文と２以上の第二文とを対応付ける音声処理装置である。

【0015】

かかる構成により、一の第一文と、二以上の第二文とを対応付けて蓄積できる。

【0016】

また、本第六の発明の音声処理装置は、第五の発明に対して、文対応手段は、分割手段が取得した１以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と２以上の第二文とを対応付ける音声処理装置である。

【0017】

かかる構成により、第一文に対応付かない第二文を、その前の第二文に対応する第一文に対応付けることで、一の第一文と二以上の第二文との的確な対応付けができる。

【0018】

また、本第七の発明の音声処理装置は、第六の発明に対して、文対応手段は、第一文に対応付かない第二文であり、第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、第一文に対応付かない第二文を第二文の前に位置する第二文に対応する第一文に対応付ける音声処理装置である。

【0019】

かかる構成により、第一文に対応付かない第二文であっても、直前の第二文と関係がない第二文は、当該直前の第二文に対応する第一文に対応付けないので、一の第一文と二以上の第二文とのより的確な対応付けができる。

【0020】

また、本第八の発明の音声処理装置は、第三または第四の発明に対して、文対応手段は、分割手段が取得した２以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、文対応手段の検出結果を出力する通訳漏れ出力部をさらに具備する音声処理装置である。

【0021】

かかる構成により、対応する第二文がない第一文の検出、および検出結果の出力によって、通訳漏れの存在を認識させることができる。

【0022】

また、本第九の発明の音声処理装置は、第三から第八いずれか１つの発明に対して、文対応手段における１以上の第一文と１以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得する評価取得部と、評価情報を出力する評価出力部とをさらに具備する音声処理装置である。

【0023】

かかる構成により、第一文と第二文との対応を基に、通訳者を評価できる。

【0024】

また、本第十の発明の音声処理装置は、第九の発明に対して、評価取得部は、２以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得する音声処理装置である。

【0025】

かかる構成により、補充が多い通訳者ほど高く評価することで、的確な評価が行える。

【0026】

また、本第十一の発明の音声処理装置は、第九または第十の発明に対して、評価取得部は、いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得する音声処理装置である。

【0027】

かかる構成により、漏れが多い通訳者ほど低く評価することで、的確な評価が行える。

【0028】

また、本第十二の発明の音声処理装置は、第九から第十一いずれか１つの発明に対して、第一音声および第二音声は、タイミングを特定するタイミング情報に対応付いており、評価取得部は、文対応手段が対応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得する音声処理装置である。

【0029】

かかる構成により、遅延が大きい通訳者ほど低く評価することで、的確な評価が行える。

【0030】

また、本第十三の発明の音声処理装置は、第三から第十二いずれか１つの発明に対して、音声対応処理部は、２以上の第一文に対応付く２以上の第一タイミング情報、および２以上の第二文に対応付く２以上の第二タイミング情報を取得するタイミング情報取得手段と、２以上の第一文に２以上の第一タイミング情報を対応付け、かつ２以上の第二文に２以上の第二タイミング情報を対応付けるタイミング情報対応手段とを更に具備する音声処理装置である。

【0031】

かかる構成により、２以上の第一文に２以上の第一タイミング情報を対応付け、当該２以上の第一文に対応する２以上の第二文に２以上の第二タイミング情報を対応付けて蓄積できる。それによって、対応する第一文および第二文の間の遅延を用いた通訳者の評価などが行える。

【0032】

（第二の課題を解決するための手段）
本第一の発明のサーバ装置は、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、１または２以上、格納される格納部と、通訳者の端末装置である通訳者装置から、当該通訳者の通訳の対象である話者を識別する話者識別子と、当該通訳者の通訳言語に関する通訳言語情報とを有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信する受信部と、設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を格納部から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を通訳者識別子に対応付けて蓄積する言語設定部とを具備するサーバ装置である。

【0033】

かかる構成により、１以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定できる。

【0034】

本第二の発明のサーバ装置は、第一の発明に対し、通訳者が、１以上の話者のうち一の話者と、１以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を、１以上の各通訳者の通訳者装置に送信する配信部をさらに具備し、受信部は、１以上の各通訳者の通訳者装置から、当該通訳者を識別する通訳者識別子と対に、当該通訳者の通訳の対象である話者を識別する話者識別子をさらに有する設定結果を受信するサーバ装置である。

【0035】

かかる構成により、１以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを、容易かつ的確に設定できる。

【0036】

なお、第二の発明において、サーバ装置は、通訳者が、１以上の話者のうち一の話者と、１以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を構成する画面情報構成部をさらに具備し、配信部は、画面情報構成部が構成した通訳者設定画面情報を、１以上の各通訳者の通訳者装置に送信してもよい。

【0037】

本第三の発明のサーバ装置は、第一または第二の発明に対し、言語設定部は、取得した組を構成する第二言語識別子を格納部に蓄積し、配信部は、ユーザが、格納部に格納されている１以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報を、１以上の各ユーザの端末装置に送信し、受信部は、１以上の各ユーザの端末装置から、当該ユーザを識別するユーザ識別子と対に、当該ユーザが設定した主第二言語を識別する主第二言語識別子を少なくとも有する設定結果を受信し、言語設定部は、設定結果が有する少なくとも主第二言語識別子をユーザ識別子に対応付けて蓄積するサーバ装置である。

【0038】

かかる構成により、１以上の各ユーザの言語をも的確に設定できる。

【0039】

なお、第一の発明に従属する第三の発明において、サーバ装置は、ユーザが、格納部に格納されている１以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報を構成する画面情報構成部を備え、配信部は、画面情報構成部が構成したユーザ設定画面情報を、１以上の各ユーザの通訳者装置に送信してもよい。

【0040】

また、第二の発明に従属する第三の発明において、画面情報構成部は、ユーザが、格納部に格納されている１以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面情報をさらに構成し、配信部は、画面情報構成部が構成したユーザ設定画面情報を、１以上の各ユーザの通訳者装置にさらに送信してもよい。

【発明の効果】

【0041】

本発明によれば、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積する仕組みを実現できる。

【図面の簡単な説明】

【0042】

【図1】実施の形態１における通訳システムのブロック図

【図2】同サーバ装置の動作を説明するためのフローチャート

【図3】同サーバ装置の動作を説明するためのフローチャート

【図4】同端末装置の動作を説明するためのフローチャート

【図5】同話者情報のデータ構造図

【図6】同通訳者情報のデータ構造図

【図7】同ユーザ情報のデータ構造図

【図8】同変形例における通訳者装置のブロック図

【図9】同変形例において図２および図３のフローチャートに追加される、言語設定処理を説明するフローチャート

【図10】同通訳者・話者言語設定処理を説明するフローチャート

【図11】同ユーザ言語設定処理を説明するフローチャート

【図12】同通訳者設定画面の一例を示す図

【図13】同ユーザ設定画面の一例を示す図

【図14】実施の形態２における音声処理装置のブロック図

【図15】同音声処理装置の動作を説明するフローチャート

【図16】同文対応処理を説明するフローチャート

【図17】同第一文章および第二文章のデータ構造図

【図18】同文対応情報のデータ構造図

【図19】各実施の形態におけるコンピュータシステムの外観図

【図20】同コンピュータシステムの内部構成の一例を示す図

【発明を実施するための形態】

【0043】

（実施の形態１）
以下、通訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

【0044】

図１は、本実施の形態における通訳システムのブロック図である。通訳システムは、サーバ装置１、および２以上の端末装置２を備える。サーバ装置１は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、２以上の端末装置２の各々と通信可能に接続される。なお、通訳システムを構成する端末装置２の数は、本実施の形態では２以上としているが、１でもよい。

【0045】

サーバ装置１は、例えば、通訳システムを運営する運営企業のサーバであるが、クラウドサーバやＡＳＰサーバ等でもよく、そのタイプや所在は問わない。

【0046】

端末装置２は、例えば、通訳システムを利用するユーザの携帯端末である。なお、携帯端末とは、携帯可能な端末であり、例えば、スマートフォン、タブレット端末、携帯電話機、ノートＰＣ等であるが、その種類は問わない。ただし、端末装置２は、据え置き型の端末でもよく、そのタイプは問わない。

【0047】

なお、通訳システムは、通常、１または２以上の話者装置３、および１または２以上の通訳者装置４も備える。話者装置３は、講演会や討論会等で話をする話者の端末装置である。話者装置３は、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。通訳者装置４は、話者の話を通訳する通訳者の端末装置である。通訳者装置４もまた、例えば、据え置き型の端末であるが、携帯端末でもよいし、マイクロフォンでもよく、そのタイプは問わない。話者装置３等を実現する端末は、ネットワーク等を介してサーバ装置１と通信可能に接続される。話者装置３等を実現するマイクロフォンは、例えば、有線または無線でサーバ装置１に接続されるが、ネットワーク等を介してサーバ装置１と通信可能に接続されてもよい。

【0048】

サーバ装置１は、格納部１１、受信部１２、処理部１３、および配信部１４を備える。格納部１１は、話者情報群格納部１１１、通訳者情報群格納部１１２、およびユーザ情報群格納部１１３を備える。処理部１３は、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、および評価取得部１３９を備える。

【0049】

端末装置２は、端末格納部２１、端末受付部２２、端末送信部２３、端末受信部２４、および端末処理部２５を備える。端末格納部２１は、ユーザ情報格納部２１１を備える。端末処理部２５は、再生部２５１を備える。

【0050】

サーバ装置１を構成する格納部１１は、各種の情報を格納し得る。各種の情報とは、例えば、後述する話者情報群、後述する通訳者情報群、後述するユーザ情報群などである。

【0051】

また、格納部１１には、処理部１３による処理の結果も格納される。処理部１３による処理の結果とは、例えば、第一言語音声取得部１３１によって取得された第一言語音声、第二言語音声取得部１３２によって取得された第二言語音声、第一言語テキスト取得部１３３によって取得された第一言語テキスト、第二言語テキスト取得部１３４によって取得された第二言語テキスト、翻訳結果取得部１３５によって取得された翻訳結果、音声特徴量対応情報取得部１３６によって取得された音声特徴量対応情報、反応取得部１３７によって取得された反応情報、学習器構成部１３８によって構成された学習器、および評価取得部１３９によって取得された評価値などである。なお、こうした情報については後述する。

【0052】

話者情報群格納部１１１には、話者情報群が格納される。話者情報群とは、１以上の話者情報の集合である。話者情報とは、話者に関する情報である。話者とは、話をする者である。話者は、例えば、講演会で講演を行う講演者、討論会で討論を行う討論者などであるが、誰でもよい。

【0053】

話者情報は、例えば、話者識別子と、第一言語識別子とを有する。話者識別子とは、話者を識別する情報である。話者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ等であるが、話者の携帯端末を識別する端末識別子（例えば、ＭＡＣアドレス、ＩＰアドレス等）でもよく、話者を識別し得る情報であれば何でもよい。ただし、話者識別子は必須ではない。例えば、話者が一人だけの場合、話者情報は、話者識別子を有していなくてもよい。

【0054】

第一言語識別子とは、第一の言語を識別する情報である。第一の言語とは、話者が話す言語である。第一の言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。第一言語識別子は、例えば、“日本語”や“英語”等の言語名であるが、“日”や“英”等の略語でもよいし、ＩＤでもよく、第一の言語を識別できる情報であれば何でもよい。

【0055】

話者情報群格納部１１１には、例えば、会場識別子に対応付けて、１または２以上の話者情報群が格納されてもよい。会場識別子とは、会場を識別する情報である。会場とは、話者が話をする場所である。会場は、例えば、会議場、教室、ホールなどであるが、その種類や所在は問わない。会場識別子は、例えば、会場名、ＩＤなど、会場を識別し得る情報であれば何でもよい。

【0056】

ただし、話者情報群は必須ではなく、サーバ装置１は、話者情報群格納部１１１を備えていなくてもよい。

【0057】

通訳者情報群格納部１１２には、通訳者情報群が格納される。通訳者情報群とは、１以上の通訳者情報の集合である。通訳者情報とは、通訳者に関する情報である。通訳者とは、通訳をする者である。通訳とは、ある言語の音声を聴きながら、別の言語に訳出していくことである。通訳は、例えば、同時通訳であるが、逐次通訳でもよい。同時通訳とは、話者の話を聞くとほぼ同時に訳出を行う方式である。逐次通訳とは、話者の話を適宜な長さに区切りつつ、順次訳出していく方式である。

【0058】

通訳者は、第一の言語の音声を第二の言語に通訳する。第二の言語とは、ユーザが聴く又は読む言語である。第二の言語は、第一の言語と異なる言語であれば何語でもよい。例えば、第一の言語が日本語の場合、第二の言語は、英語、中国語、フランス語などである。

【0059】

具体的には、例えば、ある会場Ｘで講演者αが話す日本語を、通訳者Ａが英語に、通訳者Ｂが中国語に、通訳者Ｃがフランス語に、それぞれ翻訳してもよい。なお、同種の通訳を行う通訳者が２人以上いてもよい。例えば、二人の通訳者Ａ１およびＡ２が、日本語から英語への通訳を行い、サーバ装置１は、一方の通訳Ａ１またはＡ２の通訳音声と、他方の通訳Ａ２またはＡ１の通訳テキストとを２以上の端末装置２に配信してもよい。

【0060】

または、別の会場Ｙで、討論者βが話す日本語を、通訳者Ｅ，Ｆが英語，中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者Ｅ，Gが日，中にそれぞれ通訳してもよい。なお、この例では、一の通訳者Ｅが、日英および英日の双方向の通訳を行っているが、通訳者Ｅは、日英または英日の一方の通訳のみを行い、他方の通訳は、別の通訳者Ｈが行ってもよい。

【0061】

通訳者は、通常、話者が話をする会場で通訳を行うが、別の場所で通訳を行ってもよく、その所在は問わない。別の場所とは、例えば、運営企業の一室でも、各通訳者の自宅でも、どこでもよい。別の場所で通訳が行われる場合、話者の音声は、話者装置３からネットワーク等を介して通訳者装置４に送信される。

【0062】

通訳者情報は、例えば、第一言語識別子と、第二言語識別子と、通訳者識別子とを有する。第二言語識別子とは、前述した第二の言語を識別する情報である。第二言語識別子は、例えば、言語名、略語、ＩＤ等、何でもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ、端末識別子等、何でもよい。

【0063】

または、通訳者情報は、通訳者言語情報と通訳者識別子とで構成される、といってもよい。通訳者言語情報とは、通訳者の言語に関する情報である、通訳者言語情報は、例えば、第一言語識別子、第二言語識別子、および評価値を有する。評価値とは、通訳者が行った通訳の品質に関する評価を示す値である。品質は、例えば、分かりやすさ、誤訳の少なさ等である。評価値は、例えば、通訳者の音声を聴いたユーザの反応を基に取得される。評価値は、例えば、“５”，“４”，“３”等の数値であるが、“Ａ”，“Ｂ”，“Ｃ”等の文字でもよく、その表現形式は問わない。

【0064】

通訳者情報群格納部１１２には、例えば、会場識別子に対応付けて、１または２以上の通訳者情報群が格納されてもよい。

【0065】

ユーザ情報群格納部１１３には、ユーザ情報群が格納される。ユーザ情報群とは、１または２以上のユーザ情報の集合である。ユーザ情報とは、ユーザに関する情報である。ユーザとは、前述したように、通訳システムの利用者である。ユーザは、端末装置２を介して、話者の話を通訳した音声である通訳音声を聴くことができる。また、ユーザは、通訳音声を音声認識したテキストである通訳テキストを読むこともできる。

【0066】

なお、ユーザは、通常、話者が居る会場内で通訳音声を聴くが、別の場所で通訳音声を聴いてもよく、その所在は問わない。別の場所とは、例えば、ユーザの自宅、電車の中など、どこでもよい。

【0067】

ユーザ情報は、ユーザ識別子と、第二言語識別子とを有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、氏名、メールアドレス、携帯電話番号、ＩＤ、端末識別子等、何でもよい。

【0068】

ユーザ情報が有する第二言語識別子は、ユーザが聴く又は読む言語を識別する情報である。ユーザ情報が有する第二言語識別子は、ユーザ自身の選択に基づく情報であり、通常、変更可能であるが、固定的な情報でもよい。

【0069】

または、ユーザ情報は、ユーザ言語情報とユーザ識別子とで構成される、といってもよい。ユーザ言語情報とは、ユーザの言語に関する情報である。ユーザ言語情報は、例えば、主第二言語識別子、副第二言語識別子群、およびデータ形式情報などを有する。主第二言語識別子とは、主たる第二言語（以下、主第二言語）を識別する情報である。副第二言語識別子群とは、１または２以上の副第二言語識別子の集合である。副第二言語識別子とは、主たる第二言語に加えて選択可能な、副次的な第二言語（以下、副第二言語）を識別する情報である。

【0070】

例えば、主第二言語がフランス語である場合、副第二言語は、英語でもよいし、中国語でもよく、主第二言語とは異なる言語であれば何語でもよい。

【0071】

データ形式情報とは、第二言語のデータ形式に関する情報である。データ形式情報は、通常、主第二言語のデータ形式を示す。主第二言語のデータ形式は、音声またはテキストであり、データ形式情報は、“音声”または“テキスト”のうち１以上のデータ形式を含み得る。つまり、主第二言語は、音声でもよいし、テキストでもよいし、音声およびテキストの両方でもよい。

【0072】

なお、データ形式情報は、本実施の形態においては、例えば、ユーザの選択に基づく情報であり、変更可能である。ユーザは、主第二言語については、音声を聴いてもよいし、テキストを読んでもよいし、音声を聴きながらテキストを読むこともできる。

【0073】

これに対し、副第二言語のデータ形式は、本実施の形態においては、テキストであり、変更できないものとする。つまり、ユーザは、例えば、主第二言語のテキストに加えて、副第二言語のテキストをも読むことができる。

【0074】

ユーザ情報群格納部１１３には、例えば、会場識別子に対応付けて、１または２以上のユーザ情報群が格納されてもよい。

【0075】

受信部１２は、各種の情報を受信する。各種の情報とは、例えば、後述する端末装置２の端末受付部２２が受け付けた各種の情報などである。

【0076】

処理部１３は、各種の処理を行う。各種の処理とは、例えば、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、および評価取得部１３９などの処理である。

【0077】

また、処理部１３は、フローチャートで説明する各種の判別も行う。さらに、処理部１３は、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、および評価取得部１３９の各々が取得した情報を、時刻情報に対応付けて、格納部１１に蓄積する処理をも行う。

【0078】

時刻情報とは、時刻を示す情報である。時刻情報は、通常、現在時刻を示す情報である。ただし、時刻情報は、相対的な時間を示す情報でもよい。相対的な時間とは、基準となる時刻に対する時間であり、例えば、講演会等の開始時刻からの経過時間などでもよい。処理部１３は、第一言語音声等の情報が取得されたことに応じて、ＭＰＵの内蔵時計やＮＴＰサーバ等から現在時刻を示す時刻情報を取得し、第一言語音声取得部１３１等によって取得された情報を当該時刻情報に対応付けて格納部１１に蓄積する。ただし、第一言語音声取得部１３１等によって取得された情報が時刻情報を含んでいてもよく、その場合、処理部１３は、取得された情報の時刻情報への対応付けを行わなくてもよい。

【0079】

第一言語音声取得部１３１は、第一言語音声を取得する。第一言語音声とは、一の話者が話した第一の言語の音声のデータである。一の話者とは、唯一の話者（例えば、講演会で話をする講演者）でもよいし、２以上の話者（例えば、討論会で対話をする２以上の討論者）のうち発言中の話者でもよい。取得とは、通常、第一言語音声の受信である。

【0080】

すなわち、第一言語音声取得部１３１は、例えば、１以上の話者装置３から送信される１以上の第一言語音声を受信する。例えば、講演者の口元または近傍にマイクロフォンが設けられており、第一言語音声取得部１３１は、このマイクロフォンを介して、第一言語音声を取得する。

【0081】

なお、第一言語音声取得部１３１は、話者情報群を用いて、１以上の話者装置３から１以上の第一言語音声を取得してもよい。例えば、話者が話をする会場が、ユーザの居ないスタジオである場合に、受信部１２は、自宅等に居る１以上の各ユーザの携帯端末２から、話者識別子を受信する。第一言語音声取得部１３１は、話者情報群（後述する図５を参照）を構成する１以上の話者情報を用いて、受信部１２が受信した話者識別子で識別される話者の話者装置３に、第一言語音声の要求を送信し、当該要求に応じて話者装置３から送信される第一言語音声を受信してもよい。

【0082】

ただし、第一言語音声は必須ではなく、サーバ装置１は、第一言語音声取得部１３１を備えていなくてもよい。

【0083】

第二言語音声取得部１３２は、１以上の第二言語音声を取得する。第二言語音声とは、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである。第二の言語とは、前述したように、ユーザが聴く又は読む言語であり、第一の言語と異なる言語であれば何語でもよい。

【0084】

ただし、第二の言語は、ユーザ情報群格納部１１３に格納されている２以上の言語識別子のいずれかに対応する言語であり、かつ、通訳者情報群格納部１１２に格納されている１以上の第二言語識別子に対応する１以上の言語以外の言語であることは好適である。または、第二の言語は、ユーザ情報群格納部１１３に格納されている２以上の言語識別子のいずれかに対応する言語であれば、通訳者情報群格納部１１２に格納されている１以上の第二言語識別子に対応する１以上の言語のいずれかと重複する言語でもよい。

【0085】

第二言語音声取得部１３２は、例えば、１以上の通訳者装置４から送信される１以上の第二言語音声を受信する。

【0086】

または、第二言語音声取得部１３２は、通訳者情報群を用いて、１以上の通訳者装置４から１以上の第二言語音声を取得してもよい。詳しくは、第二言語音声取得部１３２は、通訳者情報群を構成する１以上の通訳者情報を用いて、１以上の通訳者識別子を取得し、取得した１以上の各通訳者識別子で識別される通訳者の通訳者装置４に、第二言語音声の要求を送信する。そして、第二言語音声取得部１３２は、当該要求に応じて当該通訳者装置４から送信される第二言語音声を受信する。

【0087】

第一言語テキスト取得部１３３は、第一言語テキストを取得する。第一言語テキストとは、一の話者が話した第一の言語のテキストのデータである。第一言語テキスト取得部１３３は、例えば、第一言語音声取得部１３１が取得した第一言語音声を音声認識することにより、第一言語テキストを取得する。または、第一言語テキスト取得部１３３は、話者のマイクロフォンからの音声を音声認識することにより、第一言語音声を取得してもよい。または、第一言語テキスト取得部１３３は、話者情報群を用いて、１以上の各話者の端末装置２からの音声を音声認識することにより、第一言語音声を取得してもよい。

【0088】

第二言語テキスト取得部１３４は、１以上の第二言語テキストを取得する。第二言語テキストとは、１以上の各通訳者が通訳した第二言語のテキストのデータである。第二言語テキスト取得部１３４は、例えば、第二言語音声取得部１３２が取得した１以上の第二言語音声をそれぞれ音声認識することにより、１以上の第二言語テキストを取得する。

【0089】

翻訳結果取得部１３５は、１以上の翻訳結果を取得する。翻訳結果とは、第一言語テキストを翻訳エンジンにより翻訳した結果である。なお、翻訳エンジンによる翻訳は公知技術であり、説明を省略する。翻訳結果は、翻訳テキストまたは翻訳音声のうち１以上のデータを含む。翻訳テキストとは、第一言語テキストを第二の言語に翻訳したテキストである。翻訳音声とは、翻訳テキストを音声変換した音声である。なお、音声変換は、音声合成といってもよい。

【0090】

翻訳結果取得部１３５は、例えば、ユーザ情報群が有する２以上の第二言語識別子のうち、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しないことは好適である。

【0091】

詳しくは、翻訳結果取得部１３５は、例えば、ユーザ情報群が有する２以上の各第二言語識別子ごとに、当該第二言語識別子が、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なるか否かの判別を行う。そして、翻訳結果取得部１３５は、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子を取得する一方、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ第二言語識別子を取得しない。

【0092】

音声特徴量対応情報取得部１３６は、第一言語音声取得部１３１が取得した第一言語音声と、第二言語音声取得部１３２が取得した１以上の第二言語音声とを用いて、１以上の各言語情報ごとに、音声特徴量対応情報を取得する。音声特徴量対応情報とは、第一言語音声および第二言語音声の組における特徴量の対応を示す情報である。

【0093】

言語情報とは、言語に関する情報である。言語情報は、例えば、第一言語識別子および第二言語識別子の組（例えば、“日英”、“日中”、“日仏”等）であるが、そのデータ構造は問わない。第一言語音声および第二言語音声の対応は、例えば、要素を単位とする対応であってもよい。ここでいう要素とは、文を構成する要素である。文を構成する要素とは、例えば、形態素である。形態素とは、自然言語の文を構成する１以上の各要素である。形態素は、例えば、単語であるが、文節などでもよい。または、要素は、一の文全体でもよく、文の要素であれば何でもよい。

【0094】

特徴量とは、例えば、要素の特徴を定量的に示す情報である、といってもよい。特徴量は、例えば、形態素を構成する音素の配列（以下、音素列）である。または、特徴量は、音素列におけるアクセントの位置などでもよい。

【0095】

音声特徴量対応情報取得部１３６は、例えば、２以上の各言語情報ごとに、第一言語音声および第二言語音声に対して形態素解析を行い、第一言語音声および第二言語音声の間の対応する２つの形態素を特定し、当該２つの各形態素の特徴量を取得してもよい。なお、形態素解析は公知技術であり、説明を省略する。

【0096】

または、音声特徴量対応情報取得部１３６は、２以上の各言語情報ごとに、第一言語音声および第二言語音声に対して、１以上の無音期間の検知、および１以上の無音期間を挟んで音声を２以上の区間に区切る分節を行ってもよい。なお、無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。音声特徴量対応情報取得部１３６は、第一言語音声および第二言語音声の間の対応する２つの区間を特定し、当該２つの区間の特徴量を取得してもよい。例えば、第一言語音声の２以上の各区間に“１”，“２”，“３”等の番号を対応付ける一方、第二言語音声の２以上の各区間にも“１”，“２”，“３”等の番号を対応付け、同じ番号に対応付いている２つの区間を、対応する区間とみなしても構わない。

【0097】

反応取得部１３７は、２以上の反応情報を取得する。反応情報とは、通訳者の通訳に対するユーザの反応に関する情報である。反応情報は、例えば、ユーザ識別子と、反応種類とを有する。反応種類とは、反応の種類を示す情報である。反応種類は、例えば、“頷く”、“首を傾げる”、“笑う”等であるが、“無反応”でもよく、その種類や表現形式は問わない。

【0098】

ただし、反応情報は、ユーザ識別子を有していなくてもよい。すなわち、一の通訳者の通訳に反応した個々のユーザが特定されなくてもよく、例えば、かかるユーザの主第二言語が特定できればよい。従って、反応情報は、例えば、ユーザ識別子に代えて、第二言語識別子を有していてもよい。さらに、例えば、通訳者がただ一人の場合、反応情報は、単に反応種別を示す情報であっても構わない。

【0099】

通訳者が２人以上の場合、例えば、会場内は、当該２以上の通訳者に対応する２以上の各第二言語の区画（例えば、英語の区画、中国語の区画等）に区分けされる。そして、これら２以上の各言語の区画の前方側に、当該区画内の１以上のユーザの顔を撮影可能なカメラが設置される。

【0100】

反応取得部１３７は、２以上の各言語の区画ごとのカメラから画像を受信し、当該画像に対して顔検出を行うことにより、当該区画内に居る１以上の顔画像を取得する。なお、顔検出は公知技術であり、説明を省略する。格納部１１には、顔画像の特徴量と反応種別（例えば、“頷く”，“首を傾げる”，“笑う”等）との対の集合が格納されており、反応取得部１３７は、１以上の各顔画像ごとに、当該顔画像からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の１以上のユーザの各々または集団の視覚的な反応に関する１以上の反応情報を取得する。

【0101】

なお、会場内の左右に、２以上の各言語の区画内で発生する音（例えば、拍手音、笑い声等）を検出可能な、一対のマイクロフォンが設置されてもよい。格納部１１には、音の特徴量と反応種別（例えば、“拍手する”，“笑う”等）との対の集合が格納されており、反応取得部１３７は、一対のマイクロフォンからの左右の音を用いて、音の発生を検知し、かつその音源の位置を特定する。そして、２以上の各言語の区画ごとに、左右の少なくとも一方のマイクロフォンの音からの特徴量の取得、および当該特徴量に対応する反応種別の特定を行うことにより、当該区画内の１以上のユーザの集団の聴覚的な反応に関する１以上の反応情報を取得してもよい。

【0102】

または、反応取得部１３７は、例えば、ユーザ情報群を用いて、２以上の各ユーザごとに、後述する端末装置２の再生部２５１が再生した第二言語音声に対する反応情報を取得してもよい。

【0103】

詳しくは、例えば、処理部１３が、事前に、２以上の各ユーザから、当該ユーザの端末装置２を介して、当該ユーザの顔画像を受け付け、ユーザ識別子と顔画像との対の集合を格納部１１に蓄積しておく。会場には、１または２以上のカメラが設置されており、反応取得部１３７は、当該１以上の各カメラからのカメラ画像を用いて顔認識を行い、２以上の各ユーザの顔画像を検出する。次に、反応取得部１３７は、カメラ画像中の２以上の各顔画像を用いて、２以上の各ユーザ識別子ごとに反応情報を取得する。処理部１３は、２以上の各ユーザ識別子ごとに取得された反応情報を、時刻情報に対応付けて格納部１１に蓄積する。

【0104】

または、反応取得部１３７は、２以上の各ユーザごとに、当該ユーザの端末装置２の内蔵カメラを介して、当該ユーザの顔画像を取得し、当該顔画像を用いて反応情報を取得してもよい。

【0105】

学習器構成部１３８は、１以上の各言語情報ごとに、２以上の音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。学習器とは、２以上の音声特徴量対応情報を教師データとして、第一言語音声の特徴量と第二言語音声の特徴量との対応を機械学習することにより、第一言語音声の入力に対し、対応する第二言語音声を出力するための情報である、といってもよい。機械学習は、例えば、ディープラーニング、ランダムフォレスト、決定木等であるが、種類は問わない。ディープラーニング等の機械学習は公知技術であり、説明を省略する。

【0106】

学習器構成部１３８は、反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。

【0107】

選別とは、高い精度の学習器の構成に好適な組を選択すること又は不適な組を捨てることである、といってもよい。好適な組か否かは、例えば、第二言語音声に対する反応情報が予め決められた条件を満たすか否かで判断される。第二言語音声に対する反応情報とは、第二言語音声の直後の反応情報である。予め決められた条件は、例えば、“拍手の音または頷く動作のうち１以上が検出される”等であってもよい。なお、選別は、例えば、好適な組または当該好適な組を構成する第二言語音声の格納部１１への蓄積、または不適な組または当該不適な組を構成する第二言語音声の格納部１１からの削除によって実現されてもよい。または、選別は、ある部が取得した好適な組に関する情報を他の部に引き渡す一方、不適な組に関する情報は引き渡さずに捨てることでもよい。

【0108】

選別は、サーバ装置１のどの部が行ってもよい。例えば、最も前段階の音声特徴量対応情報取得部１３６が選別を行うことは好適である。すなわち、音声特徴量対応情報取得部１３６は、例えば、２以上の各組を構成する第二言語音声に対応する反応情報が予め決められた条件を満たすか否かを判断し、当該条件を満たすと判断した反応情報に対応する第二言語音声を含む組から、音声特徴量対応情報を取得する。なお、条件を満たすと判断した反応情報に対応する第二言語音声とは、当該反応情報の直前の第二言語音声である。

【0109】

なお、学習器構成部１３８が選別を行ってもよい。詳しくは、学習器構成部１３８は、例えば、反応取得部１３７が取得した２以上の反応情報を用いて、１以上の各第二言語識別子ごとに、教師データとなる２以上の音声特徴量対応情報のうち、予め決められた条件を満たした音声特徴量対応情報を捨ててもよい。

【0110】

予め決められた条件は、例えば、一の第二言語音声を聴いている２以上のユーザのうち、同じ時刻に、首を傾げたユーザの数または割合が閾値以上又は閾値より多い、という条件である。学習器構成部１３８は、かかる条件を満たした音声特徴量対応情報として、教師データとなる２以上の音声特徴量対応情報のうち、当該第二言語音声に対応する音声特徴量対応情報であり、かつ当該時刻に対応する音声特徴量対応情報を捨てる。

【0111】

評価取得部１３９は、１以上の各通訳者ごとに、当該通訳者に対応する２以上の反応情報を用いて、評価情報を取得する。評価情報とは、ユーザによる通訳者の評価に関する情報である。評価情報は、例えば、通訳者識別子と、評価値とを有する。評価値とは、評価を示す値である。評価値は、例えば、５，４，３等の数値であるが、Ａ，Ｂ，Ｃ等の文字で表現されてもよい。

【0112】

評価取得部１３９は、例えば、反応情報をパラメータとする関数を用いて評価値を取得する。具体的には、評価取得部１３９は、例えば、首を傾げた回数をパラメータとする減少関数を用いて評価値を取得してもよい。または、評価取得部１３９は、頷いた回数または笑った回数のうち１以上をパラメータとする増加関数を用いて評価値を取得してもよい。

【0113】

配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語音声取得部１３２が取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声を配信する。

【0114】

また、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語テキスト取得部１３４が取得した１以上の第二言語テキストのうち、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストを配信することもできる。

【0115】

さらに、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、翻訳結果取得部１３５が取得した１以上の翻訳結果のうち、端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する翻訳結果をも配信することもできる。

【0116】

詳しくは、配信部１４は、例えば、ユーザ情報群を構成する１以上の各ユーザ情報を用いて、ユーザ識別子、主第二言語識別子、およびデータ形式情報を取得し、取得したユーザ識別子で識別されるユーザの端末装置２に、取得した主第二言語識別子で識別される主第二言語の音声およびテキストのうち、取得したデータ形式情報に対応する１以上の情報を送信する。

【0117】

従って、あるユーザ情報（例えば、後述する図７の１番目のユーザ情報を参照）が、ユーザ識別子“ａ”、主第二言語識別子“英”、およびデータ形式情報“音声”を有する場合は、ユーザ識別子“ａ”で識別されるユーザａの端末装置２に、主第二言語識別子“英”で識別される英語の音声が配信される。

【0118】

また、他のユーザ情報（例えば、図７の２番目のユーザ情報）が、ユーザ識別子“ｂ”、主第二言語識別子“中”、およびデータ形式情報“音声＆テキスト”を有する場合は、ユーザ識別子“ｂ”で識別されるユーザｂの端末装置２に、主第二言語識別子“中”で識別される中国語の音声が中国語のテキストと共に配信される。

【0119】

また、その他のユーザ情報（例えば、図７の３番目のユーザ情報）が、ユーザ識別子“ｃ”、主第二言語識別子“独”、およびデータ形式情報“テキスト”を有する場合は、ユーザ識別子“ｃ”で識別されるユーザｃの端末装置２に、主第二言語識別子“独”で識別されるドイツ語の翻訳テキストが配信される。

【0120】

加えて、配信部１４は、ユーザ情報群を用いて、２以上の各端末装置２に、第二言語テキスト取得部１３４が取得した１以上の第二言語テキストのうち、端末装置２に対応するユーザ情報が有する副第二言語識別子群に対応する１以上の第二言語テキストをも配信することもできる。

【0121】

詳しくは、さらにその他のユーザ情報（例えば、図７の４番目のユーザ情報）が、ユーザ識別子“ｄ”、主第二言語識別子“仏”、副言語識別子群“英”、およびデータ形式情報“音声＆テキスト”を有する場合は、ユーザ識別子“ｄ”で識別されるユーザｄの端末装置２に、主第二言語識別子“仏”で識別されるフランス語の音声が、フランス語および英語の２種類のテキストと共に配信される。

【0122】

なお、配信部１４は、第二言語音声または第二言語テキストのうち１以上を、例えば、第二言語識別子と対に配信してもよい。または、配信部１４は、第二言語音声または第二言語テキストのうち１以上を、通訳者識別子および第二言語識別子と対に配信してもよい。

【0123】

また、配信部１４は、第一言語音声または第一言語テキストのうち１以上を、例えば、第一言語識別子と対に配信してもよい。または、配信部１４は、第一言語音声または第一言語テキストのうち１以上を、話者識別子および第一言語識別子と対に配信してもよい。

【0124】

さらに、配信部１４は、１以上の翻訳結果を、例えば、第二言語識別子と対に配信してもよい。または、配信部１４は、１以上の翻訳結果を、第二言語識別子、および翻訳エンジンによる翻訳である旨の情報と対に配信してもよい。

【0125】

ただし、第二言語識別子等の言語識別子の配信は必須ではなく、配信部１４は、第二言語音声等の音声または第二言語テキスト等のテキストのうち１種類以上の情報のみを配信すればよい。

【0126】

端末装置２を構成する端末格納部２１は、各種の情報を格納し得る。各種の情報とは、例えば、ユーザ情報である。また、端末格納部２１には、後述する端末受信部２４が受信した各種の情報も格納される。

【0127】

ユーザ情報格納部２１１には、当該端末装置２のユーザに関するユーザ情報が格納される。ユーザ情報は、前述したように、例えば、ユーザ識別子、および言語情報を有する。言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。

【0128】

ただし、端末装置２にユーザ情報が記憶されることは必須ではなく、端末格納部２１は、ユーザ情報格納部２１１を備えていなくてもよい。

【0129】

端末受付部２２は、例えば、タッチパネルやキーボード等の入力デバイスを介して、各種の操作を受け付け得る。各種の操作とは、例えば、主第二言語を選択する操作である。端末受付部２２は、かかる操作を受け付け、主第二言語識別子を取得する。

【0130】

また、端末受付部２２は、主第二言語に関し、音声またはテキストのうち１以上のデータ形式を選択する操作をさらに受け付け得る。端末受付部２２は、かかる操作を受け付け、データ形式情報を取得する。

【0131】

さらに、端末受付部２２は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する２以上の第二言語識別子のうち、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子とは異なる１以上の第二言語識別子をさらに選択する操作をも受け付け得る。端末受付部２２は、かかる操作を受け付け、副第二言語識別子群を取得する。

【0132】

端末送信部２３は、端末受付部２２が受け付けた各種の情報（例えば、主第二言語識別子、副第二言語識別子群、データ形式情報など）をサーバ装置１に送信する。

【0133】

端末受信部２４は、サーバ装置１から配信される各種の情報（例えば、第二言語音声、１以上の第二言語テキスト、翻訳結果など）を受信する。

【0134】

端末受信部２４は、サーバ装置１から配信される第二言語音声を受信する。なお、サーバ装置１から当該端末装置２に配信される第二言語音声は、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語音声である。

【0135】

また、端末受信部２４は、サーバ装置１から配信される１以上の第二言語テキストをも受信する。なお、サーバ装置１から当該端末装置２に配信される１以上の第二言語テキストとは、例えば、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキストである。または、サーバ装置１から当該端末装置２に配信される１以上の第二言語テキストとは、当該端末装置２に対応するユーザ情報が有する主第二言語識別子に対応する第二言語テキスト、および当該ユーザ情報が有する副第二言語識別子群に対応する１以上の第二言語テキストであってもよい。

【0136】

すなわち、端末受信部２４は、例えば、上記第二言語音声を音声認識した第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信する。

【0137】

端末処理部２５は、各種の処理を行う。各種の処理とは、例えば、再生部２５１の処理である。また、端末処理部２５は、例えば、フローチャートで説明する各種の判別や蓄積をも行う。蓄積とは、端末受信部２４が受信した情報を、時刻情報に対応付けて、端末格納部２１に蓄積する処理である。

【0138】

再生部２５１は、端末受信部２４が受信した第二言語音声を再生する。第二言語音声を再生することは、通常、スピーカを介した音声出力も含むが、含まないと考えてもよい。

【0139】

再生部２５１は、１以上の第二言語テキストをも出力する。第二言語テキストを出力することは、通常、ディスプレイへの表示であるが、例えば、記録媒体への蓄積、プリンタでのプリントアウト、外部の装置への送信、他のプログラムへの引渡しなどをも含むと考えてもよい。

【0140】

再生部２５１は、端末受信部２４が受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。

【0141】

再生部２５１は、第二言語音声の再生を中断後に再開する場合、当該第二言語音声の未再生部分を、早送りで追っかけ再生する。追っかけ再生とは、再生を中断した後に、サーバ装置１から受信した第二言語音声を格納部１１に蓄積する動作（例えば、バッファリング、キューイングといってもよい）を行いながら、格納部１１に格納されている未再生部分の先頭から再生を行うことである。追っかけ再生の再生速度が通常の再生速度と同じであれば、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に対して、一定時間だけ遅延した状態が継続する。一定時間とは、再生再開の時点での遅延時間である。遅延時間とは、例えば、当該未再生部分が再生されるべきであった時刻に対して遅れている時間である、といってもよい。

【0142】

これに対して、追っかけ再生の再生速度が通常の再生速度よりも早ければ、再生を再開した後の第二言語音声は、リアルタイムの第二言語音声に徐々に追いついていく。追いつくまでの時間は、再生再開時点での遅延時間と、追っかけ再生の再生速度とに依存する。

【0143】

詳しくは、例えば、一の端末装置２において、第二言語音声の再生中に、端末格納部２１に格納されている当該第二言語音声の未再生部分に欠落部（例えば、ロストパケット）がある場合、端末送信部２３は、当該欠落部の再送要求（例えば、第二言語識別子、時刻情報などを有する）を端末識別子（ユーザ識別子と兼用でよい）と対にサーバ装置１に送信する。

【0144】

サーバ装置１の配信部１４は、当該欠落部を当該端末装置２に再送する。当該端末装置２の端末受信部２４は、当該欠落部分を受信し、端末処理部２５は、当該欠落部を端末格納部２１に蓄積し、それによって、端末格納部２１に格納されている未再生部分が再生可能となる。しかし、再生再開後の第二言語音声は、話者の話または通訳者の音声に対して遅延するため、再生部２５１は、端末格納部２１に格納されている第二言語音声を早送りで追っかけ再生する。

【0145】

再生部２５１は、未再生部分の追っかけ再生を、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う。

【0146】

なお、未再生部分の遅延時間は、第二言語音声がストリームである場合は、例えば、未再生部分の先頭のパケット（最も古いパケット）のタイムスタンプと、内蔵時計等が示す現在時刻との差分を用いて取得できる。すなわち、再生部２５１は、例えば、再生再開時、未再生部分の先頭のパケットからタイムスタンプを、内蔵時計等からは現在時刻をそれぞれ取得し、タイムスタンプの時刻と現在時刻との差分を算出することにより、遅延時間を取得する。例えば、端末格納部２１に、差分と遅延時間との対の集合が格納されており、再生部２５１は、算出した差分と対になる遅延時間を取得してもよい。

【0147】

また、当該未再生部分のデータ量は、例えば、端末格納部２１の音声用のバッファの残量を用いて取得できる。すなわち、再生部２５１は、例えば、再生再開時、音声用のバッファの残量を取得し、当該バッファの容量から当該残量を減算することにより、未再生部分のデータ量を取得する。または、当該未再生部分のデータ量は、キューイングされているパケット数でもよい。すなわち、再生部２５１は、再生再開時、端末格納部２１の音声用のキューにキューイングされているパケット数をカウントし、そのパケット数、またはパケット数に応じたデータ量を取得してもよい。

【0148】

さらに、早送りは、第二言語音声がストリームである場合は、例えば、ストリームを構成する一連のパケットのうち一部のパケットを一定の割合で間引くことで実現される。例えば、２個のうち１個の割合で間引けば２倍速、３個のうち１個の割合で間引けば１．５倍速となる。

【0149】

例えば、端末格納部２１に、遅延時間またはデータ量のうち１以上の情報と再生速度との対の集合が格納されており、再生部２５１は、再生再開時、前述のようにして取得した遅延時間またはデータ量のうち１以上の情報と対になる再生速度を取得し、取得した再生速度に応じた割合で間引きを行うことで、未再生部分を当該再生速度の早送りで追っかけ再生できる。

【0150】

例えば、格納部１１に、遅延時間またはデータ量のうち１以上と、速度との対応に関する対応情報が格納されており、再生部２５１は、対応情報を用いて、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に対応する速度を取得し、取得した速度の早送り再生を行う。

【0151】

または、格納部１１に、上記対応情報に対応する関数が格納されており、再生部２５１は、当該未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上を関数に代入することにより、速度を算出し、算出した速度の早送り再生を行ってもよい。

【0152】

再生部２５１は、例えば、未再生部分の追っかけ再生を、当該未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始する。

【0153】

再生部２５１は、翻訳結果をも出力する。翻訳結果を出力することは、スピーカを介した翻訳音声の出力を含むと考えても、含まないと考えてもよいし、ディスプレイへの翻訳テキストの表示を含むと考えても、含まないと考えてもよい。

【0154】

格納部１１、話者情報群格納部１１１、通訳者情報群格納部１１２、ユーザ情報群格納部１１３、端末格納部２１、およびユーザ情報格納部２１１は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。

【0155】

格納部１１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でもよい。

【0156】

受信部１２、および端末受信部２４は、通常、有線または無線の通信手段（例えば、ＮＩＣ(Network interface controller)やモデム等の通信モジュール）で実現されるが、放送を受信する手段（例えば、放送受信モジュール）で実現されてもよい。

【0157】

処理部１３、第一言語音声取得部１３１、第二言語音声取得部１３２、第一言語テキスト取得部１３３、第二言語テキスト取得部１３４、翻訳結果取得部１３５、音声特徴量対応情報取得部１３６、反応取得部１３７、学習器構成部１３８、評価取得部１３９、端末処理部２５、および再生部２５１は、通常、ＭＰＵやメモリ等から実現され得る。処理部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現してもよい。

【0158】

配信部１４、および端末送信部２３は、通常、有線または無線の通信手段で実現されるが、放送手段（例えば、放送モジュール）で実現されてもよい。

【0159】

端末受付部２２は、入力デバイスを含むと考えても、含まないと考えてもよい。端末受付部２２は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

【0160】

次に、通訳システムの動作について、図２～図４のフローチャートを用いて説明する。図２および図３は、サーバ装置１の動作を説明するためのフローチャートである。

【0161】

（ステップＳ２０１）処理部１３は、第一言語音声取得部１３１が第一言語音声を取得したか否かを判別する。第一言語音声取得部１３１が第一言語音声を取得した場合はステップＳ２０２に進み、取得していない場合はステップＳ２０３に進む。

【0162】

（ステップＳ２０２）処理部１３は、ステップＳ２０１で取得された第一言語音声を第一言語識別子に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

【0163】

（ステップＳ２０３）処理部１３は、ステップＳ２０１で取得された第一言語音声に対応する第二言語音声を第二言語音声取得部１３２が取得したか否かを判別する。対応する第二言語音声を第二言語音声取得部１３２が取得した場合はステップＳに進み、取得していない場合はステップＳ２０７に進む。

【0164】

（ステップＳ２０４）処理部１３は、ステップＳ２０３で取得された第二言語音声を当該第一言語識別子、第二言語識別子、および通訳者識別子に対応付けて格納部１１に蓄積する。

【0165】

（ステップＳ２０５）音声特徴量対応情報取得部１３６は、ステップＳ２０１で取得された第一言語音声と、ステップＳ２０３で取得された第二言語音声とを用いて、音声特徴量対応情報を取得する。

【0166】

（ステップＳ２０６）処理部１３は、ステップＳ２０５で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

【0167】

（ステップＳ２０７）配信部１４は、配信を行うか否かを判断する。例えば、ステップＳ２０３で第二言語音声が取得されたことに応じて、配信部１４は配信を行うと判断する。
または、格納部１１に格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信部１４は配信を行うと判断してもよい。または、格納部１１に配信のタイミングを示す配信タイミング情報が格納されており、配信部１４は、内蔵時計等から取得された現在時刻が配信タイミング情報の示すタイミングに対応し、かつ、格納されている第二言語音声のデータ量が閾値以上又は閾値よりも多い場合に、配信を行うと判断してもよい。配信を行う場合はステップＳ２０８に進み、配信を行わない場合はステップＳ２０９に進む。

【0168】

（ステップＳ２０８）配信部１４は、ユーザ情報群を用いて、当該第二言語識別子を有するユーザ情報に対応する１以上の各端末装置２に、ステップＳ２０３で取得された第二言語音声または格納部１１に格納されている第二言語音声を配信する。その後、ステップＳ２０１に戻る。

【0169】

（ステップＳ２０９）処理部１３は、ステップＳ２０８で配信された第二言語音声に対する反応情報を反応取得部１３７が取得したか否かを判断する。配信された第二言語音声に対する反応情報を反応取得部１３７が取得した場合はステップＳ２１０に進み、取得していない場合はステップＳ２１１に進む。

【0170】

（ステップＳ２１０）処理部１３は、ステップＳ２０９で取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

【0171】

（ステップＳ２１１）処理部１３は、格納部１１に格納されている２以上の音声特徴量対応情報のうち、条件を満たす音声特徴量対応情報があるか否かを判別する。条件を満たす音声特徴量対応情報がある場合はステップＳ２１２に進み、ない場合はステップＳ２１３に進む。

【0172】

（ステップＳ２１２）処理部１３は、条件を満たす音声特徴量対応情報を格納部１１から削除する。その後、ステップＳ２０１に戻る。

【0173】

（ステップＳ２１３）学習器構成部１３８は、学習器の構成を行うか否かを判断する。例えば、格納部１１に、学習器の構成を行うタイミングを示す構成タイミング情報が格納されており、学習器構成部１３８は、現在時刻が構成タイミング情報の示すタイミングに対応し、かつ、格納部１１内の当該言語情報に対応する音声特徴量対応情報の数が閾値以上または閾値より多い場合に、学習器の構成を行うと判断する。学習器の構成を行う場合はステップＳ２１４に進み、行わない場合はステップＳ２０１に戻る。

【0174】

（ステップＳ２１４）学習器構成部１３８は、当該言語情報に対応する２以上の音声特徴量対応情報を用いて、学習器を構成する。その後、ステップＳ２０１に戻る。

【0175】

（ステップＳ２１５）評価取得部１３９は、通訳者の評価を行うか否かを判断する。例えば、格納部１１に、通訳者の評価を行うタイミングを示す評価タイミング情報が格納されており、評価取得部１３９は、現在時刻が評価タイミング情報の示すタイミングに対応する場合に、通訳者の評価を行うと判断する。通訳者の評価を行う場合はステップＳ２１６に進み、行わない場合はステップＳ２０１に戻る。

【0176】

（ステップＳ２１６）評価取得部１３９は、１以上の各通訳者識別子ごとに、当該通訳者識別子に対応する２以上の反応情報を用いて、評価情報を取得する。

【0177】

（ステップＳ２１７）処理部１３は、ステップＳ２１６で取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。その後、ステップＳ２０１に戻る。

【0178】

なお、図２および図３のフローチャートでは省略しているが、処理部１３は、例えば、端末装置２からの欠落部の再送要求の受信、および再送要求に応じた再送制御などの処理も行っている。

【0179】

また、図２および図３のフローチャートにおいて、サーバ装置１の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

【0180】

図４は、端末装置２の動作を説明するためのフローチャートである。

【0181】

（ステップＳ４０１）端末処理部２５は、端末受信部２４が第二言語音声を受信したか否かを判別する。端末受信部２４が第二言語音声を受信した場合はステップＳ４０２に進み、受信していない場合はステップＳ４０３に進む。

【0182】

（ステップＳ４０２）端末処理部２５は、第二言語音声を端末格納部２１に蓄積する。その後、ステップＳ４０１に戻る。

【0183】

（ステップＳ４０３）端末処理部２５は、第二言語音声の再生が中断しているか否かを判別する。第二言語音声の再生が中断している場合はステップＳ４０４に進み、中断していない場合はステップＳ４０７に進む。

【0184】

（ステップＳ４０４）端末処理部２５は、端末格納部２１に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。格納されている第二言語音声の未再生部分のデータ量が、閾値以上である場合はステップＳ４０５に進み、閾値以上でない場合はステップＳ４０１に戻る。

【0185】

（ステップＳ４０５）端末処理部２５は、当該未再生部分のデータ量および遅延時間に応じた早送り速度を取得する。

【0186】

（ステップＳ４０６）再生部２５１は、第二言語音声を、ステップＳ４０５で取得した早送り速度で追っかけ再生する処理を開始する。その後、ステップＳ４０１に戻る。

【0187】

（ステップＳ４０７）端末処理部２５は、追っかけ再生中か否かを判別する。追っかけ再生中である場合はステップＳ４０８に進み、追っかけ再生中でない場合はステップＳ４１０に進む。

【0188】

（ステップＳ４０８）端末処理部２５は、遅延時間が閾値以下であるか否かを判別する。遅延時間が閾値以下である場合はステップＳ４０９に進み、遅延時間が閾値以下でない場合はステップＳ４０１に戻る。

【0189】

（ステップＳ４０９）再生部２５１は、第二言語音声の追っかけ再生を終了する。

【0190】

（ステップＳ４１０）再生部２５１は、第二言語音声を通常再生する。なお、通常再生とは、通常の速度でリアルタイムに再生を行うことである。その後、ステップＳ４０１に戻る。

【0191】

なお、図４のフローチャートでは省略しているが、端末処理部２５は、例えば、欠落部の再送要求のサーバ装置１への送信、および欠落部の受信などの処理も行っている。

【0192】

また、図４のフローチャートにおいて、端末装置２の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。

【0193】

以下、本実施の形態における通訳システムの具体的な動作例について説明する。本来の通訳システムは、サーバ装置１、２以上の端末装置２、および２以上の話者装置３を備える。サーバ装置１は、ネットワークまたは通信回線を介して、２以上の端末装置２および２以上の話者装置３の各々と通信可能に接続される。サーバ装置１は、運営企業のサーバであり、端末装置２は、ユーザの携帯端末である。話者装置３および通訳者装置４は、会場に設置された端末である。

【0194】

本日、ある会場Ｘで、唯一の話者である講演者αが日本語で話をする。会場Ｘには、３人の通訳者Ａ～Ｃが居り、講演者αが話す日本語を、通訳者Ａが英語に、通訳者Ｂが中国語に、通訳者Ｃがフランス語に、それぞれ通訳する。

【0195】

また、別の会場Ｙでは、二人の話者による討論会が行われる。一方の話者である討論者βは、日本語で話をし、他方の話者である討論者γは、英語で話をする。会場Ｙには、３人の通訳Ｅ～Ｇが居り、討論者βが話す日本語を、通訳者Ｅ，Ｆが英語，中国語にそれぞれ通訳し、討論者γが話す英語を、通訳者Ｅ，Gが日，中にそれぞれ通訳する。

【0196】

会場Ｘには、２以上のユーザａ～ｄ等が居り、会場Ｙには、２以上のユーザｆ～ｈ等が居る。各ユーザは、自分の端末装置２で、通訳音声を聴いたり、通訳テキストを読んだりすることができる。

【0197】

サーバ装置１の話者情報群格納部１１１には、例えば、図５に示すような２以上の話者情報群が、会場識別子に対応付けて格納され得る。図５は、話者情報のデータ構造図である。話者情報は、話者識別子、および第一言語識別子を有する。

【0198】

会場識別子“Ｘ”に対応付いた１番目の話者情報群は、一の話者情報のみで構成され、会場識別子“Ｙ”に対応付いた２番目の話者情報群は、２つの話者情報で構成される。

【0199】

一の話者情報群を構成する１以上の各話者情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。例えば、１番目の話者情報群を構成する唯一の話者情報には、ＩＤ“１”が対応付いている。また、２番目の話者情報群を構成する２つの話者情報のうち、１番目の話者情報には、ＩＤ“１”が対応付き、２番目の話者情報には、ＩＤ“２”が対応付いている。なお、以下では、ＩＤ“ｋ”が対応付いた話者情報を「話者情報ｋ」と記す。また、かかる事項は、図６に示す通訳者情報、および図７に示すユーザ情報にも共通する。

【0200】

会場識別子Ｘに対応付いた話者情報１は、話者識別子“α”、および第一言語識別子“日”を有する。同様に、会場識別子Ｙに対応付いた話者情報１は、話者識別子“β”、および第一言語識別子“日”を有する。また、会場識別子Ｙに対応付いた話者情報２は、話者識別子“γ”、および第一言語識別子“英”を有する。

【0201】

また、通訳者情報群格納部１１２には、例えば、図６に示すような２以上の通訳者情報群が、会場識別子に対応付けて格納され得る。図６は、通訳者情報のデータ構造図である。通訳者情報は、通訳者識別子、および通訳者言語情報を有する。通訳者言語情報は、第一言語識別子、第二言語識別子、および評価値を有する。

【0202】

会場識別子Ｘに対応付いた通訳者情報１は、通訳者識別子“Ａ”、および通訳者言語情報“日，英，４”を有する。同様に、会場識別子Ｘに対応付いた通訳者情報２は、通訳者識別子“Ｂ”、および通訳者言語情報“日，中，５”を有する。また、会場識別子Ｘに対応付いた通訳者情報３は、通訳者識別子“Ｃ”、および通訳者言語情報“日，仏，４”を有する。さらに、会場識別子Ｘに対応付いた通訳者情報４は、通訳者識別子“翻訳エンジン”、および通訳者言語情報“日，独，Ｎｕｌｌ”を有する。

【0203】

会場識別子Ｙに対応付いた通訳者情報１は、通訳者識別子“Ｅ”、および通訳者言語情報“日，英，５”を有する。同様に、会場識別子Ｙに対応付いた通訳者情報２は、通訳者識別子“Ｆ”、および通訳者言語情報“日，中，５”を有する。また、会場識別子Ｙに対応付いた通訳者情報３は、通訳者識別子“Ｅ”、および通訳者言語情報“英，日，３”を有する。さらに、会場識別子Ｙに対応付いた通訳者情報４は、通訳者識別子“Ｇ”、および通訳者言語情報“英，中，４”を有する。

【0204】

さらに、ユーザ情報群格納部１１３には、例えば、図７に示すような２以上のユーザ情報群が、会場識別子に対応付けて格納され得る。図７は、ユーザ情報のデータ構造図である。ユーザ情報は、ユーザ識別子、およびユーザ言語情報を有する。ユーザ言語情報は、主第二言語識別子、副第二言語識別子群、およびデータ形式情報を有する。

【0205】

会場識別子Ｘに対応付いたユーザ情報１は、ユーザ識別子“ａ”、およびユーザ言語情報“英，Ｎｕｌｌ，音声”を有する。同様に、会場識別子Ｘに対応付いたユーザ情報２は、ユーザ識別子“ｂ”、およびユーザ言語情報“中，Ｎｕｌｌ，音声＆テキスト”を有する。また、会場識別子Ｘに対応付いたユーザ情報３は、ユーザ識別子“ｃ”、およびユーザ言語情報“毒，Ｎｕｌｌ，テキスト”を有する。さらに、会場識別子Ｘに対応付いたユーザ情報４は、ユーザ識別子“ｄ”、およびユーザ言語情報“仏，英，音声＆テキスト”を有する。

【0206】

会場識別子Ｙに対応付いたユーザ情報１は、ユーザ識別子“ｆ”、およびユーザ言語情報“英，Ｎｕｌｌ，音声”を有する。同様に、会場識別子Ｙに対応付いたユーザ情報２は、ユーザ識別子“ｇ”、およびユーザ言語情報“中，Ｎｕｌｌ，音声”を有する。また、会場識別子Ｙに対応付いたユーザ情報３は、ユーザ識別子“ｈ”、およびユーザ言語情報“日，英，テキスト”を有する。

【0207】

会場Ｘでの講演会および会場Ｙでの討論会の開始前、情報システムＡのオペレータが、キーボード等の入力デバイスを介して、会場ごとに、話者情報群および通訳者情報群の入力を行う。サーバ装置１の処理部１３は、入力された話者情報群を会場識別子に対応付けて話者情報群格納部１１１に蓄積し、入力された通訳者情報群を会場識別子に対応付けて通訳者情報群格納部１１２に蓄積する。その結果、話者情報群格納部１１１には、図５に示したような２以上の話者情報が格納され、通訳者情報群格納部１１２には、図６に示したような２以上の通訳者情報が格納される。ただし、この時点では、各通訳者情報が有する評価値は、いずれも“Ｎｕｌｌ”である。

【0208】

２以上の各ユーザは、端末装置２の入力デバイスを介して、会場識別子およびユーザ情報等の情報を入力する。入力された情報は、端末装置２の端末受付部２２によって受け付けられ、ユーザ情報格納部２１１に蓄積されると共に、端末送信部２３によってサーバ装置１に送信される。

【0209】

サーバ装置１の受信部１２は、２以上の端末装置２の各々から上記のような情報を受信し、ユーザ情報群格納部１１３に蓄積する。その結果、ユーザ情報群格納部１１３には、図７に示したような２以上のユーザ情報が格納される。

【0210】

２以上の話者装置３の各々には、当該話者装置３を識別する識別子も兼ねる話者識別子が格納されている。２以上の通訳者装置４の各々には、当該通訳者装置４を識別する識別子も兼ねる通訳者識別子が格納されている。

【0211】

会場Ｘで講演会が開催されている期間、情報システムＡは、以下のような処理を行う。

【0212】

話者αが発話すると、当該話者αに対応する話者装置３から第一言語音声が話者識別子“α”と対に、サーバ装置１に送信される。

【0213】

サーバ装置１において、第一言語音声取得部１３１が上記第一言語音声を話者識別子“α”と対に受信し、処理部１３は、当該話者識別子“α”に対応する第一言語識別子“日”を話者情報群格納部１１１から取得する。そして、処理部１３は、受信された第一言語音声を当該第一言語識別子“日”に対応付けて格納部１１に蓄積する。

【0214】

また、第一言語テキスト取得部１３３は、上記第一言語音声を音声認識し、第一言語テキストを取得する。処理部１３は、取得された第一言語テキストを上記第一言語音声に対応付けて格納部１１に蓄積する。

【0215】

さらに、翻訳結果取得部１３５は、上記第一言語テキストを翻訳エンジンを用いてドイツ語に翻訳し、翻訳テキストおよび翻訳音声を含む翻訳結果を取得する。処理部１３は、取得された翻訳結果を上記第一言語音声に対応付けて格納部１１に蓄積する。

【0216】

通訳者Ａが話者αの話を英語に通訳すると、通訳者Ａに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ａ”と対に送信される。

【0217】

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ａ”と対に受信し、処理部１３は、当該通訳者識別子“Ａ”に対応する第一および第二の２つの言語識別子“日”および“英”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“英”、および当該通訳者識別子“Ａ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を、当該第一言語識別子“日”および当該第二言語識別子“英”の組である言語情報“日英”に対応付けて格納部１１に蓄積する。

【0218】

通訳者Ｂが話者αの話を中国語に通訳すると、通訳者Ｂに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ｂ”と対に送信される。

【0219】

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ｂ”と対に受信し、処理部１３は、当該通訳者識別子“Ｂ”に対応する第一および第二の２つの言語識別子“日”および“中”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“中”、および当該通訳者識別子“Ｂ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を言語情報“日中”に対応付けて格納部１１に蓄積する。

【0220】

通訳者Ｃが話者αの話をフランス語に通訳すると、通訳者Ｃに対応する通訳者装置４から、第二言語音声が通訳者識別子“Ｃ”と対に送信される。

【0221】

サーバ装置１において、第二言語音声取得部１３２が上記第二言語音声を通訳者識別子“Ｃ”と対に受信し、処理部１３は、当該通訳者識別子“Ｃ”に対応する第一および第二の２つの言語識別子“日”および“仏”を通訳者情報群格納部１１２から取得する。そして、処理部１３は、受信された第二言語音声を、当該第一言語識別子“日”、当該第二言語識別子“仏”、および当該通訳者識別子“Ｃ”に対応付けて格納部１１に蓄積する。他方、音声特徴量対応情報取得部１３６は、上記第一言語音声と上記第二言語音声とを用いて音声特徴量対応情報を取得し、処理部１３は、取得された音声特徴量対応情報を言語情報“日仏”に対応付けて格納部１１に蓄積する。

【0222】

現在時刻が配信タイミング情報の示すタイミングである場合、配信部１４は、会場識別子Ｘに対応するユーザ情報群を用いて、第二言語音声、第二言語テキスト、および翻訳結果の配信を行う。

【0223】

詳しくは、配信部１４は、会場識別子Ｘに対応するユーザ情報１を用いて、主第二言語識別子“英”に対応する第二言語音声をユーザａの端末装置２に送信する。また、配信部１４は、会場識別子Ｘに対応するユーザ情報２を用いて、主第二言語識別子“中”に対応する第二言語音声と、主第二言語識別子“中”に対応する第二言語テキストとを、ユーザｂの端末装置２に送信する。また、配信部１４は、会場識別子Ｘに対応するユーザ情報３を用いて、主第二言語識別子“独”に対応する翻訳テキストをユーザｃの端末装置２に送信する。さらに、配信部１４は、会場識別子Ｘに対応するユーザ情報４を用いて、主第二言語識別子“仏”に対応する第二言語音声と、主第二言語識別子“仏”に対応する第二言語テキストと、副第二言語識別子群“英”に対応する第二言語テキストとを、ユーザｄの端末装置２に送信する。

【0224】

第二言語音声の送信先となった端末装置２において、端末受信部２４が第二言語音声を受信し、端末処理部２５は、受信された第二言語音声を端末格納部２１に蓄積する。再生部２５１は、端末格納部２１に格納されている第二言語音声を再生する。

【0225】

ただし、第二言語音声の再生が中断している場合、端末処理部２５は、端末格納部２１に格納されている第二言語音声の未再生部分のデータ量が閾値以上か否かを判別する。そして、当該未再生部分のデータ量が閾値以上である場合、端末処理部２５は、当該未再生部分のデータ量および当該未再生部分の遅延時間に応じた早送り速度を取得する。

【0226】

例えば、通常再生の速度を１０パケット／秒として、当該未再生部分のデータ量が５０パケット、当該未再生部分の遅延時間が５秒である場合、端末処理部２５は、早送り速度Ｖを“１０＋（５０／５）＝２０パケット／秒”のように計算してもよい。再生部２５１は、こうして取得された早送り速度で、当該未再生部分の追っかけ再生を行う。

【0227】

第二言語テキストまたは翻訳テキストのうち１以上のテキストの送信先となった端末装置２において、端末受信部２４が当該１以上のテキストを受信し、再生部２５１は、受信された１以上のテキストを出力する。

【0228】

サーバ装置１において、反応取得部１３７は、会場Ｘ内に設置されたカメラで撮影された画像、または会場Ｘ内に居る２以上の各ユーザａ～ｄが保持している端末装置２の内蔵マイクで捉えられた当該ユーザの声のうち、１種類以上の情報を用いて、上記のようにして配信された第二言語音声に対する反応情報を取得する。処理部１３は、取得された反応情報を、当該通訳者識別子および時刻情報に対応付けて格納部１１に蓄積する。格納部１１に格納されている２以上の反応情報は、例えば、評価取得部１３９が１以上の各通訳者の評価を行うのに用いられる。

【0229】

また、格納されている２以上の反応情報は、処理部１３が、格納部１１に格納されている２以上の音声特徴量対応情報のうち、予め決められた条件を満たす音声特徴量対応情報の削除を行う際にも用いられる。なお、予め決められた条件については、前述したので繰り返さない。これによって、学習器構成部１３８が構成する学習器の精度を高めることができる。

【0230】

格納部１１には、構成タイミング情報が格納されており、学習器構成部１３８は、内蔵時計等から取得される現在時刻が、構成タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が構成タイミング情報の示すタイミングである場合、学習器構成部１３８は、２以上の各言語情報ごとに、当該言語情報に対応付けて格納部１１に格納されている２以上の音声特徴量対応情報を用いて、学習器を構成する。なお、学習器については、前述したので繰り返さない。

【0231】

こうして、２以上の各言語情報ごとに学習器を構成することで、例えば、ある言語情報に対応する通訳者が不在の場合でも、当該言語情報に対応する学習器を用いた通訳を行うことができる。

【0232】

また、格納部１１には、評価タイミング情報が格納されており、評価取得部１３９は、内蔵時計等から取得される現在時刻が、評価タイミング情報の示すタイミングであるか否かの判断を行っている。現在時刻が評価タイミング情報の示すタイミングである場合、評価取得部１３９は、１以上の各通訳者識別子ごとに、当該通訳者識別子に対応する２以上の反応情報を用いて、評価情報を取得する。なお、評価情報については、前述したので繰り返さない。処理部１３は、取得された評価情報を、当該通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。

【0233】

これによって、会場識別子“Ｘ”に対応する通訳者情報群を構成する通訳者情報１～４のうち、通訳者識別子“翻訳エンジン”を有する通訳者情報４を除く３つの通訳者情報１～３における評価値“Ｎｕｌｌ”が、それぞれ“４”，“５”，“４”に更新される。

【0234】

なお、会場Ｙで討論会が開催されている期間における情報システムＡの処理も、上記と同様であり、説明を省略する。また、講演会および討論会が同時に開催されている期間における情報システムＡの処理も、上記と同様であり、説明を省略する。

【0235】

以上、本実施の形態によれば、通訳システムは、サーバ装置１と１または２以上の端末装置２とで実現される通訳システムであって、通訳者情報群格納部１１２には、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、第一の言語を識別する第一言語識別子と、第二の言語を識別する第二言語識別子と、通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納され、ユーザ情報群格納部１１３には、１以上の各端末装置２のユーザに関する情報であり、ユーザを識別するユーザ識別子と、ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納される。

【0236】

サーバ装置１は、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得し、ユーザ情報群を用いて、１以上の各端末装置２に、取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を配信する。

【0237】

１以上の各端末装置２は、サーバ装置１から配信される第二言語音声を受信し、受信した第二言語音声を再生する。

【0238】

これにより、サーバ装置１と１以上の端末装置２とで実現され、一の話者の話を１以上の通訳者が通訳した１以上の通訳音声を１以上のユーザに配信する通訳システムであって、サーバ装置１が１以上の通訳者の言語に関する情報を的確に管理する通訳システムを提供できる。

【0239】

その結果、１以上の各通訳者を活用した各種の通訳サービスの提供が可能になる。例えば、一人の話者が話す講演会において、１以上の各端末装置２に、当該端末装置２のユーザが聴く又は読む言語に対応する通訳者の音声を配信できるのみならず、２以上の話者が討論する国際会議において、２以上の各端末装置２に、当該端末装置２のユーザが聴く又は読む言語に対応する１以上の各通訳者の音声を配信できる。

【0240】

また、本第二の発明の通訳システムは、第一の発明に対して、サーバ装置１は、取得した１以上の第二言語音声をそれぞれ音声認識したテキストのデータである１以上の第二言語テキストを取得し、取得した１以上の第二言語テキストを１以上の各端末装置２に配信し、端末装置２は、サーバ装置１から配信される１以上の第二言語テキストをも受信し、１以上の第二言語テキストをも出力する。

【0241】

これにより、１以上の各通訳者の音声に加えて、当該音声を音声認識した１以上のテキストの配信も行える。

【0242】

また、端末装置２は、第二言語音声の再生を中断後に再開する場合、第二言語音声の未再生部分を、早送りで追っかけ再生する。

【0243】

これにより、１以上の各端末装置２において、通訳者の音声の再生が途切れても、ユーザは、その未再生部分を漏れなく、かつ遅れを取り戻すように聴くことができる。

【0244】

また、端末装置２は、未再生部分の追っかけ再生を、未再生部分の遅延時間または当該未再生部分のデータ量のうち１以上に応じた速度の早送りで行う。これにより、的確な速度の早送りで、遅れを無理なく取り戻すことができる。

【0245】

また、端末装置２は、未再生部分の追っかけ再生を、未再生部分のデータ量が予め決められた閾値を超えた又は閾値以上となったことに応じて開始することにより、再度の途切れを回避しつつ、遅れを取り戻すことができる。

【0246】

また、サーバ装置１は、一の話者が話した第一の言語の音声を音声認識したテキストのデータである第一言語テキストを取得し、第一言語テキストを翻訳エンジンを用いて第二の言語に翻訳した翻訳テキスト、または翻訳テキストを音声変換した翻訳音声のうち１以上のデータを含む１以上の翻訳結果を取得し、ユーザ情報群を用いて、１以上の各端末装置２に、取得した１以上の翻訳結果のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する翻訳結果をも配信し、端末装置２は、サーバ装置１から配信される翻訳結果をも受信し、再生する。これにより、ユーザは、翻訳エンジンによる翻訳結果も利用できる。

【0247】

なお、上記構成において、話者情報群格納部１１１に、話者を識別する話者識別子と、話者が話す第一の言語を識別する第一言語識別子とを有する１以上の話者情報が格納されており、サーバ装置１は、話者情報群を用いて、１以上の各話者に対応する第一言語テキストを取得してもよい。

【0248】

また、サーバ装置１は、ユーザ情報群が有する１以上の第二言語識別子のうち、通訳者情報群が有する１以上の第二言語識別子のいずれとも異なる１以上の第二言語識別子に対応する１以上の翻訳結果のみを取得し、通訳者情報群が有する１以上の第二言語識別子のいずれかと同じ１以上の第二言語識別子に対応する１以上の翻訳結果を取得しないことにより、必要な翻訳のみを効率よく行える。

【0249】

また、端末装置２は、音声またはテキストのうち１以上のデータ形式を選択する操作を受け付け、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子に対応する第二言語音声、または第二言語音声を音声認識した第二言語テキストのうち、選択された１以上のデータ形式に対応する１以上のデータを再生する。これにより、ユーザは、自分の言語に対応する翻訳者の音声またはテキストのうち１以上を利用できる。

【0250】

また、端末装置２は、第二言語テキストに加えて、他の言語である副第二言語の第二言語テキストをも受信し、受信した第二言語テキストと副第二言語の第二言語テキストとを出力する。

【0251】

これにより、ユーザは、自分の言語に対応する通訳者以外の通訳者のテキストも利用できる。

【0252】

なお、上記構成において、端末装置２は、少なくともテキストのデータ形式が選択された場合に、翻訳者情報群が有する２以上の第二言語識別子のうち、当該端末装置２のユーザに関するユーザ情報が有する第二言語識別子である主第二言語識別子とは異なる１以上の第二言語識別子の集合である副第二言語識別子群をさらに選択する操作をも受け付け可能であり、副第二言語識別子群が選択された場合に、サーバ装置１から副第二言語識別子群に対応する１以上の第二言語テキストをも受信し、副第二言語識別子群に対応する１以上の第二言語テキストを、主第二言語識別子に対応する第二言語テキストと共に出力してもよい。

【0253】

また、通訳者情報群格納部１１２およびユーザ情報群格納部１１３には、会場を識別する会場識別子に対応付けて、１以上の通訳者情報群および１以上のユーザ情報群がそれぞれ格納されており、ユーザ情報は、会場識別子をさらに有し、第二言語音声取得部１３２および配信部１４は、２以上の各会場識別子ごとに、１以上の第二言語音声の取得および配信を行う。これにより、２以上の各会場ごとに、１以上の第二言語音声の取得および配信を行える。

【0254】

また、サーバ装置１は、一の話者が話した第一の言語の音声のデータである第一言語音声を取得し、取得した第一言語音声と、取得した１以上の第二言語音声とを用いて、第一言語識別子および第二言語識別子の組である１以上の各言語情報ごとに、第一言語音声および第二言語音声の特徴量の対応である音声特徴量対応情報を取得し、１以上の各言語情報ごとに、音声特徴量対応情報を用いて、第一言語音声を入力とし、第二言語音声を出力とする学習器を構成する。

【0255】

従って、学習器による第一言語から１以上の第二言語への通訳も行える。

【0256】

また、サーバ装置１は、再生部２５１が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、反応情報を用いて選別された、２以上の第一言語音声と第二言語音声との組から取得された音声特徴量対応情報を用いて、学習器を構成する。

【0257】

こうして、ユーザの反応を利用して、音声特徴量対応情報の選別を行うことで、精度の高い学習器を構成できる。

【0258】

また、サーバ装置１は、端末装置２が再生した第二言語音声に対するユーザの反応に関する情報である反応情報を取得し、１以上の各通訳者ごとに、通訳者に対応する反応情報を用いて、通訳者の評価に関する評価情報を取得する。

【0259】

これにより、ユーザの反応を利用して、１以上の各通訳者を評価できる。

【0260】

なお、本実施の形態において、処理部１３は、格納部１１に格納されている２以上の反応情報を用いて、予め決められた条件を満たす音声特徴量対応情報が有るか否かを判別し（Ｓ２１１）、当該条件を満たす音声特徴量対応情報が有る場合に、当該音声特徴量対応情報を削除した（Ｓ２１２）が、これに代えて、反応取得部１３７が取得した反応情報が、例えば、“拍手の音または頷く動作のうち１以上が検出される”等の予め決められた条件を満たすか否かを判別し、当該条件を満たす反応情報に対応する第二言語音声のみを格納部１１に蓄積し、当該条件を満たさない反応情報に対応する第二言語音声の蓄積を行わないようにしてもよい。

【0261】

この場合、図２のフローチャートは、例えば、以下のように変更される。

【0262】

２つのステップＳ２０５およびＳ２０６を削除し、ステップＳ２０４の後、ステップＳ２０１に戻るように変更する。また、ステップＳ２１１およびＳ２１２を、次のように変更する。

【0263】

（ステップＳ２１１）処理部１３は、ステップＳ２０９で取得された反応情報が予め決められた条件を満たすか否かを判断する。取得された反応情報が予め決められた条件を満たす場合はステップＳ２１２に進み、満たさない場合ステップＳ２１３に進む。

【0264】

（ステップＳ２１２）音声特徴量対応情報取得部１３６は、ステップＳ２０１で取得された第一言語音声と、ステップＳ２１１で当該条件を満たすと判断された反応情報に対応する第二言語音声とを用いて、音声特徴量対応情報を取得する。

【0265】

さらに、ステップＳ２１２の後に、削除した上記ステップＳ２０６に対応する新たなステップＳ２１３を追加する。

【0266】

（ステップＳ２１３）処理部１３は、ステップＳ１１２で取得された音声特徴量対応情報を、当該第一言語識別子および当該第二言語識別子の組である言語情報に対応付けて格納部１１に蓄積する。その後、ステップＳ２０１に戻る。

【0267】

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布してもよい。

【0268】

なお、本実施の形態におけるサーバ装置１を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、第一の言語の音声を第二の言語に通訳する通訳者に関する情報であり、前記第一の言語を識別する第一言語識別子と、前記第二の言語を識別する第二言語識別子と、前記通訳者を識別する通訳者識別子とを有する１以上の通訳者情報の集合である通訳者情報群が格納される通訳者情報群格納部１１２と、１または２以上の各端末装置２のユーザに関する情報であり、当該ユーザを識別するユーザ識別子と、当該ユーザが聴く又は読む言語を識別する第二言語識別子とを有する１以上のユーザ情報の集合であるユーザ情報群が格納されるユーザ情報群格納部１１３とを具備し、このプログラムは、前記コンピュータを、一の話者が話す第一の言語の音声を１以上の通訳者がそれぞれ第二の言語に通訳した音声のデータである１以上の第二言語音声を取得する第二言語音声取得部１３２と、前記ユーザ情報群を用いて、前記１以上の各端末装置２に、前記第二言語音声取得部１３２が取得した１以上の第二言語音声のうち、当該端末装置２に対応するユーザ情報が有する第二言語識別子に対応する第二言語音声を、配信する配信部１４として機能させるためのプログラムである。

【0269】

また、本実施の形態における端末装置２を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、上記配信部１４によって配信される第二言語音声を受信する端末受信部２４と、前記端末受信部２４が受信した第二言語音声を再生する再生部２５１として機能させるためのプログラムである。

【0270】

なお、上記実施の形態１において、話者情報を構成する第一言語識別子（図５参照）、通訳者情報が有する通訳者言語情報を構成する第一言語識別子と第二言語識別子（図６参照）、およびユーザ情報が有するユーザ言語情報を構成する主第二言語識別子と副第二言語識別子群（図７参照）は、それぞれ、話者情報群格納部１１１、通訳者情報群格納部１１２、およびユーザ情報群格納部１１３に、予め格納されているものとして説明したが、例えば、次に説明する変形例のように、処理部１３等によって蓄積されてもよい。

【0271】

（変形例）
この変形例において、サーバ装置１を構成する格納部１１には、前述した各種の情報に加えて、通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、１または２以上、格納される。通訳言語情報とは、通訳者の通訳言語を示す情報である。通訳言語とは、通訳者が行う通訳の、言語に関する種類である。通訳言語情報は、例えば、“日英”や“英日”等のような、２つの言語識別子の配列であるが、かかる配列に対応付いた“１”や“２”等のＩＤでもよく、その形式は問わない。

【0272】

第一言語識別子とは、第一言語を識別する情報である。第一言語とは、通訳者が聴き取る言語である。なお、第一言語は、話者が話す言語でもある。第一言語識別子は、例えば、“日”や“英”等であるが、その形式は問わない。

【0273】

第二言語識別子とは、第二言語を識別する情報である。第二言語とは、通訳者が話す言語である。なお、第二言語は、ユーザが聴き取る言語でもある。第二言語識別子は、例えば、“英”や“日”等であるが、その形式は問わない。

【0274】

また、格納部１１には、画面構成情報も格納される。画面構成情報とは、画面を構成するための情報である。画面は、例えは、後述する通訳者設定画面、後述するユーザ設定画面などであるが、その種類は問わない。画面構成情報は、例えば、ＨＴＭＬ、ＸＭＬ、プログラムなどであるが、その形式は問わない。

【0275】

画面構成情報は、例えば、画像、文字列、レイアウト情報などを有する。画像とは、例えば、後述する「設定」等のボタンや、図表、ダイアログボックスなどの画像である。文字列とは、例えば、“話者を選択して下さい”等のダイアログ、ボタン等に対応付いた文字列などである。レイアウト情報とは、画面内における画像や文字列の配置を示す情報である。ただし、画面構成情報のデータ構造は問わない。

【0276】

処理部１３等は、実施の形態１で説明した各種の動作に加えて、例えば、以下のような動作を行う。

【0277】

受信部１２は、配信部１４による通訳者設定画面情報の送信に応じて、１以上の各話者装置４から、通訳者識別子と対に設定結果を受信する。設定結果とは、言語に関する設定の結果に関する情報である。通訳者識別子と対に受信される設定結果は、通訳言語情報を有する。また、通訳者識別子と対に受信される設定結果は、通常、話者識別子も有する。

【0278】

または、例えば、一の会場で話をする話者が一人だけであり、格納部１１に、当該一の会場を識別する会場識別子と、当該一人の話者を識別する話者識別子の対が格納されている場合、通訳者識別子と対に受信される設定結果は、話者識別子に代えて、会場識別子を有していてもよく、その構造は問わない。

【0279】

また、受信部１２は、配信部１４によるユーザ設定画面情報の送信に応じて、１以上の各端末装置２から、ユーザ識別子と対に設定結果を受信する。ユーザ識別子と対に受信される設定結果は、主第二言語識別子を有する。また、ユーザ識別子と対に受信される設定結果は、例えば、副第二言語識別子群を有していてもよい。さらに、ユーザ識別子と対に受信される設定結果は、例えば、話者識別子を有していてもよく、その構造は問わない。なお、受信部１２は、例えば、ユーザ識別子と対に、設定結果と会場識別子とを受信してもよい。

【0280】

処理部１３は、受信部１２が受信した設定結果を用いて、言語設定処理を行う。言語設定処理とは、言語に関する各種の設定を行う処理である。各種の設定とは、通常、通訳者の通訳言語の設定、および話者の言語の設定である。また、各種の設定には、例えば、ユーザの言語の設定も含まれてもよい。

【0281】

通訳者の通訳言語の設定とは、第一言語識別子と第二言語識別子の組を通訳者識別子に対応付けて蓄積することである。第一言語識別子と第二言語識別子の組は、通常、通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積されるが、その蓄積先は問わない。

【0282】

話者の言語の設定とは、通訳者識別子に対応付けて蓄積された第一言語識別子を、話者識別子に対応付けて蓄積することである。第一言語識別子は、通常、話者識別子に対応付けて話者情報群格納部１１１に蓄積されるが、その蓄積先は問わない。

【0283】

ユーザの言語の設定とは、通訳者識別子または会場識別子に対応付けて蓄積された１または２以上の第二言語識別子のうち、一の第二言語識別子に対応する主第二言語識別子を、ユーザ識別子に対応付けて蓄積することである。ユーザの言語の設定では、例えば、当該一の第二言語識別子に対応する副第二言語識別子群も、ユーザ識別子に対応付けて蓄積されてもよい。

【0284】

また、ユーザの言語の設定では、例えば、第二言語の出力態様も、ユーザ識別子に対応付けて蓄積されてもよい。第二言語の出力態様は、通常、音声または文字のいずれかの態様である。本変形例では、通常、主第二言語についてのみ、音声の態様で出力（以下、音声出力）するか、または文字の態様で出力（以下、文字出力）するか、が設定される。ただし、副第二言語群を構成する各副第二言語についても、音声または文字のいずれの態様で出力するかの設定が可能であってもよい。

【0285】

より詳しくは、処理部１３は、例えば、言語設定部１３０ａ（図示しない）、および画面情報構成部１３０ｂ（図示しない）を備える。言語設定部１３０ａは、前述した言語設処理を行う。

【0286】

画面情報構成部１３０ｂは、例えば、格納部１１に格納されている画面構成情報を用いて、通訳者設定画面情報を構成する。通訳者設定画面情報とは、通訳者設定画面の情報である。通訳者設定画面とは、通訳者が通訳言語等の設定を行うための画面である。通訳者設定画面は、例えば、予め決められた１または２以上の通訳言語のうち一の通訳言語を通訳者が選択するための部品を有する。また、通訳者設定画面は、例えば、１または２以上の話者のうち一の話者を通訳者が選択するための部品も有することは好適である。さらに、通訳者設定画面は、例えば、通訳者が選択した通訳言語等の設定を行うようコンピュータに指示するための部品をも有していてもよい。なお、部品は、例えば、図表、ボタン等であるが、その種類は問わない。

【0287】

通訳者設定画面は、具体的には、例えば、“話者を選択して下さい。”や“通訳言語を選択して下さい”等のダイアログ、通訳言語等を選択するための図表、選択結果の設定を行うための「設定」ボタンなど有するが、その構造は問わない。通訳者設定画面情報は、かかる通訳者設定画面を、例えば、ＨＴＭＬ等の形式で記述した情報である。構成された通訳者設定画面情報は、配信部１３を介して１以上の各通訳者装置４に送信される。

【0288】

言語設定部１３０ａは、受信部１２が通訳者識別子と対に設定結果を受信した場合に、当該受信された設定結果が有する通訳言語情報に対応する第一言語識別子と第二言語識別子を、受信された通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。

【0289】

また、言語設定部１３０ａは、通訳者情報群格納部１１２に蓄積したものと同じ第一言語識別子を、受信された設定結果が有する話者識別子に対応付けて話者情報群格納部１１１に蓄積する。

【0290】

さらに、言語設定部１３０ａは、通訳者情報群格納部１１２に蓄積したものと同じ第二言語識別子を、受信された設定結果が有する話者識別子に対応する会場識別子に対応付けて格納部１１に蓄積する。

【0291】

以上のような処理（以下、「通訳者・話者言語設定処理」と記す場合がある）が、１以上の各通訳者ごとに実行されることで、話者情報格納部１１１には、話者識別子に対応付けて、１または２以上の第一言語識別子が格納される。また、通訳者情報格納部１１２には、通訳者識別子に対応付けて、第一言語識別子と第二言語識別子の組が、１または２組以上、格納される。さらに、格納部１１には、通訳者識別子または会場識別子に対応付けて、１または２以上の第二言語識別子（以下、「第二言語識別子群」と記す場合がある）が格納される。

【0292】

その後、言語設定部１３０ａは、話者情報群格納部１１１等に格納されている１以上の会場識別子のうち、一の会場識別子を取得する。画面情報構成部１３０ｂは、格納部１１に格納されている１以上の第二言語識別子群のうち、当該取得した会場識別子に対応する第二言語識別子群と、格納部１１に格納されている画面構成情報とを用いて、ユーザ言語設定画面情報を構成する。

【0293】

ユーザ言語設定画面情報とは、ユーザ言語設定画面の情報である。ユーザ設定画面とは、ユーザが言語等の設定を行うための画面である。ユーザ設定画面は、例えば、１または２以上の主第二言語のうち一の主第二言語をユーザが選択するための部品を有する。また、ユーザ設定画面は、例えば、格納部１１に、通訳者識別子または会場識別子に対応付けて格納されている１または２以上の第二言語識別子に対応する１または２以上の副第二言語のうち、１または２以上の副第二言語をユーザが選択するための部品も有することは好適である。さらに、ユーザ設定画面は、例えば、ユーザが選択した主第二言語等の設定を行うようコンピュータに指示するための部品をも有していてもよい。

【0294】

通訳者設定画面は、具体的には、例えば、“主言語を選択して下さい。”や“副言語群を選択して下さい”等のダイアログ、主言語等を選択するための図表、選択結果の設定を行うための「設定」ボタンなど有するが、その構造は問わない。ユーザ設定画面情報は、かかるユーザ設定画面を、例えば、ＨＴＭＬ等の形式で記述した情報である。

【0295】

なお、構成されたユーザ言語設定画面情報は、配信部１４によって、１以上の各端末装置２に送信される。これに応じて、１以上の各端末装置２から、ユーザ識別子と対に設定結果がサーバ装置１に送信される。なお、各端末装置２からは、設定結果等と共に、会場識別子も送信されてもよい。

【0296】

受信部１２がユーザ識別子と対に設定結果を受信すると、言語設定部１３０ａは、当該受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該受信された設定結果が有する話者識別子と対になる会場識別子、および当該受信されたユーザ識別子の組、に対応付けてユーザ情報群格納部１１３に蓄積する。ここで、話者識別子と対になる会場識別子は、例えば、通訳者情報群格納部１１１等から取得される。

【0297】

なお、受信部１２が設定結果等と共に会場識別子も受信した場合には、言語設定部１３０ａは、当該受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該受信された会場識別子、および当該受信されたユーザ識別子の組、に対応付けてユーザ情報群格納部１１３に蓄積すればよい。

【0298】

以上のような処理（以下、「ユーザ言語設定処理」と記す場合がある）が、１以上の各会場ごとに実行されることで、ユーザ情報格納部１１３には、会場識別子とユーザ者識別子の組に対応付けて、第二言語識別子が格納される。

【0299】

配信部１４は、画面情報構成部１３０ｂが構成した通訳者設定画面情報を、１以上の各通訳者装置４に送信する。

【0300】

また、配信部１４は、画面情報構成部１３０ｂが構成したユーザ設定画面情報を、１以上の各端末装置２に送信する。

【0301】

端末装置２は、実施の形態１で説明した動作に加えて、例えば、次のような動作を行う。すなわち、端末装置２は、サーバ装置１からユーザ設定画面情報を受信し、当該受信したユーザ設定画面情報を用いてユーザ設定画面を構成し、当該構成したユーザ設定画面を出力し、当該出力したユーザ設定画面に対するユーザの設定結果を受け付け、当該受け付けた設定結果をユーザ識別子と対にサーバ装置１に送信する。

【0302】

より詳しくは、ユーザ識別子は、前述したように、ユーザ情報格納部２１１に格納されている。なお、図１では省略しているが、端末装置２は、端末出力部２６を備えている。

【0303】

端末受付部２２は、各種の情報を受け付ける。各種の情報とは、例えば、設定結果である。端末受付部２２は、例えば、ディスプレイに表示されているユーザ設定画面に対し、ユーザが設定した設定結果を、タッチパネル等の入力デバイスを介して受け付ける。

【0304】

なお、端末受付部２２は、例えば、入力デバイスを介して、会場識別子も受け付けてもよい。または、例えば、会場内に設置された無線ＬＡＮアクセスポイント等の送信装置（図示しない）が、定期的に又は不定期に、当該会場を識別する会場識別子の送信を行っており、処理部１３は、例えば、送信装置から送信される会場識別子を、受信部１２を介して受信してもよい。

【0305】

端末送信部２３は、各種の情報を送信する。各種の情報とは、例えば、設定結果である。端末送信部２３は、例えば、端末受付部２２が受け付けた設定結果を、ユーザ情報格納部２１１に格納されているユーザ識別子と対に、サーバ装置１に送信する。

【0306】

なお、端末送信部２３は、例えば、端末受付部２２が受け付けた会場識別子も、設定結果等と共に送信してもよい。

【0307】

端末受信部２４は、各種の情報を受信する。各種の情報とは、例えば、ユーザ設定画面情報である。端末受信部２４は、例えば、サーバ装置１からユーザ設定画面情報を受信する。

【0308】

端末処理部２５は、各種の処理を行う。各種の処理とは、例えば、端末受信部２４がサーバ装置１からユーザ設定画面情報を受信したか否かの判別や、受け付けられた設定結果の、送信される設定結果への変換などである。

【0309】

端末出力部２６は、各種の情報を出力する。各種の情報とは、例えば、ユーザ設定画面である。端末出力部２６は、例えば、端末受信部２４がサーバ装置１から受信したユーザ設定画面情報を用いて端末処理部２５が構成したユーザ設定画面を、ディスプレイ等の出力デバイスを介して出力する。

【0310】

なお、話者装置３については、特に追加の動作を行う必要はない。

【0311】

通訳者装置４は、実施の形態１で説明した動作に加えて、例えば、次のような動作を行う。すなわち、通訳者装置４は、サーバ装置１から通訳者設定画面を受信し、当該受信した通訳者設定画面を出力し、当該出力した通訳者設定画面に対する通訳者の設定結果を受け付け、当該受け付けた設定結果を通訳者識別子と対にサーバ装置１に送信する。

【0312】

より詳しくは、例えば、図８に示した各部が、以下のような動作を行う。図８は、本変形例における通訳者装置４のブロック図である。通訳者装置４は、通訳者格納部４１、通訳者受付部４２、通訳者送信部４３、通訳者受信部４４、通訳者処理部４５、および通訳者出力部４６を備える。

【0313】

通訳者格納部４１には、通訳者識別子などの情報が格納される。

【0314】

通訳者受付部４２は、各種の情報を受け付ける。各種の情報とは、例えば、設定結果である。通訳者受付部４２は、例えば、ディスプレイに表示されている通訳者設定画面に対し、通訳者が設定した設定結果を、タッチパネル等の入力デバイスを介して受け付ける。

【0315】

通訳者送信部４３は、各種の情報を送信する。各種の情報とは、例えば、設定結果である。通訳者送信部４３は、例えば、通訳者受付部４２が受け付けた設定結果を、通訳者格納部４１に格納されている通訳者識別子と対に、サーバ装置１に送信する。

【0316】

通訳者受信部４４は、各種の情報を受信する。各種の情報とは、例えば、通訳者設定画面情報である。通訳者受信部４４は、例えば、サーバ装置１から通訳者設定画面情報を受信する。

【0317】

通訳者処理部４５は、各種の処理を行う。各種の処理とは、例えば、通訳者受付部４２が設定結果等の情報を受け付けたか否かの判別や、受け付けられた情報の、送信される情報への変換などである。

【0318】

通訳者出力部４６は、各種の情報を出力する。各種の情報とは、例えば、通訳者設定画面情報である。通訳者出力部４６は、例えば、通訳者受信部４４が受信した通訳者設定画面情報を用いて通訳者処理部４５が構成した通訳者設定画面を、ディスプレイ等の出力デバイスを介して出力する。

【0319】

この変形例におけるサーバ装置１のフローチャートは、図２および図３に示したフローチャートに対し、例えば、図９に示す４つのステップＳ２００ａ～Ｓ２００ｄを追加したものである。図９は、変形例において図２および図３のフローチャートに追加される、言語設定処理を説明するフローチャートである。

【0320】

（ステップＳ２００ａ）処理部１３は、通訳者と話者に関する言語設定を行うか否かを判断する。例えば、サーバ装置１の電源がオンされ、プログラムの起動が完了した後、処理部１３は、通訳者等に関する言語設定を行うと判断してもよい。通訳者等に関する言語設定を、行うと判断された場合はステップＳ２００ｂに進み、行わないと判断された場合はステップＳ２００ｃに進む。

【0321】

（ステップＳ２００ｂ）言語設定部１３０ａは、通訳者・話者言語設定処理を行う。なお、通訳者・話者言語設定処理については、図１０のフローチャートを用いて説明する。

【0322】

（ステップＳ２００ｃ）処理部１３は、ユーザに関する言語設定を行うか否かを判断する。例えば、ステップＳ２００ｂの通訳者・話者言語設定処理が完了したことに応じて、処理部１３は、ユーザに関する言語設定を行うと判断してもよい。ユーザに関する言語設定を、行うと判断された場合はステップＳ２００ｄに進み、行わないと判断された場合はステップＳ２０１（図２参照）に進む。

【0323】

（ステップＳ２００ｄ）言語設定部１３０ａは、ユーザ言語設定処理を行う。なお、ユーザ言語設定処理については、図１１のフローチャートを用いて説明する。

【0324】

なお、本変形例では、図２および図３に示された７つの各ステップＳ２０２，Ｓ２０６，Ｓ２０８，Ｓ２１０，Ｓ２１１，Ｓ２１４，およびＳ２１７の後の戻り先、ならびにＳ２１５でＮＯの場合の戻り先は、図９のステップＳ２００ａとなる。

【0325】

図１０は、通訳者・話者言語設定処理を説明するフローチャートである。

【0326】

（ステップＳ１００１）画面情報構成部１３０ｂは、格納部１１に格納されている画面構成情報を用いて、通訳者設定画面情報を構成する。

【0327】

（ステップＳ１００２）配信部１４は、ステップＳ１００１で構成された通訳者設定画面情報を１以上の各通訳者装置４に送信する。

【0328】

（ステップＳ１００３）処理部１３は、受信部１２が通訳者識別子と対に設定結果を受信したか否かを判別する。受信部１２が通訳者識別子と対に設定結果を、受信したと判別された場合はステップＳ１００４に進み、受信していないと判別された場合はステップＳ１００３に戻る。

【0329】

（ステップＳ１００４）言語設定部１３０ａは、ステップＳ１００３で受信された設定結果が有する通訳言語情報に対応する第一言語識別子と第二言語識別子を、ステップＳ１００３で受信された通訳者識別子に対応付けて通訳者情報群格納部１１２に蓄積する。

【0330】

（ステップＳ１００５）言語設定部１３０ａは、ステップＳ１００４で通訳者情報群格納部１１２に蓄積したものと同じ第一言語識別子を、ステップＳ１００３で受信された設定結果が有する話者識別子に対応付けて話者情報群格納部１１１に蓄積する。

【0331】

（ステップＳ１００６）言語設定部１３０ａは、ステップＳ１００４で通訳者情報群格納部１１２に蓄積したものと同じ第二言語識別子を、ステップＳ１００３で受信された設定結果が有する話者識別子に対応する会場識別子に対応付けて格納部１１に蓄積する。

【0332】

（ステップＳ１００７）処理部１３は、終了条件を満たしたか否かを判別する。ここでの終了条件は、例えば、“通訳者設定画面情報の送信先となった１以上の全ての通訳者装置４から設定結果が受信されたこと”でもよいし、“通訳者設定画面情報の送信からの経過時間が閾値を超えた又は閾値以上となったこと”でもよい。

【0333】

終了条件を満たしたと判別された場合は上位の処理にリターンし、満たしていないと判別された場合はステップＳ１００３に戻る。

【0334】

なお、図１０のフローチャートにおいて、ステップＳ１００６が繰り返し実行される結果、格納部１１には、１または２以上の第二言語識別子群が会場識別子に対応付けて格納される。

【0335】

図１１は、ユーザ言語設定処理を説明するフローチャートである。なお、図１１のフローチャートは、話者情報群格納部１１１等に格納されている１以上の会場識別子のうち、一の会場識別子で識別される会場を対象とするフローチャートであり、１以上の各会場識別子ごとに実行される。

【0336】

（ステップＳ１１０１）処理部１３は、話者情報群格納部１１１等に格納されている１以上の会場識別子のうち、一の会場識別子を取得する。

【0337】

（ステップＳ１１０２）画面情報構成部１３０ｂは、格納部１１に格納されている１以上の第二言語識別子群のうち、ステップＳ１１０１で取得された会場識別子に対応する第二言語識別子群と、格納部１１に格納されている画面構成情報とを用いて、ユーザ言語設定画面情報を構成する。

【0338】

（ステップＳ１１０３）配信部１４は、ステップＳ１１０２で構成されたユーザ言語設定画面情報を１以上の各端末装置２に送信する。

【0339】

（ステップＳ１１０４）処理部１３は、ユーザ識別子と対に設定結果を受信したか否かを判別する。受信部１２がユーザ識別子と対に設定結果を、受信したと判別された場合はステップＳ１１０５に進み、受信していないと判別された場合はステップＳ１１０４に戻る。

【0340】

（ステップＳ１１０５）言語設定部１３０ａは、ステップＳ１１０４で受信された設定結果が有する主第二言語識別子と副第二言語識別子群とデータ形式情報を、当該設定結果が有する話者識別子と対になる会場識別子、およびステップＳ１１０４で受信されたユーザ識別子、に対応付けてユーザ情報群格納部１１３に蓄積する。

【0341】

（ステップＳ１１０６）処理部１３は、終了条件を満たしたか否かを判別する。ここでの終了条件は、例えば、“ユーザ設定画面情報の送信先となった１以上の全ての端末装置２から設定結果が受信されたこと”でもよいし、“ユーザ設定画面情報の送信からの経過時間が閾値を超えた又は閾値以上となったこと”でもよい。

【0342】

終了条件を満たしたと判別された場合は上位の処理にリターンし、満たしていないと判別された場合はステップＳ１１０４に戻る。

【0343】

以下、この変形例における具体例を説明する。本具体例では、会場Ｘにおいて、日本語で話をする話者αに対し、二人の通訳者ＡおよびＢが、それぞれ、英語および中国語への通訳を行うものとする。

【0344】

サーバ装置１の電源がオンされ、プログラムの起動が完了すると、画面情報構成部１３０ｂは、格納部１１に格納されている画面構成情報を用いて、通訳者設定画面情報を構成し、配信部１４は、当該構成された通訳者設定画面情報を、２以上の各通訳者装置４に送信する。

【0345】

上記２以上の通訳者装置４のうち、通訳者Ａの装置である通訳者装置４Ａにおいて、上記通訳者設定画面情報が受信され、当該受信された通訳者設定画面情報を用いて通訳者設定画面が構成され、当該構成された通訳者設定画面がディスプレイを介して出力される。これにより、通訳者装置４Ａのディスプレイには、例えば、図１２に示すような通訳者設定画面が表示される。

【0346】

図１２は、通訳者設定画面の一例を示す図である。この通訳者設定画面は、例えば、“話者を選択して下さい。”等のダイアログ、および話者を選択するための図表の組と、“通訳言語を選択して下さい”等のダイアログ、および通訳言語等を選択するための図表の組と、選択結果の設定を行うための「設定」ボタンなどを有する。

【0347】

なお、通訳者設定画面の各ダイアログは、多言語で表記される。多言語とは、第二言語識別子群に対応する言語群である。なお、かかる事項は、後述するユーザ設定画面（図１３参照）の各ダイアログにも当てはまる。

【0348】

通訳者Ａは、ディスプレイ上の通訳者設定画面に対し、話者として“α”を選択し、通訳言語として“日英”を選択した後、設定ボタンを押下する。

【0349】

これに応じて、話者装置４Ａにおいて、通訳者識別子“α”と、通訳言語情報“日英”とを有する設定結果“（α，日英）”が取得され、当該取得された設定結果が、通訳者識別子“Ａ”と対にサーバ装置１に送信される。

【0350】

サーバ装置１において、受信部１２が上記設定結果“（α，日英）”を通訳者識別子“Ａ”と対に受信し、言語設定部１３０ａは、通訳者情報群格納部１１２に格納されている２以上のいずれかの通訳者情報に含まれる通訳者言語情報であり、当該受信された通訳者識別子“Ａ”と対になる通訳者言語情報、を構成する第一言語識別子“Ｎｕｌｌ”と第二言語識別子“Ｎｕｌｌ”を、それぞれ“日”と“英”に更新する。

【0351】

また、言語設定部１３０ａは、話者情報群格納部１１１に格納されている１以上の話者情報のうち、当該受信された設定結果が有する話者識別子“α”を含む話者情報１、が有する第一言語識別子“Ｎｕｌｌ”を、“日”に更新する。

【0352】

さらに、言語設定部１３０ａは、通訳者情報群格納部１１２に格納されている１以上のいずれかの話者情報が有する第一言語識別子であり、当該受信された設定結果が有する話者識別子“α”と対になる第一言語識別子“Ｎｕｌｌ”を、当該受信された設定結果が有する第一言語識別子“日”に更新する。

【0353】

もう一人の通訳者Ｂについても、上記と同様の通訳者・話者言語設定処理が行われ、通訳者識別子“Ｂ”と対になる通訳者言語情報を構成する第一言語識別子“Ｎｕｌｌ”と第二言語識別子“Ｎｕｌｌ”は、それぞれ“日”と“中”に更新される。

【0354】

以上で、会場Ｘで話をする話者αと、話者αの話を通訳する二人の通訳者ＡおよびＢについての言語設定は、完了となる。画面情報構成部１３０ｂは、会場識別子“Ｘ”に対応付けて格納部１１に格納されている２つの第二言語識別子と、格納部１１に格納されている画面構成情報とを用いて、ユーザ設定画面情報を構成し、配信部１４は、１以上の各端末装置２に配信する。

【0355】

ユーザａの端末装置２（以下、端末装置２ａ）において、上記ユーザ設定画面情報が受信され、当該受信されたユーザ設定画面情報を用いてユーザ設定画面が構成され、当該構成されたユーザ設定画面がディスプレイを介して出力される。これにより、端末装置２ａのディスプレイには、例えば、図１３に示すようなユーザ設定画面が表示される。

【0356】

図１３は、ユーザ設定画面の一例を示す図である。このユーザ設定画面は、例えば、“ここは会場Ｘです。主言語（音声／文字）を選択して下さい。”等のダイアログ、および主言語等を選択するための図表の組と、“副言語群を選択して下さい”等のダイアログ、および副言語群を選択するための図表の組と、選択結果の設定を行うための「設定」ボタンとを有する。

【0357】

ユーザａは、ディスプレイ上のユーザ設定画面に対し、主言語として“英”を選択し、主言語の出力態様として“音声”を選択し、副言語群として“副言語なし”を選択した後、設定ボタンを押下する。

【0358】

端末装置２ａにおいて、話者識別子“α”と、主第二言語識別子“英”と、副第二副言語識別子群“Ｎｕｌｌ”と、データ形式情報“音声”と、を有する設定結果“（α，英，Ｎｕｌｌ，音声）”が取得され、当該取得された設定結果がユーザ識別子“ａ”と対に、サーバ装置１に送信される。

【0359】

サーバ装置１において、受信部１２が上記設定結果“（α，英，Ｎｕｌｌ，音声）”をユーザ識別子“ａ”と対に受信し、言語設定部１３０ａは、当該受信された設定結果“（α，英，Ｎｕｌｌ）”から、主第二言語識別子“英”と、副第二言語識別子群“Ｎｕｌｌ”と、データ形式情報“音声”とを取得する。

【0360】

そして、言語設定部１３０ａは、ユーザ情報群格納部１１３の２以上のユーザ情報のうち、受信されたユーザ識別子“ａ”と対になるユーザ情報１が有する主第二言語識別子“Ｎｕｌｌ”と副第二言語識別子群“Ｎｕｌｌ”とデータ形式情報“Ｎｕｌｌ”を、それぞれ“英”と“Ｎｕｌｌ”と“音声”に更新する。

【0361】

これにより、会場識別子“Ｘ”とユーザ識別子“ａ”の組に対応付いたユーザ言語情報は、図７に示された内容となる。

【0362】

会場Ｘに対応する他のユーザｂ～ｄの各々についても、上記と同様のユーザ言語設定処理が行われ、各々が有するユーザ言語情報は、図７に示された内容となる。

【0363】

以上から明らかなように、本変形例では、格納部１１に、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、１または２以上、格納されており、サーバ装置１は、通訳者の端末装置である通訳者装置４から、当該通訳者の通訳言語に関する通訳言語情報を有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信し、前記設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を前記格納部１１から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を前記通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を当該通訳者の通訳の対象である話者を識別する話者識別子に対応付けて蓄積することにより、１以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを的確に設定できる。

【0364】

また、サーバ装置１は、通訳者が、１以上の話者のうち一の話者と、１以上の通訳言語のうち一の通訳言語とを設定するための画面の情報である通訳者設定画面情報を、１以上の各通訳者の通訳者装置４に送信し、前記受信部１２は、前記１以上の各通訳者の通訳者装置４から、当該通訳者を識別する通訳者識別子と対に、当該通訳者の通訳の対象である話者を識別する話者識別子をさらに有する設定結果を受信することにより、１以上の各通訳者の通訳言語と、各通訳者に対応する話者の言語とを、容易かつ的確に設定できる。

【0365】

また、サーバ装置１は、前記取得した組を構成する第二言語識別子を前記格納部１１に蓄積し、ユーザが、前記格納部１１に格納されている１以上の第二言語識別子のうち一の第二言語識別子に対応する主第二言語を少なくとも設定するための画面の情報であるユーザ設定画面を、１以上の各ユーザの端末装置２に送信し、前記１以上の各ユーザの端末装置２から、当該ユーザを識別するユーザ識別子と対に、当該ユーザが設定した主第二言語を識別する主第二言語識別子を少なくとも有する設定結果を受信し、前記設定結果が有する少なくとも主第二言語識別子を前記ユーザ識別子に対応付けて蓄積することにより、１以上の各ユーザの言語をも的確に設定できる。

【0366】

なお、本変形例のサーバ装置１を実現するプログラムは、例えば、次のようなプログラムである。つまり、このプログラムは、通訳者が行う通訳の言語に関する種類である通訳言語を示す通訳言語情報と、通訳者が聴き取る第一言語を識別する第一言語識別子および通訳者が話す第二言語を識別する第二言語識別子の組との対が、１または２以上、格納される格納部にアクセス可能なコンピュータを、通訳者の端末装置である通訳者装置から、当該通訳者の通訳言語に関する通訳言語情報を有する設定結果を、当該通訳者を識別する通訳者識別子と対に受信する受信部１２と、前記設定結果が有する通訳言語情報と対になる第一言語識別子と第二言語識別子との組を前記格納部１１から取得し、当該取得した組を構成する第一言語識別子および第二言語識別子を前記通訳者識別子に対応付けて蓄積すると共に、当該取得した組を構成する第一言語識別子を当該通訳者の通訳の対象である話者を識別する通訳者識別子に対応付けて蓄積する言語設定部１３０ａとして機能させるためのプログラムである。

【0367】

（実施の形態２）
以下、音声処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

【0368】

本実施の形態における音声処理装置は、例えば、サーバである。サーバは、例えば、同時通訳サービスを提供する企業や団体等の組織内のサーバである。または、サーバは、例えば、クラウドサーバやＡＳＰサーバ等でもよく、そのタイプは問わない。音声処理装置は、例えば、ＬＡＮやインターネット等のネットワーク、無線または有線の通信回線などを介して、１または２以上の第一端末（図示しない）、および１または２以上の第二端末（図示しない）の各々と通信可能に接続される。

【0369】

第一端末とは、後述する第一話者の端末である。第一端末は、第一話者の音声を受け付け、音声処理装置に送信する。第二端末とは、後述する第一話者の端末である。第二端末は、音声を受け付け、音声処理装置に送信する。第一端末および第二端末は、例えば、携帯端末であるが、据え置き型の端末でもいし、マイクロフォンでもよく、そのタイプは問わない。携帯端末とは、携帯可能な端末である。携帯端末は、例えば、スマートフォン、タブレット端末、携帯電話機、ノートＰＣ等であるが、その種類は問わない。

【0370】

また、音声処理装置は、他の端末とも通信可能であってもよい。他の端末とは、例えば、組織内の端末などであるが、そのタイプや所在は問わない。

【0371】

ただし、音声処理装置は、例えば、スタンドアロンの端末でもよく、その実現手段は問わない。

【0372】

図１４は、本実施の形態における音声処理装置５のブロック図である。この音声処理装置５は、格納部５１、受付部５２、処理部５３、および出力部５４を備える。受付部５２は、第一音声受付部５２１、および第二音声受付部５２２を備える。処理部５３は、蓄積部５３１、音声対応処理部５３２、音声認識部５３３、および評価取得部５３４を備える。音声対応処理部５３２は、分割手段５３２１、文対応手段５３２２、音声対応手段５３２３、タイミング情報取得手段５３２４、およびタイミング情報対応手段５３２５を備える。文対応手段５３２２は、機械翻訳手段５３２２１、および翻訳結果対応手段５３２２２を備える。出力部５４は、通訳漏れ出力部５４１、評価出力部５４２を備える。

【0373】

音声処理装置を構成する格納部５１は、各種の情報を格納し得る。各種の情報とは、例えば、第一音声、第二音声、第一部分音声、第二部分音声、第一文章、第二文章、第一文、第二文、第一文の機械翻訳の結果、第一タイミング情報、第二タイミング情報などである。なお、これらの情報については後述する。

【0374】

また、格納部５１には、通常、１または２以上の第一話者情報、および１または２以上の第二話者情報も格納される。第一話者情報とは、第一話者に関する情報である。第一話者情報は、通常、第一話者識別子を有する。第一話者識別子とは、第一話者を識別する情報である。第一話者識別子は、例えば、メールアドレス、電話番号、ＩＤ等であるが、第一話者の第一端末を識別する端末識別子（例えば、ＭＡＣアドレス、ＩＰアドレス等）でもよく、第一話者を識別し得る情報であれば何でもよい。ただし、例えば、第一話者が一人だけの場合、第一話者情報は、第一話者識別子を有していなくてもよい。

【0375】

第二話者情報とは、第二話者に関する情報である。第二話者情報は、通常、第二話者識別子を有する。第二話者識別子とは、第二話者を識別する情報である。第二話者識別子は、例えば、メールアドレス、電話番号、ＩＤ等であるが、第二話者の第二端末を識別する端末識別子（例えば、ＭＡＣアドレス、ＩＰアドレス等）でもよく、第二話者を識別し得る情報であれば何でもよい。ただし、例えば、第二話者が一人だけの場合、第二話者情報は、第二話者識別子を有していなくてもよい。また、第二話者情報は、例えば、後述する評価情報を有していてもよい。

【0376】

さらに、格納部５１には、例えば、１または２以上の組情報も格納されてもよい。組情報とは、第一話者および第二話者の組に関する情報である。組情報は、例えば、第一話者識別子、および第二話者識別子を有する。ただし、例えば、第一話者および第二話者の組が一組だけの場合、格納部５１に組情報は格納されていなくてもよい。

【0377】

受付部５２は、各種の情報を受け付ける。各種の情報とは、例えば、後述する第一音声、後述する第二音声、後述する評価情報の出力指示などである。

【0378】

受付部５２は、第一音声等の情報を、例えば、第一端末等の端末から受信するが、音声処理装置内のマイクロフォン等の入力デバイスを介して受け付けてもよい。

【0379】

第一音声受付部５２１は、第一音声を受け付ける。第一音声とは、第一話者が発声した音声である。第一話者とは、第一言語で話をする者である。第一言語とは、第一話者が話す言語である、といってもよい。第一言語は、例えば、日本語であるが、英語、中国語、フランス語等、何語でもよい。話は、例えば、講演であるが、討論や会話など、双方向の話でもよく、その種類は問わない。第一話者は、具体的には、例えば、講演者であるが、討論者、会話者などでもよい。

【0380】

第一音声受付部５２１は、第一話者による第一音声を、例えば、当該第一話者の第一端末から、当該第一話者を識別する第一話者識別子と対に受信するが、音声処理装置内の第一マイクロフォンを介して受け付けてもよい。第一マイクロフォンとは、第一話者による第一音声を捉えるためのマイクロフォンである。第一音声を第一話者識別子と対に受信することは、例えば、第一話者識別子を受信した後に第一音声を受信することであるが、第一音声の受信中に第一話者識別子を受信することでもよいし、第一音声の受信後に第一話者識別子を受信することでもよい。

【0381】

第二音声受付部５２２は、第二音声を受け付ける。第二音声とは、第一話者による第一音声に対する、第二話者による第二言語への同時通訳の音声である。第二話者とは、第一話者の話を同時通訳する者であり、同時通訳者といってもよい。同時通訳とは、第一話者の話を聞くとほぼ同時に訳出を行う方式である。同時通訳において、第一音声に対する第二音声の遅延は、小さい方が好適であるが、部分的に大きくてもよく、その大小は問わない。なお、遅延については後述する。

【0382】

第二音声受付部５２２は、第二話者による第二音声を、例えば、当該第二話者の第二端末から、当該第二話者を識別する第二話者識別子と対に受信するが、音声処理装置内の第二マイクロフォンを介して受け付けてもよい。第二マイクロフォンとは、第二話者による第二音声を捉えるためのマイクロフォンである。第二音声を第二話者識別子と対に受信することは、例えば、第二話者識別子を受信した後に第二音声を受信することであるが、第二音声の受信中に第二話者識別子を受信することでもよいし、第二音声の受信後に第二話者識別子を受信することでもよい。

【0383】

処理部５３は、各種の処理を行う。各種の処理とは、例えば、蓄積部５３１、音声対応処理部５３２、音声認識部５３３、評価取得部５３４、分割手段５３２１、文対応手段５３２２、音声対応手段５３２３、タイミング情報取得手段５３２４、タイミング情報対応手段５３２５、機械翻訳手段５３２２１、翻訳結果対応手段５３２２２などの処理である。また、処理部５３は、フローチャートで説明する各種の判別なども行う。

【0384】

蓄積部５３１は、各種の情報を蓄積する。各種の情報とは、例えば、第一音声、第二音声、第一部分音声、第二部分音声、第一文章、第二文章、第一文、第二文などである。なお、第一部分音声、第二部分音声、第一文章、第二文章、第一文、および第二文については後述する。また、蓄積部５３１が、かかる情報を蓄積する動作についても、適時説明する。

【0385】

蓄積部５３１は、受付部５２が受け付けた第一音声等の情報を、例えば、第一話者識別子に対応付けて格納部５１に蓄積するが、外部の記録媒体に蓄積してもよく、その蓄積先は問わない。また、蓄積部５３１は、受付部５２が受け付けた第二音声等の情報を、例えば、第二話者識別子に対応付けて格納部５１に蓄積するが、外部の記録媒体に蓄積してもよく、その蓄積先は問わない。

【0386】

蓄積部５３１は、例えば、第一音声受付部５２１が受け付けた第一音声と、第二音声受付部５２２が受け付けた第二音声とを対応付けて蓄積する。

【0387】

蓄積部５３１は、例えば、格納部１に格納されている１以上の各組情報を構成する第一話者識別子および第二話者識別子の組ごとに、第一音声受付部５２１が当該第一話者識別子と対に受信した第一音声と、第二音声受付部２２が当該第二話者識別子と対に受信した第二音声とを対応付けて蓄積してもよい。なお、後述する音声対応処理部３２の処理もまた、格納されている１以上の各組情報を構成する第一話者識別子および第二話者識別子の組ごとに行われてもよい。

【0388】

対応付けは、例えば、第一音声の全体と第二音声の全体との対応付けでもよいし、第一音声の１または２以上の部分と、第二音声の１または２以上の部分との対応付けでもよい。後者の場合、蓄積部３１は、例えば、音声対応処理部３２が対応付けた１以上の第一部分音声と１以上の第二部分音声とを蓄積する。なお、こうして蓄積される、第一音声または当該第一音声の１以上の第一部分音声と、第二音声または当該第二音声の１以上の第二部分音声と対は、例えば、「音声の対のコーパス」と呼んでもよい。

【0389】

音声対応処理部５３２は、第一部分音声と第二部分音声とを対応付ける。第一部分音声とは、第一音声の一部分であり、第二部分音声とは、第二音声の一部分である。一部分とは、通常、一の文に対応する部分であるが、例えば、段落、文節、自立語などに対応する部分でもよい。

【0390】

第一文章とは、第一音声の全体に対応する文章であり、第二文章とは、第二音声の全体に対応する文章である。第一文とは、第一文章を構成する１または２以上の各文であり、第二文とは、第二文章を構成する１または２以上の各文である。

【0391】

音声対応処理部５３２は、例えば、第一音声および第二音声の各々に対して、無音期間に基づく分割処理を行ってもよい。無音期間とは、音声のレベルが閾値以下である状態が、予め決められた時間以上、継続している期間である。

【0392】

無音期間に基づく分割処理とは、一の音声の１以上の無音期間を検知し、当該一の音声を当該１以上の無音期間を挟んで２以上の区間に区切る処理である。２以上の各区間は、通常、一の文に対応するが、一の段落に対応してもよい。なお、第一文と第二文で語順が一致する場合は、一の文節、一の自立語等に対応してもよい。

【0393】

そして、音声対応処理部５３２は、第一音声および第二音声の間の対応する２つの区間を特定し、当該２つの区間の音声である第一部分音声および第二部分音声を対応付けてもよい。

【0394】

例えば、音声対応処理部５３２は、第一音声の２以上の各区間に“１”，“２”，“３”等の番号を対応付ける一方、第二音声の２以上の各区間にも“１”，“２”，“３”等の番号を対応付け、同じ番号に対応付いている２つの区間を、対応する第一部分音声および第二部分音声とみなしても構わない。つまり、音声対応処理部３２は、第一音声の２以上の区間と、第二音声の２以上の区間とを、順番に対応付けてもよい。

【0395】

または、例えば、各区間にタイミング情報が対応付いており、音声対応処理部３２は、第一音声の２以上の区間のうちｍ番目（ｍは１以上の整数：例えば、１番目）の区間に対応付いているタイミング情報と、第二音声の２以上の区間のうちｍ番目の区間（例えば、１番目の区間）に対応付いているタイミング情報とを取得し、当該２つのタイミング情報の差分を取得する。または、音声対応処理部３２は、第一音声の２以上の区間のうちｍ番目からｎ番目（ｎはｍより大きい整数:例えば、３番目）までの２以上（例えば、３つ）の各区間に対応付いているタイミング情報と、第二音声の２以上の区間のうちｍ番目からｎ番目までの２以上（例えば、３つ）の各区間に対応付いているタイミング情報とを取得し、対応する２つのタイミング情報の差分を取得し、取得した２以上（例えば、３つ）の差分の平均値を取得する。そして、音声対応処理部３２は、取得した差分または差分の平均値を、第一音声に対する第二音声の遅延とみなし、第一音声の２以上の区間と、第二音声の２以上の区間との間で、差分が当該遅延と同じ又は同じとみなし得るほど近い２つの区間を、対応する区間とみなしてもよい。

【0396】

または、音声対応処理部５３２は、例えば、第一音声および第二音声に対応する第一文章および第二文章に対して、形態素解析を行い、対応する第一文と第二文を特定し、第一文および第二文に対応する第一部分音声および第二部分音声を対応付けてもよい。

【0397】

詳しくは、音声対応処理部５３２は、例えば、第一音声および第二音声の各々に対して、音声認識を行い、第一文章および第二文章を取得する。次に、音声対応処理部３２は、取得した第一文章および第二文章の各々に対して形態素解析を行い、第一音声および第二音声の間の対応する２つの形態素（例えば、文。段落、文節、自立語等でもよい。）を特定する。そして、音声対応処理部３２は、特定した２つの形態素に対応する第一部分音声および第二部分音声を対応付ける。

【0398】

より詳しくは、音声対応処理部５３２を構成する分割手段５３２１が、第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ第二文章を２以上の文に分割し、２以上の第二文を取得する。分割は、例えば、形態素解析や自然言語処理や機械学習等により行うが、第一音声および第二音声の無音期間に基づいて行ってもよい。なお、分割は、一の文章の２以上の文への分割に限らず、例えば、一の文の２以上の単語への分割などでもよい。自然言語処理等により文を単語に区切る技術は公知であり、詳しい説明を省略する（例えば、「機械学習による自然言語処理」，坪井祐太，日本ＩＢＭ，ProVISION No.83/Fall 2014）。

【0399】

文対応手段５３２２は、分割手段５３２１が取得した２以上の第一文のうち１以上の第一文と、分割手段５３２１が取得した２以上の第二文のうち１以上の第一文とを対応付ける。文対応手段５３２２は、例えば、１以上の第一文と１以上の第二文とを順番に対応付ける。また、文対応手段５３２２は、対応する第一文および第二文において、同種の２つの形態素（例えば、第一文の動詞と第二文の動詞など）を対応付けてもよい。

【0400】

なお、文対応手段５３２２は、分割手段５３２１が取得した一の第一文と、２以上の第二文とを対応付けてもよい。２以上の第二文とは、第一文の通訳文、および当該通訳文の補充文でもよい。第一文は、例えば、ことわざ、四字熟語等を含む文であり、補充文は、当該ことわざ等をそのまま含む通訳文に対し、当該ことわざ等の意味について説明する文でもよい。または、第一文は、例えば、比喩を用いた文であり、補充文は、当該比喩を用いた文を直訳した通訳文であり、補充文は、直訳された比喩の意味について説明する文でもよい。

【0401】

詳しくは、文対応手段５３２２は、分割手段５３２１が取得した１以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と２以上の第二文とを対応付けてもよい。第一文に対応する第二文とは、当該第一文の通訳文であり、第一文に対応付かない第二文とは、例えば、当該通訳文の補充文である。

【0402】

より詳しくは、文対応手段５３２２は、例えば、取得された１以上の各第一文ごとに、当該第一文に対応付かない１以上の第二文を検出し、検出した１以上の各第二文について、当該第二文がその直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、当該第二文を、当該第二文の前に位置する第二文に対応する第一文に対応付ける処理を行うことは好適である。

【0403】

予め決められた関係とは、例えば、当該第二文が、その前の第二文を説明している文である、という関係である。例えば、当該第二文が、“Me kara uroko means that the image is such clear as the scales fall from one’s eyes．”であり、その前の第二文が“The clear image of this camera is just me kara uroko.”である場合、この関係を満たすと判断される。

【0404】

または、予め決められた関係は、例えば、当該第二文が、前の第二文に含まれる自立語を含む文である、という関係であってもよい。例えば、当該第二文とその前の第二文とが上記２つの例文である場合、この関係を満たすと判断される。

【0405】

または、予め決められた関係は、例えば、当該第二文が、前の第二文に含まれる自立語を主語とする文である、という関係であってもよい。例えば、当該第二文とその前の第二文が上記２つの例文である場合、この関係を満たすと判断される。

【0406】

また、文対応手段５３２２は、分割手段５３２１が取得した２以上の各第一文に対応付く第二文を検知すると共に、いずれの第二文にも対応付かない第一文をも検出してもよい。いずれの第二文にも対応付かない第一文とは、通訳文を欠いた原文であり、翻訳されなかった翻訳漏れ文である、といってもよい。

【0407】

なお、文対応手段５３２２は、具体的には、例えば、２以上の文対応情報（図１８参照:後述）を構成してもよい。文対応情報とは、第一文を構成する２以上の第一文と、当該第一文に対応する第二文を構成する２以上の第二文との対応に関する情報である。文対応情報については、具体例で説明する。

【0408】

機械翻訳手段５３２２１は、例えば、分割手段５３２１が取得した２以上の第一文を第二言語に機械翻訳する。

【0409】

または、機械翻訳手段５３２２１は、分割手段５３２１が取得した２以上の第二文を機械翻訳してもよい。

【0410】

翻訳結果対応手段５３２２２は、機械翻訳手段５３２２１が機械翻訳した２以上の第一文の翻訳結果と、分割手段５３２１が取得した２以上の第二文とを比較し、分割手段５３２１が取得した１以上の第一文と１以上の第二文とを対応付ける。

【0411】

または、翻訳結果対応手段５３２２２は、機械翻訳手段５３２２１が機械翻訳した２以上の第二文の翻訳結果と、分割手段５３２１が取得した２以上の第一文とを比較し、分割手段５３２１が取得した１以上の第一文と１以上の第二文とを対応付ける。

【0412】

音声対応手段５３２３は、文対応手段５３２２が対応付けた１以上の第一文に対応する第一部分音声と、文対応手段５３２２が対応付けた１以上の第二文に対応する第二部分音声とを対応付ける。

【0413】

タイミング情報取得手段５３２４は、２以上の第一文に対応付く２以上の第一タイミング情報、および２以上の第二文に対応付く２以上の第二タイミング情報を取得する。第一タイミング情報とは、第一文に対応付くタイミング情報であり、第二タイミング情報とは、第一文に対応付くタイミング情報である。なお、タイミング情報について後述する。

【0414】

タイミング情報対応手段５３２５は、２以上の第一文に２以上の第一タイミング情報を対応付け、かつ２以上の第二文に２以上の第二タイミング情報を対応付ける。

【0415】

音声認識部５３３は、例えば、第一音声に対して音声認識処理を行い、第一文章を取得する。第一文字列とは、第一音声に対応する文字列である。なお、音声認識処理は公知技術であり、詳しい説明を省略する。

【0416】

また、音声認識部５３３は、第二音声に対して音声認識処理を行い、第二文章を取得する。第二文章とは、第二音声に対応する文字列である。

【0417】

評価取得部５３４は、例えば、文対応手段５３２２における１以上の第一文と１以上の第二文との対応付けの結果を用いて、評価情報を取得する。評価情報とは、同時通訳を行った通訳者の評価に関する情報である。評価情報は、例えば、第一評価情報、第二評価情報、第三評価情報、総合評価情報などであるが、通訳者の評価に関する情報であれば何でもよい。

【0418】

第一評価情報とは、翻訳漏れに関する評価情報である。第一評価情報は、例えば、翻訳漏れが少ないほど高い評価値を示し、翻訳漏れが多いほど低い評価値を示す情報である。なお、評価値は、具体的には、例えば、最低評価を示す“１”から、最高評価を示す“５”までの５個の整数値等で表現されるが、小数部も有する“４．５”等の数値でもよいし、ＡＢＣや優良可等でもよく、その形式は問わない。また、かかる事項は、第二評価情報、第三評価情報の評価値にも当てはまる。

【0419】

第二評価情報とは、補充に関する評価情報である。第二評価情報は、例えば、補充文の数が多いほど高い評価値を示し、補充文の数が少ないほど低い評価値を示す情報である。なお、補充文の数は、２以上の第二文が対応付いた第一文の数といってもよい。

【0420】

第三評価情報とは、遅延に関する評価情報である。第三評価情報は、例えば、遅延が小さいほど高い評価値を示し、遅延が大きいほど低い評価値を示す情報である。

【0421】

総合評価情報とは、総合的な評価情報である。総合評価情報は、例えば、第一～第三の３つの評価情報のうち２以上の評価情報を基に取得される。総合評価情報は、具体的には、例えば、“Ａ”，“Ａ－”，“Ｂ”等で表現されるが、数値等でもよく、その形式は問わない。

【0422】

対応付けの結果とは、例えば、対応付けられた第一文と第二文との対（つまり、原文と、その通訳文との対。以下、原訳対と記す場合がある）の集合であるが、いずれの第二文と対応付かない１または２以上の第一文、いずれの第一文と対応付かない１または２以上の第二文も含む。

【0423】

評価取得部５３４は、例えば、いずれの第二文とも対応付かない１または２以上の第一文（つまり、前述した通訳漏れ文）を検出し、検出した通訳漏れ文の数を取得してもよい。そして、評価取得部５３４は、通訳漏れ文の数が多いほど低い評価となる第一評価情報を取得する。

【0424】

具体的には、評価取得部５３４は、例えば、通訳漏れ文の数をパラメータとする減少関数を用いて算出された評価値を示す第一評価情報を取得してもよい。または、例えば、格納部１に、補充文の数と評価値との対の集合である第一対応情報が格納されており、評価取得部５３４は、取得した通訳漏れ文の数をキーとして第一対応情報を検索し、当該数と対になる評価値を示す第一評価情報を取得してもよい。

【0425】

また、評価取得部５３４は、例えば、いずれの第一文とも対応付かない１または２以上の第二文（つまり、前述した補充文）を検出し、検出した補充文の数を取得してもよい。そして、評価取得部５３４は、補充文の数が多いほど高い評価となる第二評価情報を取得する。

【0426】

具体的には、評価取得部５３４は、例えば、補充文の数をパラメータとする増加関数を用いて算出された評価値を示す第二評価情報を取得してもよい。または、例えば、格納部５１に、補充文の数と評価値との対の集合である第二対応情報が格納されており、評価取得部５３４は、取得した補充文の数をキーとして第二対応情報を検索し、当該数と対になる評価値を示す第二評価情報を取得してもよい。

【0427】

なお、補充文の数に代えて、補充付き原文の数が用いられてもよい。補充付き原文とは、訳文に加えて、１以上の補充文も存在する原文であり、例えば、２以上の第二文が対応付けられた一の第一文、といってもよい。評価取得部５３４は、１または２以上の補充付き原文を検知し、検知した補充付き原文の数が多いほど高い評価となる第二評価情報を取得してもよい。この場合に用いる関数は、補充付き原文の数をパラメータとする増加関数であり、第二対応情報は、補充付き原文の数と評価値との対の集合である。

【0428】

さらに、評価取得部５３４は、例えば、第一音声に対する第二音声の遅延を取得してもよい。遅延は、例えば、一の原訳対を構成する第一文と第二文との間で、当該第一文に対応付いた第一タイミング情報と、当該第二文に対応付いた第二タイミング情報との差分でもよい。

【0429】

詳しくは、例えば、第一音声および第二音声は、タイミング情報に対応付いている。タイミング情報とは、タイミングを特定する情報である。特定されるタイミングは、例えば、一の文章を構成する２以上の文に対応する２以上の各部分音声が発声されたタイミングである。発声されたタイミングとは、部分音声の発声が開始された開始タイミングでもよいし、発声が終了された終了タイミングでもよいし、開始タイミングおよび終了タイミングを平均した平均タイミングでもよい。第一音声および第二音声には、かかるタイミング情報が、予め対応付いていてもよい。なお、タイミング情報は、例えば、予め決められた時点（例えば、第一音声の発声が開始された時点）から、第一音声中の当該部分音声が発声されるまでの時間を示す情報（例えば、“０：０５”等）であるが、当該部分音声が発声された時点の現在時刻を示す情報などでもよく、その形式は問わない。

【0430】

または、タイミング情報取得手段５３２４が、２以上の第一文に対応付く２以上の第一タイミング情報、および２以上の第二文に対応付く２以上の第二タイミング情報を取得し、タイミング情報対応手段５３２５が、取得された２以上の第一タイミング情報を２以上の第一文に対応付け、かつ取得された２以上の第二タイミング情報を２以上の第二文に対応付けてもよい。

【0431】

詳しくは、例えば、第一音声受付部５２１が、第一音声を受け付けている期間中、予め決められた時間（例えば、１秒、１／３０秒等）ごとに、時刻または番号等の時間情報を取得し、受け付けた第一音声に取得した時間情報を対応付けて蓄積部５３１に引き渡す処理を行っている。また、第二音声受付部５２２も、第二音声を受け付けている期間中、予め決められた時間ごとに時間情報を取得し、受け付けた第二音声に取得した時間情報を対応付けて蓄積部５３１に引き渡す処理を行っている。さらに、蓄積部５３１は、２以上の時間情報が対応付けられた第一音声と、２以上の時間情報が対応付けられた第二音声とを対応付けて格納部５１に蓄積する処理を行っている。

【0432】

タイミング情報取得手段５３２４は、分割手段５３２１が２以上の第一文を取得したタイミングで、当該２以上の第一文に対応する２以上の第一部分音声に対応付いた２以上の時間情報を格納部５１から取得し、かつ、分割手段５３２１が２以上の第二文を取得したタイミングで、当該２以上の第二文に対応する２以上の第二部分音声に対応付いた２以上の時間情報を格納部５１から取得する。

【0433】

タイミング情報対応手段５３２５は、２以上の第一文の取得に応じて取得された２以上の時間情報に対応する２以上の第一タイミング情報を２以上の第一文に対応付け、かつ２以上の第二文の取得に応じて取得された２以上の時間情報に対応する２以上の第二タイミング情報を２以上の第二文に対応付ける。

【0434】

評価取得部５３４は、例えば、文対応手段５３２２が対応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差分（つまり、前述した遅延）を取得してもよい。そして、評価取得部５３４は、取得した差分が大きいほど低い評価値を示す第三評価情報を取得する。

【0435】

具体的には、評価取得部５３４は、例えば、遅延をパラメータとする増加関数を用いて算出された評価値を示す第三評価情報を取得してもよい。または、例えば、格納部５１に、遅延の値と評価値との対の集合である第三対応情報が格納されており、評価取得部５３４は、取得した遅延の値をキーとして第三対応情報を検索し、当該遅延の値と対になる評価値を示す第三評価情報を取得してもよい。

【0436】

評価取得部５３４は、例えば、上記のような第一～第３の３つの評価情報のうち２以上の評価情報を基に、総合評価情報を取得する。総合評価情報は、例えば、２以上の評価情報の代表値（例えば、平均値、中央値、最頻値など）でもよいし、代表値に対応付いた“Ａ”，“Ｂ”等の評価情報でもよい。なお、各種の評価情報については、具体例で説明する。

【0437】

以上のようにして取得された各種の評価情報は、例えば、通訳者識別子に対応付けて、格納部５１に蓄積されてもよい。通訳者識別子とは、通訳者を識別する情報である。通訳者識別子は、例えば、メールアドレス、電話番号、氏名、ＩＤ等、何でもよい。

【0438】

出力部５４は、各種の情報を出力する。各種の情報とは、例えば、翻訳漏れ文、評価情報などである。出力部５４は、各種の情報を、例えば、端末に送信したり、ディスプレイに表示したりするが、プリンタでプリントアウトしたり、記録媒体に蓄積したり、他のプログラムに引渡したりしてもよく、その出力態様は問わない。

【0439】

通訳漏れ出力部５４１は、文対応手段５３２２の検出結果を出力する。検出結果とは、例えば、検出された１以上の通訳漏れ文であるが、検出された通訳漏れ文の数などでもよい。また、出力される通訳漏れ文は、例えば、通訳されなかった第一言語の第一文を第二言語に機械翻訳した翻訳文であるが、通訳されなかった第一文自体でもよい。または、通訳漏れ出力部５４１は、通訳されなかった第一文と、それを機械翻訳した翻訳文とを出力してもよい。

【0440】

評価出力部５４２は、評価取得部５３４が取得した評価情報を出力する。評価出力部５４２は、例えば、受付部５２が評価情報の出力指示を端末識別子と対に受信したことに応じて評価取得部５３４が取得した評価情報を、当該端末識別子で識別される端末に送信する。

【0441】

または、評価出力部５４２は、例えば、受付部５２が評価情報の出力指示をタッチパネル等の入力デバイスを介して受け付けたことに応じて評価取得部５３４が取得した評価情報を、ディスプレイ等の出力デバイスを介して出力してもよい。

【0442】

格納部５１は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、ＲＡＭなど揮発性の記録媒体でも実現可能である。

【0443】

格納部５１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部５１で記憶されるようになってもよい。入力デバイスは、例えば、キーボード、マウス、タッチパネル、マイクロフォン等、何でもよい。

【0444】

受付部５２、第一音声受付部５２１、および第二音声受付部５２２は、入力デバイスを含むと考えても、含まないと考えてもよい。受付部５２等は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。

【0445】

処理部５３、蓄積部５３１、音声対応処理部５３２、音声認識部５３３、評価取得部５３４、分割手段５３２１、文対応手段５３２２、音声対応手段５３２３、タイミング情報取得手段５３２４、タイミング情報対応手段５３２５、機械翻訳手段５３２２１、および翻訳結果対応手段５３２２２は、通常、ＭＰＵやメモリ等から実現され得る。処理部５３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。ただし、処理手順は、ハードウェア（専用回路）で実現してもよい。

【0446】

出力部５４、通訳漏れ出力部５４１、および評価出力部５４２は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えてもよい。出力部５４等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。

【0447】

受付部５２の受信機能は、通常、無線または有線の通信手段（例えば、ＮＩＣ(Network interface controller)やモデム等の通信モジュール）で実現されるが、放送を受信する手段（例えば、放送受信モジュール）で実現されてもよい。

【0448】

出力部５４の送信機能は、通常、無線または有線の通信手段で実現されるが、放送手段（例えば、放送モジュール）で実現されてもよい。

【0449】

次に、音声処理装置の動作について図１５および図１６のフローチャートを用いて説明する。図１５は、音声処理装置の動作を説明するフローチャートである。

【0450】

（ステップＳ１５０１）処理部５３は、第一音声受付部５２１が第一音声を受け付けたか否かを判別する。第一音声受付部５２１が第一音声を受け付けたと判別された場合はステップＳ１５０２に進み、受け付けていないと判別された場合はステップＳ１５０１に戻る。

【0451】

（ステップＳ１５０２）蓄積部５３１は、ステップＳ２０１で受け付けられた第一音声を格納部１に蓄積する。

【0452】

（ステップＳ１５０３）音声認識部５３３は、ステップＳ１５０１で受け付けられた第一音声に対して音声認識処理を行い、第一文章を取得する。

【0453】

（ステップＳ１５０４）分割手段５３２１は、ステップＳ１５０３で取得された第一文章を２以上に分割し、２以上の第一文を取得する。

【0454】

（ステップＳ１５０５）処理部５３は、第二音声受付部２２が第二音声を受け付けたか否かを判別する。第二音声受付部５２２が第２音声を受け付けたと判別された場合はステップＳ１５０６に進み、受け付けていないと判別された場合はステップＳ１５０５に戻る。

【0455】

（ステップＳ１５０６）蓄積部５３１は、ステップＳ１５０５で受け付けられた第二音声を上記第一音声に対応付けて格納部１に蓄積する。

【0456】

（ステップＳ１５０７）音声認識部５３３は、ステップＳ１５０５で受け付けられた第二音声に対して音声認識処理を行い、第二文章を取得する。

【0457】

（ステップＳ１５０８）分割手段５３２１は、ステップＳ１５０７で取得された第二文章を２以上に分割し、２以上の第二文を取得する。

【0458】

（ステップＳ１５０９）文対応手段５３２２は、ステップＳ１５０４で取得された２以上の第一文のうち１以上の第一文と、ステップＳ１５０８で取得された２以上の第二文のうち１以上の第二文とを対応付ける処理である文対応処理を実行する。なお、文対応処理については、図１６を用いて説明する。

【0459】

（ステップＳ１５１０）蓄積部５３１は、ステップＳ１５０９で対応付けられた１以上の第一文と１以上の第二文とを格納部１に蓄積する。

【0460】

（ステップＳ１５１１）音声対応手段５３２３は、当該１以上の第一文に対応する１以上の第一部分音声と、当該１以上の第二文に対応する１以上の第二部分音声とを対応付ける。

【0461】

（ステップＳ１５１２）蓄積部５３１は、ステップＳ１５１１で対応付けられた１以上の第一部分音声と１以上の第二部分音声とを格納部１に蓄積する。

【0462】

（ステップＳ１５１３）処理部５３は、ステップＳ１５０９の文対応処理の結果を用いて、翻訳漏れフラグが対応付いた第一文があるか否かを判別する。翻訳漏れフラグが対応付いた第一文があると判別された場合はステップＳ１５１４に進み、ないと判別された場合はステップＳ１５１５に進む。

【0463】

（ステップＳ１５１４）通訳漏れ出力部５４１は、当該第一文を出力する。なお、このフォローチャートにおける出力は、例えば、ディスプレイへの表示であるが、端末への送信でもよい。

【0464】

（ステップＳ１５１５）処理部５３は、第二話者の評価を行うか否かを判断する。例えば、受付部５２が評価情報の出力指示を受け付けた場合に、処理部５３は、第二話者の評価を行うと判断する。または、ステップＳ１５０９の文対応処理が完了したことに応じて、処理部５３は、第二話者の評価を行うと判断してもよい。第二話者の評価を行うと判断された場合はステップＳ１５１６に進み、行わないと判断された場合は、この処理を終了する。

【0465】

（ステップＳ１５１６）評価取得部５３４は、ステップＳ１５０９の文対応処理の結果を用いて、第二音声を発した第二話者の評価情報を取得する。

【0466】

（ステップＳ１５１７）評価出力部５４２は、ステップＳ１５１６で取得された評価情報を出力する。その後、処理を終了する。

【0467】

図１６は、ステップＳ１５０７の文対応処理を説明するフローチャートである。

【0468】

（ステップＳ１６０１）文対応手段５３２２は、変数ｉに初期値“１”をセットとする。変数ｉとは、ステップＳ１５０４で取得された２以上の第一文のうち、未選択の第一文を順番に選択していくための変数である。

【0469】

（ステップＳ１６０２）文対応手段５３２２は、ｉ番目の第一文があるか否かを判別する。ｉ番目の第一文があると判別された場合はステップＳ１６０３に進み、ｉ番目の第一文がないと判別された場合はステップＳ１６１０に進む。

【0470】

（ステップＳ１６０３）文対応手段５３２２は、ｉ番目の第一文に対応する第二文を検出する。

【0471】

詳しくは、機械翻訳手段５３２２１が、ｉ番目の第一文を第二言語に機械翻訳し、翻訳結果対応手段５３２２２は、ｉ番目の第一文の翻訳結果を、ステップＳ１５０８で取得された２以上の各第二文と比較し、類似度を取得する。そして、翻訳結果対応手段５３２２２は、翻訳結果との類似度が最も高い第二文を特定し、特定した第二文の類似度が閾値以上である場合に、その特定した第二文を検出する。なお、特定した第二文の類似度が閾値未満である場合には、ｉ番目の第一文に対応する第二文は検出されない。

【0472】

（ステップＳ１６０４）文対応手段５３２２は、ステップＳ１６０３での検出が成功したか否かを判断する。検出が成功したと判断された場合はステップＳ１６０５に進み、検出が成功しなかったと判断された場合はステップＳ１６０６に進む。

【0473】

（ステップＳ１６０５）文対応手段５３２２は、ｉ番目の第一文を、ステップＳ１６０３で検出された第二文に対応付ける。その後、ステップＳ１６０７に進む。

【0474】

（ステップＳ１６０６）文対応手段５３２２は、ｉ番目の第一文に翻訳漏れフラグを対応付ける。

【0475】

（ステップＳ１６０７）タイミング情報取得手段５３２４は、ｉ番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報を取得する。

【0476】

（ステップＳ１６０８）タイミング情報対応手段５３２５は、ｉ番目の第一文に当該第一タイミング情報を対応付ける。

【0477】

（ステップＳ１６０９）文対応手段５３２２は、変数ｉをインクリメントする。その後、ステップＳ１６０２に戻る。

【0478】

（ステップＳ１６１０）文対応手段５３２２は、変数ｊに初期値“１”をセットとする。変数ｊとは、ステップＳ１５０８で取得された２以上の第二文のうち、未選択の第二文を順番に選択していくための変数である。

【0479】

（ステップＳ１６１１）文対応手段５３２２は、ｊ番目の第二文があるか否かを判別する。ｊ番目の第二文があると判別された場合はステップＳ１６１２に進み、ｊ番目の第二文がないと判別された場合は上位処理にリターンする。

【0480】

（ステップＳ１６１２）文対応手段５３２２は、ｊ番目の第二文がいずれかの第一文に対応付いているか否かを判別する。ｊ番目の第二文が、いずれかの第一文に対応付いている場合はステップＳ１６１３に進み、いずれの第一文にも対応付いていない場合はステップＳ１６１５に進む。

【0481】

（ステップＳ１６１３）文対応手段５３２２は、ｊ番目の第二文が（ｊ－１）番目の第二文と予め決められた関係があるか否かを判断する。ｊ番目の第二文が（ｊ－１）番目の第二文と予め決められた関係があると判断された場合はステップＳ１６１４に進み、予め決められた関係がないと判断された場合はステップＳ１６１５に進む。

【0482】

（ステップＳ１６１４）文対応手段５３２２は、ｊ番目の第二文を（ｊ－１）番目の第二文に対応する第一文に対応付ける。

【0483】

（ステップＳ１６１５）タイミング情報取得手段５３２４は、ｊ番目の第二文に対応する第二部分音声に対応付いた第二タイミング情報を取得する。

【0484】

（ステップＳ１６１６）タイミング情報対応手段５３２５は、ｊ番目の第二文に当該第二タイミング情報を対応付ける。

【0485】

（ステップＳ１６１７）文対応手段５３２２は、変数ｊをインクリメントする。その後、ステップＳ１６１１に戻る。

【0486】

以下、本実施の形態における音声処理装置の具体的な動作例について説明する。なお、以下の説明は、種々の変更が可能であり、本発明の範囲を何ら制限するものではない。

【0487】

本来における音声処理装置は、例えば、講演会場に設置されたスタンドアロンの端末である。この端末には、会場内の演壇に設置された第一話者用の第一マイクロフォンと、会場内の通訳者ブースに設置された第二話者用の第二マイクロフォンと、聴衆用の外部ディスプレイとが接続されている。第一話者は、講演者であり、第一言語である日本語の第一音声を発する。第二話者は、第一話者が発する第一音声を聴きながら、第二言語である英語への同時通訳を行い、英語の第二音声を発する。

【0488】

音声処理装置において、第一音声受付部５２１が第一マイクロフォンを介して第一音声「今日はわが社の２つの新製品をご紹介します。１つ目はスマートフォンです。このスマートフォンは新開発のカメラを搭載しています。このカメラはＡ社製です。このカメラの鮮明な画像はまさに目からうろこです。」を受け付け、蓄積部５３１は、受け付けられた第一音声を格納部５１に蓄積する。蓄積される第一音声には、１秒ごとに第一時刻情報（“０：０１”，“０：０２”等）が対応付けられる。

【0489】

音声認識部５３３は、受け付けられた第一音声に対して音声認識処理を行い、第一文章“今日はわが社の２つの新製品をご紹介します。１つ目はスマートフォンです。このスマートフォンは新開発のカメラを搭載しています。このカメラはＡ社製です。このカメラの鮮明な画像はまさに目からうろこです。”を取得する。

【0490】

分割手段５３２１は、取得された第一文章を５分割し、５つの第一文“今日はわが社の２つの新製品をご紹介します。”，“１つ目はスマートフォンです。”，“このスマートフォンは新開発のカメラを搭載しています。”，“このカメラはＡ社製です。”，“このカメラの鮮明な画像はまさに目からうろこです。”を取得する。

【0491】

第二音声受付部５２２は、第二マイクロフォンを介して第二音声「Today we introduce two new products of our company. The first is a smartphone. This smartphone is equipped with a newly developed camera. The clear image of this camera is just me kara uroko. Me kara uroko means that the image is such clear as the scales fall from one’s eyes．」を受け付け、蓄積部５３１は、受け付けられた第二音声を上記第一音声に対応付けて格納部５１に蓄積する。蓄積される第二音声には、１秒ごとに第二時刻情報（“０：０５”，“０：０６”等）が対応付けられる。

【0492】

音声認識部５３３は、受け付けられた第二音声に対して音声認識処理を行い、第二文章“Today we introduce two new products of our company. The first is a smartphone. This smartphone is equipped with a newly developed camera. The clear image of this camera is just me kara uroko. Me kara uroko means that the image is such clear as the scales fall from one’s eyes．”を取得する。

【0493】

分割手段５３２１は、取得された第二文章を５分割し、５つの第二文“Today we introduce two new products of our company.”，“The first is a smartphone.”，“This smartphone is equipped with a newly developed camera.”，“The clear image of this camera is just me kara uroko.”，“Me kara uroko means that the image is such clear as the scales fall from one’s eyes．”を取得する。

【0494】

蓄積部５３１は、取得された第一文章および取得された第二文章を、例えば、図１７に示すように対応付けて格納部５１に蓄積する。図１７は、対応付けて格納された第一文章および第二文章の構造図である。第一文章は、２以上の第一文（ここでは、５つの第一文）で構成される。第二文章は、２以上の第二文（ここでは、５つの第二文）で構成される。

【0495】

第一文章を構成する２以上の各第一文には、フローチャートで説明した変数ｉが対応付けられる。また、２以上の各第一文には、第一時刻情報も対応付けられ得る。さらに、２以上の各第一文には、当該第一文の翻訳文も対応付けられ得る。

【0496】

同様に、第二文章を構成する２以上の各第二文には、変数ｊが対応付けられる。また、２以上の各第二文には、第二時刻情報も対応付けられる。

【0497】

文対応手段５３２２は、取得された２以上（ここでは５つ）の第一文のうち１以上の第一文と、取得された２以上の第二文（ここでは５つ）のうち１以上の第二文とを対応付ける下記のような文対応処理を実行する。

【0498】

すなわち、文対応手段５３２２は、まず、１番目の第一文に対応する第二文を検出する。詳しくは、機械翻訳手段５３２２１が、１番目の第一文“今日はわが社の２つの新製品をご紹介します。”を機械翻訳し、翻訳結果“Today we introduce two new products of our company.”を取得する。なお、この翻訳結果は、例えば、図１７に示したように、１番目の第一文に対応付けて蓄積されてもよい。

【0499】

翻訳結果対応手段５３２２２は、この翻訳結果を、取得された上記２以上の各第二文と比較し、翻訳結果と一致する第二文である１番目の第二文“Today we introduce two new products of our company.”を検出する。文対応手段５３２２は、１番目の第一文“今日はわが社の２つの新製品をご紹介します。”を、検出された１番目の第二文“Today we introduce two new products of our company.”に対応付ける。

【0500】

また、タイミング情報取得手段５３２４が、１番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報を取得する。ここでは、第一タイミング情報“０：０１”が取得されたとする。タイミング情報対応手段５３２５は、１番目の第一文に当該第一タイミング情報“０：０１”を対応付ける。

【0501】

次に、２番目の第一文“１つ目はスマートフォンです。”の翻訳結果“The first product is a smartphone.”が取得され、この翻訳結果に類似する第二文である２番目の第二文“The first is a smartphone.”が検出される結果、２番目の第一文“１つ目はスマートフォンです。”と２番目の第二文“The first is a smartphone.”とが対応付けられる。また、２番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報（ここでは、“０：０４”）が取得され、２番目の第一文に当該第一タイミング情報“０：０４”が対応付けられる。

【0502】

次に、３番目の第一文“このスマートフォンは新開発のカメラを搭載しています。”の翻訳結果“This smartphone is provided with a newly developed camera.”が取得され、この翻訳結果に類似する第二文“This smartphone is equipped with a newly developed camera.”が検出される結果、３番目の第一文“１つ目はスマートフォンです。”と３番目の第二文“The first is a smartphone.”とが対応付けられる。また、３番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報（ここでは、“０：０６”）が取得され、３番目の第一文に当該第一タイミング情報“０：０６”が対応付けられる。

【0503】

次に、４番目の第一文“このカメラはＡ社製です。”の翻訳結果“This camera is made by company A.”が取得されるが、この翻訳結果に一致または類似する第二文は検出されないため、４番目の第一文“このカメラはＡ社製です。”には、翻訳漏れフラグが対応付けられる。また、４番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報（ここでは、“０：１０”）が取得され、４番目の第一文に当該第一タイミング情報“０：１０”が対応付けられる。

【0504】

次に、５番目の第一文“このカメラの鮮明な画像はまさに目からうろこです。”の翻訳結果“The clear image of this camera is just from the eye.”が取得され、この翻訳結果に類似する第二文である４番目の第二文“The clear image of this camera is just me kara uroko.”が検出される結果、５番目の第一文“このカメラの鮮明な画像はまさに目からうろこです。”と４番目の第二文“The clear image of this camera is just me kara uroko.”とが対応付けられる。また、５番目の第一文に対応する第一部分音声に対応付いた第一タイミング情報（ここでは、“０：１３”）が取得され、５番目の第一文に当該第一タイミング情報“０：１３”が対応付けられる。

【0505】

次に、文対応手段５３２２は、取得された上記５つの第二文の各々について、当該第二文がいずれかの第一文に対応付いているか否かを判別する。１番目の第二文は、１番目の第二文に対応付いているため、判別結果は肯定的である。また、２番目，３番目，４番目の第二文も、それぞれ２番目，３番目，５番目の第１文に対応付いているため、判別結果は肯定的である。

【0506】

５番目の第二文は、いずれの第二文にも対応付いていないため、判別結果は否定的である。これに応じて、文対応手段５３２２は、５番目の第二文が、その直前の第二文である４番目の第二文と予め決められた関係があるか否かを判断する。本例において、予め決められた関係は、例えば、“当該第二文が、その直前の第二文に含まれる自立語を含む文である”、という関係である。

【0507】

５番目の第二文“Me kara uroko means that the image is such clear as the scales fall from one’s eyes．”と、４番目の第二文“The clear image of this camera is just me kara uroko.”とは、同じ自立語“me kara uroko”を含んでいるため、上記の予め決められた関係を満たすと判断される。

【0508】

かかる判断結果を受け、文対応手段５３２２は、５番目の第二文“Me kara uroko means that the image is such clear as the scales fall from one’s eyes．”を、４番目の第二文に対応する第一文である５番目の第一文に対応付ける。これによって、５番目の第一文には、４番目および５番目の２つの第二文が対応付けられる結果となる。

【0509】

次に、取得された上記５つの第二文の各々について、タイミング情報取得手段５３２４が、当該第二文に対応する第二部分音声に対応付いた第二タイミング情報を取得し、タイミング情報対応手段５３２５は、当該第二文に当該第二タイミング情報を対応付ける。ここでは、１番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“０：０５”が取得され、１番目の第二文に当該第二タイミング情報“０：０５”が対応付けられる。

【0510】

同様に、２番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“０：０８”が取得され、２番目の第二文に当該第二タイミング情報“０：０８”が対応付けられる。また、３番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“０：１１”が取得され、３番目の第二文に当該第二タイミング情報“０：１１”が対応付けられる。また、４番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“０：１５”が取得され、４番目の第二文に当該第二タイミング情報“０：１５”が対応付けられる。さらに、５番目の第二文について、これに対応する第二部分音声に対応付いた第二タイミング情報“０：１８”が取得され、５番目の第二文に当該第二タイミング情報“０：１８”が対応付けられる。

【0511】

こうして、上記５つの第一文および上記５つの第二文に関し、１番目の第一文と１番目の第二文とが対応付けられ、２番目の第一文と２番目の第二文とが対応付けられ、４番目の第一文と３番目の第二文とが対応付けられ、５番目の第一文と４番目および５番目の２つの第二とが対応付けられると共に、３番目の第一文に、翻訳漏れフラグが対応付けられる結果となる。

【0512】

なお、上記のような対応付けは、例えば、図１８に示すような２以上の対応情報を構成し、格納部５１に蓄積することでもよい。図１８は、文対応情報の構造図である。文対応情報は、変数ｉおよび変数ｊの組（ｉ，ｊ）を有する。２以上の各文対応情報には、ＩＤ（例えば、“１”，“２”等）が対応付いている。ＩＤ“１”に対応付いた文対応情報（以下、文対応情報１）は（１，１）を有する。

【0513】

同様に、ＩＤ“２”に対応付いた文対応情報２は（２，２）を有し、文対応情報３は（３，３）を有する。また、文対応情報４は（４，通訳漏れフラグ）を有する。さらに、文対応情報５は（５，４，５）を有する。

【0514】

蓄積部５３１は、上記のような文対応処理によって対応付けられた上記５つの第一文および上記５つの第二文を格納部５１に蓄積する。なお、対応付けられた上記５つの第一文および上記５つの第二文の蓄積は、例えば、図１８に示したような２以上の文対応情報の蓄積でもよい。

【0515】

次に、音声対応手段５３２３が、上記５つの第一文に対応する５つの第一部分音声と、上記５つの第二文に対応する５つの第二部分音声とを対応付け、蓄積部５３１は、対応付けられた上記５つの第一部分音声と上記５つの第二部分音声とを格納部５１に蓄積する。

【0516】

次に、処理部５３は、翻訳漏れフラグが対応付いた第一文があるか否かを判別し、その判別結果が肯定的である場合に、通訳漏れ出力部５４１は、当該第一文を、外部ディスプレイを介して出力する。ここでは、３番目の第一文に翻訳漏れフラグが対応付いていることから、外部ディスプレイに当該３番目の第一文“このカメラはＡ社製です”とその翻訳文“This camera is made by company A.”とが表示される。なお、３番目の第一文の翻訳文のみが表示され、３番目の第一文自体は表示されなくてもよい。これによって、聴衆は、同時通訳されなかった第一文である３番目の翻訳文“This camera is made by company A.”を見ることができる。

【0517】

以上が、上記第一音声「今日はわが社の２つの新製品をご紹介します。・・・このカメラの鮮明な画像はまさに目からうろこです。」および上記第二音声「Today we introduce two new products of our company.・・・ Me kara uroko means that the image is such clear as the scales fall from one’s eyes．」に関する動作である。これに続く他の第一音声および他の第二音声についても、同様の動作が行われる。

【0518】

講演会の終了後、第二話者所が所属する同時通訳サービス会社の担当者が、音声処理装置に対し、キーボード等の入力デバイスを介して、評価情報の出力指示を入力したとする。

【0519】

音声処理装置において、受付部５２が評価情報の出力指示を受け付け、評価取得部５３４は、図１８に示したような文対応処理の結果を参照して、通訳漏れ文の数ｍ、２以上の第二文が対応付いた第一文の数ｎ、および第一文に対する第二文の遅延ｔを取得する。ここでは、ｍ＝２、ｎ＝５、およびｔ＝４秒が取得されたとする。

【0520】

なお、遅延ｔは、例えば、以下のように取得される。すなわち、評価取得部５３４は、１番目の第一文に対応付いた第一タイミング情報“０：０１”と、これに対応する１番目の第二文に対応付いた第二タイミング情報“０：０５”との差分“４秒”を取得する。また、評価取得部５３４は、２番目の第一文に対応付いた第一タイミング情報“０：０４”と、これに対応する２番目の第二文に対応付いた第二タイミング情報“０：０８”との差分“４秒”を取得する。また、評価取得部５３４は、３番目の第一文に対応付いた第一タイミング情報“０：０６”と、これに対応する３番目の第二文に対応付いた第二タイミング情報“０：１１”との差分“５秒”を取得する。なお、４番目の第一文には通訳漏れフラグが対応付いているので、差分は取得されない。

【0521】

さらに、評価取得部５３４は、５番目の第一文に対応付いた第一タイミング情報“０：１４”と、これに対応する４番目および５番目の２つの第二文に対応付いた２つの第二タイミング情報“０：１５”および“０：１８”のうち前者との差分“２秒”を取得する。そして、評価取得部５３４は、取得した４つの差分“４秒”，“４秒”，“５秒”，“２秒の代表値（ここでは、最頻値）“４秒”を取得する。

【0522】

次に、評価取得部５３４は、通訳漏れ文の数ｍをパラメータとする減少関数に、取得したｍ＝２を代入して算出された第一評価値を示す第一評価情報を取得する。第一評価値とは、翻訳漏れの少なさを示す評価値である。第一評価値は、例えば、最低評価を示す“１”から最高評価を示す“５”までの整数値で表現される。ここでは、第一評価情報“第一評価値＝５”が取得されたとする。

【0523】

また、評価取得部５３４は、２以上の第二文が対応付いた第一文の数ｎをパラメータとする増加関数に、取得したｎ＝５を代入して算出された第二評価値を示す第二評価情報を取得する。第二評価値とは、補充の多さを示す評価値である。第二評価値もまた、最低評価を示す“１”から最高評価を示す“５”までの整数値で表現される。ここでは、第二評価情報“第二評価値＝４”が取得されたとする。

【0524】

さらに、評価取得部５３４は、遅延ｔをパラメータとする増加関数に、取得したｔ＝４を代入して算出された第三評価値を示す第三評価情報を取得する。第三評価値とは、遅延の小さを示す評価値である。第三評価値は、例えば、最低評価を示す“１”から最高評価を示す“５”までの整数値で表現される。ここでは、第一評価情報“第一評価値＝５”が取得されたとする。

【0525】

そして、評価取得部５３４は、第一～第三の３つの評価値を基に、総合評価を示す総合用評価情報を取得する。

【0526】

詳しくは、例えば、格納部５１に、第一～第三の３評価値の平均値と総合評価との対の集合が格納されている。平均値と総合評価との対とは、例えば、平均値“４．５以上”と評価“Ａ”との対、平均値“４以上４．５未満”と評価“Ａ－”、平均値“３．５以上４未満”と評価“Ｂ”との対などである。評価取得部５３４は、取得した第一～第３の３評価値“４”，“５”，“５”の平均値“４．７”を取得し、当該平均値“４．７”に対応する総合評価情報“Ａ”を取得する。

【0527】

評価出力部４２は、取得された第一評価情報“第一評価値＝４、取得された第二評価情報”第二評価値＝５“、取得された第三評価情報”第三評価値＝５“、および取得された総合評価情報”Ａ”を基に、出力用の評価情報“翻訳漏れの少なさ：４，補充の多さ：５，遅延の短さ：５，総合評価：Ａ”を構成し、ディスプレイを介して出力する。

【0528】

これによって、音声処理装置のディスプレイには、第二話者の評価情報“翻訳漏れの少なさ：４，補充の多さ：５遅延の短さ：５，総合評価：Ａ”が表示され、担当者は、第二話者の評価を知ることができる。

【0529】

以上、本実施の形態によれば、音声処理装置は、第一言語の第一話者が発声した第一音声を受け付け、第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付け、第一音声と第二音声とを対応付けて蓄積することにより、第一音声と当該第一音声の同時通訳の音声である第二音声とを対応付けて蓄積できる。

【0530】

また、音声処理装置は、第一音声の一部分である第一部分音声と第二音声の一部分である第二部分音声とを対応付け、対応付けた第一部分音声と第二部分音声とを応付けて蓄積する音声処理装置である。

【0531】

かかる構成により、第一音声の部分と第二音声の部分とを対応付けて蓄積できる。

【0532】

また、音声処理装置は、第一音声に対して音声認識処理を行い、第一音声に対応する文字列である第一文章を取得し、第二音声に対して音声認識処理を行い、第二音声に対応する文字列である第二文章を取得し、第一文章を２以上の文に分割し、２以上の第一文を取得し、かつ第二文章を２以上の文に分割し、２以上の第二文を取得し、取得した１以上の第一文と１以上の第二文とを対応付け、対応付けた１以上の第一文に対応する１以上の第一部分音声と、対応付けた１以上の第二文に対応する１以上の第二部分音声とを対応付け、対応付けた１以上の第一部分音声と１以上の第二部分音声とを蓄積することにより、第一音声を音声認識した第一文章と、第二音声を音声認識した第二文章とをも対応付けて蓄積できる。

【0533】

また、音声処理装置は、取得した２以上の第一文を第二言語に機械翻訳し、または取得した２以上の第二文を機械翻訳し、機械翻訳した２以上の第一文の翻訳結果と、取得した２以上の第二文とを比較し、取得した１以上の第一文と１以上の第二文とを対応付ける、または機械翻訳した２以上の第二文の翻訳結果と、取得した２以上の第一文とを比較し、取得した１以上の第一文と１以上の第二文とを対応付けることにより、第一文と、当該第一文の機械翻訳の結果とをも対応付けて蓄積できる。

【0534】

また、音声処理装置は、取得した一の第一文と２以上の第二文とを対応付けることにより、一の第一文と、二以上の第二文とを対応付けて蓄積できる。

【0535】

また、音声処理装置は、取得した１以上の各第一文に対応する第二文を検出し、第一文に対応付かない第二文を、第二文の前に位置する第二文に対応する第一文に対応付け、一の第一文と２以上の第二文とを対応付けることにより、第一文に対応付かない第二文を、その前の第二文に対応する第一文に対応付けることで、一の第一文と二以上の第二文との的確な対応付けができる。

【0536】

また、音声処理装置は、第一文に対応付かない第二文であり、第二文が直前に位置する第二文と予め決められた関係があるか否かを判断し、予め決められた関係があると判断した場合に、第一文に対応付かない第二文を当該第二文の前に位置する第二文に対応する第一文に対応付けることにより、第一文に対応付かない第二文であっても、直前の第二文と関係がない第二文は、当該直前の第二文に対応する第一文に対応付けないので、一の第一文と二以上の第二文とのより的確な対応付けができる。

【0537】

また、音声処理装置は、取得した２以上の各第一文に対応付く第二文を検知し、かついずれの第二文にも対応付かない第一文を検出し、検出結果を出力することにより、対応する第二文がない第一文の検出、および検出結果の出力によって、通訳漏れの存在を認識させることができる。

【0538】

また、音声処理装置は、１以上の第一文と１以上の第二文との対応付けの結果を用いて、同時通訳を行った通訳者の評価に関する評価情報を取得し、評価情報を出力することにより、第一文と第二文との対応を基に、通訳者を評価できる。

【0539】

また、音声処理装置は、２以上の第二文が対応付けられた一の第一文の数が多いほど高い評価となる評価情報を取得することにより、補充が多い通訳者ほど高く評価することで、的確な評価が行える。

【0540】

また、音声処理装置は、いずれの第二文にも対応付かない第一文の数が多いほど低い評価となる評価情報を取得することにより、漏れが多い通訳者ほど低く評価することで、的確な評価が行える。

【0541】

また、上記構成において、第一音声および第二音声は、タイミングを特定するタイミング情報に対応付いており、音声処理装置は、応付けた第一文に対応付く第一タイミング情報と、第一文に対応付く第二文に対応付く第二タイミング情報との差異が大きいほど低い評価となる評価情報を取得することにより、遅延が大きい通訳者ほど低く評価することで、的確な評価が行える。

【0542】

また、音声処理装置は、２以上の第一文に対応付く２以上の第一タイミング情報、および２以上の第二文に対応付く２以上の第二タイミング情報を取得し、２以上の第一文に２以上の第一タイミング情報を対応付け、かつ２以上の第二文に２以上の第二タイミング情報を対応付けることにより、２以上の第一文に２以上の第一タイミング情報を対応付け、当該２以上の第一文に対応する２以上の第二文に２以上の第二タイミング情報を対応付けて蓄積できる。それによって、対応する第一文および第二文の間の遅延を用いた通訳者の評価などが行える。

【0543】

さらに、本実施の形態における処理は、ソフトウェアで実現してもよい。そして、このソフトウェアをソフトウェアダウンロード等により配布してもよい。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。

【0544】

本実施の形態における情報処理装置を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、第一言語の第一話者が発声した第一音声を受け付ける第一音声受付部５２１と、前記第一音声に対する第二話者による第二言語への同時通訳の音声である第二音声を受け付ける第二音声受付部５２２と、前記第一音声と前記第二音声とを対応付けて蓄積する蓄積部５３１として機能させるためのプログラムである。

【0545】

図１９は、各実施の形態におけるプログラムを実行して、サーバ装置１や音声処理装置５等を実現するコンピュータシステム９００の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図１９において、コンピュータシステム９００は、ディスクドライブ９０５を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、ディスプレイ９０４とを備える。コンピュータ９０１には、図示しない第一マイクロフォンと、図示しない第二マイクロフォンと、図示しない外部ディスプレイとが接続されている。なお、キーボード９０２やマウス９０３やディスプレイ９０４等をも含むシステム全体をコンピュータと呼んでもよい。

【0546】

図２０は、コンピュータシステム９００の内部構成の一例を示す図である。図２０において、コンピュータ９０１は、ディスクドライブ９０５に加えて、ＭＰＵ９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード９１６と、第一マイクロフォン９１７と、第二マイクロフォン９１８と、外部ディスプレイ９１９と、を備える。ストレージ９１４は、例えば、ハードディスク、ＳＳＤ、フラッシュメモリなどである。

【0547】

コンピュータシステム９００に、サーバ装置１や音声処理装置５等の機能を実行させるプログラムは、例えば、ＤＶＤ、ＣＤ－ＲＯＭ等のディスク９２１に記憶されて、ディスクドライブ９０５に挿入され、ストレージ９１４に転送されてもよい。これに代えて、そのプログラムは、ネットワークを介してコンピュータ９０１に送信され、ストレージ９１４に記憶されてもよい。プログラムは、実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ディスク９２１、またはネットワークから直接、ロードされてもよい。また、ディスク９２１に代えて他の着脱可能な記録媒体（例えば、ＤＶＤやメモリカード等）を介して、プログラムがコンピュータシステム９００に読み込まれてもよい。

【0548】

プログラムは、コンピュータの詳細を示す９０１に、サーバ装置１や音声処理装置５等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

【0549】

なお、上述したコンピュータシステム９００は、サーバまたは据え置き型の端末であるが、端末装置２や通訳者装置４や音声処理装置５等は、例えば、タブレット端末やスマートフォンやノートＰＣといった、携帯端末で実現されてもよい。この場合、例えば、キーボード９０２およびマウス９０３はタッチパネルに、ディスクドライブ９０５はメモリカードスロットに、ディスク９２１はメモリカードに、それぞれ置き換えられてもよい。ただし、以上は例示であり、サーバ装置１や音声処理装置５等を実現するコンピュータのハードウェア構成は問わない。

【0550】

なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

【0551】

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0552】

また、上記各実施の形態において、一の装置に存在する２以上の通信手段（受付部５２の受信機能、および出力部５４の送信機能など）は、物理的に一の媒体で実現されてもよいことは言うまでもない。

【0553】

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

【0554】

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

【産業上の利用可能性】

【0555】