IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 藤井 幹雄の特許一覧

<>
  • 特開-言語翻訳システム及びプログラム 図1
  • 特開-言語翻訳システム及びプログラム 図2
  • 特開-言語翻訳システム及びプログラム 図3
  • 特開-言語翻訳システム及びプログラム 図4
  • 特開-言語翻訳システム及びプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024057765
(43)【公開日】2024-04-25
(54)【発明の名称】言語翻訳システム及びプログラム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20240418BHJP
   G06F 40/58 20200101ALI20240418BHJP
   G10L 15/00 20130101ALI20240418BHJP
【FI】
G06F40/279
G06F40/58
G10L15/00 200C
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022164648
(22)【出願日】2022-10-13
(71)【出願人】
【識別番号】721008408
【氏名又は名称】藤井 幹雄
(74)【代理人】
【識別番号】100173521
【弁理士】
【氏名又は名称】篠原 淳司
(72)【発明者】
【氏名】藤井 幹雄
(72)【発明者】
【氏名】藤井 鏡子
(72)【発明者】
【氏名】藤井 淳匡
(72)【発明者】
【氏名】藤井 克英
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CD15
5B091EA04
(57)【要約】      (修正有)
【課題】文字会話や音声会話における翻訳精度の劣化の予防する言語翻訳システム及びプログラムを提供する。
【解決手段】言語翻訳システムは、翻訳処理部、音声/表示出力処理部及び複数のデータベースを備える。翻訳処理部は、話者Aが発した会話情報を、データベースとの連携のもと話者Bの言語に自動翻訳し、音声/表示出力処理部は、翻訳された話者Aによる会話情報を音声又は表示によって話者Bに対して出力するとともに、これに応答する話者Bによる会話情報をデータベース内に蓄積する。言語翻訳システム内には、訳訂正情報検知部が設けられており、データベース内には、予め設定された訳訂正情報が蓄積されており、訳訂正情報検知部が、話者Bによる会話情報中に訳訂正情報を検知すると、話者Aによる会話情報を翻訳処理部により翻訳した翻訳情報中に誤りが含まれる可能性があると判断する。
【選択図】図1
【特許請求の範囲】
【請求項1】
話者A及び話者Bの二者間における異言語コミュニケーション達成のための言語翻訳システムであって、翻訳処理部、音声/表示出力処理部、及び複数のデータベースが設けられており、翻訳処理部は、一方の話者Aが発した音声/文字による会話情報を、データベースとの連携のもと他方の話者Bの言語に自動翻訳し、音声/表示出力処理部は、当該翻訳された話者Aによる会話情報を音声又は表示によって話者Bに対して出力するとともに、これに応答する話者Bによる会話情報をデータベース内に蓄積する言語翻訳システムにおいて、
当該言語翻訳システム内に、訳訂正情報検知部が設けられており、
データベース内には、予め設定された訳訂正情報が蓄積されており、
訳訂正情報検知部が、話者Bによる会話情報中に訳訂正情報を検知すると、話者Aによる会話情報を翻訳処理部により翻訳した翻訳情報中に誤りが含まれる可能性があると判断するよう構成されていることを特徴とする言語翻訳システム。
【請求項2】
言語翻訳システム内に、定型文出力部が設けられており、訳訂正情報検知部が話者Bによる会話情報中に訳訂正情報を検知すると、話者Bに対して、定型文出力部が翻訳文が正しかったか確認する定型文を出力するよう構成されていることを特徴とする請求項1に記載の言語翻訳システム。
【請求項3】
言語翻訳システム内に、精度算出部、閾値監視部、学習処理部が設けられており、精度算出部により算出した翻訳精度が、所定の閾値を超えることが閾値監視部により確認されると、学習処理部に対して再学習の指示が出されることを特徴とする請求項1または2に記載の言語翻訳システム。
【請求項4】
話者識別部が設けられていることにより、複数話者間における異言語コミュニケーション達成が可能であるよう構成されていることを特徴とする請求項1に記載の言語翻訳システム。
【請求項5】
モーションセンサーが設けられており、データベース内には、訳訂正情報として当該モーションセンサーにより読み取り可能な話者の動作が蓄積されていることを特徴とする請求項1に記載の言語翻訳システム。



【発明の詳細な説明】
【技術分野】
【0001】
本発明は二者間における異言語コミュニケーション達成のための言語翻訳システム言語翻訳システム及びプログラムに関する。
【背景技術】
【0002】
今日、自動翻訳(AI)システムの普及が進みつつある。そのような自動翻訳システムにおいては、「破局的忘却」といわれる問題が存在する。「破局的忘却」とは、事前に行った学習内容を忘れたり、推論結果の精度を落とすような学習をしたりする問題のことを指す。サービス等で継続的に利用しながら追学習を行うAIモデルにおいて、このような「破局的忘却」の問題は、避けられない課題となっている。
【0003】
「破局的忘却」に対する対処方法として、「継続学習」と呼ばれる方法がある。このような「継続学習」は様々な手法で研究が進められている(参考例:非特許文献1)。また、実利用段階での対処方法として、非特許文献2のような再学習方法も存在している。
【0004】
追学習や再学習の際に用いるデータの調整及び修正は、専門の技術者・研究者による作業が必要となる。そのため、これは社会利用されるサービスにとって、利用継続コストの上昇、例えば専門職介入によるコスト上昇や、迅速対応、例えば調整までのタイムラグ解消に対する課題が生ずる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】“継続学習における事前学習言語モデルを比較する“,[online],2022年4月1日,株式会社wevnal,[2022年7月13日検索],インターネット<URL:https://ai-scholar.tech/articles/continual-learning/PLMinCL>
【非特許文献2】“AWSを活用した機械学習モデルの継続的な運用改善” ,[online],2021年7月27日,Qiita株式会社,[2022年7月13日検索],インターネット
【非特許文献3】“話者認識 mimi(R)SRS誰の発言かを聞き分け、価値を産む。”,[onlie],Fairy Devices株式会社,[2022年9月1日検索],インターネット<URL:https://fairydevices.jp/srs>
【発明の概要】
【発明が解決しようとする課題】
【0006】
そこで、本発明は、翻訳や音声認識サービス利用者間の文字会話や音声会話における翻訳精度の劣化の予防及び翻訳精度の向上を図るプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
この課題は、話者A及び話者Bの二者間における異言語コミュニケーション達成のための言語翻訳システムであって、翻訳処理部、音声/表示出力処理部、及び複数のデータベースが設けられており、翻訳処理部は、一方の話者Aが発した音声/文字による会話情報を、データベースとの連携のもと他方の話者Bの言語に自動翻訳し、音声/表示出力処理部は、当該翻訳された話者Aによる会話情報を音声又は表示によって話者Bに対して出力するとともに、これに応答する話者Bによる会話情報をデータベース内に蓄積する言語翻訳システムにおいて、当該言語翻訳システム内に、訳訂正情報検知部が設けられており、データベース内には、予め設定された訳訂正情報が蓄積されており、訳訂正情報検知部が、話者Bによる会話情報中に訳訂正情報を検知すると、話者Aによる会話情報を翻訳処理部により翻訳した翻訳情報中に誤りが含まれる可能性があると判断するよう構成されていることにより解決される。
【0008】
言語翻訳システム内に、定型文出力部が設けられており、訳訂正情報検知部が話者Bによる会話情報中に訳訂正情報を検知すると、話者Bに対して、定型文出力部が翻訳文が正しかったか確認する定型文を出力するよう構成されていることを特徴とする請求項1に記載の言語翻訳システム。
【0009】
言語翻訳システム内に、精度算出部、閾値監視部、学習処理部が設けられており、精度算出部により算出した翻訳精度が、所定の閾値を超えることが閾値監視部により確認されると、学習処理部に対して再学習の指示が出されることを特徴とする請求項1または2に記載の言語翻訳システム。
【0010】
話者識別部が設けられていることにより、複数話者間における異言語コミュニケーション達成が可能であるよう構成されていることを特徴とする請求項1に記載の言語翻訳システム。
【0011】
モーションセンサーが設けられており、データベース内には、訳訂正情報として当該モーションセンサーにより読み取り可能な話者の動作が蓄積されていることを特徴とする請求項1に記載の言語翻訳システム。
【図面の簡単な説明】
【0012】
図1】本発明にかかる言語翻訳システムの全体概要図
図2】本発明にかかる言語翻訳システムにおける処理内容のフローチャート
図3】ラベリング処理部における処理内容のフローチャート
図4】学習処理部における処理内容のフローチャート
図5】確認定型文出力部における処理内容のフローチャート
【発明を実施するための形態】
【0013】
図1は、本発明にかかる言語翻訳システムの全体の概要図を示す。図1に見て取れる通り、本発明にかかる言語翻訳システムは、(1)音声/文字認識・コード変換・翻訳処理部、(2)訳訂正情報検知部、(3)精度算出部、(4)閾値監視部、(5)ラベリング処理部、(6)学習処理部、(7)確認定型文出力部、(8)音声/表示出力処理部、データベース、及びユーザー端末からなっている。
【0014】
上述した(1)―(8)の各部は、情報通信技術的に一般的なハードウェアおよびソフトウェア構成により構成されており、そのハードウェア的およびソフトウェア的構成については、ここでは詳説しない。(1)―(8)の各部は、例えばクラウドサーバー上のソフトウェアプログラムとして実現されていることなどが可能である。
【0015】
(1)―(8)の各部は、図1において複数の矢印によって示されるような情報のやり取りが可能であるよう、適宜接続されている。
【0016】
図1に示されるように、(1)音声/文字認識・コード変換・翻訳処理部は、更に、音声/文字認識部、翻訳処理部、コード変換処理部、コード出力部を有している。実際の構成においては、音声/文字認識部においては音声認識用のデータベースと処理部(音響モデル・言語モデル・発音辞書のためのもの)が必要となる。翻訳処理部は、利用対象、つまり例えば逐次翻訳(音声・文字会話用途で用いられ翻訳速度が重要となる)か、精度を求める翻訳(例えば動画編集用に用いられ速度よりも精度が求められる翻訳)かによりモデル(翻訳エンジン)を変更する必要がある。
【0017】
データベースは、この実施例では、翻訳情報、つまり翻訳結果情報及び推論結果情報を蓄積しておく第一のデータベース、音声認識用データ及び翻訳用データを蓄積しておく第二のデータベース、学習用データを蓄積しておく第三のデータベースが設けられている。この他、図示されていないが、訳訂正情報検知部において使用されるトリガーワード(後述)を事前作成し蓄積しておくデータベースが設けられていることが可能である。蓄積されたトリガー用のデータ(トリガーワードデータ)は、上述した音声認識用のデータベースとのやり取り・情報交換・作成データの紐付け等が可能であるよう構成されている。更に、各データベースはデータベース間でのデータの移動が可能であるよう、ネットワーク内、又は同一データベース内に構成されていることも可能である。データの移動は、例えば学習用データベースへの調整を行う際には、第一のデータベースから第三のデータベースへ、再学習時には第二のデータベースと第三のデータベースで相互に移動されることなどが可能である。
【0018】
図2は、本発明にかかる言語翻訳システムにおける処理の概要を表すフローチャートである。以下、当該図2および上述した図1を参照しつつ本発明にかかる言語翻訳システムでの処理の内容を説明する。説明は、二者間におけるコミュニケーション、より具体的には、前回会話の話者Aの翻訳情報をラベリングせずに、第一のデータベース(一時保存データベースとも称する)に蓄積し、その後、話者Bの発言で会話が開始した際の例に基づいて説明する。
【0019】
本発明にかかる言語翻訳システムにおける当該例の処理が開始されると、まずは音声/文字データの検知が行われる(St1)。当該検知は、図1に示した(1)音声/文字認識・コード変換・翻訳処理部において行われる。具体的には、まずは(1)音声/文字認識・コード変換・翻訳処理部内の音声/文字認識部が、コード化した情報を第二のデータベース(翻訳データベースとも称する)を用いて翻訳処理する。ここでは音声/文字認識用のAIが働き、自然言語処理を行う。その際、処理する情報が音声である場合には、音響モデル・言語モデル・発音辞書が関与することとなる。その後、音声/文字認識部は、コード化処理を行い、当該処理後のコード情報を、第一のデータベース(一時保存データベースとも称する)と、訳訂正情報検知部に引き渡す。
【0020】
処理はSt2へと進む。St2では、(2)訳訂正情報検知部が、前記コード情報(話者Bの発言情報)の中に、事前に設定(作成)されたトリガーとなる情報、つまり「訳訂正情報」(トリガーワードとも称する)が含まれるかを検知する。「訳訂正情報」(トリガーワード)は、テキストによる会話(チャット)の場合、「読めない」、「わからない」、「意味がわからない」、「訳がおかしい」、「?」のワードを「訳訂正情報」(トリガーワード)として設定しておくことが考えられる。また音声会話の場合、「もう一回言って」、「え、なに」、「ちょっと待って」、「どういう意味」などのワードを「訳訂正情報」(トリガーワード)として設定しておくことが考えられる。テキスト会話・音声会話における訳訂正情報は、これら例にとどまらず多様なパターンが考えられる。
【0021】
訳訂正情報が含まれない場合(St2-1)、第一のデータベース(一時保存データベース)に一時保存された前回会話の話者Aの訳情報、つまり推論結果を精読測定する指示を(3)精度算出部へと引き渡す。この場合、処理はSt3へと進む。(3)精度算出部は、前回会話の話者Aの訳情報、つまり推論結果の精度算出を行い、その情報を(4)閾値監視部に引き渡す。
【0022】
更に続くSt4においては、(4)閾値監視部が、前回会話の話者Aの訳情報、つまり推論結果を、閾値と比較する。閾値は、精度劣化があると高く、精度劣化が無いと低く設定される。そして、閾値を超えない場合(St4―1)、(4)閾値監視部は、(5)ラベリング処理部に前回会話の話者Aの訳情報が正である旨の情報(正情報)と、話者Bの今回翻訳情報の表示出力指示を引き渡す。閾値を超える場合(St4-2)、(4)閾値監視部は、(6)学習処理部に翻訳用データベース、および翻訳処理部に対する再学習の指示を出力([Job1])すると共に、(5)ラベリング処理部に前回会話の話者Aの訳情報が誤である旨の情報と、話者Bの今回翻訳情報の表示出力指示を引き渡す。
【0023】
上述したSt2において、St2では、(2)訳訂正情報検知部が、前記コード情報(話者Bの発言情報)の中に、事前に設定(作成)されたトリガーとなる情報、つまり「訳訂正情報」が含まれるかを検知した結果、訳訂正情報が含まれる場合(St2-2)、(2)訳訂正情報検知部は、話者Aへの「再説明要求」を行ってよいかの確認を行うため、「再説明要求」の定型文出力を行う(7)定型文出力部に指示コードを出力([Job2])する。
【0024】
ここで、話者Bが訳訂正を希望しない場合、(2)訳訂正情報検知部は、第一のデータベースに一時保存された前回会話の話者Aの訳情報、つまり推論結果を処理する指示を(3)精度算出部に引き渡す。話者Bが訳訂正を希望した場合、それと共に、前回会話の話者Aの訳情報、つまり推論結果を誤情報として処理する指示を(5)ラベリング処理部に引き渡すとともに、定型文出力コードを(8)音声及び画像表示出力処理部へと引き渡す。
【0025】
ステップSt5においては、(5)ラベリング処理部における処理が行われる。(5)ラベリング処理部は、正情報を受け取った場合、前回会話の話者Aの訳情報に正解のラベリングを行い、正解データを作成し、統合的に蓄積する指示を学習処理部へ出力する。誤情報を受け取った場合、前回会話の話者Aの訳情報に誤りのラベリングを行い、修正待ちデータとして第一のデータベースに保存する。その後、話者Aが再説明した内容、つまり言い換えた内容に対して、前記一連の処理(音声/文字認識部はコード化処理を行い第一のデータベースに保存するなど、話者Bの応答による処理開始からの一連の処理)を行い、話者Aの再説明の内容、つまり言い換えた内容が正情報のとき、前記修正待ちデータと照合し(差異を判定し、対象語句の特徴量優先度を下げるなどの処理を行い)学習向上に寄与する正解データを作成する。なお、誤り情報(誤りラベリング、誤り特徴量設定)によって精度向上が図られることも予想されるため、訂正情報の検知が行われなかったことが、閾値超過ではないことを意味しない可能性も存在する。上述した(5)ラベリング処理部における処理(ステップSt5)は、図3のフローチャートに詳細に表されている。また、St4において、前会話者Aの訳情報=推論結果が閾値を超えて「誤」である場合、「修正待ち」処理が行えず、学習処理の方法が変化することが考えられる。この場合、学習方法案として、別の新たな誤情報保存用データベースを設けるなどして、推論結果と精度・閾値情報を共に残し、正解ラベリング処理による追学習処理を行わないことなども考えられる。
【0026】
次にステップSt6においては、第三のデータベース(学習用データを蓄積しておくデータベース)に、蓄積した学習データと、再学習用のデータが統合的に蓄積(上書き/追加保存)される。なお(6)学習処理部における処理の詳細は、図4に説明されている。
【0027】
続いてステップSt7において(8)音声/表示出力部に今回翻訳情報の表示指示が出力され、本発明にかかる言語翻訳システムの処理は終了する。
【0028】
更に、図5に基づいて(6)定型文出力部における処理内容について説明する。上述したステップSt2にて、(2)訳訂正情報検知部において、コード情報(話者Bの発言情報)の中に、事前に設定(作成)されたトリガーとなる情報、つまり「訳訂正情報」が含まれるかを検知した結果、訳訂正情報が含まれる場合、(6)定型文出力部は、対話者へ再説明を要求するかを利用者に確認する定型文を出力する。当該出力は音声又は表示として出力されることが可能であるよう構成されている。利用者が確認を希望する場合、対話者に対して再説明を要求する定型文が出力される。当該出力もまた、音声又は表示として出力されることが可能であるよう構成されている。利用者が確認を希望しない場合、処理はステップSt3へと移行する。
【0029】
上述の例では、本発明にかかる言語翻訳システムを、二者間のコミュニケーションにおいて活用される場合の例に基づいて説明した。本発明にかかる言語翻訳システムは、二者間におけるコミュニケーションだけでなく、より多数の複数者間コミュニケーションにおいても実施可能である。この場合、言語翻訳システムには話者識別部が含まれることとなる。話者識別部は、例えば非特許文献3のような構成で設けられていることが可能である。
【0030】
音声通話が、ビデオ通話である場合、本発明にかかる言語翻訳システムに、追加的にモーションセンサー等の動作確認部が設けられていることが可能である。この場合、上述したトリガーワードに替えて、トリガーモーションを設定することが考えられる。トリガーモーションの例として、「顔を左右に振る」動作、「手を振っていらない」ことを表す動作、「耳に手を当てて、聞こえない」ことを表す動作、曲げた両手を両脇に挙げ「わからない」ことを表す動作などが考えられる。
【0031】
以上、本発明を一つの実施例に基づき説明した。上述の記載及び図面は、本発明をこれ限定するものではない。当業者には、これら記載及び図面に基づき、様々な代替的実施形態、実施例及び運用技術が明らかとなる。したがって本発明の技術的範囲は、上述の記載から妥当な特許請求の範囲に係る発明特定事項によって定められる。
【0032】
また、上述の説明では、予めトリガーを定めておき、翻訳の間違いにつき修正を行う例について説明したが、本発明にかかる根本思想は、このような言語翻訳プログラムにおいてのみならず、さまざまな分野のアプリケーション・ソフトウェアに適用可能である。


図1
図2
図3
図4
図5