特許7608647 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許7608647処理装置、処理方法及び処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-12-20

(45)【発行日】2025-01-06

(54)【発明の名称】処理装置、処理方法及び処理プログラム

(51)【国際特許分類】

H04M 3/42 20060101AFI20241223BHJP

H04M 11/04 20060101ALI20241223BHJP

G10L 15/10 20060101ALI20241223BHJP

G10L 15/00 20130101ALI20241223BHJP

G06F 40/263 20200101ALI20241223BHJP

G06F 40/58 20200101ALI20241223BHJP

【ＦＩ】

H04M3/42 P

H04M11/04

G10L15/10 500Z

G10L15/00 200C

G06F40/263

G06F40/58

【請求項の数】 7

(21)【出願番号】P 2024011017

(22)【出願日】2024-01-29

【審査請求日】2024-01-29

(73)【特許権者】

【識別番号】399035766

【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】張維烝

(72)【発明者】

【氏名】吉田徳太郎

(72)【発明者】

【氏名】川崎啓介

(72)【発明者】

【氏名】山田雄基

(72)【発明者】

【氏名】森下智之

(72)【発明者】

【氏名】山下祐貴

(72)【発明者】

【氏名】岩本優

(72)【発明者】

【氏名】森川裕子

【審査官】石井則之

(56)【参考文献】

【文献】特開２０１７－２００１５９（ＪＰ，Ａ）

【文献】特開２０１５－６１２４６（ＪＰ，Ａ）

【文献】特開２００２－９９９７９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｍ３／４２

Ｈ０４Ｍ１１／０４

Ｇ１０Ｌ１５／１０

Ｇ１０Ｌ１５／００

Ｇ０６Ｆ４０／２６３

Ｇ０６Ｆ４０／５８

(57)【特許請求の範囲】

【請求項1】

ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する取得部と、
前記説明情報を基に、ユーザの使用言語を判定する判定部と、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる決定部と、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する設定部と、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するとともに、前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する入出力制御部と、
を有することを特徴とする処理装置。

【請求項2】

前記説明情報を基に、複数の前記生成モデルのいずれかを選択する選択部をさらに有し、
前記入出力制御部は、前記選択部によって選択された生成モデルを用いて、前記ユーザ端末から入力された音声データまたはテキストデータ、及び、前記発信先から入力された音声データまたはテキストデータの通訳を実行することを特徴とする請求項１に記載の処理装置。

【請求項3】

前記選択部は、前記説明情報を基に、前記緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、前記複数の生成モデルのいずれかを選択することを特徴とする請求項２に記載の処理装置。

【請求項4】

前記選択部は、前記緊急状況が前記速度重視の状況かつ特定分野である状況である場合には、特定分野にファインチューニングされた自然言語処理モデルである第１の生成モデルを選択し、前記緊急状況が前記正確性重視の状況である場合には、大規模な自然言語処理モデルである第２の生成モデルを選択することを特徴とする請求項３に記載の処理装置。

【請求項5】

前記処理装置は、前記ユーザ端末、前記発信先、前記生成モデルを搭載するサーバ装置とは、ＩＯＷＮ（Innovative Optical and Wireless Network）に関する通信ネットワークを介して通信を行うことを特徴とする請求項１に記載の処理装置。

【請求項6】

処理装置が実行する処理方法であって、
ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する工程と、
前記説明情報を基に、ユーザの使用言語を判定する工程と、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる工程と、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する工程と、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力する工程と、
前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する工程と、
を含んだことを特徴とする処理方法。

【請求項7】

ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得するステップと、
前記説明情報を基に、ユーザの使用言語を判定するステップと、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させるステップと、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定するステップと、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するステップと、
前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力するステップと、
をコンピュータに実行させる処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、処理装置、処理方法及び処理プログラムに関する。

【背景技術】

【0002】

従来、人手を利用した通訳サービスとして、通訳サービスの種類毎にそれぞれの専門の業者に通訳を依頼し、その業者が契約している通訳者が通訳をしてその結果を依頼者に提供する等のサービスがあった。

【0003】

そして、近年、通訳システムとして、各言語間の自動翻訳システムや、音声認識技術を用いて音声と文字を変換するシステムなど、ネットワークを用いた各種システムが提供されている。例えば、従来、日本語のユーザの音声データを翻訳し、テキストデータで出力する翻訳サービスが提供されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２２－００３４４１号公報

【文献】特開２０１９－１３９６６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ここで、外国籍のユーザが、移動先の国で、緊急時に緊急連絡先に電話をかけたい場合には、どこに電話をかければよいのか分からない場合がある。また、連絡先が分かった場合でも、ユーザの使用言語と、連絡先の使用言語とが異なる場合、従来の翻訳サービスを用いても、緊急状況を適切に伝えることができない場合が多かった。

【0006】

このように、従来の翻訳サービスでは、サービス提供のシチュエーションが限られており、緊急通話に対応していなかった。

【0007】

本発明は、上記に鑑みてなされたものであって、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする処理装置、処理方法及び処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上述した課題を解決し、目的を達成するために、本発明の処理装置は、ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する取得部と、前記説明情報を基に、ユーザの使用言語を判定する判定部と、前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる決定部と、生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する設定部と、前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するとともに、前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する入出力制御部と、を有することを特徴とする。

【発明の効果】

【0009】

本発明によれば、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。

【図面の簡単な説明】

【0010】

【図1】図１は、実施の形態に係る処理システムの構成例を示す図である。

【図2】図２は、ＩＯＷＮ技術の概要を示す図である。

【図3】図３は、処理システムの処理の概要を説明する図である。

【図4】図４は、処理システムの処理の流れを説明する図である。

【図5】図５は、実施の形態に係る処理方法の処理手順を示すシーケンス図の一例である。

【図6】図６は、実施の形態に係る処理システムが提供する緊急通話サービスを説明する図である。

【図7】図７は、プログラムが実行されることにより、サーバ装置が実現されるコンピュータの一例を示す図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

【0012】

［実施の形態］
［処理システム］
実施の形態に係る処理システムの構成を説明する。実施の形態に係る処理システムは、ユーザが、母国語以外を使用する国において、緊急時に緊急状況に対応する緊急連絡先に電話をかけたい場合、及び、緊急状況を通話にて説明する場合を対象として、緊急通話サービスを提供する。緊急通話サービスは、ユーザの緊急時に、ユーザ端末から、この緊急状況に対応する緊急連絡先に発信させて通話可能とさせるとともに、緊急状況に応じた適切な相互通訳を提供する。

【0013】

図１は、実施の形態に係る処理システムの構成例を示す図である。図１に示すように、実施の形態に係る処理システム１００は、緊急通話サービスの利用者であるユーザが使用するユーザ端末２０と、クラウドのサーバ装置１０とを有する。

【0014】

サーバ装置１０は、ユーザの緊急時に、緊急状況にあるユーザの通話先を決定し、ユーザと緊急発信先の受け手との間の対話を通訳する緊急通話サービスを提供する。サーバ装置１０は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、サーバ装置１０は、ネットワーク等を介して接続された他の装置（例えば、ユーザ端末２０、生成ＡＩサーバ４０，５０）との間で、各種情報を送受信する通信インタフェースを有する。

【0015】

生成ＡＩサーバ４０は、生成ＡＩ（Artificial Intelligence）（生成モデル）であるTsuzumi（登録商法）４１（第１の生成モデル）を搭載する。Tsuzumi４１は、特定分野にファインチューニングされた自然言語処理モデルである。特定分野は、例えば、医療、半導体、ＩＴ（Information Technology）、アカデミック、工場（プラント）、法律、及び、オフィスサービス等である。Tsuzumi４１は、低消費電力化を重視して構築されたものであり、ChatGPT５１（後述）よりも、処理速度が速い。

【0016】

生成ＡＩサーバ５０は、生成ＡＩであるChatGPT（登録商法）５１（第２の生成モデル）を搭載する。ChatGPT５１は、大規模な自然言語処理モデルであり、Tsuzumi４１よりも、低速であるが、精度は高い。Tsuzumi４１及びChatGPT５１は、設定されたプロンプトにしたがって、入力された音声データを自然言語処理し、音声データを生成して、出力する。Tsuzumi４１及びChatGPT５１の入出力は、テキストデータであってもよい。なお、上記の生成ＡＩは、一例であり、他の複数の生成ＡＩを搭載するサーバがさらに設けられてもよい。

【0017】

ユーザ端末２０は、音声データ及びテキストデータの入力、音声データ及びテキストデータの出力が可能であり、サーバ装置１０と通信を行う端末装置である。ユーザ端末２０は、通話機能を有する。ユーザ端末２０は、例えば、スマートフォンである。

【0018】

ユーザは、ユーザ端末２０の緊急通話アプリケーションを起動することで、緊急通話サービスの提供を受ける。ユーザ端末２０は、ユーザの発話により、ユーザの緊急状況を説明する説明情報（緊急状況説明情報）の入力を受け付ける。ユーザ端末２０は、緊急状況説明情報をサーバ装置１０に送信する。その後、サーバ装置１０の制御によって、ユーザ端末２０と、緊急状況に応じた緊急発信先端末３０との通話が可能となる。ここで、ユーザは、緊急発信先の受け手との間の対話において、相互通訳サービスを受けることができる。

【0019】

サーバ装置１０は、緊急状況説明情報を基に、緊急状況にあるユーザの通話先を決定する。サーバ装置１０は、ＶｏＩＰ（Voice over Internet Protocol）電話回線、及び、公衆交換電話網（ＰＳＴＮ：Public Switched Telephone Networks）を介して、ユーザ端末２０と、緊急発信先端末３０Ａ，３０Ｂとを通話可能に接続する。緊急発信先として、例えば、病院（怪我や急病の際の診察要求の場合）、消防署（怪我や急病の際の救急車要求の場合）、警察署（強盗等の事件に巻き込まれた場合）、役所（在留申請を行う場合）などがある。緊急発信先端末３０Ａ，３０Ｂを総称する場合、緊急発信先端末３０とする。また、緊急発信先は、２箇所に限らない。

【0020】

さらに、サーバ装置１０は、ユーザと緊急発信先の受け手との間の対話をそれぞれ同時通訳する緊急通話サービスを、ユーザ及び緊急発信先の受け手に提供する。サーバ装置１０は、生成ＡＩを用いて、緊急連絡先の決定と、ユーザ及び緊急発信先の受け手との対話の同時通訳とを提供する。サーバ装置１０は、緊急通話サービスを提供するにあたり、Tsuzumi４１またはChatGPT５１を用いる。

【0021】

このように、サーバ装置１０は、ユーザの緊急時に、緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切かつリアルタイムな相互通訳を提供する。

【0022】

また、サーバ装置１０は、ユーザ端末２０、緊急発信先端末３０、生成ＡＩサーバ４０，５０とは、ＩＯＷＮ（Innovative Optical and Wireless Network）に関する低遅延の通信ネットワーク（以降、ＩＯＷＮネットワーク６０）、を介して通信を行う。

【0023】

［ＩＯＷＮ技術の概要］
ここで、ＩＯＷＮ技術についての説明を行う。図２は、ＩＯＷＮ技術の概要を示す図である。図２に示すように、ＩＯＷＮ技術は、「オールフォトニクス・ネットワーク（ＡＰＮ：All-Photonics Network）」、「デジタルツインコンピューティング（ＤＴＣ：Digital Twin Computing）」、「コグニティブ・ファウンデーション（ＣＦ：Cognitive Foundation（登録商標））」の３つの主要技術分野により構成される。

【0024】

［オールフォトニクス・ネットワーク］
ＩＯＷＮ技術に係るＡＰＮは、全てのネットワーク転送機能を光領域で処理することで、高速なネットワークを構築することを可能にする技術である。具体的には、ＩＯＷＮ技術に係るＡＰＮは、「光電融合技術」、「大容量光伝送システム・デバイス技術」、「光イジングマシン」、「光格子時計ネットワーク」等の光ベース（フォトニクスベース）技術に基づいて、低消費電力であり、かつ高品質・大容量・低遅延の通信を実現する技術である。

【0025】

［デジタルツインコンピューティング］
ＩＯＷＮ技術に係るＤＴＣは、上述したＡＰＮに接続されたデバイス等により収集される膨大なデータを用いて仮想空間上に実世界の個々の対象を写像する技術である。

【0026】

従来のデジタルツインの枠組は、例えば、自動車やロボット等の個々の対象を仮想空間上に写像し、それに対して分析や予測等を実施したり、分析や予測等の結果を実世界に逆写像したりすることで活用されている。

【0027】

他方、ＩＯＷＮ技術に係るＤＴＣは、従来のデジタルツインの概念を発展させて、多様な産業やモノとヒトのデジタルツインを自在に掛け合わせて演算を行うことにより、例えば、都市におけるヒトと自動車等の複数の対象の組合せを高精度に再現する技術である。また、ＩＯＷＮ技術に係るＤＴＣでは、人物の外面に関する表現だけでなく、意識や思考といった内面のデジタル表現を可能にするため、「音声認識」、「音声合成」、「感情や意図の理解」等を可能とする技術を組み合わせて情報を収集し、デジタルツイン環境を構築できる。

【0028】

このように、ＩＯＷＮ技術に係るＤＴＣは、実世界では単一である実体を複数組み合わせて仮想空間上にデジタルツインとして複製したり、複数のデジタルツイン間における構成要素の一部を交換や融合したりすることで、実空間には存在しないデジタルツインの生成を可能にする技術である。

【0029】

［コグニティブ・ファウンデーション］
ＩＯＷＮ技術に係るＣＦは、クラウドからエッジコンピュータ、ネットワークサービス、ユーザ設備等のレイヤの異なるＩＣＴ（Information and Communication Technology）リソースの配備や設定や連携、管理や運用を一元的に実施する技術である。具体的には、ＩＯＷＮ技術に係るＣＦは、多様なターゲットを仮想化されたＩＣＴリソース群として扱い、マルチオーケストレーション機能をハブとしてレイヤの異なる複数のリソースを最適統合する。

【0030】

さらに、ＩＯＷＮ技術は、図２に示すように、上述したＡＰＮと、ＤＴＣと、事業者によりサービスが提供されるネットワークサービスとを連携させて、高付加価値のサービスを提供する。

【0031】

例えば、図２の（１）に示すように、ＩＯＷＮ技術は、ＡＰＮを介して収集される情報を、他の端末装置に対して高速かつ低遅延で伝送する技術を提供する。また、図２の（２）に示すように、ＩＯＷＮ技術は、事業者が提供する情報解析等のサービスにおいて、端末装置からの大量の情報の収集、および、事業者のサービスからの解析結果等の情報の出力を、高速かつ低遅延にて伝送する技術を提供する。また、図２の（３）に示すように、ＩＯＷＮ技術は、大容量の情報を高速かつ低遅延にて伝送することにより、監視カメラや自動車のセンサ等から取得される情報を用いて、デジタルツイン環境を構築して未来予測を行い、当該予測結果をユーザに出力する技術を提供する。

【0032】

上述してきたＩＯＷＮ技術に基づく大容量・高速・低遅延の情報伝達基盤により、デジタルツイン環境の構築や異なるデジタルツイン環境同士の連携等が進展すると考えられている。

【0033】

処理システム１００は、上記のＩＯＷＮ技術に基づく大容量・高速・低遅延の情報伝達基盤を介した通信を行う。例えば、処理システム１００との連携を行う場合、ＡＰＮを利用して、低遅延の緊急通話サービスを実現する。すなわち、処理システム１００は、通訳対象の音声が入力された場合であっても、通訳後の音声をリアルタイムに出力する緊急通話サービスを提供することができる。

【0034】

［サーバ装置］
図１に戻り、サーバ装置１０について説明する。サーバ装置１０は、緊急状況取得部１１（取得部）、使用言語判定部１２（判定部）、生成ＡＩ選択部１３（選択部）、発信先決定部（決定部）１４、プロンプト設定部１５（設定部）、及び、入出力制御部１６を有する。

【0035】

緊急状況取得部１１は、ユーザ端末２０との通信により、ユーザ端末２０から、緊急状況説明情報を取得する。緊急状況説明情報は、緊急通話サービスを利用するユーザの発話音声により取得される。

【0036】

使用言語判定部１２は、緊急状況説明情報を基に、ユーザの使用言語を判定する。例えば、使用言語判定部１２は、生成ＡＩ（例えば、ChatGPT５１）を用いて、ユーザの使用言語を判定する。

【0037】

生成ＡＩ選択部１３は、緊急状況説説明情報を基に、自然言語処理モデルである複数の生成ＡＩのいずれかを選択する。生成ＡＩ選択部１３は、例えば、緊急状況説明情報を基に、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、複数の生成ＡＩのいずれかを選択する。生成ＡＩ選択部１３は、上記に限らず、時期、時間帯、ユーザのシチュエーションに応じて、生成ＡＩに判定させる内容を変更してもよい。生成ＡＩ選択部１３は、生成ＡＩ（例えば、ChatGPT５１）を用いて、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定する。また、生成ＡＩ選択部１３は、所定のルールに従って、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、複数の生成ＡＩのいずれかを選択してもよい。

【0038】

生成ＡＩ選択部１３は、緊急状況説明情報を基に、Tsuzumi４１とChatGPT５１とのいずれかを選択する。生成ＡＩ選択部１３は、ユーザの緊急状況が速度重視の状況かつ特定分野である状況である場合には、Tsuzumi４１を選択する。例えば、ユーザの緊急状況が、疾病であり、緊急性が高い場合には、医療分野に特化したTsuzumi４１を選択する。また、生成ＡＩ選択部１３は、ユーザの緊急状況が正確性重視の状況である場合には、ChatGPT５１を選択する。

【0039】

発信先決定部１４は、緊急状況説明情報を基に、ユーザ端末２０の発信先を決定し、ユーザ端末２０と発信先の緊急発信先端末３０とを通話可能に接続させる。

【0040】

プロンプト設定部１５は、生成ＡＩに、入力された音声データを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する。プロンプト設定部１５は、生成ＡＩ選択部１３によって選択された生成ＡＩに、プロンプトを設定する。この際、プロンプト設定部１５は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語（例えば、日本語）に翻訳することと、緊急発信先端末３０から入力された音声データを、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することと、を指令するプロンプトを作成する。このように、プロンプト設定部１５は、選択された生成ＡＩに指示する際のプロンプトも調整した上で、生成ＡＩ選択部１３によって選択された生成ＡＩに、プロンプトを設定する。

【0041】

言い換えると、プロンプトは、入力された音声データが、ユーザ端末２０から入力された音声データである場合には、ユーザの使用言語から、緊急発信先の受け手（緊急発信先端末３０のユーザ）の使用言語に翻訳することを指令する。また、プロンプトは、入力された音声データが、緊急発信先端末３０から入力された音声データである場合には、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することを指令する。

【0042】

入出力制御部１６は、生成ＡＩに、ユーザ端末２０から入力された音声データを発信先での使用言語に翻訳させて、生成モデルから出力された音声データを発信先の緊急発信先端末３０に出力する。入出力制御部１６は、生成ＡＩに、発信先の緊急発信先端末３０から入力された音声データをユーザの使用言語に翻訳させて、生成ＡＩから出力された音声データをユーザ端末２０に出力する。生成ＡＩは、選択部によって選択された生成ＡＩ（Tsuzumi４１またはChatGPT５１）である。また、生成ＡＩの入出力データは、音声データに限らず、テキストデータであってもよい。

【0043】

［処理の概要］
処理システム１００の処理の概要について説明する。図３は、処理システム１００の処理の概要を説明する図である。例えば、緊急発信元となり得る病院、消防署、警察署では日本語を使用しており、ユーザは、日本語以外の言語（外国語）を使用する場合を例に説明する。

【0044】

ユーザは、緊急性がある状況となった場合に、ユーザ端末２０から、緊急通話アプリケーション（図中では、アプリとする）を起動して、サーバ装置１０に接続する（ステップＳ１）。

【0045】

サーバ装置１０は、ユーザ端末２０から緊急通話の要求を受け、ユーザの発話により、ユーザ端末２０から緊急状況説明情報を受信し、以下の各処理を行う（ステップＳ２）。

【0046】

サーバ装置１０は、生成ＡＩ（例えば、ChatGPT５１）を用いて、緊急状況説明情報から、ユーザの使用言語を判定する（図３の（１））。

【0047】

サーバ装置１０は、緊急状況説明情報を基に、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定する（図３の（２））。サーバ装置１０は、速度重視の状況かつ特定分野である状況である場合、Tsuzumi４１を選択する。サーバ装置１０は、正確性重視の状況である場合、ChatGPT５１を選択する。

【0048】

サーバ装置１０は、緊急状況説明情報を基に、ユーザの緊急状況に対応する通話先（発信先）を決定する（図３の（３））。例えば、ユーザが、怪我や急病であり診察を希望する場合には、症状に対応する診療科があり、その時間に診察を受けることができる近隣の病院を、緊急発信先として決定する。また、ユーザが、強盗等の事件に巻き込まれた場合には、緊急発信先として最も近い警察署を決定する。また、ユーザが、火事を発見した場合、緊急発信先として最も近い消防署を決定する。サーバ装置１０は、ユーザ端末２０と、決定した発信先の緊急発信先端末３０とを通話可能に接続させる。

【0049】

サーバ装置１０は、選択した生成ＡＩへのプロンプトを補正・調整する（図３の（４））。この際、サーバ装置１０は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語（例えば、日本語）に翻訳することと、緊急発信先端末３０から入力された音声データを、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することと、を指令するプロンプトを作成する。

【0050】

サーバ装置１０は、作成したプロンプトを生成ＡＩに設定し、ユーザの音声データを、選択した生成ＡＩに入力する（ステップＳ３）。サーバ装置１０は、生成ＡＩから出力された翻訳後の音声データ（日本語）を受信すると（ステップＳ４）、ＶｏＩＰ電話回線、ＰＳＴＮを経由して、緊急発信先端末３０に出力する（ステップＳ５，Ｓ６）。

【0051】

［処理の流れ］
次に、処理システム１００の処理の流れについて説明する。図４は、処理システム１００の処理の流れを説明する図である。一例を示す図である。

【0052】

ユーザは、緊急性がある状況となった場合、ユーザ端末２０の、緊急通話アプリケーション（図中では、アプリとする）を起動し（図４の（１））、ユーザ端末２０の画面上に表示されるボタンＢ１１をクリックして、緊急状況を説明する（図４の（２））。

【0053】

クラウドのサーバ装置１０は、緊急状況説明情報を受信する（図４の（３））。そして、サーバ装置１０は、生成ＡＩ（例えば、ChatGPT５１）に、緊急状況説明情報を入力し、ユーザの使用言語を判定させる（ステップＳ１１）。サーバ装置１０は、入力した緊急状況説明情報を基に、ChatGPT５１に、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定させる。サーバ装置１０は、この判定内容を基に、Tsuzumi４１とChatGPT５１のいずれかを選択する（ステップＳ１２）。

【0054】

続いて、サーバ装置１０は、生成ＡＩに、緊急状況説明情報の要約を作成させる（ステップＳ１３）、要約を基に、最適な緊急発信先を決定する（ステップＳ１４）。また、サーバ装置１０は、緊急状況説明情報の要約を基に、ステップＳ１２において選択したTsuzumi４１またはChatGPT５１のプロンプトを作成し、設定する。

【0055】

サーバ装置１０は、ユーザ端末２０と発信先の緊急発信先端末３０とを通話可能に接続させる。すなわち、サーバ装置１０は、ユーザ端末２０から緊急発信元へ電話をかけるよう制御する（図４の（４））。

【0056】

そして、サーバ装置１０は、ステップＳ１２において選択した生成ＡＩを用いて、双方向の通訳を実行する（図４の（５））。

【0057】

具体的には、サーバ装置１０は、選択した生成ＡＩ（Tsuzumi４１またはChatGPT５１）に、ユーザ端末２０から出力された音声データを、日本語の音声データに翻訳し、音声データとして出力する（ステップＳ１５）ことと、緊急発信先端末３０から出力された音声データを、ユーザの使用言語に翻訳するに翻訳し、音声データとして出力する（ステップＳ１６）ことを指令する。本例では、緊急発信先の受け手の言語は、日本語と設定しているが、緊急通話サービスが実際に使用される国に応じて、緊急発信先の受け手の言語を変更すればよい。

【0058】

これによって、本緊急通話サービスを介して、クラウドが生成ＡＩに通訳を実行させ、ＶｏＩＰ電話回線にて、双方向に通訳した音声で通話が実行される。

【0059】

具体的には、ユーザ端末２０からユーザの音声データが出力される（ステップＳ１５）、クラウドのサーバ装置１０は、生成ＡＩに入力し、日本語に翻訳されたユーザの音声データを取得する（ステップＳ１６）。サーバ装置１０は、緊急発信先端末３０に、日本語に翻訳後のユーザの音声データを出力する（ステップＳ１７）。

【0060】

続いて、緊急発信先端末３０から受け手の音声データが出力される（ステップＳ１８）、クラウドのサーバ装置１０は、生成ＡＩに入力し、ユーザの使用言語に翻訳された緊急発信先の受け手の音声データを取得する（ステップＳ１９）。サーバ装置１０は、ユーザ端末２０に、ユーザの使用言語に翻訳後の緊急発信先の受け手の音声データを出力する（ステップＳ２０）。処理システム１００は、ステップＳ１５～ステップＳ２０を繰り返すことで、双方向の同時通訳を可能とする。

【0061】

［処理方法］
次に、実施の形態に係る処理方法の処理手順について説明する。図５は、実施の形態に係る処理方法の処理手順を示すシーケンス図の一例である。

【0062】

図５に示すように、例えば、ユーザ端末２０において、アプリケーションが起動されると（ステップＳ３１）、サーバ装置１０とユーザ端末２０との通信が開始される（ステップＳ３２）。

【0063】

ユーザ端末２０は、ユーザの発話により、ユーザの緊急状況を説明する緊急状況説明情報の入力を受け付け（ステップＳ３３）、入力を受け付けた緊急状況説明情報を、サーバ装置１０に送信する（ステップＳ３４）。

【0064】

サーバ装置１０は、ChatGPT５１に、緊急状況説明情報を入力し、判定指令を設定する（ステップＳ３５）。判定指令は、ユーザの使用言語の判定、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかの判定、ユーザ端末２０の発信先の判定を指令する。

【0065】

サーバ装置１０は、ChatGPT５１からの出力により、ユーザの使用言語を判定する（ステップＳ３６）。また、サーバ装置１０は、ChatGPT５１から、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかの判定結果を受けて、Tsuzumi４１とChatGPT５１とのいずれかを選択する（ステップＳ３７）。図５では、Tsuzumi４１が選択された場合を例に説明する。

【0066】

サーバ装置１０は、ChatGPT５１からの出力を基に、ユーザ端末２０の発信先の決定する（ステップＳ３８）。図５では、緊急発信先端末３０Ａをユーザ端末２０の発信先として決定した場合を例に説明する。サーバ装置１０は、ＶｏＩＰ電話回線、及び、ＰＳＴＮを介して、ユーザ端末２０と、緊急発信先端末３０Ａとを通話可能に接続する（ステップＳ３９）。

【0067】

サーバ装置１０は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語（例えば、日本語）に翻訳することと、緊急発信先端末３０Ａから入力された音声データを、緊急発信先の受け手の使用言語（日本語）から、ユーザの使用言語に翻訳することと、を指令するプロンプトを、Tsuzumi４１に設定する（ステップＳ４０～ステップＳ４２）。

【0068】

サーバ装置１０は、プロンプト設定連絡を受けると（ステップＳ４３）、ユーザ端末２０と緊急発信先端末３０Ａとの会話を開始させる（ステップＳ４４）。

【0069】

例えば、ユーザ端末２０から、ユーザによって入力された外国語の音声データが送信されると（ステップＳ４５，Ｓ４６）、サーバ装置１０は、Tsuzumi４１に、ユーザの音声データを入力し（ステップＳ４７）、日本語に翻訳させる（ステップＳ４８）。サーバ装置１０は、Tsuzumi４１から出力された、日本語に翻訳された音声データを（ステップＳ４９）、緊急発信先端末３０Ａに送信し（ステップＳ５０）、出力させる（ステップＳ５１）。

【0070】

そして、緊急発信先端末３０Ａから、緊急発信先の受け手によって入力された日本語の音声データが送信されると（ステップＳ５２，Ｓ５３）、サーバ装置１０は、Tsuzumi４１に、緊急発信先の受け手の日本語の音声データを入力し（ステップＳ５４）、ユーザの使用言語（外国語）に翻訳させる（ステップＳ５５）。サーバ装置１０は、Tsuzumi４１から出力された、ユーザの使用言語に翻訳された音声データを（ステップＳ５６）、ユーザ端末２０に送信し（ステップＳ５７）、出力させる（ステップＳ５８）。処理システム１００は、ステップＳ４５～ステップＳ５８の処理を繰り返すことで、ユーザと緊急発信先の受け手との同時通訳を実施する。

【0071】

［実施の形態の効果］
図６は、実施の形態に係る処理システムが提供する緊急通話サービスを説明する図である。

【0072】

図６に示すように、上述した処理システム１００の処理によって、ユーザは、緊急時に、ユーザ端末２０をワンクリックするだけで、最適な発信先に自動的に電話が繋がる上に、緊急発信先の受け手との間の対話が通訳される。ここで、処理システム１００では、各ユーザが自身の端末とサーバ間の通信が余分に発生するが、大容量・高速・低遅延のＩＯＷＮネットワーク６０を用いるため、その遅延はほぼ無視でき、結果的に対話を高速化することができる。なお、使用するネットワークは、ＩＯＷＮネットワーク６０に限らず、他のネットワークを用いてもよい。

【0073】

このため、処理システム１００によれば、ユーザは、緊急時であっても、連絡先を探すという煩雑な処理を行わずとも、自動的に最適な発信先に連絡することができる。また、処理システム１００によれば、ユーザと緊急発信先の受け手との間の対話が同時通訳されるため、緊急状況を適切に伝えることができる。

【0074】

このように、処理システム１００によれば、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。

【0075】

なお、本実施の形態では、使用する生成ＡＩとして、Tsuzumi４１、ChatGPT５１を例として説明したが、他の生成ＡＩを用いてもよく、２つの生成ＡＩに限らず、３以上の生成ＡＩのうちいずれかを選択してもよい。

【0076】

［実施の形態のシステム構成について］
サーバ装置１０は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、サーバ装置１０の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

【0077】

また、サーバ装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、サーバ装置１０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

【0078】

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

【0079】

［プログラム］
図７は、プログラムが実行されることにより、サーバ装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0080】

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

【0081】

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、サーバ装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、サーバ装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

【0082】

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

【0083】

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【0084】

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

【符号の説明】

【0085】

１０サーバ装置
１１緊急状況取得部
１２使用言語判定部
１３生成ＡＩ選択部
１４発信先決定部
１５プロンプト設定部
１６入出力制御部
２０ユーザ端末
３０，３０Ａ～３０Ｂ緊急発信先端末
４０，５０生成ＡＩサーバ

【要約】

【課題】ユーザの緊急時に、緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。
【解決手段】サーバ装置１０は、ユーザ端末から緊急通話の要求を受け、取得した緊急状況説明情報を基に、ユーザの使用言語と、ユーザ端末の発信先を決定し、ユーザ端末と発信先とを通話可能に接続させる。サーバ装置１０は、生成ＡＩに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する。サーバ装置１０は、生成ＡＩに、ユーザ端末２０から入力された音声データを発信先での使用言語に翻訳させて、生ＡＩから出力された音声データ発信先に出力する。サーバ装置１０は、生成ＡＩに、発信先から入力された音声データをユーザの使用言語に翻訳させて、生成ＡＩから出力された音声データをユーザ端末２０に出力する。
【選択図】図１

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版