IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

<>
  • 特許-処理装置、処理方法及び処理プログラム 図1
  • 特許-処理装置、処理方法及び処理プログラム 図2
  • 特許-処理装置、処理方法及び処理プログラム 図3
  • 特許-処理装置、処理方法及び処理プログラム 図4
  • 特許-処理装置、処理方法及び処理プログラム 図5
  • 特許-処理装置、処理方法及び処理プログラム 図6
  • 特許-処理装置、処理方法及び処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-20
(45)【発行日】2025-01-06
(54)【発明の名称】処理装置、処理方法及び処理プログラム
(51)【国際特許分類】
   H04M 3/42 20060101AFI20241223BHJP
   H04M 11/04 20060101ALI20241223BHJP
   G10L 15/10 20060101ALI20241223BHJP
   G10L 15/00 20130101ALI20241223BHJP
   G06F 40/263 20200101ALI20241223BHJP
   G06F 40/58 20200101ALI20241223BHJP
【FI】
H04M3/42 P
H04M11/04
G10L15/10 500Z
G10L15/00 200C
G06F40/263
G06F40/58
【請求項の数】 7
(21)【出願番号】P 2024011017
(22)【出願日】2024-01-29
【審査請求日】2024-01-29
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】張 維烝
(72)【発明者】
【氏名】吉田 徳太郎
(72)【発明者】
【氏名】川崎 啓介
(72)【発明者】
【氏名】山田 雄基
(72)【発明者】
【氏名】森下 智之
(72)【発明者】
【氏名】山下 祐貴
(72)【発明者】
【氏名】岩本 優
(72)【発明者】
【氏名】森川 裕子
【審査官】石井 則之
(56)【参考文献】
【文献】特開2017-200159(JP,A)
【文献】特開2015-61246(JP,A)
【文献】特開2002-99979(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/42
H04M 11/04
G10L 15/10
G10L 15/00
G06F 40/263
G06F 40/58
(57)【特許請求の範囲】
【請求項1】
ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する取得部と、
前記説明情報を基に、ユーザの使用言語を判定する判定部と、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる決定部と、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する設定部と、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するとともに、前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する入出力制御部と、
を有することを特徴とする処理装置。
【請求項2】
前記説明情報を基に、複数の前記生成モデルのいずれかを選択する選択部をさらに有し、
前記入出力制御部は、前記選択部によって選択された生成モデルを用いて、前記ユーザ端末から入力された音声データまたはテキストデータ、及び、前記発信先から入力された音声データまたはテキストデータの通訳を実行することを特徴とする請求項1に記載の処理装置。
【請求項3】
前記選択部は、前記説明情報を基に、前記緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、前記複数の生成モデルのいずれかを選択することを特徴とする請求項2に記載の処理装置。
【請求項4】
前記選択部は、前記緊急状況が前記速度重視の状況かつ特定分野である状況である場合には、特定分野にファインチューニングされた自然言語処理モデルである第1の生成モデルを選択し、前記緊急状況が前記正確性重視の状況である場合には、大規模な自然言語処理モデルである第2の生成モデルを選択することを特徴とする請求項3に記載の処理装置。
【請求項5】
前記処理装置は、前記ユーザ端末、前記発信先、前記生成モデルを搭載するサーバ装置とは、IOWN(Innovative Optical and Wireless Network)に関する通信ネットワークを介して通信を行うことを特徴とする請求項1に記載の処理装置。
【請求項6】
処理装置が実行する処理方法であって、
ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する工程と、
前記説明情報を基に、ユーザの使用言語を判定する工程と、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる工程と、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する工程と、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力する工程と、
前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する工程と、
を含んだことを特徴とする処理方法。
【請求項7】
ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得するステップと、
前記説明情報を基に、ユーザの使用言語を判定するステップと、
前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させるステップと、
生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定するステップと、
前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するステップと、
前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力するステップと、
をコンピュータに実行させる処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理装置、処理方法及び処理プログラムに関する。
【背景技術】
【0002】
従来、人手を利用した通訳サービスとして、通訳サービスの種類毎にそれぞれの専門の業者に通訳を依頼し、その業者が契約している通訳者が通訳をしてその結果を依頼者に提供する等のサービスがあった。
【0003】
そして、近年、通訳システムとして、各言語間の自動翻訳システムや、音声認識技術を用いて音声と文字を変換するシステムなど、ネットワークを用いた各種システムが提供されている。例えば、従来、日本語のユーザの音声データを翻訳し、テキストデータで出力する翻訳サービスが提供されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2022-003441号公報
【文献】特開2019-139663号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、外国籍のユーザが、移動先の国で、緊急時に緊急連絡先に電話をかけたい場合には、どこに電話をかければよいのか分からない場合がある。また、連絡先が分かった場合でも、ユーザの使用言語と、連絡先の使用言語とが異なる場合、従来の翻訳サービスを用いても、緊急状況を適切に伝えることができない場合が多かった。
【0006】
このように、従来の翻訳サービスでは、サービス提供のシチュエーションが限られており、緊急通話に対応していなかった。
【0007】
本発明は、上記に鑑みてなされたものであって、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする処理装置、処理方法及び処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明の処理装置は、ユーザ端末から緊急通話の要求を受け、前記ユーザ端末から、緊急状況を説明する説明情報を取得する取得部と、前記説明情報を基に、ユーザの使用言語を判定する判定部と、前記説明情報を基に、前記ユーザ端末の発信先を決定し、前記ユーザ端末と前記発信先とを通話可能に接続させる決定部と、生成モデルに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する設定部と、前記生成モデルに、前記ユーザ端末から入力された音声データまたはテキストデータを前記発信先での使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記発信先に出力するとともに、前記生成モデルに、前記発信先から入力された音声データまたはテキストデータを前記ユーザの使用言語に翻訳させて、前記生成モデルから出力された音声データまたはテキストデータを前記ユーザ端末に出力する入出力制御部と、を有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。
【図面の簡単な説明】
【0010】
図1図1は、実施の形態に係る処理システムの構成例を示す図である。
図2図2は、IOWN技術の概要を示す図である。
図3図3は、処理システムの処理の概要を説明する図である。
図4図4は、処理システムの処理の流れを説明する図である。
図5図5は、実施の形態に係る処理方法の処理手順を示すシーケンス図の一例である。
図6図6は、実施の形態に係る処理システムが提供する緊急通話サービスを説明する図である。
図7図7は、プログラムが実行されることにより、サーバ装置が実現されるコンピュータの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0012】
[実施の形態]
[処理システム]
実施の形態に係る処理システムの構成を説明する。実施の形態に係る処理システムは、ユーザが、母国語以外を使用する国において、緊急時に緊急状況に対応する緊急連絡先に電話をかけたい場合、及び、緊急状況を通話にて説明する場合を対象として、緊急通話サービスを提供する。緊急通話サービスは、ユーザの緊急時に、ユーザ端末から、この緊急状況に対応する緊急連絡先に発信させて通話可能とさせるとともに、緊急状況に応じた適切な相互通訳を提供する。
【0013】
図1は、実施の形態に係る処理システムの構成例を示す図である。図1に示すように、実施の形態に係る処理システム100は、緊急通話サービスの利用者であるユーザが使用するユーザ端末20と、クラウドのサーバ装置10とを有する。
【0014】
サーバ装置10は、ユーザの緊急時に、緊急状況にあるユーザの通話先を決定し、ユーザと緊急発信先の受け手との間の対話を通訳する緊急通話サービスを提供する。サーバ装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、サーバ装置10は、ネットワーク等を介して接続された他の装置(例えば、ユーザ端末20、生成AIサーバ40,50)との間で、各種情報を送受信する通信インタフェースを有する。
【0015】
生成AIサーバ40は、生成AI(Artificial Intelligence)(生成モデル)であるTsuzumi(登録商法)41(第1の生成モデル)を搭載する。Tsuzumi41は、特定分野にファインチューニングされた自然言語処理モデルである。特定分野は、例えば、医療、半導体、IT(Information Technology)、アカデミック、工場(プラント)、法律、及び、オフィスサービス等である。Tsuzumi41は、低消費電力化を重視して構築されたものであり、ChatGPT51(後述)よりも、処理速度が速い。
【0016】
生成AIサーバ50は、生成AIであるChatGPT(登録商法)51(第2の生成モデル)を搭載する。ChatGPT51は、大規模な自然言語処理モデルであり、Tsuzumi41よりも、低速であるが、精度は高い。Tsuzumi41及びChatGPT51は、設定されたプロンプトにしたがって、入力された音声データを自然言語処理し、音声データを生成して、出力する。Tsuzumi41及びChatGPT51の入出力は、テキストデータであってもよい。なお、上記の生成AIは、一例であり、他の複数の生成AIを搭載するサーバがさらに設けられてもよい。
【0017】
ユーザ端末20は、音声データ及びテキストデータの入力、音声データ及びテキストデータの出力が可能であり、サーバ装置10と通信を行う端末装置である。ユーザ端末20は、通話機能を有する。ユーザ端末20は、例えば、スマートフォンである。
【0018】
ユーザは、ユーザ端末20の緊急通話アプリケーションを起動することで、緊急通話サービスの提供を受ける。ユーザ端末20は、ユーザの発話により、ユーザの緊急状況を説明する説明情報(緊急状況説明情報)の入力を受け付ける。ユーザ端末20は、緊急状況説明情報をサーバ装置10に送信する。その後、サーバ装置10の制御によって、ユーザ端末20と、緊急状況に応じた緊急発信先端末30との通話が可能となる。ここで、ユーザは、緊急発信先の受け手との間の対話において、相互通訳サービスを受けることができる。
【0019】
サーバ装置10は、緊急状況説明情報を基に、緊急状況にあるユーザの通話先を決定する。サーバ装置10は、VoIP(Voice over Internet Protocol)電話回線、及び、公衆交換電話網(PSTN:Public Switched Telephone Networks)を介して、ユーザ端末20と、緊急発信先端末30A,30Bとを通話可能に接続する。緊急発信先として、例えば、病院(怪我や急病の際の診察要求の場合)、消防署(怪我や急病の際の救急車要求の場合)、警察署(強盗等の事件に巻き込まれた場合)、役所(在留申請を行う場合)などがある。緊急発信先端末30A,30Bを総称する場合、緊急発信先端末30とする。また、緊急発信先は、2箇所に限らない。
【0020】
さらに、サーバ装置10は、ユーザと緊急発信先の受け手との間の対話をそれぞれ同時通訳する緊急通話サービスを、ユーザ及び緊急発信先の受け手に提供する。サーバ装置10は、生成AIを用いて、緊急連絡先の決定と、ユーザ及び緊急発信先の受け手との対話の同時通訳とを提供する。サーバ装置10は、緊急通話サービスを提供するにあたり、Tsuzumi41またはChatGPT51を用いる。
【0021】
このように、サーバ装置10は、ユーザの緊急時に、緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切かつリアルタイムな相互通訳を提供する。
【0022】
また、サーバ装置10は、ユーザ端末20、緊急発信先端末30、生成AIサーバ40,50とは、IOWN(Innovative Optical and Wireless Network)に関する低遅延の通信ネットワーク(以降、IOWNネットワーク60)、を介して通信を行う。
【0023】
[IOWN技術の概要]
ここで、IOWN技術についての説明を行う。図2は、IOWN技術の概要を示す図である。図2に示すように、IOWN技術は、「オールフォトニクス・ネットワーク(APN:All-Photonics Network)」、「デジタルツインコンピューティング(DTC:Digital Twin Computing)」、「コグニティブ・ファウンデーション(CF:Cognitive Foundation(登録商標))」の3つの主要技術分野により構成される。
【0024】
[オールフォトニクス・ネットワーク]
IOWN技術に係るAPNは、全てのネットワーク転送機能を光領域で処理することで、高速なネットワークを構築することを可能にする技術である。具体的には、IOWN技術に係るAPNは、「光電融合技術」、「大容量光伝送システム・デバイス技術」、「光イジングマシン」、「光格子時計ネットワーク」等の光ベース(フォトニクスベース)技術に基づいて、低消費電力であり、かつ高品質・大容量・低遅延の通信を実現する技術である。
【0025】
[デジタルツインコンピューティング]
IOWN技術に係るDTCは、上述したAPNに接続されたデバイス等により収集される膨大なデータを用いて仮想空間上に実世界の個々の対象を写像する技術である。
【0026】
従来のデジタルツインの枠組は、例えば、自動車やロボット等の個々の対象を仮想空間上に写像し、それに対して分析や予測等を実施したり、分析や予測等の結果を実世界に逆写像したりすることで活用されている。
【0027】
他方、IOWN技術に係るDTCは、従来のデジタルツインの概念を発展させて、多様な産業やモノとヒトのデジタルツインを自在に掛け合わせて演算を行うことにより、例えば、都市におけるヒトと自動車等の複数の対象の組合せを高精度に再現する技術である。また、IOWN技術に係るDTCでは、人物の外面に関する表現だけでなく、意識や思考といった内面のデジタル表現を可能にするため、「音声認識」、「音声合成」、「感情や意図の理解」等を可能とする技術を組み合わせて情報を収集し、デジタルツイン環境を構築できる。
【0028】
このように、IOWN技術に係るDTCは、実世界では単一である実体を複数組み合わせて仮想空間上にデジタルツインとして複製したり、複数のデジタルツイン間における構成要素の一部を交換や融合したりすることで、実空間には存在しないデジタルツインの生成を可能にする技術である。
【0029】
[コグニティブ・ファウンデーション]
IOWN技術に係るCFは、クラウドからエッジコンピュータ、ネットワークサービス、ユーザ設備等のレイヤの異なるICT(Information and Communication Technology)リソースの配備や設定や連携、管理や運用を一元的に実施する技術である。具体的には、IOWN技術に係るCFは、多様なターゲットを仮想化されたICTリソース群として扱い、マルチオーケストレーション機能をハブとしてレイヤの異なる複数のリソースを最適統合する。
【0030】
さらに、IOWN技術は、図2に示すように、上述したAPNと、DTCと、事業者によりサービスが提供されるネットワークサービスとを連携させて、高付加価値のサービスを提供する。
【0031】
例えば、図2の(1)に示すように、IOWN技術は、APNを介して収集される情報を、他の端末装置に対して高速かつ低遅延で伝送する技術を提供する。また、図2の(2)に示すように、IOWN技術は、事業者が提供する情報解析等のサービスにおいて、端末装置からの大量の情報の収集、および、事業者のサービスからの解析結果等の情報の出力を、高速かつ低遅延にて伝送する技術を提供する。また、図2の(3)に示すように、IOWN技術は、大容量の情報を高速かつ低遅延にて伝送することにより、監視カメラや自動車のセンサ等から取得される情報を用いて、デジタルツイン環境を構築して未来予測を行い、当該予測結果をユーザに出力する技術を提供する。
【0032】
上述してきたIOWN技術に基づく大容量・高速・低遅延の情報伝達基盤により、デジタルツイン環境の構築や異なるデジタルツイン環境同士の連携等が進展すると考えられている。
【0033】
処理システム100は、上記のIOWN技術に基づく大容量・高速・低遅延の情報伝達基盤を介した通信を行う。例えば、処理システム100との連携を行う場合、APNを利用して、低遅延の緊急通話サービスを実現する。すなわち、処理システム100は、通訳対象の音声が入力された場合であっても、通訳後の音声をリアルタイムに出力する緊急通話サービスを提供することができる。
【0034】
[サーバ装置]
図1に戻り、サーバ装置10について説明する。サーバ装置10は、緊急状況取得部11(取得部)、使用言語判定部12(判定部)、生成AI選択部13(選択部)、発信先決定部(決定部)14、プロンプト設定部15(設定部)、及び、入出力制御部16を有する。
【0035】
緊急状況取得部11は、ユーザ端末20との通信により、ユーザ端末20から、緊急状況説明情報を取得する。緊急状況説明情報は、緊急通話サービスを利用するユーザの発話音声により取得される。
【0036】
使用言語判定部12は、緊急状況説明情報を基に、ユーザの使用言語を判定する。例えば、使用言語判定部12は、生成AI(例えば、ChatGPT51)を用いて、ユーザの使用言語を判定する。
【0037】
生成AI選択部13は、緊急状況説説明情報を基に、自然言語処理モデルである複数の生成AIのいずれかを選択する。生成AI選択部13は、例えば、緊急状況説明情報を基に、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、複数の生成AIのいずれかを選択する。生成AI選択部13は、上記に限らず、時期、時間帯、ユーザのシチュエーションに応じて、生成AIに判定させる内容を変更してもよい。生成AI選択部13は、生成AI(例えば、ChatGPT51)を用いて、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定する。また、生成AI選択部13は、所定のルールに従って、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定し、判定内容を基に、複数の生成AIのいずれかを選択してもよい。
【0038】
生成AI選択部13は、緊急状況説明情報を基に、Tsuzumi41とChatGPT51とのいずれかを選択する。生成AI選択部13は、ユーザの緊急状況が速度重視の状況かつ特定分野である状況である場合には、Tsuzumi41を選択する。例えば、ユーザの緊急状況が、疾病であり、緊急性が高い場合には、医療分野に特化したTsuzumi41を選択する。また、生成AI選択部13は、ユーザの緊急状況が正確性重視の状況である場合には、ChatGPT51を選択する。
【0039】
発信先決定部14は、緊急状況説明情報を基に、ユーザ端末20の発信先を決定し、ユーザ端末20と発信先の緊急発信先端末30とを通話可能に接続させる。
【0040】
プロンプト設定部15は、生成AIに、入力された音声データを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する。プロンプト設定部15は、生成AI選択部13によって選択された生成AIに、プロンプトを設定する。この際、プロンプト設定部15は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語(例えば、日本語)に翻訳することと、緊急発信先端末30から入力された音声データを、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することと、を指令するプロンプトを作成する。このように、プロンプト設定部15は、選択された生成AIに指示する際のプロンプトも調整した上で、生成AI選択部13によって選択された生成AIに、プロンプトを設定する。
【0041】
言い換えると、プロンプトは、入力された音声データが、ユーザ端末20から入力された音声データである場合には、ユーザの使用言語から、緊急発信先の受け手(緊急発信先端末30のユーザ)の使用言語に翻訳することを指令する。また、プロンプトは、入力された音声データが、緊急発信先端末30から入力された音声データである場合には、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することを指令する。
【0042】
入出力制御部16は、生成AIに、ユーザ端末20から入力された音声データを発信先での使用言語に翻訳させて、生成モデルから出力された音声データを発信先の緊急発信先端末30に出力する。入出力制御部16は、生成AIに、発信先の緊急発信先端末30から入力された音声データをユーザの使用言語に翻訳させて、生成AIから出力された音声データをユーザ端末20に出力する。生成AIは、選択部によって選択された生成AI(Tsuzumi41またはChatGPT51)である。また、生成AIの入出力データは、音声データに限らず、テキストデータであってもよい。
【0043】
[処理の概要]
処理システム100の処理の概要について説明する。図3は、処理システム100の処理の概要を説明する図である。例えば、緊急発信元となり得る病院、消防署、警察署では日本語を使用しており、ユーザは、日本語以外の言語(外国語)を使用する場合を例に説明する。
【0044】
ユーザは、緊急性がある状況となった場合に、ユーザ端末20から、緊急通話アプリケーション(図中では、アプリとする)を起動して、サーバ装置10に接続する(ステップS1)。
【0045】
サーバ装置10は、ユーザ端末20から緊急通話の要求を受け、ユーザの発話により、ユーザ端末20から緊急状況説明情報を受信し、以下の各処理を行う(ステップS2)。
【0046】
サーバ装置10は、生成AI(例えば、ChatGPT51)を用いて、緊急状況説明情報から、ユーザの使用言語を判定する(図3の(1))。
【0047】
サーバ装置10は、緊急状況説明情報を基に、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定する(図3の(2))。サーバ装置10は、速度重視の状況かつ特定分野である状況である場合、Tsuzumi41を選択する。サーバ装置10は、正確性重視の状況である場合、ChatGPT51を選択する。
【0048】
サーバ装置10は、緊急状況説明情報を基に、ユーザの緊急状況に対応する通話先(発信先)を決定する(図3の(3))。例えば、ユーザが、怪我や急病であり診察を希望する場合には、症状に対応する診療科があり、その時間に診察を受けることができる近隣の病院を、緊急発信先として決定する。また、ユーザが、強盗等の事件に巻き込まれた場合には、緊急発信先として最も近い警察署を決定する。また、ユーザが、火事を発見した場合、緊急発信先として最も近い消防署を決定する。サーバ装置10は、ユーザ端末20と、決定した発信先の緊急発信先端末30とを通話可能に接続させる。
【0049】
サーバ装置10は、選択した生成AIへのプロンプトを補正・調整する(図3の(4))。この際、サーバ装置10は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語(例えば、日本語)に翻訳することと、緊急発信先端末30から入力された音声データを、緊急発信先の受け手の使用言語から、ユーザの使用言語に翻訳することと、を指令するプロンプトを作成する。
【0050】
サーバ装置10は、作成したプロンプトを生成AIに設定し、ユーザの音声データを、選択した生成AIに入力する(ステップS3)。サーバ装置10は、生成AIから出力された翻訳後の音声データ(日本語)を受信すると(ステップS4)、VoIP電話回線、PSTNを経由して、緊急発信先端末30に出力する(ステップS5,S6)。
【0051】
[処理の流れ]
次に、処理システム100の処理の流れについて説明する。図4は、処理システム100の処理の流れを説明する図である。一例を示す図である。
【0052】
ユーザは、緊急性がある状況となった場合、ユーザ端末20の、緊急通話アプリケーション(図中では、アプリとする)を起動し(図4の(1))、ユーザ端末20の画面上に表示されるボタンB11をクリックして、緊急状況を説明する(図4の(2))。
【0053】
クラウドのサーバ装置10は、緊急状況説明情報を受信する(図4の(3))。そして、サーバ装置10は、生成AI(例えば、ChatGPT51)に、緊急状況説明情報を入力し、ユーザの使用言語を判定させる(ステップS11)。サーバ装置10は、入力した緊急状況説明情報を基に、ChatGPT51に、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかを判定させる。サーバ装置10は、この判定内容を基に、Tsuzumi41とChatGPT51のいずれかを選択する(ステップS12)。
【0054】
続いて、サーバ装置10は、生成AIに、緊急状況説明情報の要約を作成させる(ステップS13)、要約を基に、最適な緊急発信先を決定する(ステップS14)。また、サーバ装置10は、緊急状況説明情報の要約を基に、ステップS12において選択したTsuzumi41またはChatGPT51のプロンプトを作成し、設定する。
【0055】
サーバ装置10は、ユーザ端末20と発信先の緊急発信先端末30とを通話可能に接続させる。すなわち、サーバ装置10は、ユーザ端末20から緊急発信元へ電話をかけるよう制御する(図4の(4))。
【0056】
そして、サーバ装置10は、ステップS12において選択した生成AIを用いて、双方向の通訳を実行する(図4の(5))。
【0057】
具体的には、サーバ装置10は、選択した生成AI(Tsuzumi41またはChatGPT51)に、ユーザ端末20から出力された音声データを、日本語の音声データに翻訳し、音声データとして出力する(ステップS15)ことと、緊急発信先端末30から出力された音声データを、ユーザの使用言語に翻訳するに翻訳し、音声データとして出力する(ステップS16)ことを指令する。本例では、緊急発信先の受け手の言語は、日本語と設定しているが、緊急通話サービスが実際に使用される国に応じて、緊急発信先の受け手の言語を変更すればよい。
【0058】
これによって、本緊急通話サービスを介して、クラウドが生成AIに通訳を実行させ、VoIP電話回線にて、双方向に通訳した音声で通話が実行される。
【0059】
具体的には、ユーザ端末20からユーザの音声データが出力される(ステップS15)、クラウドのサーバ装置10は、生成AIに入力し、日本語に翻訳されたユーザの音声データを取得する(ステップS16)。サーバ装置10は、緊急発信先端末30に、日本語に翻訳後のユーザの音声データを出力する(ステップS17)。
【0060】
続いて、緊急発信先端末30から受け手の音声データが出力される(ステップS18)、クラウドのサーバ装置10は、生成AIに入力し、ユーザの使用言語に翻訳された緊急発信先の受け手の音声データを取得する(ステップS19)。サーバ装置10は、ユーザ端末20に、ユーザの使用言語に翻訳後の緊急発信先の受け手の音声データを出力する(ステップS20)。処理システム100は、ステップS15~ステップS20を繰り返すことで、双方向の同時通訳を可能とする。
【0061】
[処理方法]
次に、実施の形態に係る処理方法の処理手順について説明する。図5は、実施の形態に係る処理方法の処理手順を示すシーケンス図の一例である。
【0062】
図5に示すように、例えば、ユーザ端末20において、アプリケーションが起動されると(ステップS31)、サーバ装置10とユーザ端末20との通信が開始される(ステップS32)。
【0063】
ユーザ端末20は、ユーザの発話により、ユーザの緊急状況を説明する緊急状況説明情報の入力を受け付け(ステップS33)、入力を受け付けた緊急状況説明情報を、サーバ装置10に送信する(ステップS34)。
【0064】
サーバ装置10は、ChatGPT51に、緊急状況説明情報を入力し、判定指令を設定する(ステップS35)。判定指令は、ユーザの使用言語の判定、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかの判定、ユーザ端末20の発信先の判定を指令する。
【0065】
サーバ装置10は、ChatGPT51からの出力により、ユーザの使用言語を判定する(ステップS36)。また、サーバ装置10は、ChatGPT51から、ユーザの緊急状況が、速度重視の状況かつ特定分野である状況、または、正確性重視の状況であるかの判定結果を受けて、Tsuzumi41とChatGPT51とのいずれかを選択する(ステップS37)。図5では、Tsuzumi41が選択された場合を例に説明する。
【0066】
サーバ装置10は、ChatGPT51からの出力を基に、ユーザ端末20の発信先の決定する(ステップS38)。図5では、緊急発信先端末30Aをユーザ端末20の発信先として決定した場合を例に説明する。サーバ装置10は、VoIP電話回線、及び、PSTNを介して、ユーザ端末20と、緊急発信先端末30Aとを通話可能に接続する(ステップS39)。
【0067】
サーバ装置10は、ユーザの音声データを、ユーザの使用言語から、緊急発信先の受け手の使用言語(例えば、日本語)に翻訳することと、緊急発信先端末30Aから入力された音声データを、緊急発信先の受け手の使用言語(日本語)から、ユーザの使用言語に翻訳することと、を指令するプロンプトを、Tsuzumi41に設定する(ステップS40~ステップS42)。
【0068】
サーバ装置10は、プロンプト設定連絡を受けると(ステップS43)、ユーザ端末20と緊急発信先端末30Aとの会話を開始させる(ステップS44)。
【0069】
例えば、ユーザ端末20から、ユーザによって入力された外国語の音声データが送信されると(ステップS45,S46)、サーバ装置10は、Tsuzumi41に、ユーザの音声データを入力し(ステップS47)、日本語に翻訳させる(ステップS48)。サーバ装置10は、Tsuzumi41から出力された、日本語に翻訳された音声データを(ステップS49)、緊急発信先端末30Aに送信し(ステップS50)、出力させる(ステップS51)。
【0070】
そして、緊急発信先端末30Aから、緊急発信先の受け手によって入力された日本語の音声データが送信されると(ステップS52,S53)、サーバ装置10は、Tsuzumi41に、緊急発信先の受け手の日本語の音声データを入力し(ステップS54)、ユーザの使用言語(外国語)に翻訳させる(ステップS55)。サーバ装置10は、Tsuzumi41から出力された、ユーザの使用言語に翻訳された音声データを(ステップS56)、ユーザ端末20に送信し(ステップS57)、出力させる(ステップS58)。処理システム100は、ステップS45~ステップS58の処理を繰り返すことで、ユーザと緊急発信先の受け手との同時通訳を実施する。
【0071】
[実施の形態の効果]
図6は、実施の形態に係る処理システムが提供する緊急通話サービスを説明する図である。
【0072】
図6に示すように、上述した処理システム100の処理によって、ユーザは、緊急時に、ユーザ端末20をワンクリックするだけで、最適な発信先に自動的に電話が繋がる上に、緊急発信先の受け手との間の対話が通訳される。ここで、処理システム100では、各ユーザが自身の端末とサーバ間の通信が余分に発生するが、大容量・高速・低遅延のIOWNネットワーク60を用いるため、その遅延はほぼ無視でき、結果的に対話を高速化することができる。なお、使用するネットワークは、IOWNネットワーク60に限らず、他のネットワークを用いてもよい。
【0073】
このため、処理システム100によれば、ユーザは、緊急時であっても、連絡先を探すという煩雑な処理を行わずとも、自動的に最適な発信先に連絡することができる。また、処理システム100によれば、ユーザと緊急発信先の受け手との間の対話が同時通訳されるため、緊急状況を適切に伝えることができる。
【0074】
このように、処理システム100によれば、緊急時に緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。
【0075】
なお、本実施の形態では、使用する生成AIとして、Tsuzumi41、ChatGPT51を例として説明したが、他の生成AIを用いてもよく、2つの生成AIに限らず、3以上の生成AIのうちいずれかを選択してもよい。
【0076】
[実施の形態のシステム構成について]
サーバ装置10は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、サーバ装置10の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
【0077】
また、サーバ装置10においておこなわれる各処理は、全部または任意の一部が、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、サーバ装置10において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
【0078】
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
【0079】
[プログラム]
図7は、プログラムが実行されることにより、サーバ装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0080】
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0081】
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、サーバ装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、サーバ装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0082】
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0083】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0084】
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0085】
10 サーバ装置
11 緊急状況取得部
12 使用言語判定部
13 生成AI選択部
14 発信先決定部
15 プロンプト設定部
16 入出力制御部
20 ユーザ端末
30,30A~30B 緊急発信先端末
40,50 生成AIサーバ
【要約】
【課題】ユーザの緊急時に、緊急状況に対応する緊急連絡先に電話を発信し、緊急状況に応じた適切な通訳の提供を可能にする。
【解決手段】サーバ装置10は、ユーザ端末から緊急通話の要求を受け、取得した緊急状況説明情報を基に、ユーザの使用言語と、ユーザ端末の発信先を決定し、ユーザ端末と発信先とを通話可能に接続させる。サーバ装置10は、生成AIに、入力された音声データまたはテキストデータを自然な文脈の通訳言語に翻訳させることを指令するプロンプトを設定する。サーバ装置10は、生成AIに、ユーザ端末20から入力された音声データを発信先での使用言語に翻訳させて、生AIから出力された音声データ発信先に出力する。サーバ装置10は、生成AIに、発信先から入力された音声データをユーザの使用言語に翻訳させて、生成AIから出力された音声データをユーザ端末20に出力する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7