IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東日本電信電話株式会社の特許一覧

特許7549170通話支援装置、通話支援方法及び通話支援プログラム
<>
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図1
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図2
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図3
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図4
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図5
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図6
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図7
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図8
  • 特許-通話支援装置、通話支援方法及び通話支援プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-09-02
(45)【発行日】2024-09-10
(54)【発明の名称】通話支援装置、通話支援方法及び通話支援プログラム
(51)【国際特許分類】
   H04M 3/42 20060101AFI20240903BHJP
【FI】
H04M3/42 Z
H04M3/42 P
【請求項の数】 9
(21)【出願番号】P 2024034487
(22)【出願日】2024-03-07
【審査請求日】2024-03-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】399040405
【氏名又は名称】東日本電信電話株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(72)【発明者】
【氏名】鈴木 巧
【審査官】松原 徳久
(56)【参考文献】
【文献】特開2003-110732(JP,A)
【文献】特開2003-092628(JP,A)
【文献】特開平11-110389(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M3/00
3/16-3/20
3/38-3/58
7/00-7/16
11/00-11/10
(57)【特許請求の範囲】
【請求項1】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、
前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、
前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、
を有し、
前記第1の改変部は、前記改変音声情報において、前記文字通話者が前記文字通話装置に入力した前記文字情報に要約処理と補正処理と削除処理を施した音声情報と、前記文字通話装置と前記音声通話装置の操作状況と連携状況を示す音声情報と、前記音声通話者による前記音声通話装置の推奨操作を示す音声情報と、呼出音と通話開始音と通話終了音を示す音声情報とを追加する、
ことを特徴とする通話支援装置。
【請求項2】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、
前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、
前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、
を有し、
前記第2の改変部は、前記改変文字情報において、前記音声通話者が前記音声通話装置に入力した前記音声情報に要約処理と補正処理と削除処理を施した文字情報と、前記音声通話装置と前記文字通話装置の操作状況と連携状況を示す文字情報と、前記文字通話者による前記文字通話装置の推奨操作を示す文字情報と、呼出音と通話開始音と通話終了音を示す文字情報とを追加する、
ことを特徴とする通話支援装置。
【請求項3】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、
前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、
前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、
前記文字通話装置の識別情報とこれに紐付けられた前記文字通話者の属性情報とを取得する第1の取得部と、
前記音声通話装置の識別情報とこれに紐付けられた前記音声通話者の属性情報とを取得する第2の取得部と、
前記文字情報から前記音声情報への改変にかかる第1の改変態様候補群と、前記音声情報から前記文字情報への改変にかかる第2の改変態様候補群とを保持する改変態様候補群保持テーブルと、
を有し、
前記第1の改変部は、前記改変態様候補群保持テーブルを参照して、前記第1の改変態様候補群の中から、前記文字通話装置の識別情報と前記文字通話者の属性情報、及び、前記音声通話装置の識別情報と前記音声通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記文字情報から前記音声情報への改変の態様を異ならせ、
前記第2の改変部は、前記改変態様候補群保持テーブルを参照して、前記第2の改変態様候補群の中から、前記音声通話装置の識別情報と前記音声通話者の属性情報、及び、前記文字通話装置の識別情報と前記文字通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記音声情報から前記文字情報への改変の態様を異ならせ、
前記改変態様候補群保持テーブルが保持する前記第1の改変態様候補群と前記第2の改変態様候補群は、それぞれ、前記文字情報と前記音声情報の一方から他方への要約処理と補正処理と削除処理にかかる改変態様Aと、前記文字情報と前記音声情報の一方から他方への書き言葉/話し言葉の変換にかかる改変態様Bと、前記文字情報と前記音声情報の一方から他方への言語変換にかかる改変態様Cと、前記文字情報と前記音声情報の一方から他方への方言変換にかかる改変態様Dと、前記文字情報と前記音声情報の一方から他方への敬語表現変換にかかる改変態様Eとを有しており、
前記第1の改変部と前記第2の改変部は、前記改変態様Aと前記改変態様Bを必須改変態様として抽出し、前記改変態様Cと前記改変態様Dと前記改変態様Eを選択的改変態様として抽出する、
ことを特徴とする通話支援装置。
【請求項4】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
を有し、
前記第1の改変ステップでは、前記改変音声情報において、前記文字通話者が前記文字通話装置に入力した前記文字情報に要約処理と補正処理と削除処理を施した音声情報と、前記文字通話装置と前記音声通話装置の操作状況と連携状況を示す音声情報と、前記音声通話者による前記音声通話装置の推奨操作を示す音声情報と、呼出音と通話開始音と通話終了音を示す音声情報とを追加する、
ような各処理ステップをコンピュータが実行することを特徴とする通話支援方法。
【請求項5】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
を有し、
前記第2の改変ステップでは、前記改変文字情報において、前記音声通話者が前記音声通話装置に入力した前記音声情報に要約処理と補正処理と削除処理を施した文字情報と、前記音声通話装置と前記文字通話装置の操作状況と連携状況を示す文字情報と、前記文字通話者による前記文字通話装置の推奨操作を示す文字情報と、呼出音と通話開始音と通話終了音を示す文字情報とを追加する、
ような各処理ステップをコンピュータが実行することを特徴とする通話支援方法。
【請求項6】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
前記文字通話装置の識別情報とこれに紐付けられた前記文字通話者の属性情報とを取得する第1の取得ステップと、
前記音声通話装置の識別情報とこれに紐付けられた前記音声通話者の属性情報とを取得する第2の取得ステップと、
前記文字情報から前記音声情報への改変にかかる第1の改変態様候補群と、前記音声情報から前記文字情報への改変にかかる第2の改変態様候補群とを保持する改変態様候補群保持ステップと、
を有し、
前記第1の改変ステップでは、前記改変態様候補群保持ステップを参照して、前記第1の改変態様候補群の中から、前記文字通話装置の識別情報と前記文字通話者の属性情報、及び、前記音声通話装置の識別情報と前記音声通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記文字情報から前記音声情報への改変の態様を異ならせ、
前記第2の改変ステップでは、前記改変態様候補群保持ステップを参照して、前記第2の改変態様候補群の中から、前記音声通話装置の識別情報と前記音声通話者の属性情報、及び、前記文字通話装置の識別情報と前記文字通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記音声情報から前記文字情報への改変の態様を異ならせ、
前記改変態様候補群保持ステップで保持する前記第1の改変態様候補群と前記第2の改変態様候補群は、それぞれ、前記文字情報と前記音声情報の一方から他方への要約処理と補正処理と削除処理にかかる改変態様Aと、前記文字情報と前記音声情報の一方から他方への書き言葉/話し言葉の変換にかかる改変態様Bと、前記文字情報と前記音声情報の一方から他方への言語変換にかかる改変態様Cと、前記文字情報と前記音声情報の一方から他方への方言変換にかかる改変態様Dと、前記文字情報と前記音声情報の一方から他方への敬語表現変換にかかる改変態様Eとを有しており、
前記第1の改変ステップと前記第2の改変ステップでは、前記改変態様Aと前記改変態様Bを必須改変態様として抽出し、前記改変態様Cと前記改変態様Dと前記改変態様Eを選択的改変態様として抽出する、
ような各処理ステップをコンピュータが実行することを特徴とする通話支援方法。
【請求項7】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
を有し、
前記第1の改変ステップでは、前記改変音声情報において、前記文字通話者が前記文字通話装置に入力した前記文字情報に要約処理と補正処理と削除処理を施した音声情報と、前記文字通話装置と前記音声通話装置の操作状況と連携状況を示す音声情報と、前記音声通話者による前記音声通話装置の推奨操作を示す音声情報と、呼出音と通話開始音と通話終了音を示す音声情報とを追加する、
ような各処理ステップをコンピュータに実行させることを特徴とする通話支援プログラム。
【請求項8】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
を有し、
前記第2の改変ステップでは、前記改変文字情報において、前記音声通話者が前記音声通話装置に入力した前記音声情報に要約処理と補正処理と削除処理を施した文字情報と、前記音声通話装置と前記文字通話装置の操作状況と連携状況を示す文字情報と、前記文字通話者による前記文字通話装置の推奨操作を示す文字情報と、呼出音と通話開始音と通話終了音を示す文字情報とを追加する、
ような各処理ステップをコンピュータに実行させることを特徴とする通話支援プログラム。
【請求項9】
文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変ステップと、
音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変ステップと、
前記第1の改変ステップによる改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力ステップと、
前記第2の改変ステップによる改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力ステップと、
前記文字通話装置の識別情報とこれに紐付けられた前記文字通話者の属性情報とを取得する第1の取得ステップと、
前記音声通話装置の識別情報とこれに紐付けられた前記音声通話者の属性情報とを取得する第2の取得ステップと、
前記文字情報から前記音声情報への改変にかかる第1の改変態様候補群と、前記音声情報から前記文字情報への改変にかかる第2の改変態様候補群とを保持する改変態様候補群保持ステップと、
を有し、
前記第1の改変ステップでは、前記改変態様候補群保持ステップを参照して、前記第1の改変態様候補群の中から、前記文字通話装置の識別情報と前記文字通話者の属性情報、及び、前記音声通話装置の識別情報と前記音声通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記文字情報から前記音声情報への改変の態様を異ならせ、
前記第2の改変ステップでは、前記改変態様候補群保持ステップを参照して、前記第2の改変態様候補群の中から、前記音声通話装置の識別情報と前記音声通話者の属性情報、及び、前記文字通話装置の識別情報と前記文字通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記音声情報から前記文字情報への改変の態様を異ならせ、
前記改変態様候補群保持ステップで保持する前記第1の改変態様候補群と前記第2の改変態様候補群は、それぞれ、前記文字情報と前記音声情報の一方から他方への要約処理と補正処理と削除処理にかかる改変態様Aと、前記文字情報と前記音声情報の一方から他方への書き言葉/話し言葉の変換にかかる改変態様Bと、前記文字情報と前記音声情報の一方から他方への言語変換にかかる改変態様Cと、前記文字情報と前記音声情報の一方から他方への方言変換にかかる改変態様Dと、前記文字情報と前記音声情報の一方から他方への敬語表現変換にかかる改変態様Eとを有しており、
前記第1の改変ステップと前記第2の改変ステップでは、前記改変態様Aと前記改変態様Bを必須改変態様として抽出し、前記改変態様Cと前記改変態様Dと前記改変態様Eを選択的改変態様として抽出する、
ような各処理ステップをコンピュータに実行させることを特徴とする通話支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話支援装置、通話支援方法及び通話支援プログラムに関する。
【背景技術】
【0002】
特許文献1には、発信部と記憶部と出力部とを備える情報処理装置が記載されている。発信部は、音声での発信命令に基づき、記憶部に予め記憶された電話番号の発信先電話端末に自動発信し、記憶部に予め記憶された音声での配信情報を音声で一斉配信し、応答した発信先電話端末から配信情報に対する音声応答を受信する。記憶部は、音声応答を記憶する。出力部は、音声応答に基づく応答結果を出力する。発信部は、配信情報を肉声音声で配信するか、疑似音声で配信するかを、配信先の電話番号毎に選択する。
【先行技術文献】
【特許文献】
【0003】
【文献】特許第7419472号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の情報処理装置を含む従来技術は、文字通話装置を利用する文字通話者と音声通話装置を利用する音声通話者の間で好適な通話コミュニケーションをとるという観点において、改良の余地がある。
【0005】
本発明は、上記の問題意識に基づいてなされたものであり、文字通話装置を利用する文字通話者と音声通話装置を利用する音声通話者の間で好適な通話コミュニケーションをとることができる通話支援装置、通話支援方法及び通話支援プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本実施形態の通話支援装置は、文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、を有し、前記第1の改変部は、前記改変音声情報において、前記文字通話者が前記文字通話装置に入力した前記文字情報に要約処理と補正処理と削除処理を施した音声情報と、前記文字通話装置と前記音声通話装置の操作状況と連携状況を示す音声情報と、前記音声通話者による前記音声通話装置の推奨操作を示す音声情報と、呼出音と通話開始音と通話終了音を示す音声情報とを追加する、ことを特徴とする。
本実施形態の通話支援装置は、文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、を有し、前記第2の改変部は、前記改変文字情報において、前記音声通話者が前記音声通話装置に入力した前記音声情報に要約処理と補正処理と削除処理を施した文字情報と、前記音声通話装置と前記文字通話装置の操作状況と連携状況を示す文字情報と、前記文字通話者による前記文字通話装置の推奨操作を示す文字情報と、呼出音と通話開始音と通話終了音を示す文字情報とを追加する、ことを特徴とする。
本実施形態の通話支援装置は、文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、前記文字通話装置の識別情報とこれに紐付けられた前記文字通話者の属性情報とを取得する第1の取得部と、前記音声通話装置の識別情報とこれに紐付けられた前記音声通話者の属性情報とを取得する第2の取得部と、前記文字情報から前記音声情報への改変にかかる第1の改変態様候補群と、前記音声情報から前記文字情報への改変にかかる第2の改変態様候補群とを保持する改変態様候補群保持テーブルと、を有し、前記第1の改変部は、前記改変態様候補群保持テーブルを参照して、前記第1の改変態様候補群の中から、前記文字通話装置の識別情報と前記文字通話者の属性情報、及び、前記音声通話装置の識別情報と前記音声通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記文字情報から前記音声情報への改変の態様を異ならせ、前記第2の改変部は、前記改変態様候補群保持テーブルを参照して、前記第2の改変態様候補群の中から、前記音声通話装置の識別情報と前記音声通話者の属性情報、及び、前記文字通話装置の識別情報と前記文字通話者の属性情報の組み合わせに応じた改変態様を抽出して、前記音声情報から前記文字情報への改変の態様を異ならせ、前記改変態様候補群保持テーブルが保持する前記第1の改変態様候補群と前記第2の改変態様候補群は、それぞれ、前記文字情報と前記音声情報の一方から他方への要約処理と補正処理と削除処理にかかる改変態様Aと、前記文字情報と前記音声情報の一方から他方への書き言葉/話し言葉の変換にかかる改変態様Bと、前記文字情報と前記音声情報の一方から他方への言語変換にかかる改変態様Cと、前記文字情報と前記音声情報の一方から他方への方言変換にかかる改変態様Dと、前記文字情報と前記音声情報の一方から他方への敬語表現変換にかかる改変態様Eとを有しており、前記第1の改変部と前記第2の改変部は、前記改変態様Aと前記改変態様Bを必須改変態様として抽出し、前記改変態様Cと前記改変態様Dと前記改変態様Eを選択的改変態様として抽出する、ことを特徴とする。
【発明の効果】
【0007】
本発明によれば、文字通話装置を利用する文字通話者と音声通話装置を利用する音声通話者の間で好適な通話コミュニケーションをとることができる通話支援装置、通話支援方法及び通話支援プログラムを提供することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態の通話支援装置の概略構成の一例を示す図である。
図2】本実施形態の通話支援サーバの内部構成の一例を示すブロック図である。
図3】第1の改変部による文字情報から音声情報への改変処理の一例を示す概念図である。
図4】第2の改変部による音声情報から文字情報への改変処理の一例を示す概念図である。
図5】改変態様候補群保持テーブルが保持する第1の改変態様候補群と第2の改変態様候補群の一例を示す概念図である。
図6】第1の改変部と第2の改変部が採用する改変態様の一例を示す図である。
図7】通話支援サーバを介した文字通話装置及び音声通話装置の動作の一例を示す図である。
図8】文字通話装置と音声通話装置と通話支援サーバの機能構成の一例を示す図である。
図9】文字通話装置と音声通話装置と通話支援サーバのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本実施形態の通話支援装置、通話支援方法及び通話支援プログラムについて説明する。
【0010】
本実施形態の通話支援装置、通話支援方法及び通話支援プログラムを搭載した通話システムは、“令和の自動電話”としての新たなオートコールとして、「シン・オートコール」を実現する。とりわけ、シン・オートコールシステムは、異なるアプリ・デバイス、異なるコミュニケーション手段を持つ人々を電話で繋ぐ“かけはし”としての機能を搭載した「シン・オートコール・かけはし」を実現する。
【0011】
より具体的に、シン・オートコール・かけはしは、文字通話装置を利用する文字通話者(例えば、声でお話するのが難しい人・苦手な人)と音声通話装置を利用する音声通話者(例えば、声でお話したい人、電話が主体の人)の間で好適な通話コミュニケーションをとるために最適化された仲介機能を有している。例えば、LINE(「LINE」は日本国LINE社の登録商標)等のアプリやチャット形式等のインターフェースのメッセージを電話音声に変換し、電話音声での返事をLINE(「LINE」は日本国LINE社の登録商標)等のアプリやチャット形式等のインターフェースのメッセージに変換することができる。また、生成AI(Artificial Intelligence)や大規模言語モデルの活用により、異なるアプリ・デバイス、異なるコミュニケーション手段を持つ人々の間でも自然な対話を実現することができる。さらに、LINE(「LINE」は日本国LINE社の登録商標)等のアプリやチャット形式等のインターフェースへの文字入力と音声電話との間でリアルタイムの通話ができるように、音声・文字認識と大規模言語モデルによる内容の要約等を組み合わせることができる。
【0012】
なお、シン・オートコールあるいはシン・オートコール・かけはしのシンは、「新時代の」、「親しみやすい」、「真の課題解決をめざし」、「お客さまと共に(シンクロし)」、「信念をもって内製する取り組み」の少なくとも1つを意味していてもよい。
【0013】
図1は、本実施形態の通話支援装置1の概略構成の一例を示す図である。通話支援装置1は、「通話支援システム」と読み替えられてもよい(両者を同義としてもよい)。また、本実施形態の通話支援方法及び通話支援プログラムは、通話支援装置1に含まれるコンピュータ(CPU:Central Processing Unit)が(に)各種の処理ステップを実行する(させる)ことによって実現される。
【0014】
図1に示すように、通話支援装置1は、文字通話装置10と、音声通話装置20と、通話支援サーバ30と、大規模言語モデル40とを有している。文字通話装置10と音声通話装置20と通話支援サーバ30と大規模言語モデル40は、ネットワークNWによって互いに通信可能に接続されている。図1では、文字通話装置10と音声通話装置20と通話支援サーバ30と大規模言語モデル40のそれぞれを単一ブロックとして簡略化して描いているが、これは作図の便宜上の理由によるものである。実際には、ハードウェア構成としても、ソフトウェア構成としても、文字通話装置10と音声通話装置20と通話支援サーバ30と大規模言語モデル40は、図1に描いたよりも複雑な構成を有していてもよい。例えば、通話支援サーバ30は、複数のサーバやデータベース等を含んで構成されていてもよい。また、大規模言語モデル40は、通話支援サーバ30の一部を構成していてもよい。
【0015】
通話支援装置(通話支援システム)1は、文字通話装置10と音声通話装置20と通話支援サーバ30と大規模言語モデル40を含んだ構成として捉えてもよいし、文字通話装置10と音声通話装置20と大規模言語モデル40を含まずに通話支援サーバ30だけを含んだ構成として捉えてもよい。つまり、通話支援装置(通話支援システム)1において、通話支援サーバ30は必須の構成要件であるが、文字通話装置10と音声通話装置20と大規模言語モデル40は必須の構成要件ではない。
【0016】
文字通話装置10は、文字通話者が文字通話を実行するための機能を搭載したパソコン、電話、スマートフォン、タブレット型端末などで構成される。文字通話装置10は、固定型と移動型(携帯型)のいずれであってもよい。文字通話者は、文字通話装置10の操作部(ダイヤルキーやボタン、画面タッチなど)を介してメッセージやテキスト、絵文字、スタンプ等を入力するとともに、文字通話装置10の表示部(ディスプレイ)を介して、通話相手から出力されたメッセージやテキスト、絵文字、スタンプ等(詳しくは後述するが、音声通話者が音声通話装置20に入力した音声情報を文字情報に改変したものを含む)を確認することができる。
【0017】
音声通話装置20は、音声通話者が音声通話を実行するための機能を搭載したパソコン、電話、スマートフォン、タブレット型端末などで構成される。音声通話装置20は、固定型と移動型(携帯型)のいずれであってもよい。音声通話者は、音声通話装置20のマイクロフォンとスピーカを介して、通話相手との間で音声情報のやり取りを行うことで音声通話を実行する。詳しくは後述するが、音声通話装置20のスピーカから出力される音声情報は、文字通話者が文字通話装置10に入力した文字情報を音声情報に改変したものを含む。
【0018】
ここで、文字通話装置10は、文字通話機能のみを有して音声通話機能を有しない場合に限定されず、逆に、音声通話装置20は、音声通話機能のみを有して文字通話機能を有しない場合に限定されない。文字通話装置10と音声通話装置20は、文字通話機能と音声通話機能の双方を有する同一(共通)の装置であってもよく、文字通話者が使用するときには文字通話機能を発揮させ、音声通話者が使用するときには音声通話機能を発揮させるものであればよい。これに加え、文字通話装置10と音声通話装置20は、文字通話と音声通話を高い利便性かつリアルタイムで繋げることができるものであればよい。ここで、「文字通話者」とは、声でお話するのが難しい人・苦手な人(例えば、発声障害や聴覚障害、あがり症の人)であってもよく、「音声通話者」とは、声でお話したい人、電話が主体の人(例えば、視覚障害や文字情報の入力が困難な人)であってもよい。
【0019】
文字通話装置10と音声通話装置20は、通話支援サーバ30との間で各種の通信を行うことができる通信デバイスである。文字通話装置10と音声通話装置20は、例えば、有線及び/又は無線(例えば、Long Term Evolution(LTE)、5th Generation New Radio(5G NR)、Wi-Fi(登録商標)、Bluetooth(登録商標)など)を介して、ネットワーク(インターネットなど)と通信してもよい。文字通話装置10と音声通話装置20は、ユーザの操作により、ブラウザ及びその他の各種のアプリケーションを実行してもよい。
【0020】
本実施形態において、文字通話装置10と音声通話装置20は、通話支援サーバ30による通話支援サービス(シン・オートコール・かけはし)の提供を受けた状態において、文字通話装置10を利用した文字通話者の文字通話と、音声通話装置20を利用した音声通話者の音声通話とを高い利便性かつリアルタイムで繋げることができる。つまり、文字通話装置10を利用する文字通話者と音声通話装置20を利用する音声通話者の間で好適な通話コミュニケーションをとることが可能となる。文字通話装置10と音声通話装置20には、通話支援サーバ30による通話支援サービス(シン・オートコール・かけはし)の提供を受けるためのアプリケーションがダウンロード(インストール)されていてもよい。以下、このアプリケーションを通話支援アプリケーション「かけはし」と呼ぶことがある。
【0021】
通話支援サーバ30は、文字通話装置10及び音声通話装置20との間で各種の通信を行うことができる通信デバイスであればよく、デバイス、回路などで読み替えられてもよい。通話支援サーバ30は、文字通話装置10及び音声通話装置20との間の通信を介して、ユーザ(文字通話者と音声通話者)に対して、文字通話と音声通話とを高い利便性かつリアルタイムで繋げた好適なサービスを提供するための各種の処理を制御・実行する。
【0022】
図2は、本実施形態の通話支援サーバ30の内部構成の一例を示すブロック図である。通話支援サーバ30は、第1の改変部31と、第2の改変部32と、第1の出力部33と、第2の出力部34と、第1の取得部35と、第2の取得部36と、改変態様候補群保持テーブル37とを有している。
【0023】
第1の改変部31は、文字通話者が文字通話装置10に入力した文字情報を、音声通話用に適正化した音声情報に改変する(以下ではこれを改変音声情報と呼ぶことがある)。
【0024】
第1の改変部31は、改変音声情報において、文字通話者が文字通話装置10に入力した文字情報に要約処理と補正処理と削除処理を施した音声情報と、文字通話装置10と音声通話装置20の操作状況と連携状況を示す音声情報と、音声通話者による音声通話装置20の推奨操作を示す音声情報と、呼出音と通話開始音と通話終了音を示す音声情報とを追加する(これらを合成して改変音声情報とする)。
【0025】
要約処理とは、例えば、文字通話者が文字通話装置10に入力した文字情報の論旨・要点を短くまとめて表す処理を意味している。補正処理とは、例えば、文字通話者が文字通話装置10に入力した文字情報のうち、明らかな書き間違えを正した形で音声情報にしたり、文章の前方で書いた内容を文章の後方で書き直した場合に後者の内容に上書きした形(更新した形)で音声情報にしたりする処理を意味している。削除処理とは、例えば、文字通話者が文字通話装置10に入力した文字情報のうち、上記の要約処理や補正処理に伴って不要となった内容を無視して音声情報に盛り込まないようにする処理を意味している。
【0026】
文字通話装置10と音声通話装置20の操作状況を示す音声情報とは、例えば、文字通話装置10に文字情報の入力操作やその準備が行われていることを示す音声情報、及び、音声通話装置20に音声情報の入力操作やその準備が行われていることを示す音声情報を意味している。文字通話装置10と音声通話装置20の連携状況を示す音声情報とは、例えば、文字通話装置10と音声通話装置20が通話支援アプリケーション「かけはし」で接続可能か否かを示す音声情報、文字通話装置10と音声通話装置20の一方が他方を呼び出していることを示す音声情報、文字通話装置10と音声通話装置20が通話支援アプリケーション「かけはし」を利用した通話中であるか否かを示す音声情報を意味している。
【0027】
音声通話者による音声通話装置20の推奨操作を示す音声情報とは、例えば、通話支援アプリケーション「かけはし」を利用した通話を開始するための所定の操作(特定のダイヤル番号をプッシュする)を音声通話者に促すための音声情報、音声通話装置20を利用した音声情報の入力を音声通話者に促すための音声情報を意味している。
【0028】
呼出音と通話開始音と通話終了音を示す音声情報は、例えば、呼出時における「プルルルル・・・」又は「ただいま呼出中です」といった音声情報、通話開始時と通話終了時における「ガチャ」、「通話を開始しました」又は「通話を終了しました」といった音声情報を意味している。
【0029】
加えて、第1の改変部31は、改変音声情報において、文字情報から音声情報への書き言葉/話し言葉の変換にかかる改変を行ってもよいし、文字情報から音声情報への言語変換(例えば日本語と英語の翻訳)にかかる改変を行ってもよいし、文字情報から音声情報への方言変換(例えば東京弁から大阪弁への変換)にかかる改変を行ってもよいし、文字情報から音声情報への敬語表現変換(例えば尊敬語、謙譲語、丁寧語の相互変換)にかかる改変を行ってもよい。
【0030】
図3A図3Bは、第1の改変部31による文字情報から音声情報への改変処理の一例を示す概念図である。図3Aが、文字通話者が文字通話装置10に入力した文字情報を示しており、図3Bが、第1の改変部31によって文字情報を音声情報に変換した改変音声情報を示している。図3A図3Bに示すように、改変音声情報において、文字通話者が文字通話装置10に入力した文字情報が、音声通話用に適正化した内容に改変されていることが分かる。
【0031】
第2の改変部32は、音声通話者が音声通話装置20に入力した音声情報を、文字通話用に適正化した文字情報に改変する(以下ではこれを改変文字情報と呼ぶことがある)。
【0032】
第2の改変部32は、改変文字情報において、音声通話者が音声通話装置20に入力した音声情報に要約処理と補正処理と削除処理を施した文字情報と、音声通話装置20と文字通話装置10の操作状況と連携状況を示す文字情報と、文字通話者による文字通話装置10の推奨操作を示す文字情報と、呼出音と通話開始音と通話終了音を示す文字情報とを追加する(これらを合成して改変文字情報とする)。
【0033】
要約処理とは、例えば、音声通話者が音声通話装置20に入力した音声情報の論旨・要点を短くまとめて表す処理を意味している。補正処理とは、例えば、音声通話者が音声通話装置20に入力した音声情報のうち、明らかな言い間違えを正した形で文字情報にしたり、メッセージ吹き込みの前方の内容を後方で言い直した場合に後者の内容に上書きした形(更新した形)で文字情報にしたりする処理を意味している。削除処理とは、例えば、音声通話者が音声通話装置20に入力した音声情報のうち、上記の要約処理や補正処理に伴って不要となった内容を無視して文字情報に盛り込まないようにする処理を意味している。また、削除処理とは、例えば、音声通話者が意識なしに発する「えー」や「あー」や「それでですねー」といった内容を無視して文字情報に盛り込まないようにする処理を意味している。
【0034】
音声通話装置20と文字通話装置10の操作状況を示す文字情報とは、例えば、音声通話装置20に音声情報の入力操作やその準備が行われていることを示す文字情報、及び、文字通話装置10に文字情報の入力操作やその準備が行われていることを示す文字情報を意味している。音声通話装置20と文字通話装置10の連携状況を示す文字情報とは、例えば、音声通話装置20と文字通話装置10が通話支援アプリケーション「かけはし」で接続可能か否かを示す文字情報、音声通話装置20と文字通話装置10の一方が他方を呼び出していることを示す文字情報、音声通話装置20と文字通話装置10が通話支援アプリケーション「かけはし」を利用した通話中であるか否かを示す文字情報を意味している。
【0035】
文字通話者による文字通話装置10の推奨操作を示す文字情報とは、例えば、通話支援アプリケーション「かけはし」を利用した通話を開始するための所定の操作(特定のダイヤル番号をプッシュする)を文字通話者に促すための文字情報、文字通話装置10を利用した文字情報の入力を文字通話者に促すための文字情報を意味している。
【0036】
呼出音と通話開始音と通話終了音を示す文字情報は、例えば、呼出時における「プルルルル・・・」又は「ただいま呼出中です」といった文字情報(疑似音声情報を含む)、通話開始時と通話終了時における「ガチャ」、「通話を開始しました」又は「通話を終了しました」といった文字情報(疑似音声情報を含む)を意味している。
【0037】
加えて、第2の改変部32は、改変文字情報において、音声情報から文字情報への話し言葉/書き言葉の変換にかかる改変を行ってもよいし、音声情報から文字情報への言語変換(例えば日本語と中国語の翻訳)にかかる改変を行ってもよいし、音声情報から文字情報への方言変換(例えば東京弁から博多弁への変換)にかかる改変を行ってもよいし、音声情報から文字情報への敬語表現変換(例えば尊敬語、謙譲語、丁寧語の相互変換)にかかる改変を行ってもよい。
【0038】
図4A図4Bは、第2の改変部32による音声情報から文字情報への改変処理の一例を示す概念図である。図4Aが、音声通話者が音声通話装置20に入力した音声情報を示しており、図4Bが、第2の改変部32によって音声情報を文字情報に変換した改変文字情報を示している。図4A図4Bに示すように、改変文字情報において、音声通話者が音声通話装置20に入力した音声情報が、文字通話用に適正化した内容に改変されていることが分かる。
【0039】
第1の出力部33は、第1の改変部31による改変音声情報を、音声通話装置20を介して音声通話者に出力する(例えばスピーカから音声出力する)(図3A図3Bを参照)。第2の出力部34は、第2の改変部32による改変文字情報を、文字通話装置10を介して文字通話者に出力する(例えばディスプレイから文字出力する)(図4A図4Bを参照)。上述した図3A図3B及び図4A図4Bでは、文字通話者と音声通話者の会話の序盤(取っ掛かり)の部分だけを例示的に説明したが、文字通話者と音声通話者は、文字通話装置10から出力される改変文字情報と音声通話装置20から出力される改変音声情報を互いに確認しつつ、文字情報と音声情報を再入力することにより、会話のやりとり(キャッチボール)を行うことができる。
【0040】
多様性の尊重に伴い、電話などの音声によるやりとりが困難若しくは苦手なユーザと、音声でやりとりしたいユーザとの間のコミュニケーションを円滑に行う技術が求められている。その一例として、入力したテキストから合成音声を生成して相手の電話に声で伝え、電話をかけてきたユーザに合成音声で応答してユーザの声をテキスト化して出力する技術が検討されている。しかし、実際のコミュニケーションでは、文字の読み書きと、音声の聞く話すとでは、そのスタイルや表現方法に違いがあるため、音声と文字をそのまま相互に変換しても、円滑な意思疎通が行えない。そこで、そのようなギャップを埋める技術が求められていた。
【0041】
本実施形態では、上記の問題点を重要な技術課題として捉えて、文字でコミュニケーションを行うLINE(「LINE」は日本国LINE社の登録商標)等のアプリやチャット形式等のアプリケーションと、音声でコミュニケーションを行う電話等との間を、自然言語認識機能、生成AI(大規模言語モデル)機能、電話自動発信機能によって繋ぐことで、文字を用いた読み書きと、音声を用いた聞く話すとの間で円滑なコミュニケーションを実現している。文字と音声というスタイルが異なる方法の間での円滑なコニケーションを実現するべく、文字を用いるLINE(「LINE」は日本国LINE社の登録商標)等のアプリやチャット形式等のインターフェースでは、電話番号やメッセージの受け付けに加えて、ユーザの入力に対する生成AIを用いた返答・報告(例えば、「お待ちください」や「通話がはじまりました」)を行ってもよい。また、音声を用いる電話などでは、メッセージの読み上げや受け付けに加えて、受け付けた音声メッセージの要約、音声によるその確認、相手がテキスト入力中の合間に「メッセージ入力中です」などの状況伝達を行ってもよい。
【0042】
また、スマートフォンなどのアプリケーション・ソフトウェア(LINE(「LINE」は日本国LINE社の登録商標))で、自然なやりとり(チャット)になるように、生成Aを用いて、「分かりました」、「お待ちください」、擬音(プルルルル、ガチャッ)、「通話がはじまりました」などのテキストを出力してもよい。これは生成AIに対して「電報の受け付けを行うように」振る舞うことを指示することで実現してもよい。
【0043】
また、電話の使用者が自然に会話できるように、「ただいまメッセージを入力しています。少々お待ちください」、「メッセージを受け取りました」、「読み上げます」、「メッセージは以上です」、「お返事を入力してください」、「よろしければ『はい』やり直す場合は『いいえ』と答えてください」などの音声を発してもよい。これは生成AIに対して「電話交換手のように」振る舞うことを指示することで実現してもよい。
【0044】
また、文字や音声で入力されたメッセージの不要な部分(「えー」、「そうですね」など)の削除、要約を生成AIで行い、その結果をメッセージ入力者であるユーザに確認してもよい。その際、認識精度よりも応答速度を優先して、会話のリアルタイム性を高めてもよい。さらに、スマートフォンのアプリケーションのIDと、電話番号とに基づいて、会話の記録を取ってもよい。
【0045】
第1の取得部35は、文字通話装置10の識別情報とこれに紐付けられた文字通話者の属性情報とを取得する。文字通話装置10の識別情報とは、例えば、電話番号の他、国際移動体装置識別番号(IMEI:International Mobile Equipment Identifier)及びその他の識別IDを含んでもよい。文字通話者の属性情報とは、例えば、文字通話者の年齢、性別、国籍、職業等の他、通話支援アプリケーション「かけはし」を利用した登録情報や通話履歴等を含んでいてもよい。
【0046】
第2の取得部36は、音声通話装置20の識別情報とこれに紐付けられた音声通話者の属性情報とを取得する。音声通話装置20の識別情報とは、例えば、電話番号の他、国際移動体装置識別番号(IMEI:International Mobile Equipment Identifier)及びその他の識別IDを含んでもよい。音声通話者の属性情報とは、例えば、音声通話者の年齢、性別、国籍、職業等の他、通話支援アプリケーション「かけはし」を利用した登録情報や通話履歴等を含んでいてもよい。
【0047】
第1の改変部31は、文字通話装置10の識別情報と文字通話者の属性情報、及び、音声通話装置20の識別情報と音声通話者の属性情報の組み合わせに応じて、文字通話者と音声通話者の関係性等を推定して、文字情報から音声情報への改変の態様を異ならせてもよい。例えば、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が日本語を母国語とすることが推定され、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が英語を母国語とすることが推定される場合、第1の改変部31は、文字通話者が日本語で入力した文字情報を英語の音声情報に改変してもよい。また、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が東京弁を主として使用することが推定され、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が大阪弁を主として使用することが推定される場合、第1の改変部31は、文字通話者が東京弁で入力した文字情報を大阪弁の音声情報に改変してもよい。さらに、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が会社の部下であることが推定され、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が会社の上司であることが推定される場合、第1の改変部31は、文字通話者が入力した誤った敬語表現を正した形で音声情報に改変してもよい。
【0048】
第2の改変部32は、音声通話装置20の識別情報と音声通話者の属性情報、及び、文字通話装置10の識別情報と文字通話者の属性情報の組み合わせに応じて、音声通話者と文字通話者の関係性等を推定して、音声情報から文字情報への改変の態様を異ならせてもよい。例えば、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が中国語を母国語とすることが推定され、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が英語を母国語とすることが推定される場合、第2の改変部32は、音声通話者が中国語で入力した音声情報を英語の文字情報に改変してもよい。また、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が博多弁を主として使用することが推定され、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が青森弁を主として使用することが推定される場合、第2の改変部32は、音声通話者が博多弁で入力した音声情報を青森弁の文字情報に改変してもよい。さらに、音声通話装置20の識別情報と音声通話者の属性情報から、音声通話者が会社の上司であることが推定され、文字通話装置10の識別情報と文字通話者の属性情報から、文字通話者が会社の部下であることが推定される場合、第2の改変部32は、音声通話者が入力したやや乱暴な物言いの音声情報を適切な丁寧語の文字情報に改変してもよい。
【0049】
改変態様候補群保持テーブル37は、文字情報から音声情報への改変にかかる第1の改変態様候補群と、音声情報から文字情報への改変にかかる第2の改変態様候補群とを保持している。以下では、発明の説明の便宜上の理由から、改変態様候補群保持テーブル37が保持する第1の改変態様候補群と第2の改変態様候補群が同一(共通)であるものとして説明するが、第1の改変態様候補群と第2の改変態様候補群は互いに異なっていてもよい(文字情報から音声情報への第1の改変、音声情報から文字情報への第2の改変のそれぞれの特徴に応じたバージョンアップを行っていてもよい)。
【0050】
改変態様候補群保持テーブル37が保持する第1の改変態様候補群と第2の改変態様候補群は、それぞれ、以下の<改変態様A>~<改変態様E>を含んでいてもよい。
<改変態様A>
文字情報と音声情報の一方から他方への要約処理と補正処理と削除処理にかかる改変態様。
<改変態様B>
文字情報と音声情報の一方から他方への書き言葉/話し言葉の変換にかかる改変態様。
<改変態様C>
文字情報と音声情報の一方から他方への言語変換にかかる改変態様(例えば日本語と英語の相互翻訳)。
<改変態様D>
文字情報と音声情報の一方から他方への方言変換にかかる改変態様(例えば東京弁と大阪弁の相互変換)。
<改変態様E>
文字情報と音声情報の一方から他方への敬語表現変換にかかる改変態様(例えば尊敬語と謙譲語と丁寧語の相互変換)。
【0051】
図5は、改変態様候補群保持テーブル37が保持する第1の改変態様候補群と第2の改変態様候補群の一例を示す概念図である。第1の改変態様候補群と第2の改変態様候補群として、上記の<改変態様A>~<改変態様E>が保持されている。第1の改変部31は、改変態様候補群保持テーブル37が保持する第1の改変態様候補群の中から実際に採用する少なくとも1つの改変態様を抽出することができる。同様に、第2の改変部32は、改変態様候補群保持テーブル37が保持する第2の改変態様候補群の中から実際に採用する少なくとも1つの改変態様を抽出することができる。
【0052】
第1の改変部31は、改変態様候補群保持テーブル37を参照して、第1の改変態様候補群の中から、文字通話装置10の識別情報と文字通話者の属性情報、及び、音声通話装置20の識別情報と音声通話者の属性情報の組み合わせに応じた改変態様を抽出する。その際、第1の改変部31は、改変態様Aと改変態様Bを「必須改変態様」として抽出し、改変態様Cと改変態様Dと改変態様Eを「選択的改変態様」として抽出する。例えば、文字通話者と音声通話者の年齢、性別、国籍、職業等を考慮して、文字通話者と音声通話者の関係性を推定しつつ、通話支援アプリケーション「かけはし」を利用した登録情報や通話履歴等をも踏まえて、改変態様Cと改変態様Dと改変態様Eの一部又は全部を自動的に選択・決定するようにしてもよい。
【0053】
第2の改変部32は、改変態様候補群保持テーブル37を参照して、第2の改変態様候補群の中から、音声通話装置20の識別情報と音声通話者の属性情報、及び、文字通話装置10の識別情報と文字通話者の属性情報の組み合わせに応じた改変態様を抽出する。その際、第2の改変部32は、改変態様Aと改変態様Bを「必須改変態様」として抽出し、改変態様Cと改変態様Dと改変態様Eを「選択的改変態様」として抽出する。例えば、音声通話者と文字通話者の年齢、性別、国籍、職業等を考慮して、音声通話者と文字通話者の関係性を推定しつつ、通話支援アプリケーション「かけはし」を利用した登録情報や通話履歴等をも踏まえて、改変態様Cと改変態様Dと改変態様Eの一部又は全部を自動的に選択・決定するようにしてもよい。
【0054】
なお、第1の改変部31と第2の改変部32が採用する改変態様は、通話支援アプリケーション「かけはし」を利用したマニュアル(手動)設定により、文字通話者と音声通話者が柔軟に設定できるようにしてもよい。
【0055】
このように、音声通話者と文字通話者の関係性等に基づいて、第1の改変部31と第2の改変部32が採用する改変態様を柔軟に設定することで、例えば、方言変換を敢えて行わなかったり(改変態様Dを敢えて採用しなかったり)、敬語表現変換を敢えて行わなかったり(改変態様Eを敢えて採用しなかったり)することができる。
【0056】
図6A図6Bは、第1の改変部31と第2の改変部32が採用する改変態様の一例を示す図である。図6Aの例では、第1の改変部31が、必須改変態様としての改変態様Aと改変態様Bを採用するとともに、選択的改変態様としての改変態様Cと改変態様Dを採用している(改変態様Eは非採用としている)。図6Bの例では、第2の改変部32が、必須改変態様としての改変態様Aと改変態様Bを採用するとともに、選択的改変態様としての改変態様Eを採用している(改変態様Cと改変態様Dは非採用としている)。
【0057】
通話支援サーバ30は、適宜、大規模言語モデル40を参照して動作してもよい。大規模言語モデル40は、生成AI(Artificial Intelligence)と読み替えてもよく、通話支援サーバ30と協働して、通話支援サーバ30の各ブロック(第1の改変部31、第2の改変部32、第1の出力部33、第2の出力部34、第1の取得部35、第2の取得部36、改変態様候補群保持テーブル37)の機能を発揮してもよい。
【0058】
大規模言語モデル40は、例えば、個別領域データベースの固有情報(例えば選択的改変態様に基づく改変情報)と、共通領域データベースの共通情報(例えば必須改変態様に基づく改変情報)とが自然言語処理のための言語モデルの学習に適応されるように、統一的なデータ形式に正規化された状態で記憶されている。また、個別領域データベース及び共通領域データベースに基づいて、自然言語処理の1種以上を組み合わせることによって、改変音声情報と改変文字情報の作成に特化された言語モデルの学習及び調整が行われ、言語モデルをプロンプトの内容に応じて利用することによって、改変音声情報と改変文字情報の作成を支援する支援情報を生成することができる。言語モデルは、クラウドコンピュータに格納されていてもよく、その場合、大規模なデータセットの学習や、高性能な計算リソースを利用した学習が可能になる。
【0059】
ここで、「自然言語処理」は、コンピュータが自然言語で書かれた文章や音声データを理解して目的に応じた処理を実行できるようにするものである。具体的には、自然言語を構成する最小の単位である「形態素」に分解することにより品詞などの情報を付与する形態素解析、自然言語の文法的構造を解析することにより文の構造や意味を明らかにする構文解析、自然言語の意味を解析することにより単語や文の意味を理解し、論理的な判断や推論を行う意味解析、文の前後の文脈を考慮しながら自然言語を理解する文脈解析、自然言語を用いた対話や文章の中から話者や書き手の意図を抽出する意図解析などが例示される。これにより、「自然言語処理」は、形態素解析や構文解析、意味解析、文脈解析、意図解析などの処理を組み合わせて自然言語を処理し、本実施形態の通話支援にかかる通話支援処理(例えば、第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成)などを可能にしている。
【0060】
「言語モデル」は、自然言語処理において用いられる確率モデルの一種であり、与えられた単語や文章が自然言語としてどのように起こりやすいかを確率的に予測するためのモデルである。具体的には、言語モデルは、与えられた単語列や文章の出現確率を計算したり、複数の単語列や文章の出現確率を比較したりすることによって、次の単語や文を予測するときに、その文脈に基づいて最もありそうな単語や文を自動的に生成することを可能にしている。
【0061】
「言語モデル」は、自然言語処理の分野において、言語のパターンや文法のルールなどを学習し、自然言語の生成や理解を行うための数学的モデルを意味する。例えば、第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成において使用される言語モデルは、第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成に特化して学習されたものであり、プロンプトの内容に応じて、第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成を支援するための情報を生成するために使用される。
【0062】
「統一的なデータ形式に正規化された状態」は、個別領域データベースや共通領域データベースなどの膨大なデータを扱う際に、共通の形式に変換し、統一的に整理することを意味する。第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成を機械学習する際に、正規化された固有情報や共通情報、システム概要などの情報を入力として用いることにより、処理の効率性や正確性を向上させることが可能になっている。なお、「正規化」は、データベースのテーブルにあるデータを、一定の規則に従って整理・構造化することで、データの冗長性を排除し、データの整合性や一貫性を保つための処理手法である。
【0063】
「プロンプト」は、利用者に対して入力すべき内容や操作方法などを表示し、利用者が指示を与えるための情報のことである。「第1の改変部31による改変音声情報の作成や第2の改変部32による改変文字情報の作成を支援するための情報」は、改変音声情報や改変文字情報の作成を効率化し、より効果的な通話支援を実施可能にする情報である。
【0064】
なお、通話支援サーバ30は、大規模言語モデル40に加えて/代えて、文字情報から音声情報への第1の改変、及び、音声情報から文字情報への第2の改変を実行するための辞書データベースや語彙データベースを保持・参照できるように構成されていてもよい。
【0065】
ちなみに、通話支援サーバ30は、図4の機能ブロック図に描いた構成要素以外にも、例えば、通常の電話端末が搭載していることが想定される各種の構成要素を追加的に具備していてもよい。例えば、通話支援サーバ30は、受付部と、記憶部と、発信部と、出力部とを具備していてもよい。受付部は、宛先の電話番号を受け付ける宛先番号受付機能と、宛先への配信情報を受け付ける配信情報受付機能とを有していてもよい。記憶部は、受付部が受け付けた宛先電話番号と配信情報を記憶したり、発信部が電話端末から受信した配信情報に対する応答を記憶したりする機能を有していてもよい。発信部は、電話端末に対して自動発信する自動発信機能と、複数の電話端末に対して配信情報を音声(例えば、模擬音声、肉声音声)やテキストで一斉配信する一斉配信機能と、音声の配信情報に対する音声応答を音声認識する音声認識機能と、音声応答をテキストに変換する音声変換機能とを有していてもよい。出力部は、発信部が電話端末から受信した応答に基づく応答結果を出力する機能を有していてもよい。例えば、出力部は、電話端末からの音声応答を端末装置で再生したり、その音声応答をテキストに変換したテキスト応答に基づく応答結果を端末装置のモニタに出力したりしてもよい。また、出力部は、電話端末からのテキスト応答に基づく応答結果を端末装置のモニタに表示してもよい。
【0066】
図7は、通話支援サーバ30を介した文字通話装置10及び音声通話装置20の動作の一例を示す図である。図7では、文字通話装置10を利用する文字通話者であるAさんと、音声通話装置20を利用する音声通話者であるBさんとの通話コミュニケーションを通話支援サーバ30によって支援している。
【0067】
まず、Aさんが文字通話装置10を操作して、「Bさんに電話して」と入力する。すると、文字通話装置10のディスプレイに「分かりました。03-××××-××××に電話します。お待ちください。」及び「・・・・・プルルルルル。しばらく経っても応答がない場合は、改めてお電話をお願いします。」とのメッセージが表示されるとともに、音声通話装置20の呼び出しが行われる。Bさんが音声通話装置20の呼び出しに反応すると(電話に出ると)、文字通話装置10のディスプレイに「ガチャッ・・・通話が始まりました。」と表示され、Aさんが「昨日はとてもお世話になりましたと伝えて」と入力する。その際、音声通話装置20では、Bさんに対して「ただいま、文字メッセージの入力中ですので、しばらく待ちください」との音声メッセージが発せられてもよい。Aさんのメッセージ入力が完了すると、「分かりました。お伝えします。お返事があるまで、少々お待ちください。」とのメッセージが表示されるとともに、音声通話装置20では、Bさんに対して、「かけはし電話です。Aさんからメッセージがあります。「昨日はとてもお世話になりました」とのことです。お返事をどうぞ。」との音声メッセージが発せられる。これに対して、Bさんが「そうですね、えー、こちらこそ、大変お世話になりましたと伝えて」と音声メッセージを吹き込むと、文字通話装置10のディスプレイに「電話で以下のお返事がありました。お世話になりました。こちらこそありがとうございました。」と表示される。ここで、文字通話装置10のディスプレイに表示される文字メッセージのうち、音声通話者であるBさんの回答部分である「お世話になりました。こちらこそありがとうございました。」だけを抽出して強調表示する(例えば色を変えたりマーカで塗ったりフォントを変えたりサイズを変えたりする)ことも可能である。最後に、Aさんが文字通話装置10に「通話終了」と入力すると、文字通話装置10のディスプレイに「分かりました。通話を終了します。ご利用ありがとうございました。」と表示されて、文字通話装置10と音声通話装置20の通話が終了される。
【0068】
図7の例では、AさんとBさんが互いに「昨日はお世話になりました」と伝え合うだけの簡単な内容としたが、実際には、上述した図3A図3B及び図4A図4Bのようなより混み入った内容とし、第1、第2の改変度合いもより大きくすることができる。この場合、文字通話者と音声通話者は、文字通話装置10から出力される改変文字情報と音声通話装置20から出力される改変音声情報を互いに確認しつつ、文字情報と音声情報を再入力することにより、会話のやりとり(キャッチボール)を行うことができる。
【0069】
図8は、文字通話装置10と音声通話装置20と通話支援サーバ30の機能構成の一例を示す図である。図8に示すように、文字通話装置10と音声通話装置20と通話支援サーバ30は、制御部110と、記憶部120と、通信部130と、入力部140と、出力部150と、を有する。なお、図8では、文字通話装置10と音声通話装置20と通話支援サーバ30の機能ブロックの一例を示しており、図8に描いていない他の機能ブロックを有していてもよい。また、一部の機能ブロックを含まない構成としてもよい。
【0070】
制御部110は、文字通話装置10と音声通話装置20と通話支援サーバ30の制御を実施する。制御部110は、本発明に係る技術分野での共通認識に基づいて説明されるコントローラ、制御回路又は制御装置により構成することができる。
【0071】
記憶部120は、文字通話装置10と音声通話装置20と通話支援サーバ30で利用する情報を記憶する。記憶部120は、例えば、本発明に係る技術分野での共通認識に基づいて説明されるメモリ、ストレージ、記憶装置などにより構成することができる。
【0072】
通信部130は、文字通話装置10と音声通話装置20と通話支援サーバ30の通信(例えば両者の相互通信)を行う。通信部130は、本発明に係る技術分野での共通認識に基づいて説明されるトランスミッター/レシーバー、送受信回路又は送受信装置により構成することができる。なお、通信部130は、送信部及び受信部から構成されてもよい。
【0073】
入力部140は、文字通話装置10と音声通話装置20と通話支援サーバ30における入力を受け付ける。また、入力部140は、所定の機器、記憶媒体などと接続され、データの入力を受け付けてもよい。入力部140は、入力結果を例えば制御部110に出力してもよい。入力部140は、本発明に係る技術分野での共通認識に基づいて説明されるキーボード、マウス、ボタンなどの入力装置、入出力端子、入出力回路などにより構成することができる。また、入力部140は、表示部と一体となった構成(例えば、タッチパネル)としてもよい。
【0074】
出力部150は、文字通話装置10と音声通話装置20と通話支援サーバ30における出力を行う。例えば、出力部150は、画像を表示する表示部、音声を出力する音声出力部などを含んで構成されてもよい。表示部は、例えば、本発明に係る技術分野での共通認識に基づいて説明されるディスプレイ、モニタなどの表示装置により構成することができる。また、音声出力部は、本発明に係る技術分野での共通認識に基づいて説明されるスピーカなどの出力装置により構成することができる。
【0075】
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線又は無線によって接続し、これら複数の装置により実現されてもよい。
【0076】
例えば、本開示の一実施形態における装置(文字通話装置10と音声通話装置20と通話支援サーバ30)は、本開示の通話支援処理を行うコンピュータとして機能してもよい。図9は、文字通話装置10と音声通話装置20と通話支援サーバ30のハードウェア構成の一例を示す図である。上述の文字通話装置10と音声通話装置20と通話支援サーバ30は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0077】
なお、本開示において、装置、回路、デバイス、ユニット、サーバなどは、互いに読み替えることができる。文字通話装置10と音声通話装置20と通話支援サーバ30のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0078】
例えば、プロセッサ1001は1つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、1のプロセッサによって実行されてもよいし、処理が同時に、逐次に、又はその他の手法を用いて、2以上のプロセッサによって実行されてもよい。なお、プロセッサ1001は、1以上のチップによって実装されてもよい。
【0079】
文字通話装置10と音声通話装置20と通話支援サーバ30における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みなどを制御することによって実現される。
【0080】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。なお、上述の制御部110などの各部は、プロセッサ1001によって実現されてもよい。
【0081】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、制御部110は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。
【0082】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、RAM(Random Access Memory)、その他の適切な記憶媒体の少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、一実施形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0083】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク、フロッピー(登録商標)ディスク、光磁気ディスク(例えば、コンパクトディスク(CD-ROM(Compact Disc ROM)など)、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、磁気ストライプ、データベース、サーバ、その他の適切な記憶媒体の少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。なお、上述の記憶部120は、メモリ1002及び/又はストレージ1003によって実現されてもよい。
【0084】
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、SIMカードを含んでもよい。なお、上述の通信部130は、通信装置1004によって実現されてもよい。
【0085】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウスなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。なお、上述の入力部140及び出力部150は、それぞれ入力装置1005及び出力装置1006によって実現されてもよい。
【0086】
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1008によって接続される。バス1007は、単一のバスによって構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0087】
また、文字通話装置10と音声通話装置20と通話支援サーバ30は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0088】
(変形例)
なお、本開示において説明した用語及び/又は本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0089】
本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。また、本開示においてパラメータなどに使用する名称は、いかなる点においても限定的なものではない。
【0090】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0091】
情報、信号などは、複数のネットワークノードを介して入出力されてもよい。入出力された情報、信号などは、特定の場所(例えば、メモリ)に保存されてもよいし、テーブルを用いて管理してもよい。入出力される情報、信号などは、上書き、更新又は追記をされ得る。出力された情報、信号などは、削除されてもよい。入力された情報、信号などは、他の装置へ送信されてもよい。
【0092】
また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的な通知に限られず、暗示的に(例えば、当該所定の情報の通知を行わないことによって又は別の情報の通知によって)行われてもよい。
【0093】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0094】
また、ソフトウェア、命令、情報などは、伝送媒体及び信号波形の少なくとも1つを介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
【0095】
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用され得る。
【0096】
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0097】
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0098】
本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素の参照は、2つの要素のみが採用され得ること又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0099】
本開示において、「含む(include)」、「含んでいる(including)」及びこれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0100】
本開示において、例えば、英語でのa, an及びtheのように、翻訳によって冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
【0101】
以上、本開示に係る発明について詳細に説明したが、当業者にとっては、本開示に係る発明が本開示中に説明した実施形態に限定されないということは明らかである。本開示に係る発明は、特許請求の範囲の記載に基づいて定まる発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とし、本開示に係る発明に対して何ら制限的な意味をもたらさない。
【符号の説明】
【0102】
1 通話支援装置(通話支援システム)
10 文字通話装置
20 音声通話装置
30 通話支援サーバ
31 第1の改変部
32 第2の改変部
33 第1の出力部
34 第2の出力部
35 第1の取得部
36 第2の取得部
37 改変態様候補群保持テーブル
40 大規模言語モデル
NW ネットワーク

【要約】
【課題】文字通話装置を利用する文字通話者と音声通話装置を利用する音声通話者の間で好適な通話コミュニケーションをとることができる通話支援装置、通話支援方法及び通話支援プログラムを提供する。
【解決手段】文字通話者が文字通話装置に入力した文字情報を、音声通話用に適正化した音声情報に改変する第1の改変部と、音声通話者が音声通話装置に入力した音声情報を、文字通話用に適正化した文字情報に改変する第2の改変部と、前記第1の改変部による改変音声情報を、前記音声通話装置を介して前記音声通話者に出力する第1の出力部と、前記第2の改変部による改変文字情報を、前記文字通話装置を介して前記文字通話者に出力する第2の出力部と、を有することを特徴とする通話支援装置。
【選択図】図2

図1
図2
図3
図4
図5
図6
図7
図8
図9