IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンITソリューションズ株式会社の特許一覧

特開2022-103490情報処理装置、情報処理方法、及びコンピュータプログラム
<>
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図1
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図2
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図3
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図4
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図5
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図6
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図7
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図8
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図9
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図10
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図11
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図12
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図13
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図14
  • 特開-情報処理装置、情報処理方法、及びコンピュータプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022103490
(43)【公開日】2022-07-08
(54)【発明の名称】情報処理装置、情報処理方法、及びコンピュータプログラム
(51)【国際特許分類】
   H04M 11/00 20060101AFI20220701BHJP
【FI】
H04M11/00 302
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020218157
(22)【出願日】2020-12-28
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】佐野 彰彦
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BA05
5K201BD02
5K201BD04
5K201CA01
5K201CC02
5K201DC05
5K201EC06
5K201ED05
5K201ED07
5K201EF03
5K201EF10
5K201FA02
(57)【要約】
【課題】 発信側と着信側の音声データをテキスト化し、テキスト化した両者の音声データの結果を比較することで、ネットワークやWeb-RTCによるデータの遅延や劣化を判断し、ユーザに通知することが可能となる技術を提供する。
【解決手段】コミュニケーション画面を有する情報処理装置において、音声データの入力を受け付けて、受け付けた音声データが遅延若しくは劣化しているかを判定して、判定結果に対応する通知を行う。
【選択図】 図4
【特許請求の範囲】
【請求項1】
コミュニケーション画面を有する情報処理装置であって、
音声データの入力を受け付ける入力手段と、
前記入力手段によって入力を受付けた音声データをテキスト化する作成手段と、
前記作成手段によって作成された送信側と受信側の音声テキストデータを比較する比較手段と、
前記比較手段での比較結果に基づいて、遅延及び劣化が発生しているか否かを判定する判定手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記情報処理装置は、
前記判定手段による判定結果に対応する通知を行う通知手段と、
を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記判定手段は、送信側の音声テキストデータと受信側の音声テキストデータの一致度を比較することで遅延及び劣化が発生しているかを判定することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記判定手段は、送信側の音声テキストデータと受信側の音声テキストデータの一致度に応じて、遅延の度合い及び劣化の度合いを判定することを特徴とする請求項1乃至3に記載の情報処理装置。
【請求項5】
前記通知手段は、前記判定手段により判定された遅延の度合い及び劣化の度合いに対応する通知を行うことを特徴とする請求項1乃至4に記載の情報処理装置。
【請求項6】
前記通知手段は、遅延若しくは劣化が発生している旨を前記コミュニケーション画面に重畳表示することを特徴とする請求項1乃至5に記載の情報処理装置。
【請求項7】
コミュニケーション画面を有する情報処理装置の制御方法であって、
前記情報処理装置は、
音声データの入力を受け付ける入力ステップと、
前記入力ステップによって入力を受付けた音声データをテキスト化する作成ステップと、
前記作成ステップによって作成された送信側と受信側の音声テキストデータを比較する比較ステップと、
前記比較ステップでの比較結果に基づいて、遅延及び劣化が発生しているか否かを判定する判定ステップと、
を実行することを特徴とする情報処理装置。
【請求項8】
コミュニケーション画面を有する情報処理装置を、
音声データの入力を受け付ける入力手段と、
前記入力手段によって入力を受付けた音声データをテキスト化する作成手段と、
前記作成手段によって作成された送信側と受信側の音声テキストデータを比較する比較手段と、
前記比較手段での比較結果に基づいて、遅延及び劣化が発生しているか否かを判定する判定手段と、
して機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声解析・リアルタイムコミュニケーションに関する。
【背景技術】
【0002】
離れた場所同士でのコミュニケーションを行うためのシステムは広く存在してきており、例えば、工事現場において、現場の作業者は、スマートフォンやタブレット等の情報処理端末を用いて、遠隔地にいる監督者やオペレーターとコミュニケーションを行いながら、作業を行うことができるようになってきている。
お互いの映像や音声を送信することで、コミュニケーションを行うが、通信環境によっては、映像や音声データの遅延や劣化が発生することがある。この遅延や劣化に対応する為に、音声をテキスト化することで円滑にコミュニケーションを図ろうとする技術がある。例えば、特許文献1や特許文献2である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-88818号公報
【特許文献2】特表2016-529839号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1には、発信端末と着信端末との間の通話をテキストに変換して、変換されたテキストを発信端末および着信端末に表示させることにより、通話内容のテキストを一致させる音声テキスト化技術が開示されている。
特許文献2には、音声通信において、通信チャネルが混雑している際に音声データではなくデータサイズの小さいテキストに変換することでコミュニケーションを維持する技術が記載されている。
【0005】
しかしながら、特許文献1に記載の発明では、発信側と着信側の双方の間で通話内容のテキストを一致させるだけであり、また、特許文献2に記載の発明においても、通信チャネルが混雑している際に音声データではなくデータサイズの小さいテキストに変換することでコミュニケーションを維持することは出来るが、コミュニケーションをとっている当人同士において、どの程度のネットワークやWeb-RTCによるデータの劣化が発生しているのかを知ることはできない。
【0006】
音声をテキスト化することで、音声データが遅延する場合でもどのような内容を話したかは表示される音声テキストを確認することが出来るが、実際にどの程度、音声データの遅延が発生しているかは把握することが出来ない。
例えば、コミュニケーションの相手に映像内の様子を基に話をする場合、どの程度の音声データの遅延が発生しているかが不明であると、コミュニケーションの相手に、映像内のどの点について話をしているのが伝わらず、ディスコミュニケーションになってしまう。
【0007】
本発明は、上記問題を鑑みて成されたものであり、音声を含むコミュニケーションにおいて、データの遅延や劣化の状況を認識できる仕組みを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記、課題を解決するための本発明は、コミュニケーション画面を有する情報処理装置であって、音声データの入力を受け付ける入力手段と、入力手段によって入力を受付けた音声データをテキスト化する作成手段と、作成手段によって作成された送信側と受信側の音声テキストデータを比較する比較手段と、比較手段での比較結果に基づいて、遅延及び劣化が発生しているか否かを判定する判定手段とを備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、音声を含むコミュニケーションにおいて、データの遅延や劣化の状況を認識することが可能となる。
【図面の簡単な説明】
【0010】
図1】本発明の実施形態における、コミュニケーションシステムの全体構成の一例を示す図である。
図2】スマートフォン101、タブレット端末102、クライアントPC111等のハードウェア構成の一例を示す構成図である。
図3】Web-RTCシステムを使用した音声コミュニケーションシステムの音声送受信の概要を示すシーケンス図である。
図4】本発明の実施形態における、話し手と聞き手間で行われるクライアントのコミュニケーション処理の一例を示すフローチャート図である。
図5図4のコミュニケーション処理ループ内のコミュニケーション中の処理のフローを示す図である。
図6図5のコミュニケーション中の処理のフロー内の遅延判断登録処理のフローを示す図である。
図7】本発明の実施形態における、遅延判断システムの遅延判断受付通知処理の一例を示すフローチャート図である。
図8図7の遅延判断受付通知処理内の遅延判断処理の一例を示すフローチャート図である。
図9】本発明の実施形態における、遅延判断システムのデータの保持形態の一例を示す図である。
図10】本発明の実施形態における、モバイルコミュニケーションアプリケーションの通常時の画面構成イメージ図である。
図11】本発明の実施形態における、ユーザ1(自分)が遅延している場合のモバイルコミュニケーションアプリケーションの画面構成イメージ図である。
図12】本発明の実施形態における、ユーザ2(コミュニケーションの相手側)が遅延している場合のモバイルコミュニケーションアプリケーションの画面構成イメージ図である。
図13】本発明の実施形態における、PCコミュニケーションアプリケーションの通常時の画面構成イメージ図である。
図14】本発明の実施形態における、ユーザ1(自分)が遅延している場合のPCコミュニケーションアプリケーションの画面構成イメージ図である。
図15】本発明の実施形態における、ユーザ2(コミュニケーションの相手側)が遅延している場合のPCコミュニケーションアプリケーションの画面構成イメージ図である
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0012】
図1は、ユーザ同士のコミュニケーションをとり、音声のテキスト化による遅延判断による通知表示を行うモバイルコミュニケーションアプリケーション(以下モバイルアプリ)、PCコミュニケーションアプリケーション(以下PCアプリ)および、クラウドでコミュニケーションを制御するコミュニケーションシステムサーバおよび、遅延判断を行う遅延判断システムサーバおよび、音声を文字テキストに変換するSpeechToTextシステムサーバの全体構成の一例を示す図である。本実施例においてはクラウド上に構成されるものとして説明するが、クラウド上に構成されなくてもよい。
ユーザ同士とは、コミュニケーションを実行する話し手側と聞き手側のことである。
【0013】
説明の便宜上、以後、コミュニケーションを実行する話し手側をユーザ1、話し手側のコミュニケーションを受ける聞き手側をユーザ2として、説明する。
尚、本説明では便宜上、話し手側、聞き手側としているが、両者の立場を入れ替えてコミュニケーションを行うことは勿論、可能である。
【0014】
コミュニケーションを行うユーザ1は、モバイルアプリ100をスマートフォン101やタブレット端末102にインストールすることで、スマートフォン101やタブレット端末102でモバイルアプリ100を使用することが出来る。
【0015】
モバイルアプリ100は、インターネット130を介して、クラウドシステム120のコミュニケーションシステムサーバ121、遅延判断システムサーバ122、AI/DL SpeechToTextシステムサーバ123、及びユーザ2のクライアントPC上のPCコミュニケーションアプリケーションと接続される構成となっている。
【0016】
コミュニケーションを行うユーザ2には、PCアプリ110と、クライアントPC111がある。PCアプリ110は、クライアントPC111にインストールすることで、PC上で動作する。PCアプリは、インターネット130を介して、クラウドシステム120のコミュニケーションシステムサーバ121、遅延判断システムサーバ122、AI/DL SpeechToTextシステムサーバ123、及びユーザ1のスマートフォン101やタブレット端末102上のモバイルアプリと接続される構成となっている。
【0017】
上記実施例では、ユーザ1がモバイルアプリ、ユーザ2がPCアプリを使用する例として記載しているが、コミュニケーションの中では、話し手側のユーザ、聞き手側のユーザが逆になることが可能なアプリケーションである。また、組み合わせがモバイルアプリ同士、PCアプリ同士であっても同様の仕組みで動くものである。また、1対1のコミュニケーションの例を記載しているが、複数人によるコミュニケーションであっても同様の仕組みで動作することを可能とするものである。
【0018】
クラウドシステムには、コミュニケーションシステムサーバ121と、遅延判断システムサーバ122、AI/DL SpeechToTextシステムサーバ123で構成されている。それぞれのサーバはインターネット130を介して接続される構成となっている。
【0019】
データ140には、音声データ141、音声テキストデータ142、遅延判断結果データ143がある。音声データは、入力デバイスからインプットされた音声ストリーミングデータのことである。音声テキストデータは、音声データを変換し、テキストデータとして扱えるようにしたものである。遅延判断結果データは、音声テキストデータやそのデータのタイムスタンプを比較し、遅延判断を行った結果のデータであり、遅延判断管理テーブル920で保管するデータである。
【0020】
上記は、音声をコミュニケーションとして伝える説明をしているが、音声に加えて映像を一緒にやり取りできる一般的なコミュニケーションシステムの例である。
以上で図1の説明を終了する。
【0021】
次に図2を参照して、本発明の実施形態におけるクライアント端末に適用可能なハードウェア構成の一例について説明する。
【0022】
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やオペレーティングシステム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
【0023】
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
【0024】
また、205は入力コントローラで、入力デバイス209からの入力を制御する。入力デバイス209としては、キーボード、タッチパネル、及びマウス等のポインティングデバイス等が挙げられる。
【0025】
なお、入力デバイス209がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0026】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0027】
206はビデオコントローラで、ディスプレイ210等の表示機への表示を制御する。なお、ディスプレイ210は、CRT、液晶ディスプレイ等の表示機のことを指す。または、その他の表示機であってもよい。
【0028】
尚、本体と一体になったノート型パソコンのディスプレイも含まれるものとする。外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。
【0029】
また、図2のハードウェア構成を適用する装置が前述のタッチ操作を受け付け可能な装
置である場合には、ディスプレイ210が入力デバイス209としての機能を提供する。
【0030】
207はメモリコントローラで、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HDD)や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0031】
208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
【0032】
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォント展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0033】
本発明を実現するための後述する各種プログラムは、ROM202あるいは外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。
【0034】
さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報、テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
【0035】
カメラコントローラ212は、カメラ214等による映像取得を制御し、音声コントローラ213はマイク/スピーカ215等による音声取得制御やスピーカへの出力を制御する。
【0036】
カメラ214は、図2のハードウェア構成を適用する装置に内蔵されているカメラである。また、マイク/スピーカ215は、図2のハードウェア構成を適用する装置に内蔵されているマイク及びスピーカである。以上で図2の説明を終了する。
【0037】
次に図3を用いて、Web-RTCシステムなどの一般的なコミュニケーションシステムにおける音声の送受信処理について説明する。以下に簡単に説明をする。
【0038】
ステップS301では、話し手による発話を検出する。
【0039】
ステップS302では、ステップS301で検出した発話内容を音声データとして取得する。
【0040】
ステップS303では、モバイルアプリが、マイクによって取得された音声データをクラウド上のWeb-RTCシステムにWeb-RTCの音声データとして送信する。
【0041】
ステップS304では、クラウド上のWeb-RTCシステムは、Web-RTCの音声データをモバイルアプリより受け付け、聞き手側のPCアプリにWeb-RTCの音声データをリレーする。
【0042】
ステップS305では、PCアプリは、Web-RTCシステムから受信した音声データをスピーカ、イヤホンなどのPC111の出力デバイスから出力させる。
【0043】
ステップS306では、スピーカやイヤホンなどの出力デバイスから音が聞こえることにより、聞き手側は、話し手側が発した音声を聞くことが出来る。
【0044】
上記の一連の処理の中で、帯域状況などの様々な要因から音声の遅延や劣化が発生することにより、話し手側がマイクに入力した音声が、聞き手側の出力デバイスで出力される際に音声が飛び、図3の309で図示されている様に所々が飛んだ形で出力されてしまう。
【0045】
帯域が正常であれば、307で、話し手側がマイクに向けて、「もしもし、14時から東京の現場で作業します。」と話しをすると、308のようにスピーカからは「もしもし、14時から東京の現場で作業します。」と聞こえる。
【0046】
しかしながら、帯域が悪い場合であると、スピーカからは「もしもし、1?時からトーキの?場で作業をします。」など聞き取れない部分や飛んでしまう部分が発生する。
本願は、上記のような状態において、円滑にコミュニケーションを行えるにするものである。
【0047】
以上で図3の説明を終了する。
【0048】
図4は、本発明の実施形態における、音声のテキスト変換、音声テキストデータ142を使った遅延判断及び遅延判断結果の通知処理の全体の流れを示す図である。
【0049】
図4では、モバイルアプリ及びPCアプリをまとめてクライアントアプリとして説明する。また、ここではスマートフォン及びPCをまとめてクライアント端末として説明する。以下、図4の処理の流れを説明する。
【0050】
ステップS401では、クライアントアプリは、ユーザのクライアント端末を通して、クライアントアプリの起動指示を受け付けて、クライアントアプリを起動させる。
【0051】
ステップS402では、ステップS401で起動したクライアントアプリに関して、ログイン指示を受け付け、一般的なマルチテナントのログイン処理を行う。
【0052】
続けて、ステップS403では、クライアント端末若しくはクライアント端末に接続されたマイクなどの音声入力デバイスから入力された音声データ141を取得する。
【0053】
ステップS404では、クライアント端末からコミュニケーションを開始するための指示を受け付け、一般的なコミュニケーションシステムのコミュニケーション開始処理を行う。
【0054】
ステップS405では、コミュニケーションシステムにコミュニケーション開始リクエストを行う。コミュニケーション開始リクエストでは、リクエストデータとしてAPIキー、接続先ID、映像音声データを要求する。APIキーとは、コミュニケーションシステムをAPIとして利用するためのキーであるテキストデータである。接続先IDとは、コミュニケーションを行う相手同士をつなげるために必要なIDである。コミュニケーションをとりたい相手同士は同じ接続先IDを指定する必要がある。
【0055】
ステップS406では、ステップS405のリクエストを承認して、コミュニケーション処理を開始する。
【0056】
ステップS407では、ステップS406でコミュニケーションが開始されると、コミュニケーション処理ループへと入る。
【0057】
ステップS408では、ステップS407でコミュニケーション処理ループに入ると、ユーザ1(自分)のローカルの音声データを送信する処理、ユーザ2(相手側)からの音声データを受信し、ユーザに出力する処理、遅延判断システムからの通知を受信する処理の3つの処理を並行して実行する。ステップS408の詳細な処理については、図5を用いて説明を行う。
【0058】
続けて、ステップS408の詳細な処理について、図5を用いて説明を行う。図5の処理では、ユーザ1自身のローカルの音声データを送信する処理、相手からの音声データを受信し、ユーザに出力する処理、遅延判断システムからの通知を受信する処理の3つを並行でループ処理として実行する。それぞれの処理を並行して行うのは、コミュニケーションは複数のイベントが並列で発生する可能性があり、それらのイベントを並行して処理することでリアルタイムのコミュニケーションを実現する為である。
【0059】
ステップS407で、コミュニケーション処理ループに入ると、ステップS501では、コミュニケーションシステムからコミュニケーション相手の映像音声データを受信する。
【0060】
ステップS502では、受信したコミュニケーション相手の音声データを遅延判断登録処理にインプットする。
【0061】
ステップS503では、ステップS502でインプットした音声データに対して、遅延判断登録処理を行う。遅延判断登録処理では、送受信した音声データを声の連続性や文章のとして意味の区切りを判断し、文区切りの音声データとする処理を行っている。ステップS503で行っている詳細な処理の内容については図6を用いて説明を行う。
【0062】
続けて、図6を用いてステップS503の遅延判断登録処理について説明を行う。
遅延判断登録処理では、送受信した音声データの声の連続性や、文章としての意味の区切りを判断し、文区切りの音声データにする処理を行う。図8に示す遅延判断処理を行う為に本処理を行う。
【0063】
ステップS601では、音声データを文区切りにする。音声データを文区切りにして、自然言語処理をする為である。また、この処理は音声データを区切りファイル化出来る状態にすることで、テキスト変換処理をし易くする為にも行う。
【0064】
ステップS602では、音声文区切り処理のループ処理を開始する。
【0065】
ステップS603では、文区切りの音声データをSpeechToTextシステムサーバ123に送信する。ステップS603の処理は、文区切りの音声データをSpeechToTextシステムに送信して、音声データをテキスト化した音声テキストデータを得るために行う。
【0066】
その際に、ステップS603では、リクエストデータとして、APIキー、音声データを要求する。
【0067】
ステップS604では、SpeechToTextシステムからの受信結果の音声テキストデータを遅延判断システムに送信する。ステップS604の処理は、音声データをテキスト化した音声テキストデータを遅延判断システムに送信することで、遅延判断システムに音声データを解析させるために行う。ステップS604では、リクエストデータとして、コミュニケーションID、音声テキストデータ、登録者、送信側か受信側かの情報、発言者、発言時間、登録時間を要求する。
【0068】
SpeechToTextは、既知の技術であり、取得した音声データから音声データの特徴を求めたのち、言語処理解析をして、音声データの内容をテキストとして、書き起こす技術である。
【0069】
ステップS601で文区切りにしたすべての音声データに対してS63、S604の処理が終了すると、図6に示す遅延判断登録処理は終了となる。
【0070】
ステップS503まで処理が終了すると、コミュニケーション中の処理を終了して、ステップS409へ進む。
【0071】
ステップS511では、映像音声デバイスからユーザ1(自身)入力データの音声データを取得する。
【0072】
ステップS512では、音声データを遅延判断登録処理にインプットする。
【0073】
ステップS513では、ステップS512でインプットした音声データに対して、遅延判断登録処理を行う。前述のステップS503で行われる処理と同様の処理である。
ステップS513まで処理が終了すると、コミュニケーション中の処理を終了して、ステップS409へ進む。
【0074】
ステップS521では、遅延判断システムから遅延通知が届くまで受信待ちする。ステップS521の遅延判断システムから通知を受信する処理において、コミュニケーション中は、常に遅延判断システムから通知を受信できる状態で待機している。
【0075】
ステップS522では、遅延通知が届いたかを判定する。遅延通知が届いた場合(判定結果がYesであった場合)は、ステップS523に処理を進める。遅延通知が届いていない場合(判定結果がNoであった場合)は、ステップS521に戻り、通知が届くまで待機する。
【0076】
ステップS523では、遅延通知を受信するとクライアントアプリはクライアント端末上の画面に通知内容を表示し、ユーザに遅延通知を行う。これによりユーザは自分の音声が実際にどれだけ遅延や劣化して相手に伝わっているかを理解することができ、遅延や劣化を考慮したコミュニケーションを行うことで相手とのコミュニケーションを円滑に行うことができる
【0077】
ステップS523まで処理が終了すると、コミュニケーション中の処理を終了して、ステップS409へ進む。
【0078】
ステップS409では、ログアウト指示を受け付ける。
【0079】
ステップS410では、アプリで終了指示を受け付ける。
【0080】
以上で図5のコミュニケーション中の処理のフローチャートの説明を終了する。
【0081】
続けて、図7を用いて遅延判断受付通知の説明を行う。図7では、遅延判断システムの遅延判断のための全体動作フローの説明を行う。
【0082】
ステップS701では、遅延判断システムは、ステップS604でクライアントアプリから送信された遅延判断登録要求を受付ける。
【0083】
ステップS702では、受け付けた遅延判断登録内容を図9に示す音声テキスト管理テーブル900に格納する。音声テキスト管理テーブル900は、遅延判断登録内容であるテキストID901と、コミュニケーションID、音声テキストの登録者である登録者903、送信であるか受信であるかを管理する送受信904、音声の発言者が誰であるかを管理する音声の発言者905、発言していた時間を管理する907、音声のテキストデータを管理する場所であるテキストデータ908を管理するテーブルである。
【0084】
ステップS703では、上記の音声テキスト管理テーブルに登録された内容に基づいて、受信した遅延判断登録内容が送信側であるか受信側であるかの判定を行う。受信した登録内容が送信側であればステップS704に進み、クライアントに遅延判断の登録完了を意味する登録成功のレスポンスを送信して、本処理を終了する。
【0085】
ステップS703の処理は、遅延判断を行う為には送信側と受信側の両方のデータが揃う必要がある。理論的に送信側が先に届くことから、遅延判断は受信側の登録時に実施するため、どちらの登録内容であるかを判断する。登録内容が受信側であれば、ステップS705に進め、遅延判断処理を行う。
【0086】
ステップS705で行う遅延判断処理について、図8を用いて説明する。上述の通り、遅延判断は受信側の登録時に実施するため、ステップS705のタイミングで行う。
【0087】
ステップS801では、音声テキスト管理テーブル900から登録内容に含まれる音声テキストデータに該当する送信側が登録したデータの候補を検索する。検索する為の条件は、コミュニケーションID902の人物と音声の発言者905が同じ人物であること、発言時間及び登録時間がリクエストデータの登録内容と比較して60秒以内であることを条件に検索する。
【0088】
この条件は、コミュニケーション相手が同じ内容を復唱したり、少し前に話した内容と同じことをもう一度繰り返し話したりした際に、復唱した内容や繰り返して話した内容を遅延していると判定させないために、採用している。勿論、実際の運用状況に合わせて、適宜検索条件は変更してよい。
【0089】
ステップS802では、候補の音声テキストデータに対して全文検索をすることで、音声テキスト管理テーブル900に送信側が登録したデータを特定する。
【0090】
具体的には、検索した結果、ヒットした候補の音声テキストデータに対して、受信側の音声テキストデータをキーにした検索エンジンによる全文検索を行い、送信側の音声テキストデータを検索する。この処理により音声テキスト管理テーブル900に事前に登録していた送信側の登録データを特定する。
【0091】
ステップS803では、送信側の登録データと受信側の登録データの発言時間の差分からコミュニケーションの遅延判断を行う。
【0092】
具体的には、送信側の登録データの発言時間とクライアントからの要求に含まれる受信側の発言時間を比較し、差分からコミュニケーションの遅延判断を行う。差分が1秒未満の場合は遅延なしと判断し、1~5秒以内の場合は遅延小、6~10秒以上の場合は遅延中、10秒以上の場合は遅延大と判断する。この遅延レベルの評価の結果が各クライアントの端末上でポップアップとして表示される。例えば、図11に示す1101や図12に示す1201、図14に示す1401、図15に示す1501などのように表示される。
【0093】
ステップS804では、送信側の登録データと受信側の登録データの発言内容の差分からコミュニケーションの劣化判断を行う。
【0094】
具体的には、送信側の登録データの音声テキストデータとクライアントからの要求に含まれる受信側の音声テキストデータを比較し、一致度からコミュニケーションの劣化判断を行う。一致度が95%以上の場合は劣化なしと判断し、90~95%の場合は劣化小、80~90%の場合は劣化中、80%より低い場合は劣化大と判断する。この劣化レベルの評価の結果が各クライアントの端末上でポップアップとして表示される。例えば、図11に示す1101や図12に示す1201、図14に示す1401、図15に示す1501などのように表示される。
【0095】
ステップS805では、解析結果である遅延判断と劣化判断を図9に示す遅延判断管理格納テーブル920の解析結果(結果)923、解析結果(劣化)924にそれぞれ格納する。
【0096】
遅延判断管理テーブル920は、コミュニケーションIDを管理するコミュニケーションID921、音声の発言者を管理する音声の発言者922、遅延判断の解析結果を管理する解析結果(遅延)923、劣化判断の解析結果を管理する解析結果(劣化)924、更新された日時を管理する更新日時925、撮影された日時を管理する撮影日時926を管理するテーブルである。
【0097】
ステップS806では、遅延若しくは劣化が発生したと判断した場合は、クライアントアプリに遅延若しくは劣化が発生した旨の通知を行う。遅延、劣化が発生したデータと同じコミュニケーションIDのデータを音声テキスト管理テーブル900から検索して、ヒットしたデータの登録者全員に対して遅延若しくは劣化の内容を含む通知イベントを送信する。
モバイルアプリであれば、図11図12のように表示し、PCアプリであれば図14図15のように表示される。
以上が、図8で行われる遅延判断処理の内容である。
【0098】
上述のステップS705の遅延判断処理が終了すると、ステップS706の処理へ移行する。
ステップS706では、クライアントに登録成功のレスポンスを送信する。
以上で図7の遅延判断受付通知の処理は終了する。
【0099】
続けて、図10を用いて、通常のモバイルアプリのコミュニケーション画面構成イメージについて、説明する。通常のコミュニケーション画面1000は、カメラを作動し、ルームに入室している際のものである。
【0100】
1001のアイコンは、スマートフォンを利用して、ルームに入室しているユーザの数を示している。
【0101】
1002のアイコンは、PCを利用して、ルームに入室しているユーザの数を示している。
【0102】
1003のアイコンは、カメラのシャッターボタンと、ビデオの撮影開始、ビデオの撮影終了等の処理を指示する操作部である。
【0103】
1004のアイコンは、カメラモードを示すアイコンである。1004のカメラアイコンが黄色で色付けされている場合は、カメラモードで撮影されていることを示す。
【0104】
1005のアイコンは、ビデオモードを示すアイコンである。1005のビデオアイコンが黄色で色付けされている場合は、ビデオモードで撮影されていることを示す。
【0105】
1006は、現在ユーザがどのルームに入室しているかが確認できる表示である。
この場合であれば、ルームA2に入室していることが分かる。以上で、図10の説明を終了する。
【0106】
図11を用いて、ユーザ1(自身)が遅延している場合のモバイルアプリのコミュニケーション画面の画面構成イメージを説明する。
【0107】
ユーザ1(自身)において、コミュニケーションの遅延や劣化が発生すると、1101のようなポップアップが通常のコミュニケーション画面に重畳表示される。
【0108】
ポップアップ1101では、遅延が発生していることを通知する。そして、遅延レベルと劣化レベルを表示する。また、コミュニケーションの相手方が、ユーザ1(自身)の音声を聞き取りづらくなっていることを通知する。
【0109】
これにより、ユーザ1(自身)は、現在相手方とのコミュニケーションの間で音声データ、映像データの遅延、劣化が発生していることが瞬時に把握できる。
【0110】
また、ユーザ(自身)は、自分の音声が実際にどれだけ遅延や劣化しているかを理解することができ、遅延や劣化を考慮したコミュニケーションを行うことで相手方とのコミュニケーションを円滑に行うことができる。以上で図11の説明を終了する。
【0111】
続けて、図12を用いて、ユーザ2(コミュニケーションの相手方)が遅延している場合のモバイルアプリのコミュニケーション画面の画面構成イメージを説明する。
【0112】
ユーザ2(コミュニケーションの相手方)において、コミュニケーションの遅延や劣化が発生すると、1201のようなポップアップが通常のコミュニケーション画面に重畳表示される。
【0113】
ポップアップ1201では、遅延が発生していることを通知する。そして、遅延レベルを表示する。1201のポップアップでは「小」が表示されている。
【0114】
相手が遅延している場合は、実際に音声の劣化が聞いてわかるので、ポップアップ1201には、劣化レベルの表示は不要である。
【0115】
また、ユーザ2(コミュニケーションの相手方)のコミュニケーション相手であるユーザ1が劣化に気づいていない可能性がある旨の通知と、遅延を考慮した会話を実施するように促すメッセージを表示する。
【0116】
これにより、ユーザ2は、現在相手方とのコミュニケーションの間で音声データ、映像データの遅延が発生していることが瞬時に把握できる。
【0117】
また、遅延を考慮したコミュニケーションを行うことで、相手方とのコミュニケーションを円滑に行うことが出来る。以上で図12の説明を終了する。
【0118】
続けて、図13を用いて、通常のPCアプリのコミュニケーション画面の画面構成イメージを説明する。1300がPCアプリのコミュニケーション全体の画面である。
【0119】
1301では、コミュニケーションを行うルームを選択することが出来る。
【0120】
1302は、ユーザが選択することで、拡大して映像を観ることが可能な画面である。
勿論、ユーザが選択しなくとも一定のタイミングで1302の画面に表示される映像が切り替わるようにしてもよい。
【0121】
1303、1304、1305、1306はルームに参加する各ユーザから送られてくる映像を表示する領域である。各領域には、ユーザから送られてくる映像と、どのユーザからの映像なのかが分かるようにユーザ名が表示される。
【0122】
PC上での操作を行うユーザが、ルームに参加しているユーザが送ってくる映像を表示する画面右側の1303、1304、1305、1306の領域のうち、いずれかを選択すると、ユーザが選択した領域に表示される映像が、1302の画面に拡大して表示される。
【0123】
図13の例であると、ユーザは1305を選択したので、1302には、1305の領域に映されていた映像を拡大して表示する。ユーザが1305を選択すると、1305に表示されていた映像が1302に移って、表示されていることをメッセージで示す。この場合、VIEWと表示される。
【0124】
1307は、カメラモードを選択するためのアイコンである。そして、カメラモードを選択すると、画面に表示されている映像をスクリーンショットで撮ることや、PCに内蔵若しくは外部から接続されたカメラを利用して、写真を撮ることが出来る。
【0125】
1308は、ビデオモードを選択するためのアイコンである。ビデオモードを選択すると、ビデオの撮影が開始する。画面自体を映像として撮影することも可能であり、また内蔵若しくは外部から接続されたカメラを利用して、ユーザの顔や身体を含む映像を撮ることも可能である。これにより、ジェスチャーなどでもコミュニケーションが可能となる。
【0126】
1309は、写真一覧のアイコンである。写真一覧のアイコンを押下すると、撮った写真を確認することができる。
【0127】
1310は、画面キャプチャー共有のアイコンである。画面キャプチャー共有のアイコンを押下すると、ユーザがキャプチャーした画面をルームに参加する他のユーザに共有することが出来る。以上で図13の説明を終了する。
【0128】
図14は、ユーザ1(自分)が遅延している場合のPCアプリのコミュニケーション画面である。
【0129】
1401のようなポップアップ形式で、遅延が発生している旨の通知と、遅延レベルと劣化レベルを表示し、音声が聞き取りにくくなっていることを通知する。
【0130】
これにより、現在相手方とのコミュニケーションの間で音声データ、映像データの遅延が発生していることが瞬時に把握できる。以上で図14の説明を終了する。
【0131】
図15は、ユーザ2(コミュニケーションの相手方)が遅延している場合のコミュニケーション画面である。
【0132】
遅延が発生しているコミュニケーションの相手方が存在する場合は、1500のように通知バーを表示して、遅延が発生していることを通知する。通知バー1500にマウスオーバーすることで、1501のようなポップアップのイメージが表示されます。
【0133】
モバイルアプリと同様に、相手が遅延しているかどうかは実際に音声を聞いて分かるので劣化レベルについては表示しない。以上で図15の説明を終了する。
【0134】
以上、本発明について説明したが、本発明によって、発信側と着信側の音声データをテキスト化し、テキスト化した両者の音声データの結果を比較の上、ネットワークやWeb-RTCによるデータの遅延や劣化を判断して、ユーザに通知することが可能となる。
【0135】
これにより、遅延や劣化が発生しているコミュニケーションにおいて、ユーザ同士でお互いの遅延や劣化の状況を把握、考慮しながらコミュニケーションが出来るので、ユーザの煩わしさが軽減できる。
【0136】
従来であれば、ユーザ1(自身)は、相手に自分の声が伝わっているか判断できず、また、自分の声が伝わっているとしても遅延が発生している場合にどの程度の遅延が発生しているのかまでは判断できなかった。しかしながら、本発明によって遅延や劣化の具合がユーザに通知されることで、発言をする側はゆっくり話す、文章を区切って話すなどの工夫をすることが出来る。また、遅延があることを想定しながら発言を行うことが出来るので、発言が被ることが少なくなる。
【0137】
以上、本願の実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0138】
また、本発明におけるプログラムは、図4に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図4の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図1の各装置の処理方法ごとのプログラムであってもよい。
【0139】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0140】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0141】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0142】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0143】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0144】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0145】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0146】
100 モバイルコミュニケーションアプリケーション
110 PCコミュニケーションアプリケーション
120 クラウドシステム
130 インターネット
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15