(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-25
(45)【発行日】2024-11-05
(54)【発明の名称】オンライン会議中に発話できないユーザを補助するプログラム、端末及び方法
(51)【国際特許分類】
G06F 3/16 20060101AFI20241028BHJP
G10L 13/02 20130101ALI20241028BHJP
G10L 13/08 20130101ALI20241028BHJP
G10L 13/10 20130101ALI20241028BHJP
G10L 15/10 20060101ALI20241028BHJP
H04N 7/15 20060101ALI20241028BHJP
H04M 3/56 20060101ALI20241028BHJP
H04L 51/046 20220101ALI20241028BHJP
H04L 65/403 20220101ALI20241028BHJP
G06F 3/01 20060101ALI20241028BHJP
【FI】
G06F3/16 620
G10L13/02 130C
G10L13/08 122
G10L13/10 111Z
G10L15/10 200W
H04N7/15
H04M3/56 B
G06F3/16 650
G06F3/16 690
H04L51/046
H04L65/403
G06F3/01 510
(21)【出願番号】P 2022014504
(22)【出願日】2022-02-01
【審査請求日】2024-01-17
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】池田 和史
(72)【発明者】
【氏名】服部 元
(72)【発明者】
【氏名】西澤 信行
(72)【発明者】
【氏名】田島 優輝
【審査官】槙 俊秋
(56)【参考文献】
【文献】特開2000-023132(JP,A)
【文献】特開2004-336292(JP,A)
【文献】特開2015-231083(JP,A)
【文献】特開2017-054193(JP,A)
【文献】特開2019-110451(JP,A)
【文献】特開2021-081838(JP,A)
【文献】特開2020-113217(JP,A)
【文献】国際公開第2017/200072(WO,A1)
【文献】特開2007-243392(JP,A)
【文献】米国特許出願公開第2011/0093272(US,A1)
【文献】中国特許出願公開第101515455(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/00- 3/18
G10L 13/00-99/00
H04N 7/00-21/858
H04M 3/00-11/10
H04L 51/00-67/75
(57)【特許請求の範囲】
【請求項1】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
してコンピュータを機能させ
、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ようにコンピュータを機能させることを特徴とするプログラム。
【請求項2】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段
と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
してコンピュータを機能させ
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ようにコンピュータを更に機能させることを特徴とするプログラム。
【請求項3】
オンライン会議サーバから受信した会議の発話音声データが、所定時間以上受信されていない会話間隙を検知する会話間隙検知手段を更に有し、
チャット音声データ送信手段は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバへ送信する
ようにコンピュータを機能させることを特徴とする請求項1
又は2に記載のプログラム。
【請求項4】
端末は、ユーザの発話音声データの収音を、ユーザの操作によってオン/オフするマイクを更に搭載しており、
マイクがオフになっている際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを機能させることを特徴とする請求項
1から3のいずれか1項に記載のプログラム。
【請求項5】
当該端末に、移動検知センサを更に搭載しており、
移動検知センサによって移動中と判定された際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを更に機能させることを特徴とする請求項
1から3のいずれか1項に記載のプログラム。
【請求項6】
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する発言要請判定手段と
してコンピュータを更に機能させることを特徴とする請求項1から
5のいずれか1項に記載のプログラム。
【請求項7】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
を有
し、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする端末。
【請求項8】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
を有し、
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ことを特徴とする端末。
【請求項9】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第1のステップと、
チャットテキストを、チャット音声データに音声合成する第2のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第3のステップと
を実行
し、
第1のステップについて、ユーザがチャットテキストの入力中に、所定タイミングとなった際に、
第3のステップについて、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
第2のステップについて、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする端末のチャット音声データ送信方法。
【請求項10】
オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第1のステップと、
チャットテキストを、チャット音声データに音声合成する第2のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第3のステップと
、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する第4のステップと、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する第5のステップと、
第3のステップについてチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する第6のステップと
を実行し、
第6のステップについて、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ことを特徴とする端末のチャット音声データ送信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のユーザが、端末を用いて参加するオンライン会議システムの技術に関する。
【背景技術】
【0002】
スマートフォンやパーソナルコンピュータのような端末を用いて、複数のユーザが同時に会議可能なオンライン会議システムが、広く普及している。端末のディスプレイには、複数のユーザの映像が表示され、端末のスピーカから会議の音声が出力され、端末のマイクからユーザの発話音声が収音される。また、オンライン会議システムには、一般的に、テキストチャットを投稿可能な機能もある。
【0003】
従来、人と対話する対話システムが自ら発話する際に、円滑なコミュニケーションを図るための技術がある。
例えば、対話システムが、ユーザの発話内容の音響的特徴及び言語的特徴を分析し、発話の終了状態と、発話権限の有無とを判断する技術がある(例えば特許文献1参照)。この技術によれば、対話システムは、ユーザに対して発話する適切なタイミングを検知することができる。
また、対話システムが、自ら発話をする際に呼吸音を発し、自ら発話しようするタイミングを周辺にほのめかすように、発話意思を表現する技術もある(例えば特許文献2参照)。
【先行技術文献】
【非特許文献】
【0004】
【文献】特開2021-051172号公報
【文献】特許6712303号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
オンライン会議システムの場合、会議に参加しているメンバは、自由に発話して議論し合うことができる。但し、メンバの一部には、発話できない環境に居る場合もある。そのメンバは、通常、他のメンバが発話する議論を聞くだけとなってしまう。自らの意見を周知するためには、例えばテキストチャットに投稿しなければならない。
【0006】
図1は、従来技術におけるオンライン会議システムの概要図である。
図1によれば、オンライン会議の際に、ユーザ@b及び@cは、発話可能な環境に居るが、ユーザ@aは、発話できない環境に居る場合を想定している。ユーザ@aは、例えば電車で移動中であるかもしれない。そのような環境に居るユーザ@aは、オンライン会議の議論を聞くことはできても、自ら発話することは難しい。
【0007】
図2は、
図1に対するオンライン会議システムの画面図である。
図2によれば、以下のように、オンライン会議中に発話が交換されている。「」は発話された音声データである。
ユーザ@c「x社の装置は、安いね」
ユーザ@b「でも、y社の管理機能は優れています」
ユーザ@a「・・・・・」
このとき、ユーザ@aは、オンライン会議中であっても、テキストチャット欄に、自らの意見を書き込むことはできる。{}は入力されたチャットテキストである。
ユーザ@c{高額でも、メンテナンスを考えると、y社を選択すべきです}
【0008】
しかしながら、オンライン会議中であっても、全ての参加者がテキストチャット欄に常に注目しておらず、気付いてもらえないだけでなく、直ぐに話題が変わった場合には完全にタイミングを逸してしまうこととなる。
【0009】
これに対し、本願の発明者らは、オンライン会議中に発話できないユーザを補助することができないか、と考えた。特に、発話できない環境に居るユーザの意見を、できる限り適切なタイミングで、メンバ全員に周知することができないか、と考えた。
【0010】
そこで、本発明は、オンライン会議中に発話できないユーザを補助することができるプログラム、端末及び方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
してコンピュータを機能させ、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ようにコンピュータを機能させることを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
してコンピュータを機能させ
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ようにコンピュータを更に機能させることを特徴とする。
【0012】
本発明のプログラムにおける他の実施形態によれば、
オンライン会議サーバから受信した会議の発話音声データが、所定時間以上受信されていない会話間隙を検知する会話間隙検知手段を更に有し、
チャット音声データ送信手段は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバへ送信する
ようにコンピュータを機能させることも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
端末は、ユーザの発話音声データの収音を、ユーザの操作によってオン/オフするマイクを更に搭載しており、
マイクがオフになっている際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
当該端末に、移動検知センサを更に搭載しており、
移動検知センサによって移動中と判定された際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを更に機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する発言要請判定手段と
してコンピュータを更に機能させることも好ましい。
【0019】
本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
を有し、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
を有し、
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ことを特徴とする。
【0020】
本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第1のステップと、
チャットテキストを、チャット音声データに音声合成する第2のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第3のステップと
を実行し、
第1のステップについて、ユーザがチャットテキストの入力中に、所定タイミングとなった際に、
第3のステップについて、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
第2のステップについて、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第1のステップと、
チャットテキストを、チャット音声データに音声合成する第2のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第3のステップと、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する第4のステップと、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する第5のステップと、
第3のステップについてチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する第6のステップと
を実行し、
第6のステップについて、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する
ことを特徴とする。
【発明の効果】
【0021】
本発明のプログラム、端末及び方法によれば、オンライン会議中に発話できないユーザを補助することができる。
【図面の簡単な説明】
【0022】
【
図1】従来技術におけるオンライン会議システムの概要図である。
【
図2】
図1に対するオンライン会議システムの画面図である。
【
図3】本発明における端末の第1の機能構成図である。
【
図4】本発明におけるオンライン会議システムの画面図である。
【
図5】本発明における端末の第2の機能構成図である。
【
図6】本発明における端末の第3の機能構成図である。
【
図7】本発明におけるフィラー音声データの送信を表す説明図である。
【
図8】本発明における端末の第4の機能構成図である。
【
図9】本発明における発言要請の検出を表す説明図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0024】
図3は、本発明における端末の第1の機能構成図である。
図4は、本発明におけるオンライン会議システムの画面図である。
【0025】
図3によれば、端末1は、オンライン会議の参加メンバとなるユーザによって操作される。端末1には、オンライン会議システムのアプリケーションが予めインストールされている。端末1のアプリケーションは、オンライン会議のユーザインタフェースとして機能すると共に、オンライン会議サーバ2と通信し、会議の他のメンバとの間でリアルタイムに音声データを交換する。
【0026】
端末1は、ユーザインタフェースとして、タッチパネルディスプレイ101と、音声出力部(スピーカや音声出力端子)102と、マイク103とを有する。
タッチパネルディスプレイ101は、アプリケーションによって、オンライン会議の参加メンバの映像を表示すると共に、ユーザ自ら入力可能なチャットテキストの入力インタフェースも表示する(例えば
図4参照)。
音声出力部102は、アプリケーションによって、オンライン会議の参加メンバ同士で発話される音声データを、音声信号としてユーザに出力する。例えば
図1のように、ユーザが電車内で移動中であるような、発話することができない環境では、ユーザは、イヤフォンを用いて、オンライン会議のメンバ同士の議論を聞くことができる。勿論、ユーザが発話可能な環境に居る際には、スピーカからオンライン会議の音声を聞くこともできる。
マイク103は、端末1を操作するユーザ自ら発話した音声データを収音する。ここで、マイク103は、ユーザによってオン/オフに操作することができる。例えばユーザが発話することができない環境では、マイク103はオフにされる。
【0027】
図3によれば、端末1は、チャットテキスト入力部11と、音声合成部12と、チャット音声データ送信部13と、会話間隙検知部14と、チャットテキスト送信部15とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、端末の音声データ送信方法としても理解できる。
【0028】
[チャットテキスト入力部11]
チャットテキスト入力部11は、ユーザの操作によって、チャットテキストの入力を受け付ける。
図4によれば、右欄に、ユーザ自ら、チャットテキストを入力することができる。入力されたチャットテキストは、音声合成部12へ出力される。
【0029】
[音声合成部12]
音声合成部12は、チャットテキストを、チャット音声データに音声合成する。これは、例えばText to Speechと称される既存技術であって、テキストをリアルな音声に変換する。特に、声の品質を、人間が話しているような自然に聞こえる音声に変換する。このとき、ユーザ@aの声の特徴(男性/女性や高音/低音など)に近い合成音声を生成することが好ましい。音声合成されたチャット音声データは、チャット音声データ送信部13へ出力される。
【0030】
[チャット音声データ送信部13]
チャット音声データ送信部13は、所定タイミングで、チャット音声データを、オンライン会議サーバ2へ送信する。ここで、「所定タイミング」とは、従来技術として前述した特許文献1及び2のような技術を用いて、自ら発話する適切なタイミングを図ったものであってもよい。
【0031】
図4におけるオンライン会議の表示画面によれば、右欄にユーザ@aが入力したチャットテキストが表示されると共に、所定タイミングで、ユーザ@aに似せた合成音声が発話される。オンライン会議の中で発話された合成音声は、他のメンバからみて、ユーザ@aが発話したように聞き取ることができる。
【0032】
尚、
図3によれば、マイクがオフになっている際にのみ、音声合成部12及びチャット音声データ送信部13が機能することが好ましい。マイクがオフになっているということは、ユーザ@aは、オンライン会議に参加しているにも拘わらず、発話できないような環境に居ると判断することができる。
【0033】
[会話間隙検知部14]
会話間隙検知部14は、オンライン会議サーバ2から受信した会議の発話音声データが、所定時間以上受信されていない「会話間隙」を検知する。即ち、会議の中で、複数のメンバの議論が一瞬途絶えた時(切れ目)を検知する。その時、ユーザの発話に適したタイミングとする。そのタイミングを、所定タイミングとして、チャット音声データ送信部13へ通知する。
これによって、チャット音声データ送信部13は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバ2へ送信する。
【0034】
[チャットテキスト送信部15]
チャットテキスト送信部15は、チャットテキストを、オンライン会議サーバ2へ送信する。チャットテキスト送信部15は、マイクがオフのときのみ機能するものであってもよいし、マイクがオンでもオフでも通常どおり機能するものであってもよい。
【0035】
図3における他の実施形態として、ユーザが、チャットテキストの入力中に、所定タイミングとなる場合もある。そのような場合、チャット音声データ送信部13は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバ2へ送信するものであってもよい。チャットテキストの入力中か否かの判定は、文字入力インタフェースが起動しているか否かによって判断することもできる。例えばチャットテキストの入力画面がトップにある際に、文字入力インタフェースも起動している場合である。
【0036】
図4によれば、例えば以下のように、オンライン会議中に発話させることができる。「」は発話された音声データであり、{}は入力されたチャットテキストである。
ユーザ@c「x社の装置は、安いね」
ユーザ@b「でも、y社の管理機能は優れています」
ユーザ@a{高額でも、メンテナンスを考えると、}・・・
<会話間隙の検知>
ユーザ@a「高額でも、メンテナンスを考えると、」・・・
このように、例えば会話間隙時(所定タイミング)に、素早く、ユーザがチャットテキストで入力した意見を、会議で発話することができる。
【0037】
このとき、音声合成部12は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御することも好ましい。
ユーザ@a{高額でも、メンテナンスを考えると、}
<会話間隙の検知>
ユーザ@a「高額でも、メンテナンスを考えると、」
ユーザ@a{y社を選択}
ユーザ@a「y・・社・・を・・選・・択・・」※発話テンポが遅い
ユーザ@a{すべきです}
ユーザ@a「すべきです」
このように、例えば音声合成の発話テンポを遅くすることによって、ユーザのチャットテキストの遅さを、アシストすることができる。即ち、発話の間合いが延びても、ユーザがチャットテキストで入力中の意見を、できる限り会議で発話することができる。例えば、音声合成部12は、入力されたチャットテキストを一時的にバッファして、合成音声に変換するものであるが、このバッファの空き容量を検出するものであってもよい。バッファが空に近いほど、ユーザのチャットテキストの入力が遅れているために、発話テンポが遅くなるように音声合成を実行する。
【0038】
図5は、本発明における端末の第2の機能構成図である。
【0039】
図5によれば、
図3と比較して、端末1に、移動検知センサ104が更に搭載されている。移動検知センサ104は、加速度センサであってもよいし、GPS(Global Positioning System)のような測位センサであってもよい。これによって、ユーザが会議で発話することができない環境に居ると判定する。
音声合成部12及びチャット音声データ送信部13は、移動検知センサ104によって移動中と判定された際に機能する。
【0040】
図6は、本発明における端末の第3の機能構成図である。
【0041】
図6によれば、
図3と比較して、音声認識部16と、類似度算出部17と、フィラー音声データ送信部18とを更に有する。
【0042】
[音声認識部16]
音声認識部16は、オンライン会議サーバ2から受信した会議の発話音声データを、発話音声テキストに変換する。変換された発話音声テキストは、類似度算出部17へ出力される。
【0043】
[類似度算出部17]
類似度算出部17は、発話音声テキスト(会議の中で他のメンバが発話したテキスト)と、チャットテキスト(発話できない環境に居るユーザが入力したテキスト)との会話内容の一致度として、出現単語列の類似度を算出する。
これは、一般的な言語処理の技術であって、テキストを形態素解析によって複数の単語に分解した上で、それぞれのテキストをベクトル化する。そして、それらの間の類似度が所定閾値以上であるか否かを判定する。
【0044】
例えば各個性語をWord2vec(登録商標)によってベクトル化することができる。「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。また、Bag of Wordsを用いて、文に含まれる各単語の出現頻度のみをベクトルとして表現したものであってもよい。勿論、個性語同士の一致率ではなく、テキスト全体(個性語群)同士の類似度によって比較することが好ましい。
【0045】
Word2vecやBag of Wordsに限ることなく、各単語の品詞又は意味を解析した特徴ベクトルに変換することができればよい。尚、発話音声テキストについては、例えばTextTilingによって、話題のセグメンテーションをし、分割されたテキストをベクトル化するものであってもよい。
S(a,b)=cosθ=(Va・Vb)/(|Va||Vb|)
S(a,b):コサイン類似度
Va:会議の他のメンバによる発話音声テキスト
Vb:ユーザが入力したチャットテキスト
コサイン類似度S(a,b)は、0~1の値となり、類似性が高いほど1に近づく。
【0046】
[フィラー音声データ送信部18]
フィラー音声データ送信部18は、チャット音声データ送信部13がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する。
ここで、「フィラー(filler)」とは、「埋めるもの、詰めもの」という意味であって、言語の分野では、会話の合間に半ば無意識に挟み込まれる「えーと」「あー」「うーん」といった言葉や言い回しをいう。本発明におけるフィラーとしては、会議で自ら発言する前に、発話するような言葉となる。
【0047】
フィラー音声データ送信部18は、類似度が所定閾値以上となる(真)か否か(偽)の判定に応じて、以下のようにフィラーを使い分ける。
真:類似度が所定閾値以上であるということは、会議中の他のメンバの発話音声テキストと、ユーザが入力したチャットテキストとの話題が同じであることを意味する。その場合、現在の話題に沿った発言を希望するフィラーワードに基づく第1のフィラー音声データを送信する。例えば「発言してもよろしいでしょうか」「ちょっといいですか」・・・などがある。
偽:類似度が所定閾値以上でないということは、会議中の他のメンバの発話音声テキストよりも、ユーザが入力したチャットテキストとの話題が遅れていることを意味する。その場合、先の話題に戻った発言を希望するフィラーワードに基づく第2のフィラー音声データを送信する。例えば「先ほどの件で発言してもよろしいでしょうか」「戻ってしまうのですが」・・・などがある。
【0048】
勿論、フィラー音声データを送信しているにも拘わらず、ユーザのチャットテキストの入力が完了していない場合、ユーザのテキスト入力画面に、一旦、入力完了を促すことも好ましい。これによって、ユーザの意見をできる限り素早く、会議の中で発話させることができる。
【0049】
図7は、本発明におけるフィラー音声データの送信を表す説明図である。
【0050】
図7(a)によれば、例えば以下のように、フィラー音声データが送信される。「」は発話された音声データであり、{}は入力されたチャットテキストである。
ユーザ@c「高額でも、メンテナンスを考えると、」
ユーザ@b「y社の管理機能は優れています」
ユーザ@a{高額でも、メンテナンスを考えると、y社を選択すべきです}
※会議中の他のメンバの発話音声テキストと、ユーザ@aのチャットテキストとは、類似度が高い(所定閾値以上)と判定する。
ユーザ@a(フィラー音声データ)
「発言してもよろしいでしょうか」
ユーザ@a「高額でも、メンテナンスを考えると、y社を選択すべきです」
【0051】
図7(b)によれば、例えば以下のように、フィラー音声データが送信される。
ユーザ@c「高額でも、メンテナンスを考えると、」
ユーザ@b「y社の管理機能は優れています」
ユーザ@c「そう言えば、w社の件はどうなってる?」
ユーザ@b「w社には連絡済みです」
ユーザ@a{高額でも、メンテナンスを考えると、y社を選択すべきです}
※会議中の他のメンバの発話音声テキストと、ユーザ@aのチャットテキストとは、類似度が低い(所定閾値未満)と判定する。
ユーザ@a(フィラー音声データ)
「先ほどの件で発言してもよろしいでしょうか」
ユーザ@a「高額でも、メンテナンスを考えると、y社を選択すべきです」
【0052】
図8は、本発明における端末の第4の機能構成図である。
【0053】
図8によれば、
図3と比較して、音声認識部16と、発言要請判定部19とを更に有する。音声認識部16は、前述したものと同様のものである。
【0054】
[発言要請判定部19]
発言要請判定部19は、発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する。所定キーワードは、ユーザ毎に予め登録されたものであってもよい。
【0055】
図9は、本発明における発言要請の検出を表す説明図である。
【0056】
図9によれば、発言要請判定部19に、例えばユーザの名前[a]が登録されたものである。例えば、以下のように、発話音声テキストが検出されたとする。「」は発話された音声データであり、{}は入力されたチャットテキストである。
ユーザ@c「x社の装置は、安いね」
ユーザ@b「でも、y社の管理機能は優れています」
ユーザ@a{高額でも、メンテナンスを考えると、y社を選択すべきです}
ユーザ@c「a君はどう思う?」
このとき、発言要請判定部19は、[a]を検出し、会議でユーザ@aに発言要請があったと判定する。そして、発言要請判定部19は、チャット音声データ送信部13へ、チャット音声データを送信するように指示する。
そうすると、以下のような、合成音声のチャット音声データが、会議で発話される。
ユーザ@c「高額でも、メンテナンスを考えると、y社を選択すべきです」
【0057】
以上、詳細に説明したように、本発明のプログラム、端末及び方法によれば、オンライン会議中に発話できないユーザを補助することができる。特に、発話できない環境に居るユーザの意見を、できる限り適切なタイミングで、メンバ全員に周知することができる。
【0058】
尚、これにより、例えば「ユーザの滞在場所に関係無く、オンライン会議を提供することができる」ことから、国連が主導する持続可能な開発目標(SDGs)の目標8「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することが可能となる。
【0059】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0060】
1 端末
101 タッチパネルディスプレイ
102 音声出力部
103 マイク
104 移動検知センサ
11 チャットテキスト入力部
12 音声合成部
13 チャット音声データ送信部
14 会話間隙検知部
15 チャットテキスト送信部
16 音声認識部
17 類似度算出部
18 フィラー音声データ送信部
19 発言要請判定部
2 オンライン会議サーバ