特許7577700 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7577700オンライン会議中に発話できないユーザを補助するプログラム、端末及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-25

(45)【発行日】2024-11-05

(54)【発明の名称】オンライン会議中に発話できないユーザを補助するプログラム、端末及び方法

(51)【国際特許分類】

G06F 3/16 20060101AFI20241028BHJP

G10L 13/02 20130101ALI20241028BHJP

G10L 13/08 20130101ALI20241028BHJP

G10L 13/10 20130101ALI20241028BHJP

G10L 15/10 20060101ALI20241028BHJP

H04N 7/15 20060101ALI20241028BHJP

H04M 3/56 20060101ALI20241028BHJP

H04L 51/046 20220101ALI20241028BHJP

H04L 65/403 20220101ALI20241028BHJP

G06F 3/01 20060101ALI20241028BHJP

【ＦＩ】

G06F3/16 620

G10L13/02 130C

G10L13/08 122

G10L13/10 111Z

G10L15/10 200W

H04N7/15

H04M3/56 B

G06F3/16 650

G06F3/16 690

H04L51/046

H04L65/403

G06F3/01 510

【請求項の数】 10

(21)【出願番号】P 2022014504

(22)【出願日】2022-02-01

(65)【公開番号】P2023112602

(43)【公開日】2023-08-14

【審査請求日】2024-01-17

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100135068

【弁理士】

【氏名又は名称】早原茂樹

(72)【発明者】

【氏名】池田和史

(72)【発明者】

【氏名】服部元

(72)【発明者】

【氏名】西澤信行

(72)【発明者】

【氏名】田島優輝

【審査官】槙俊秋

(56)【参考文献】

【文献】特開２０００－０２３１３２（ＪＰ，Ａ）

【文献】特開２００４－３３６２９２（ＪＰ，Ａ）

【文献】特開２０１５－２３１０８３（ＪＰ，Ａ）

【文献】特開２０１７－０５４１９３（ＪＰ，Ａ）

【文献】特開２０１９－１１０４５１（ＪＰ，Ａ）

【文献】特開２０２１－０８１８３８（ＪＰ，Ａ）

【文献】特開２０２０－１１３２１７（ＪＰ，Ａ）

【文献】国際公開第２０１７／２０００７２（ＷＯ，Ａ１）

【文献】特開２００７－２４３３９２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１１／００９３２７２（ＵＳ，Ａ１）

【文献】中国特許出願公開第１０１５１５４５５（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／００－３／１８

Ｇ１０Ｌ１３／００－９９／００

Ｈ０４Ｎ７／００－２１／８５８

Ｈ０４Ｍ３／００－１１／１０

Ｈ０４Ｌ５１／００－６７／７５

(57)【特許請求の範囲】

【請求項1】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
してコンピュータを機能させ、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ようにコンピュータを機能させることを特徴とするプログラム。

【請求項2】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
してコンピュータを機能させ
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ようにコンピュータを更に機能させることを特徴とするプログラム。

【請求項3】

オンライン会議サーバから受信した会議の発話音声データが、所定時間以上受信されていない会話間隙を検知する会話間隙検知手段を更に有し、
チャット音声データ送信手段は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバへ送信する
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。

【請求項4】

端末は、ユーザの発話音声データの収音を、ユーザの操作によってオン／オフするマイクを更に搭載しており、
マイクがオフになっている際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。

【請求項5】

当該端末に、移動検知センサを更に搭載しており、
移動検知センサによって移動中と判定された際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを更に機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。

【請求項6】

オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する発言要請判定手段と
してコンピュータを更に機能させることを特徴とする請求項１から５のいずれか１項に記載のプログラム。

【請求項7】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
を有し、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする端末。

【請求項8】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
を有し、
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ことを特徴とする端末。

【請求項9】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第１のステップと、
チャットテキストを、チャット音声データに音声合成する第２のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第３のステップと
を実行し、
第１のステップについて、ユーザがチャットテキストの入力中に、所定タイミングとなった際に、
第３のステップについて、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
第２のステップについて、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする端末のチャット音声データ送信方法。

【請求項10】

オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第１のステップと、
チャットテキストを、チャット音声データに音声合成する第２のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第３のステップと、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する第４のステップと、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する第５のステップと、
第３のステップについてチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する第６のステップと
を実行し、
第６のステップについて、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ことを特徴とする端末のチャット音声データ送信方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数のユーザが、端末を用いて参加するオンライン会議システムの技術に関する。

【背景技術】

【0002】

スマートフォンやパーソナルコンピュータのような端末を用いて、複数のユーザが同時に会議可能なオンライン会議システムが、広く普及している。端末のディスプレイには、複数のユーザの映像が表示され、端末のスピーカから会議の音声が出力され、端末のマイクからユーザの発話音声が収音される。また、オンライン会議システムには、一般的に、テキストチャットを投稿可能な機能もある。

【0003】

従来、人と対話する対話システムが自ら発話する際に、円滑なコミュニケーションを図るための技術がある。
例えば、対話システムが、ユーザの発話内容の音響的特徴及び言語的特徴を分析し、発話の終了状態と、発話権限の有無とを判断する技術がある（例えば特許文献１参照）。この技術によれば、対話システムは、ユーザに対して発話する適切なタイミングを検知することができる。
また、対話システムが、自ら発話をする際に呼吸音を発し、自ら発話しようするタイミングを周辺にほのめかすように、発話意思を表現する技術もある（例えば特許文献２参照）。

【先行技術文献】

【非特許文献】

【0004】

【文献】特開２０２１－０５１１７２号公報

【文献】特許６７１２３０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

オンライン会議システムの場合、会議に参加しているメンバは、自由に発話して議論し合うことができる。但し、メンバの一部には、発話できない環境に居る場合もある。そのメンバは、通常、他のメンバが発話する議論を聞くだけとなってしまう。自らの意見を周知するためには、例えばテキストチャットに投稿しなければならない。

【0006】

図１は、従来技術におけるオンライン会議システムの概要図である。
図１によれば、オンライン会議の際に、ユーザ@b及び@cは、発話可能な環境に居るが、ユーザ@aは、発話できない環境に居る場合を想定している。ユーザ@aは、例えば電車で移動中であるかもしれない。そのような環境に居るユーザ@aは、オンライン会議の議論を聞くことはできても、自ら発話することは難しい。

【0007】

図２は、図１に対するオンライン会議システムの画面図である。
図２によれば、以下のように、オンライン会議中に発話が交換されている。「」は発話された音声データである。
ユーザ@c「ｘ社の装置は、安いね」
ユーザ@b「でも、ｙ社の管理機能は優れています」
ユーザ@a「・・・・・」
このとき、ユーザ@aは、オンライン会議中であっても、テキストチャット欄に、自らの意見を書き込むことはできる。｛｝は入力されたチャットテキストである。
ユーザ@c｛高額でも、メンテナンスを考えると、ｙ社を選択すべきです｝

【0008】

しかしながら、オンライン会議中であっても、全ての参加者がテキストチャット欄に常に注目しておらず、気付いてもらえないだけでなく、直ぐに話題が変わった場合には完全にタイミングを逸してしまうこととなる。

【0009】

これに対し、本願の発明者らは、オンライン会議中に発話できないユーザを補助することができないか、と考えた。特に、発話できない環境に居るユーザの意見を、できる限り適切なタイミングで、メンバ全員に周知することができないか、と考えた。

【0010】

そこで、本発明は、オンライン会議中に発話できないユーザを補助することができるプログラム、端末及び方法を提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
してコンピュータを機能させ、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ようにコンピュータを機能させることを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末に搭載されたコンピュータを機能させるプログラムであって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
してコンピュータを機能させ
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ようにコンピュータを更に機能させることを特徴とする。

【0012】

本発明のプログラムにおける他の実施形態によれば、
オンライン会議サーバから受信した会議の発話音声データが、所定時間以上受信されていない会話間隙を検知する会話間隙検知手段を更に有し、
チャット音声データ送信手段は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバへ送信する
ようにコンピュータを機能させることも好ましい。

【0013】

本発明のプログラムにおける他の実施形態によれば、
端末は、ユーザの発話音声データの収音を、ユーザの操作によってオン／オフするマイクを更に搭載しており、
マイクがオフになっている際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを機能させることも好ましい。

【0014】

本発明のプログラムにおける他の実施形態によれば、
当該端末に、移動検知センサを更に搭載しており、
移動検知センサによって移動中と判定された際に、音声合成手段及びチャット音声データ送信手段が機能する
ようにコンピュータを更に機能させることも好ましい。

【0017】

本発明のプログラムにおける他の実施形態によれば、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する発言要請判定手段と
してコンピュータを更に機能させることも好ましい。

【0019】

本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と
を有し、
チャットテキスト入力手段に対してユーザがチャットテキストの入力中に、所定タイミングとなった際に、
チャット音声データ送信手段は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
音声合成手段は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末であって、
ユーザの操作によって、チャットテキストの入力を受け付けるチャットテキスト入力手段と、
チャットテキストを、チャット音声データに音声合成する音声合成手段と、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信するチャット音声データ送信手段と、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する音声認識手段と、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する類似度算出手段と、
チャット音声データ送信手段がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信するフィラー音声データ送信手段と
を有し、
フィラー音声データ送信手段は、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ことを特徴とする。

【0020】

本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第１のステップと、
チャットテキストを、チャット音声データに音声合成する第２のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第３のステップと
を実行し、
第１のステップについて、ユーザがチャットテキストの入力中に、所定タイミングとなった際に、
第３のステップについて、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバへ送信すると共に、
第２のステップについて、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御する
ことを特徴とする。
また、本発明によれば、オンライン会議サーバを介して、リアルタイムに音声データを交換する端末のチャット音声データ送信方法であって、
端末は、
ユーザの操作によって、チャットテキストの入力を受け付ける第１のステップと、
チャットテキストを、チャット音声データに音声合成する第２のステップと、
所定タイミングで、チャット音声データを、オンライン会議サーバへ送信する第３のステップと、
オンライン会議サーバから受信した会議の発話音声データを、発話音声テキストに変換する第４のステップと、
発話音声テキストとチャットテキストとの会話内容の一致度として、出現単語列の類似度を算出する第５のステップと、
第３のステップについてチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する第６のステップと
を実行し、
第６のステップについて、
類似度が所定閾値以上となる真と判定した際に、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信し、
偽と判定した際に、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する
ことを特徴とする。

【発明の効果】

【0021】

本発明のプログラム、端末及び方法によれば、オンライン会議中に発話できないユーザを補助することができる。

【図面の簡単な説明】

【0022】

【図1】従来技術におけるオンライン会議システムの概要図である。

【図2】図１に対するオンライン会議システムの画面図である。

【図3】本発明における端末の第１の機能構成図である。

【図4】本発明におけるオンライン会議システムの画面図である。

【図5】本発明における端末の第２の機能構成図である。

【図6】本発明における端末の第３の機能構成図である。

【図7】本発明におけるフィラー音声データの送信を表す説明図である。

【図8】本発明における端末の第４の機能構成図である。

【図9】本発明における発言要請の検出を表す説明図である。

【発明を実施するための形態】

【0023】

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

【0024】

図３は、本発明における端末の第１の機能構成図である。
図４は、本発明におけるオンライン会議システムの画面図である。

【0025】

図３によれば、端末１は、オンライン会議の参加メンバとなるユーザによって操作される。端末１には、オンライン会議システムのアプリケーションが予めインストールされている。端末１のアプリケーションは、オンライン会議のユーザインタフェースとして機能すると共に、オンライン会議サーバ２と通信し、会議の他のメンバとの間でリアルタイムに音声データを交換する。

【0026】

端末１は、ユーザインタフェースとして、タッチパネルディスプレイ１０１と、音声出力部（スピーカや音声出力端子）１０２と、マイク１０３とを有する。
タッチパネルディスプレイ１０１は、アプリケーションによって、オンライン会議の参加メンバの映像を表示すると共に、ユーザ自ら入力可能なチャットテキストの入力インタフェースも表示する（例えば図４参照）。
音声出力部１０２は、アプリケーションによって、オンライン会議の参加メンバ同士で発話される音声データを、音声信号としてユーザに出力する。例えば図１のように、ユーザが電車内で移動中であるような、発話することができない環境では、ユーザは、イヤフォンを用いて、オンライン会議のメンバ同士の議論を聞くことができる。勿論、ユーザが発話可能な環境に居る際には、スピーカからオンライン会議の音声を聞くこともできる。
マイク１０３は、端末１を操作するユーザ自ら発話した音声データを収音する。ここで、マイク１０３は、ユーザによってオン／オフに操作することができる。例えばユーザが発話することができない環境では、マイク１０３はオフにされる。

【0027】

図３によれば、端末１は、チャットテキスト入力部１１と、音声合成部１２と、チャット音声データ送信部１３と、会話間隙検知部１４と、チャットテキスト送信部１５とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、端末の音声データ送信方法としても理解できる。

【0028】

［チャットテキスト入力部１１］
チャットテキスト入力部１１は、ユーザの操作によって、チャットテキストの入力を受け付ける。図４によれば、右欄に、ユーザ自ら、チャットテキストを入力することができる。入力されたチャットテキストは、音声合成部１２へ出力される。

【0029】

［音声合成部１２］
音声合成部１２は、チャットテキストを、チャット音声データに音声合成する。これは、例えばText to Speechと称される既存技術であって、テキストをリアルな音声に変換する。特に、声の品質を、人間が話しているような自然に聞こえる音声に変換する。このとき、ユーザ@aの声の特徴（男性／女性や高音／低音など）に近い合成音声を生成することが好ましい。音声合成されたチャット音声データは、チャット音声データ送信部１３へ出力される。

【0030】

［チャット音声データ送信部１３］
チャット音声データ送信部１３は、所定タイミングで、チャット音声データを、オンライン会議サーバ２へ送信する。ここで、「所定タイミング」とは、従来技術として前述した特許文献１及び２のような技術を用いて、自ら発話する適切なタイミングを図ったものであってもよい。

【0031】

図４におけるオンライン会議の表示画面によれば、右欄にユーザ@aが入力したチャットテキストが表示されると共に、所定タイミングで、ユーザ@aに似せた合成音声が発話される。オンライン会議の中で発話された合成音声は、他のメンバからみて、ユーザ@aが発話したように聞き取ることができる。

【0032】

尚、図３によれば、マイクがオフになっている際にのみ、音声合成部１２及びチャット音声データ送信部１３が機能することが好ましい。マイクがオフになっているということは、ユーザ@aは、オンライン会議に参加しているにも拘わらず、発話できないような環境に居ると判断することができる。

【0033】

［会話間隙検知部１４］
会話間隙検知部１４は、オンライン会議サーバ２から受信した会議の発話音声データが、所定時間以上受信されていない「会話間隙」を検知する。即ち、会議の中で、複数のメンバの議論が一瞬途絶えた時（切れ目）を検知する。その時、ユーザの発話に適したタイミングとする。そのタイミングを、所定タイミングとして、チャット音声データ送信部１３へ通知する。
これによって、チャット音声データ送信部１３は、所定タイミングとして会話間隙が検知された際に、チャット音声データを、オンライン会議サーバ２へ送信する。

【0034】

［チャットテキスト送信部１５］
チャットテキスト送信部１５は、チャットテキストを、オンライン会議サーバ２へ送信する。チャットテキスト送信部１５は、マイクがオフのときのみ機能するものであってもよいし、マイクがオンでもオフでも通常どおり機能するものであってもよい。

【0035】

図３における他の実施形態として、ユーザが、チャットテキストの入力中に、所定タイミングとなる場合もある。そのような場合、チャット音声データ送信部１３は、既に入力されたチャットテキストのみについて音声合成されたチャット音声データを、オンライン会議サーバ２へ送信するものであってもよい。チャットテキストの入力中か否かの判定は、文字入力インタフェースが起動しているか否かによって判断することもできる。例えばチャットテキストの入力画面がトップにある際に、文字入力インタフェースも起動している場合である。

【0036】

図４によれば、例えば以下のように、オンライン会議中に発話させることができる。「」は発話された音声データであり、｛｝は入力されたチャットテキストである。
ユーザ@c「ｘ社の装置は、安いね」
ユーザ@b「でも、ｙ社の管理機能は優れています」
ユーザ@a｛高額でも、メンテナンスを考えると、｝・・・
＜会話間隙の検知＞
ユーザ@a「高額でも、メンテナンスを考えると、」・・・
このように、例えば会話間隙時（所定タイミング）に、素早く、ユーザがチャットテキストで入力した意見を、会議で発話することができる。

【0037】

このとき、音声合成部１２は、後に続いて入力されるであろうテキストチャットを考慮して、音声合成の発話テンポが遅くなるように制御することも好ましい。
ユーザ@a｛高額でも、メンテナンスを考えると、｝
＜会話間隙の検知＞
ユーザ@a「高額でも、メンテナンスを考えると、」
ユーザ@a｛ｙ社を選択｝
ユーザ@a「ｙ・・社・・を・・選・・択・・」※発話テンポが遅い
ユーザ@a｛すべきです｝
ユーザ@a「すべきです」
このように、例えば音声合成の発話テンポを遅くすることによって、ユーザのチャットテキストの遅さを、アシストすることができる。即ち、発話の間合いが延びても、ユーザがチャットテキストで入力中の意見を、できる限り会議で発話することができる。例えば、音声合成部１２は、入力されたチャットテキストを一時的にバッファして、合成音声に変換するものであるが、このバッファの空き容量を検出するものであってもよい。バッファが空に近いほど、ユーザのチャットテキストの入力が遅れているために、発話テンポが遅くなるように音声合成を実行する。

【0038】

図５は、本発明における端末の第２の機能構成図である。

【0039】

図５によれば、図３と比較して、端末１に、移動検知センサ１０４が更に搭載されている。移動検知センサ１０４は、加速度センサであってもよいし、ＧＰＳ(Global Positioning System)のような測位センサであってもよい。これによって、ユーザが会議で発話することができない環境に居ると判定する。
音声合成部１２及びチャット音声データ送信部１３は、移動検知センサ１０４によって移動中と判定された際に機能する。

【0040】

図６は、本発明における端末の第３の機能構成図である。

【0041】

図６によれば、図３と比較して、音声認識部１６と、類似度算出部１７と、フィラー音声データ送信部１８とを更に有する。

【0042】

［音声認識部１６］
音声認識部１６は、オンライン会議サーバ２から受信した会議の発話音声データを、発話音声テキストに変換する。変換された発話音声テキストは、類似度算出部１７へ出力される。

【0043】

［類似度算出部１７］
類似度算出部１７は、発話音声テキスト（会議の中で他のメンバが発話したテキスト）と、チャットテキスト（発話できない環境に居るユーザが入力したテキスト）との会話内容の一致度として、出現単語列の類似度を算出する。
これは、一般的な言語処理の技術であって、テキストを形態素解析によって複数の単語に分解した上で、それぞれのテキストをベクトル化する。そして、それらの間の類似度が所定閾値以上であるか否かを判定する。

【0044】

例えば各個性語をWord2vec（登録商標）によってベクトル化することができる。「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮する技術をいう。また、Bag of Wordsを用いて、文に含まれる各単語の出現頻度のみをベクトルとして表現したものであってもよい。勿論、個性語同士の一致率ではなく、テキスト全体（個性語群）同士の類似度によって比較することが好ましい。

【0045】

Word2vecやBag of Wordsに限ることなく、各単語の品詞又は意味を解析した特徴ベクトルに変換することができればよい。尚、発話音声テキストについては、例えばTextTilingによって、話題のセグメンテーションをし、分割されたテキストをベクトル化するものであってもよい。
Ｓ(a,b)＝cosθ＝（Ｖa・Ｖb）／(|Ｖa||Ｖb|)
Ｓ(a,b)：コサイン類似度
Va：会議の他のメンバによる発話音声テキスト
Vb：ユーザが入力したチャットテキスト
コサイン類似度Ｓ(a,b)は、０～１の値となり、類似性が高いほど１に近づく。

【0046】

［フィラー音声データ送信部１８］
フィラー音声データ送信部１８は、チャット音声データ送信部１３がチャット音声データを送信する前に、類似度に応じて異なるフィラー音声データを送信する。
ここで、「フィラー(filler)」とは、「埋めるもの、詰めもの」という意味であって、言語の分野では、会話の合間に半ば無意識に挟み込まれる「えーと」「あー」「うーん」といった言葉や言い回しをいう。本発明におけるフィラーとしては、会議で自ら発言する前に、発話するような言葉となる。

【0047】

フィラー音声データ送信部１８は、類似度が所定閾値以上となる（真）か否か（偽）の判定に応じて、以下のようにフィラーを使い分ける。
真：類似度が所定閾値以上であるということは、会議中の他のメンバの発話音声テキストと、ユーザが入力したチャットテキストとの話題が同じであることを意味する。その場合、現在の話題に沿った発言を希望するフィラーワードに基づく第１のフィラー音声データを送信する。例えば「発言してもよろしいでしょうか」「ちょっといいですか」・・・などがある。
偽：類似度が所定閾値以上でないということは、会議中の他のメンバの発話音声テキストよりも、ユーザが入力したチャットテキストとの話題が遅れていることを意味する。その場合、先の話題に戻った発言を希望するフィラーワードに基づく第２のフィラー音声データを送信する。例えば「先ほどの件で発言してもよろしいでしょうか」「戻ってしまうのですが」・・・などがある。

【0048】

勿論、フィラー音声データを送信しているにも拘わらず、ユーザのチャットテキストの入力が完了していない場合、ユーザのテキスト入力画面に、一旦、入力完了を促すことも好ましい。これによって、ユーザの意見をできる限り素早く、会議の中で発話させることができる。

【0049】

図７は、本発明におけるフィラー音声データの送信を表す説明図である。

【0050】

図７（ａ）によれば、例えば以下のように、フィラー音声データが送信される。「」は発話された音声データであり、｛｝は入力されたチャットテキストである。
ユーザ@c「高額でも、メンテナンスを考えると、」
ユーザ@b「ｙ社の管理機能は優れています」
ユーザ@a｛高額でも、メンテナンスを考えると、ｙ社を選択すべきです｝
※会議中の他のメンバの発話音声テキストと、ユーザ@aのチャットテキストとは、類似度が高い（所定閾値以上）と判定する。
ユーザ@a（フィラー音声データ）
「発言してもよろしいでしょうか」
ユーザ@a「高額でも、メンテナンスを考えると、ｙ社を選択すべきです」

【0051】

図７（ｂ）によれば、例えば以下のように、フィラー音声データが送信される。
ユーザ@c「高額でも、メンテナンスを考えると、」
ユーザ@b「ｙ社の管理機能は優れています」
ユーザ@c「そう言えば、ｗ社の件はどうなってる？」
ユーザ@b「ｗ社には連絡済みです」
ユーザ@a｛高額でも、メンテナンスを考えると、ｙ社を選択すべきです｝
※会議中の他のメンバの発話音声テキストと、ユーザ@aのチャットテキストとは、類似度が低い（所定閾値未満）と判定する。
ユーザ@a（フィラー音声データ）
「先ほどの件で発言してもよろしいでしょうか」
ユーザ@a「高額でも、メンテナンスを考えると、ｙ社を選択すべきです」

【0052】

図８は、本発明における端末の第４の機能構成図である。

【0053】

図８によれば、図３と比較して、音声認識部１６と、発言要請判定部１９とを更に有する。音声認識部１６は、前述したものと同様のものである。

【0054】

［発言要請判定部１９］
発言要請判定部１９は、発話音声テキストに、当該端末のユーザに対する発言を求める所定キーワードが含まれているか否かを判定する。所定キーワードは、ユーザ毎に予め登録されたものであってもよい。

【0055】

図９は、本発明における発言要請の検出を表す説明図である。

【0056】

図９によれば、発言要請判定部１９に、例えばユーザの名前[a]が登録されたものである。例えば、以下のように、発話音声テキストが検出されたとする。「」は発話された音声データであり、｛｝は入力されたチャットテキストである。
ユーザ@c「ｘ社の装置は、安いね」
ユーザ@b「でも、ｙ社の管理機能は優れています」
ユーザ@a｛高額でも、メンテナンスを考えると、ｙ社を選択すべきです｝
ユーザ@c「a君はどう思う？」
このとき、発言要請判定部１９は、[a]を検出し、会議でユーザ@aに発言要請があったと判定する。そして、発言要請判定部１９は、チャット音声データ送信部１３へ、チャット音声データを送信するように指示する。
そうすると、以下のような、合成音声のチャット音声データが、会議で発話される。
ユーザ@c「高額でも、メンテナンスを考えると、y社を選択すべきです」

【0057】

以上、詳細に説明したように、本発明のプログラム、端末及び方法によれば、オンライン会議中に発話できないユーザを補助することができる。特に、発話できない環境に居るユーザの意見を、できる限り適切なタイミングで、メンバ全員に周知することができる。

【0058】

尚、これにより、例えば「ユーザの滞在場所に関係無く、オンライン会議を提供することができる」ことから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標８「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することが可能となる。

【0059】

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

【符号の説明】

【0060】

１端末
１０１タッチパネルディスプレイ
１０２音声出力部
１０３マイク
１０４移動検知センサ
１１チャットテキスト入力部
１２音声合成部
１３チャット音声データ送信部
１４会話間隙検知部
１５チャットテキスト送信部
１６音声認識部
１７類似度算出部
１８フィラー音声データ送信部
１９発言要請判定部
２オンライン会議サーバ

【図1】