(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-02
(45)【発行日】2024-12-10
(54)【発明の名称】情報処理システム、音声操作システム、プログラム、音声操作方法
(51)【国際特許分類】
G06F 21/62 20130101AFI20241203BHJP
H04M 3/56 20060101ALI20241203BHJP
G06F 21/31 20130101ALI20241203BHJP
【FI】
G06F21/62
H04M3/56 C
G06F21/31
(21)【出願番号】P 2021086720
(22)【出願日】2021-05-24
【審査請求日】2024-02-27
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】皆川 文彦
【審査官】行田 悦資
(56)【参考文献】
【文献】特開2005-055667(JP,A)
【文献】特開2019-101730(JP,A)
【文献】特開2013-029993(JP,A)
【文献】特開2021-048482(JP,A)
【文献】特開2014-187467(JP,A)
【文献】特開2019-036837(JP,A)
【文献】特開2017-102516(JP,A)
【文献】特開2015-103131(JP,A)
【文献】国際公開第2015/174526(WO,A1)
【文献】米国特許出願公開第2017/0133013(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
H04M 3/56
G06F 21/31
(57)【特許請求の範囲】
【請求項1】
端末装置から送信された音声データに基づいて会議で使用される機器を操作する情報処理システムであって、
前記端末装置から、前記端末装置が保持するユーザーの識別情報と音声データとを受信する通信部と、
前記音声データを前記機器の操作に関するコマンドに変換するコマンド変換部と、
会議の参加者に関する情報に、前記ユーザーの識別情報が含まれるか否かを判断する判断部と、を有し、
前記判断部は、前記会議の参加者に関する情報に前記ユーザーの識別情報が含まれると判断した場合、更に、前記会議の参加者に関する情報に、前記ユーザーが会議室に入室済みであることが登録されているか否かを判断し、
前記ユーザーが会議室に入室済みである場合、前記通信部は前記コマンドを前記機器に送信する情報処理システム。
【請求項2】
前記判断部は、会議の参加者に関する情報に前記ユーザーの識別情報が含まれると判断した場合、更に、前記会議
の参加者に関する情報に、前記ユーザーに音声操作権限がある旨が登録されているか否かを判断し、
前記ユーザーに
前記音声操作権限が設定されており、かつ、前記ユーザーが会議室に入室済みである場合、前記通信部は前記コマンドを前記機器に送信する請求項
1に記載の情報処理システム。
【請求項3】
前記機器の操作に関するコマンドには、前記ユーザーが会議室に入室する前に実行可能か否かが設定されており、
前記コマンド変換部が変換したコマンドが、前記ユーザーが会議室に入室する前に実行可能である場合、
前記ユーザーが会議室に入室済みでなくても、前記通信部が前記コマンドを前記機器に送信する請求項
1又は2に記載の情報処理システム。
【請求項4】
前記通信部は、会議室の入り口に設けられた入力装置、又は会議で使用される前記機器から前記ユーザーが会議室に入室した旨の入室情報を受信し、
前記会議の参加者に関する情報に前記ユーザーが会議室に入室した旨を登録するスケジュール管理部を有する請求項1~
3のいずれか1項に記載の情報処理システム。
【請求項5】
端末装置から送信された音声データに基づいて会議で使用される機器を操作する情報処理システムと、前記機器とを有する音声操作システムであって、
前記情報処理システムは、
前記端末装置から、前記端末装置が保持するユーザーの識別情報と音声データとを受信する通信部と、
前記音声データを前記機器の操作に関するコマンドに変換するコマンド変換部と、
会議の参加者に関する情報に、前記ユーザーの識別情報が含まれるか否かを判断する判断部と、を有し、
前記判断部は、前記会議の参加者に関する情報に前記ユーザーの識別情報が含まれると判断した場合、更に、前記会議の参加者に関する情報に、前記ユーザーが会議室に入室済みであることが登録されているか否かを判断し、
前記ユーザーが会議室に入室済みである場合、前記通信部は前記コマンドを前記機器に送信し、
前記機器は、
前記情報処理システムから送信されたコマンドを実行するコマンド実行部を有する、音声操作システム。
【請求項6】
端末装置から送信された音声データに基づいて会議で使用される機器を操作する情報処理システムを、
前記端末装置から、前記端末装置が保持するユーザーの識別情報と音声データとを受信する通信部と、
前記音声データを前記機器の操作に関するコマンドに変換するコマンド変換部
と、
会議の参加者に関する情報に、前記ユーザーの識別情報が含まれるか否かを判断する判断部、として機能させ、
前記判断部は、前記会議の参加者に関する情報に前記ユーザーの識別情報が含まれると判断した場合、更に、前記会議の参加者に関する情報に、前記ユーザーが会議室に入室済みであることが登録されているか否かを判断し、
前記ユーザーが会議室に入室済みである場合、前記通信部は前記コマンドを前記機器に送信するプログラム。
【請求項7】
端末装置から送信された音声データに基づいて会議で使用される機器を操作する情報処理システムが行う音声操作方法であって、
前記端末装置から、前記端末装置が保持するユーザーの識別情報と音声データとを受信するステップと、
前記音声データを前記機器の操作に関するコマンドに変換するステップと、
会議の参加者に関する情報に、前記ユーザーの識別情報が含まれるか否かを判断するステップと、
前記会議の参加者に関する情報に前記ユーザーの識別情報が含まれる場合、更に、前記会議の参加者に関する情報に、前記ユーザーが会議室に入室済みであることが登録されているか否かを判断するステップと、
前記ユーザーが会議室に入室済みである場合、前記コマンドを前記機器に送信するステップと、
を有する音声操作方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、音声操作システム、プログラム、及び、音声操作方法に関する。
【背景技術】
【0002】
手書きデータや手書きデータから変換された文字列等をディスプレイに表示する表示装置が知られている。比較的大型のタッチパネルを備えた表示装置は会議室や公共施設などに配置され、複数のユーザーにより電子黒板などとして利用される。
【0003】
音声認識されたテキストデータにより機器の操作を受け付ける技術が知られている(例えば、特許文献1参照。)。特許文献1には、ユーザー識別情報と共に音声で入力されたユーザー要求に対しデバイスが応答するか否かを判断する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、会議の参加者でない者によって会議に使用され得る機器を操作できるという問題があった。すなわち、会議室に誰もいない場合など、任意のユーザーが会議室に入ることができるが、例えばこのユーザーに閲覧権限がない会議の資料を表示させることも可能になる。
【0005】
本発明は、上記課題に鑑み、会議の参加者でない者が会議に使用され得る機器を操作することを抑制できる情報処理システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題に鑑み、本発明は、端末装置から送信された音声データに基づいて会議で使用される機器を操作する情報処理システムであって、前記端末装置から、前記端末装置が保持するユーザーの識別情報と音声データとを受信する通信部と、前記音声データを前記機器の操作に関するコマンドに変換するコマンド変換部と、会議の参加者に関する情報に、前記ユーザーの識別情報が含まれるか否かを判断する判断部と、を有し、前記判断部は、前記会議の参加者に関する情報に前記ユーザーの識別情報が含まれると判断した場合、更に、前記会議の参加者に関する情報に、前記ユーザーが会議室に入室済みであることが登録されているか否かを判断し、前記ユーザーが会議室に入室済みである場合、前記通信部は前記コマンドを前記機器に送信する。
【発明の効果】
【0007】
会議の参加者でない者が会議に使用され得る機器を操作することを抑制できる情報処理システムを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】音声操作システムのシステム構成図の一例である。
【
図2】ユーザーが表示装置にICカードをかざす動作を説明する図である。
【
図3】表示装置のハードウェア構成の一例を示す図である。
【
図4】情報処理システムのハードウェア構成の一例を示す図である。
【
図5】ICカードのハードウェア構成の一例を示す図である。
【
図6】端末装置のハードウェア構成の一例を示す図である。
【
図7】端末装置、情報処理システム、及び、表示装置が有する機能をブロック状に分けて説明する機能ブロック図の一例である。
【
図8】コマンド情報記憶部に記憶されているコマンド情報の一例を示す図である。
【
図9】スケジュール情報記憶部に記憶されているスケジュール情報の一例を示す図である。
【
図10】音声操作システムの動作を説明するシーケンス図の一例である。
【
図11】端末装置から情報処理システムに送信される情報を説明する図である。
【
図12】判断部による音声操作を許可するか否かの判断方法の詳細を説明する図である。
【
図13】コマンドの実行による資料の表示例を示す図である。
【
図14】スケジュール情報に登録されているスケジュール情報(会議情報)の一例を示す図である(実施例2)。
【
図15】判断部による音声操作を許可するか否かの判断方法の詳細を説明する図である(実施例2)。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態の一例として音声操作システムと、音声操作システムが行う音声操作方法について図面を参照しながら説明する。
【実施例1】
【0010】
<機器の制御の概略>
まず、
図1を参照して、音声認識されたテキストデータによる表示装置200の操作の概略を説明する。
図1は、音声操作システム1のシステム構成図の一例である。なお、音声操作システム1の詳細については後述する。
【0011】
(i) 会議に参加するユーザーAが会議室7に入室する。例えば、ユーザーAはICカードを表示装置200に読み取らせる。表示装置200は、このユーザーAの入室情報(ユーザーIDと入室した旨)をスケジュール管理装置6に送信する。なお、会議室7は会議に専用の部屋でなくてもよく、会議の参加者が存在するスペースであればよい。例えば、表示装置200があるスペースが会議室7となり得る。スケジュール管理装置6は、会議情報に該ユーザーAが入室した旨を登録する。
【0012】
(ii) ユーザーAはそれぞれスマートフォン等の端末装置4を所有しており、端末装置4でアプリケーション(以下、単にアプリという)が動作する。このアプリは、音声操作システム1に専用のアプリであり、ユーザーAの音声データを音声解析装置5に送信する。アプリにはユーザーAのアカウント情報が登録されている。ユーザーAが端末装置4に対し発話すると、端末装置4がこのユーザーAのアカウント情報(ユーザーID)と音声データを音声解析装置5に送信する。
【0013】
(iii) 音声解析装置5は、会議のスケジュールを管理するスケジュール管理装置6から会議情報(会議の時間、参加者のアカウント情報、会議室ID等)を取得して、発話したユーザーAがその会議の参加者であり、かつ、実際に会議室7に入室しているかどうかを判断する。会議室7への入室とは、
図1の説明では表示装置200にICカードを読み取らせることである。ただし、会議室7の入り口にICカードリーダー8等があり、ICカードリーダー8により入室が許可される場合、入り口のICカードリーダー8でICカードが読み取られたか否かに応じて、会議室7へ入室したか否かが判断されてよい。
【0014】
あるいは、端末装置4が室内GPSやビーコン装置から検出した位置情報などを音声データと共に音声解析装置5に送信してもよい。音声解析装置5は各会議室7の位置と会議室IDが対応付けられている情報に基づいて、会議室7を特定し、この会議室7で開催される会議に発話したユーザーAが参加者として登録されているかどうかを判断する。
【0015】
(iv) 発話したユーザーAがその会議の参加者であり、かつ、実際に会議室7に入室している場合、音声解析装置5は端末装置4から送信された音声データを解析し、表示装置200を制御するためのコマンドに変換する。コマンドの一例としては、表示装置200の電源を制御する、表示装置200に資料等を表示させる、表示装置200に音声認識されたテキストデータを表示させる、などがある。
【0016】
このように、発話者が会議の参加者であり、かつ、実際に会議室7に入室している場合に、音声解析装置5が発話者の音声データに基づいて表示装置200を操作する。したがって、会議の参加者として登録されている者が会議室7内の機器を制御できる。
【0017】
<用語ついて>
会議とは、会合して評議することをいう。会議は、コンベンション、集会、集まり、ミーティング、評議、発表会、プレゼンテーション、コンファレンス、談合、会談、合議、話合い、等と呼ばれてもよい。
【0018】
コマンドとは、特定の処理の実行を指示する信号や命令をいう。本実施形態では、機器の操作に関するコマンドという意味で使用される。
【0019】
入力手段とはタッチパネルに座標を指定して手書きが可能な手段であればよい。例えば、ペン、人の指や手、棒状部材などがある。
【0020】
ユーザーがディスプレイに入力手段を押しつけてから連続的に移動させた後、ディスプレイから離すという一連の操作をストロークという。ストロークデータとは、入力手段により入力される座標の軌跡に基づいてディスプレイに表示される情報である。ストロークデータは適宜、補間されてよい。手書きデータとは、1つ以上のストロークデータを有するデータである。手書き入力とは、ユーザーによって、手書きデータが入力されることを示している。
【0021】
ストロークデータに基づいてディスプレイに表示される表示物をオブジェクトという。オブジェクトとは対象という意味であるが、本実施形態では表示対象などの意味である。
手書きデータが文字認識して変換された文字列には、テキストデータの他、「済」などの決まった文字やマークとして表示されるスタンプ、円や星などの図形、直線等、ユーザーの操作に基づいて表示されたデータも含まれてよい。
【0022】
<システム構成について>
図1を参照して、音声操作システム1のシステム構成について説明する。音声操作システム1は、音声操作対象の機器である表示装置200と情報処理システム100とを有する。音声操作システム1には、必要に応じて端末装置4が含まれる。表示装置200はユーザーが入室する会議室7内に設置してあり、表示装置200と情報処理システム100とは、ネットワークを介して通信可能である。
【0023】
表示装置200は、タッチパネル付大型ディスプレイを有し、ユーザーが入力手段で指示したディスプレイの座標を検出し、この座標点を接続してストロークを表示する。ユーザーが設定する入力モードに応じて手書きデータを文字認識したり、音声認識されたテキストデータを表示したりすることができる。この他、接続された端末装置4の映像を表示したり、他拠点の表示装置200と通信して手書きデータを同期したりすることができる。なお、表示装置200は電子黒板とも呼ばれる。電子黒板は、電子情報ボード、電子ホワイトボードと呼ばれる場合もある。表示装置200は必ずしもタッチパネル付大型ディスプレイを有する必要はなく、5~10インチ程度のタブレット端末等でもよい。
【0024】
本実施形態では音声操作対象の機器を表示装置200としているが、機器は、通信によって遠隔から制御可能な機器であればよい。機器は、例えば、プロジェクター、複合機、マイク、スピーカ、空調、照明機器などその他の機器でもよく、複数の機器であってもよい。
【0025】
また、会議の複数の参加者により共有される機器に限らず、会議で使用され得る機器であれば音声操作の対象となる。例えば、汎用的なタブレット端末やPCが機器でもよい。
【0026】
表示装置200は、ICカードリーダーを有している。表示装置200にICカード又はICカード機能を内蔵した端末装置4が翳されると、表示装置200が端末装置4からユーザーを識別する識別情報(ユーザーID)を読み取って、情報処理システム100に送信する。
【0027】
なお、ICカードリーダーは表示装置200と一体である必要はない。表示装置200とは別にICカードリーダーが存在してもよい。ICカードリーダーは、会議が行われるスペースにあればよい。
【0028】
また、ユーザーはICカード以外の方法で、会議室7への入室を情報処理システム100に通知してもよい。例えば、表示装置200や会議室7の入り口に設けられた入力装置にユーザーがユーザーIDとパスワードを入力して、情報処理システム100にログインしてよい。ログイン方法として、指紋や顔画像などの生体認証情報が用いられてもよい。
【0029】
本実施形態において端末装置4は、音声データの取得と情報処理システム100への送信が可能であればよい。端末装置4は、例えば、スマートフォン、PC(Personal Computer)、タブレット端末、携帯電話、PDA(Personal Digital Assistant)等、マイクと通信機能を有する装置が想定される。
【0030】
端末装置4は、ユーザーが発話した音声データを集音する音声入力装置として機能する。端末装置4は、マイクにより集音されたユーザーの音声を、ユーザーを特定する情報と共に情報処理システム100に送信する。
【0031】
また、ICカードは、ユーザーを特定するための情報を格納している。より具体的には、情報処理システム100において、ICカードに格納されている識別情報が、ユーザーを特定する情報と対応付けられている。ICカードはユーザーを識別する識別情報が格納されたメモリを有する記憶装置であればよい。例えばユーザーの識別情報を記憶するUSBメモリが表示装置200に装着されてもよい。
【0032】
また、本実施形態では、ICカードと端末装置4をそれぞれ別体としているが、端末装置4がICカード機能を有していてよい。
【0033】
情報処理システム100は一台以上の情報処理装置を有している。本実施形態において、情報処理システム100は、スケジュール管理装置6と音声解析装置5を有する。なお、本実施形態ではスケジュール管理装置6と音声解析装置5を一つの情報処理システム100に含んでいるが、スケジュール管理装置6と音声解析装置5がそれぞれ別のサーバーに配置される構成であってもよい。
【0034】
なお、情報処理システム100はクラウドコンピューティングにより実現されてよい。クラウドコンピュータとは、特定ハードウェア資源が意識されずにネットワーク上のリソースが利用される利用形態をいう。情報処理システム100はオンプレミスに存在してもインターネットに存在してもよい。
【0035】
スケジュール管理装置6は、ユーザーごとのスケジュール情報を管理している。ユーザーのスケジュール情報の1つに会議情報がある。すなわち、スケジュール情報には会議情報が含まれる。スケジュール管理装置6は、ユーザーIDごとに、会議の開始時刻、終了時刻、会議名、主催者、参加者、場所、及び、当該ユーザーが会議室7に入室済みかどうか等が登録される。スケジュール情報は、会議情報以外の情報を含んでいてもよい。
【0036】
音声解析装置5は、端末装置4からユーザーの音声データを受信する。音声データには、発話者のユーザーID,及び、発話時刻の情報が添付される。音声解析装置5は、受信したユーザーIDのユーザーのスケジュール情報をスケジュール管理装置6に問い合わせ、当該ユーザーが会議参加者であるかどうか、及び、会議室7に入室済みかどうかを判断する。当該ユーザーが会議参加者であり、かつ会議室7に入室済みであった場合には、音声解析装置5は音声情報に含まれる音声データを解析し、表示装置200を操作するためのコマンドに変換する。
【0037】
音声データを解析してコマンドに変換する方法については、本実施形態の特徴部ではないので特に限定しない。既に知られている音声認識技術を使用して音声データをテキスト化し、予め登録されているコマンドのリストから当該テキストデータに合致するコマンドを取得する方法などが一般的である。
【0038】
音声解析装置5は、音声データを解析して得られたコマンドの情報を表示装置200に送信することによって表示装置200を操作する。このとき送信するコマンドの情報には、コマンド実行に必要なパラメータ等の付随データも含まれる。コマンドの送信手段については、本実施形態では特に限定しないが、予め表示装置200から情報処理システム100と通信セッションを確立しておく方法がある。表示装置200はファイアウォールの内側から情報処理システム100と通信でき、その後は、通信セッションを維持することで、情報処理システム100から情報を受信できる。音声解析装置5は、この通信セッションを利用して表示装置200と通信し、表示装置200が公開するWebAPIを利用する。
【0039】
図2は、ユーザーが表示装置200にICカードをかざす動作を説明する図である。
図2の例では、ユーザーがICカード3を表示装置200にかざす場合を示している。ユーザーがICカード機能付きの端末装置4を表示装置200にかざしてもよい。
【0040】
表示装置200は、近距離通信部219を有する。この近距離通信部219がICカードリーダーである。本実施形態では、まず、ユーザーが表示装置200の設置場所に移動し、自身が所持しているICカードを表示装置200の近距離通信部219に近接させる。
【0041】
すると、表示装置200の近距離通信部219は、ICカード3からICカードを識別するためのカードIDを取得し、情報処理システム100へ送信する。カードIDとは、例えば、ICカードを識別するための固有IDや、数字0~9とアルファベットA~Fからなる8~16文字の番号である。具体的には、例えば、ICカードがMIFERA(登録商標)カードである場合には、カードIDはUiDと呼ばれる番号であり、ICカードがFelicaカード(登録商標)である場合には、カードIDはIDmと呼ばれる番号である。
【0042】
また、本実施形態のICカード3は、メールアドレスやユーザーIDを書き込むことができても良い。その場合は、表示装置200は、ICカード3に書き込まれたメールアドレス(その一意性からユーザーIDの機能を有する)やユーザーIDを情報処理システム100に送信する。
【0043】
<ハードウェア構成例>
以下では、
図3~
図6を参照して、本実施形態で説明される機器、情報処理システム100、端末装置4、及び、ICカード3のハードウェア構成について説明する。
【0044】
<<機器>>
図3は、表示装置200のハードウェア構成の一例を示す図である。
図3では、機器として表示装置200を例に説明する。本実施形態の表示装置200は、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、SSD(Solid State Drive)204、ネットワークコントローラ205、及び、外部機器接続I/F206(Interface)を備えており、複数のユーザーにより情報を共有するための共有端末である。
【0045】
これらのうち、CPU201は、表示装置200全体の動作を制御する。ROM202は、CPU201やIPL(Initial Program Loader)等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。SSD204は、表示装置用のプログラム等の各種データを記憶する。ネットワークコントローラ205は、ネットワークとの通信を制御する。外部機器接続I/F206は、USB(Universal Serial Bus)メモリ2600、外付け機器(カメラ2400、スピーカ2300、マイク2200)との通信を制御する。
【0046】
また、表示装置200は、キャプチャデバイス211、GPU212、ディスプレイコントローラ213、接触センサ214、センサコントローラ215、電子ペンコントローラ216、近距離通信部219、及び近距離通信部219のアンテナ219aを備えている。
【0047】
これらのうち、キャプチャデバイス211は、PC10のディスプレイに対して映像情報を静止画又は動画として表示させる。GPU(Graphics Processing Unit)212は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ213は、GPU212からの出力画像をディスプレイ220等へ出力するために画面表示の制御及び管理を行う。
【0048】
接触センサ214は、ディスプレイ220上に電子ペン2500やユーザーの手H等が接触したことを検知する。センサコントローラ215は、接触センサ214の処理を制御する。接触センサ214は、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ220の上側両端部に設置された2つ受発光装置が、ディスプレイ220に平行して複数の赤外線を放射し、ディスプレイ220の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法であってもよい。
【0049】
接触センサ214は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ215に出力し、センサコントローラ215が、物体の接触位置である座標位置を特定する。電子ペンコントローラ216は、電子ペン2500と通信することで、ディスプレイ220へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信部219は、NFC、Bluetooth(登録商標)等の通信回路である。
【0050】
更に、表示装置200は、バスライン210を備えている。バスライン210は、CPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0051】
なお、接触センサ214は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する2つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネルなどの種々の検出手段を用いても良い。また、電子ペンコントローラ216が、電子ペン2500のペン先及びペン尻だけでなく、電子ペン2500のユーザーが握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしても良い。
【0052】
<<情報処理システム>>
図4は、情報処理システム100のハードウェア構成の一例を示す図である。情報処理システム100は、CPU301、ROM302、RAM303、HD(Hard Disk)304、HDD(Hard Disk Drive)305、記録メディア306、メディアI/F307、ディスプレイ308、ネットワークI/F309、キーボード311、マウス312、CD-ROM(Compact Disc Read Only Memory)ドライブ314、及び、バスライン310を備えている。
【0053】
これらのうち、CPU301は、情報処理システム100全体の動作を制御する。ROM302は、IPL等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。HD304は、プログラム等の各種データを記憶する。HDD305は、CPU301の制御にしたがってHD304に対する各種データの読み出し又は書き込みを制御する。
【0054】
メディアI/F307は、フラッシュメモリ等の記録メディア306に対するデータの読み出し又は書き込み(記憶)を制御する。ディスプレイ308は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。ネットワークI/F309は、ネットワークを利用してデータ通信をするためのインターフェースである。
【0055】
キーボード311は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。マウス312は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。CD-ROMドライブ314は、着脱可能な記録媒体の一例としてのCD-ROM313に対する各種データの読み出し又は書き込みを制御する。バスライン310は、
図4に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0056】
<<ICカード>>
図5は、ICカードのハードウェア構成の一例を示す図である。ここでは、非接触型の構成について説明するが、接触型を利用してもよいICカード3は、ICチップ501、及びアンテナコイル507を備えている。更に、ICチップ501は、CPU502、ROM503、RAM505、EEPROM(Electrically Erasable and Programmable ROM)504、アンテナI/F508を備えている。
【0057】
これらのうち、CPU502は、ICカード3全体の動作を制御する。ROM503は、CPU502の駆動に用いられるプログラムを記憶する。RAM505は、CPU502のワークエリアとして使用される。EEPROM504は、ICカード3用のプログラムや、ICカード3を識別するための端末ID等の各種データを記憶する。アンテナI/F508は、アンテナコイル507を介して、外部装置と行なうデータの送受信を制御する。
【0058】
更に、ICカード3は、バスライン506を備えている。バスライン506は、CPU502等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0059】
アンテナコイル507は、ICカード3が外部装置の発生する磁界を通過する際に、この磁気を受けて電流を発生するためのコイルである。ICカード3は、この電気を利用することで、ICチップ501を起動させ、外部装置のリーダ・ライタと交信し、データの取得や提供が可能になる。
【0060】
<<端末装置>>
図6は、端末装置4のハードウェア構成の一例を示す図である。
図6では、端末装置4としてスマートフォンを例にする。端末装置4は、CPU401、ROM402、RAM403、EEPROM404、CMOS(Complementary Metal Oxide Semiconductor)センサ405、加速度・方位センサ406、メディアI/F408、GPS受信部409を備えている。
【0061】
これらのうち、CPU401は、端末装置4全体の動作を制御する。ROM402は、CPU401やIPL等のCPU401の駆動に用いられるプログラムを記憶する。RAM403は、CPU401のワークエリアとして使用される。EEPROM404は、CPU401の制御にしたがって、端末装置用プログラム(アプリ)等の各種データの読み出し又は書き込みを行う。
【0062】
CMOSセンサ405は、CPU401の制御にしたがって被写体(主に自画像)を撮像し画像データを得る。加速度・方位センサ406は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F408は、フラッシュメモリ等の記録メディア407に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部409は、GPS衛星からGPS信号を受信する。
【0063】
また、端末装置4は、遠距離通信部411、カメラ412、撮像素子I/F413、マイク414、スピーカ415、音入出力I/F416、ディスプレイ417、外部機器接続I/F418、近距離通信部419、近距離通信部419のアンテナ419a、及びタッチパネル421を備えている。
【0064】
これらのうち、遠距離通信部411は、ネットワークを介して、他の機器と通信する回路である。カメラ412は、CPU401の制御にしたがって被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F413は、カメラ412の駆動を制御する回路である。マイク414は、音声を入力する内蔵型の集音手段の一種である。
【0065】
音入出力I/F416は、CPU401の制御にしたがってマイク414及びスピーカ415との間で音信号の入出力を処理する回路である。ディスプレイ417は、被写体の画像や各種アイコン等を表示する液晶や有機ELなどの表示手段の一種である。外部機器接続I/F418は、各種の外部機器を接続するためのインターフェースである。近距離通信部419は、NFCやBluetooth(登録商標)等の通信回路である。タッチパネル421は、ユーザーがディスプレイ417を押下することで、端末装置4を操作する入力手段の一種である。
【0066】
また、端末装置4は、バスライン410を備えている。バスライン410は、
図6に示されているCPU401等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0067】
<機能について>
次に、
図7を用いて端末装置4、情報処理システム100、及び、表示装置200が有する機能について説明する。
図7は、端末装置4、情報処理システム100、及び、表示装置200が有する機能をブロック状に分けて説明する機能ブロック図の一例である。
【0068】
<<端末装置>>
端末装置4は、第1通信部11と音声データ取得部12を有している。端末装置4が有する各機能は、
図6に示されている各構成要素のいずれかが、EEPROM404からRAM403上に展開されたプログラムに従ったCPU401からの命令によって動作することで実現される機能又は手段である。なお、このプログラムは例えば音声操作システム1に専用のアプリである。
【0069】
第1通信部11は情報処理システム100と各種の情報を通信する。本実施形態では、第1通信部11はユーザーが発話した音声がデータに変換された音声データ、ユーザーID及び発話時刻を情報処理システム100に送信する。
【0070】
音声データ取得部12は、マイク414から入力され音声をPCM(pulse code modulation)符号化することで、音声データに変換する。音声データはWAVEファイルでもMP3ファイルでもよい。
【0071】
<<情報処理システム>>
情報処理システム100は、第2通信部13と、音声解析装置5が有する機能と、スケジュール管理装置6が有する機能とを有している。情報処理システム100が有する各機能は、
図4に示されている各構成要素のいずれかが、HD304からRAM303上に展開されたプログラムに従ったCPU301からの命令によって動作することで実現される機能又は手段である。
【0072】
まず、第2通信部13は端末装置4及び表示装置200と各種の情報を送受信する。本実施形態では、第2通信部13は、端末装置4から、音声データ、ユーザーID及び発話時刻を受信する。第2通信部13は、表示装置200から入室情報を受信し、表示装置200にコマンドを送信する。
【0073】
音声解析装置5は音声認識部14、コマンド変換部15、及び、判断部16を有している。音声認識部14はPCM符号化された音声データについて、音声の特徴量の抽出、音素モデルの特定、発音辞書を利用した単語の特定を行い、特定された単語のテキストデータを出力する。なお、音声認識の方法として、どのような方法が用いられてもよい。例えば、RNN(Recurrent Neural Network)を利用した音声認識方法が知られている。
【0074】
コマンド変換部15は、一例として、音声認識されたテキストデータを形態素解析するなどして単語を取り出し、コマンド情報記憶部17に予め登録されているコマンドのリストから当該単語に合致するコマンドを取得する。
【0075】
図8は、コマンド情報記憶部17に記憶されているコマンド情報の一例を示す。コマンド情報が有する各項目について説明する。
【0076】
・単語は、コマンドに変換される単語である。音声データに含まれる単語がコマンド情報の単語と比較される。なお、{}内の単語がセットで音声データから検出される必要がある。
【0077】
・コマンドは、音声データにより呼びだされるコマンドである。
【0078】
・入室前可否は、ユーザーが会議室7への入室前にコマンドを実行可能かどうか示す。これにより、会議室7へ入室する前にユーザーが機器や照明の電源をONにできる。
【0079】
例えば、コマンド変換部15は、「電源オン」という音声データに対し、「電源」と「オン」という単語を検出し、「電源、オン」に対応付けられた「power on」というコマンドを特定する。コマンド変換部15は、例えば{"command":"power on"}のようにJSON形式やXML形式でコマンドの情報を生成する。
【0080】
図7に戻って説明する。判断部16は、スケジュール管理装置6からスケジュール情報を取得し、発話者が会議の参加者であり、かつ、実際に会議室7に入室しているか否かを判断する。判断部16は、スケジュール情報から現在、開催されている会議又は現在から10分程度以内に開催される会議を特定する。そして、判断部16は、その会議に、発話者が参加者として登録されており、発話者が入室済みかどうかを判断する。現在の時刻は、端末装置4が送信する発話時刻が使用されてもよいし、音声解析装置5が保持する現在時刻(音声データの受信時刻)が使用されてもよい。
【0081】
スケジュール管理装置6はスケジュール管理部18を有している。スケジュール管理部18はスケジュール情報記憶部19に記憶されているスケジュール情報を管理する。
【0082】
図9は、スケジュール情報記憶部19に記憶されているスケジュール情報の一例である。詳細には、
図9の情報は、スケジュール情報のうち会議情報を抽出したものである。会議情報が有する各項目について説明する。
【0083】
・ユーザーIDは会議に参加するユーザーの識別情報である。
【0084】
・会議の開始時刻は会議室7の予約開始時刻、終了時刻は会議室7の予約終了時刻である。
【0085】
・会議名は、会議の名称であり、例えばどのような会議かを示す。
【0086】
・主催者は、例えば、会議室7を予約したユーザーの識別情報でもよいし、主催者として指定されたユーザーの識別情報でもよい。
【0087】
・参加者は、会議に参加する予定のユーザーである。例えば、電子メールで会議の開催が通知され、承諾したユーザーが登録される。
【0088】
・場所は、会議室7の名称など会議室の識別情報である。
【0089】
・入室状態は、ユーザーIDで特定されるユーザーが当該会議室7に入室済みかどうかの情報である。ユーザーがICカードを表示装置200の近距離通信部219に接近させ、表示装置200がユーザーIDを情報処理システム100に送信すると、入室済みとなる。
【0090】
・資料は、会議で使用される資料である。各参加者は会議で使用される資料を予めスケジュール情報に登録しておくことができる。資料は、会議の参加者であれば表示できる。あるいは、例えば、資料を登録した参加者のみが表示できるように制限されてもよい。
【0091】
<<表示装置>>
図7に戻って説明する。表示装置200は、第3通信部21、コマンド実行部22、及び、表示制御部23を有している。端末装置4が有する各機能は、
図3に示されている各構成要素のいずれかが、SSD204からRAM203上に展開されたプログラムに従ったCPU201からの命令によって動作することで実現される機能又は手段である。
【0092】
第3通信部21は、情報処理システム100にICカードから受信したユーザーIDを送信し、また、情報処理システム100からコマンドを受信する。第3通信部21は、上記のように、表示装置200の起動後は、情報処理システム100との通信セッションを維持する。第3通信部21は、例えば、ポーリングで情報処理システム100にコマンドの有無を問い合わせてもよいし、WebSocketで通信セッションを維持してもよい。
【0093】
コマンド実行部22は、音声解析装置5から送信されたコマンドを実行する。コマンドの内容は様々であるが、例えば、表示装置200の電源ON、電源OFF、テキストデータの表示、図形の表示、インターネットへの接続、資料の表示、等である。なお、コマンド実行部22は、参加者の音声を直接、マイク2200から取得して、音声解析装置5に送信し、音声解析装置5から受信したコマンドを実行することができる。
【0094】
表示制御部23は、ディスプレイ220に手書きデータ、テキストデータ、画像、及び、メニューボタン等を表示する。
【0095】
なお、
図7では、表示装置200が有する一般的な機能は省略されている。表示装置200は、図示する他、入力手段の接触位置を検出する接触位置検出部、接触位置を接続してストロークデータを生成する描画データ生成部、手書きデータを認識してテキストデータに変換する文字認識部等を有していてよい。
【0096】
<処理手順>
次に、
図10を参照して、音声操作システム1の動作を説明する。
図10は、音声操作システム1の動作を説明するシーケンス図である。
【0097】
S1:まず、ユーザーは会議室7に入室すると、ICカード3を表示装置200の近距離通信部219にかざす。表示装置200の近距離通信部219がICカード3からユーザーID等を受信する。これにより表示装置200は当該ユーザーが会議室7に入室したことを検知する。
【0098】
S2:表示装置200の第3通信部21は、ICカード3から読み取ったユーザーIDのユーザーが会議室7に入室したという入室情報を情報処理システム100のスケジュール管理装置6に送信する。第3通信部21は、会議室7の識別情報や表示装置200の識別情報など、ユーザーが入室した会議室7を特定できる情報を送信してよい。スケジュール管理装置6の第2通信部13は入室情報を受信し、スケジュール管理部18は会議室7を特定できる情報に基づいて会議室7を特定し、この会議室7で、現在時刻に開催されている会議情報又は現在時刻から10分程度以内に開催される会議情報を特定する。スケジュール管理部18は、ユーザーIDが参加者として登録されている会議情報に、当該ユーザーが入室済みである旨を登録(入室済みを登録)する。
【0099】
S3:次に、ユーザーは表示装置200を音声で操作するため、所有している端末装置4に対して発話を行う。ユーザーは入室前にも音声で表示装置200を操作可能である。端末装置4では会議用のアプリが動作しており、ユーザーが情報処理システム100にログインすると、参加者として登録されている会議のリストが表示される。ユーザーは参加する会議を選択して、発話する。端末装置4の音声データ取得部12は音声データを取得する。
【0100】
S4:端末装置4の第1通信部11は、音声データ、ユーザーID、及び、発話時刻を情報処理システム100に送信する。発話時刻は、複数の参加者から並行して音声データが送信された場合の優先順位を決定するためなどに使用される。なお、発話時刻は必ずしも必要でない。
【0101】
図11は、端末装置4から情報処理システム100に送信される情報を説明する図である。音声データ、ユーザーID、及び、発話時刻が送信される。音声データには、操作内容が含まれている。
【0102】
S5:
図10に戻って説明する。情報処理システム100の第2通信部13は、音声データ、ユーザーID、及び、発話時刻を受信する。まず、判断部16はスケジュール管理部18に問い合わせを行い、音声データと共に送信されたユーザーIDのスケジュール情報(すなわち、会議情報)を取得する。
【0103】
S6:音声認識部14が音声データの解析を行いテキストデータに変換する。また、コマンド変換部15が第2通信部13を介して、テキストデータをコマンドに変換する。
【0104】
S7:続いて、判断部16は、スケジュール情報を基に、発話者に音声操作を許可するかどうかを判断する。この判断の詳細を
図12で説明する。
【0105】
ステップS7で、音声操作を許可しないと判断された場合、音声認識部14は当該音声データ及びコマンドを破棄し、ステップS8以降の処理を実行しない。
【0106】
S8:ステップS7で、音声操作を許可すると判断された場合、情報処理システム100の第2通信部13は、表示装置200にコマンドを送信する。
【0107】
S9:表示装置200の第3通信部21はコマンドを受信し、コマンド実行部22がコマンドに応じた処理を実行する。
【0108】
図12は、判断部16による音声操作を許可するか否かの判断方法の詳細を説明する図である。
図12は、
図10のステップS7の判断の詳細を説明するフローチャート図である。
【0109】
判断部16は、ステップS5で取得したスケジュール情報を基に、発話者が会議の参加者であるかどうかを判断する(S71)。まず、判断部16は、発話時刻が会議の開始時刻から終了時刻に含まれる会議、又は、発話時刻から10分程度以内を開始時刻とする会議、を検出する。判断部16は、音声データと共に送信されたユーザーIDが、検出した会議の参加者に含まれるかどうかを判断する。
【0110】
なお、ステップS71は、アプリの機能により、ユーザーが、自分が参加できる会議にのみ音声データを送信できる場合は省略されてよい。
【0111】
音声データと共に送信されたユーザーIDが会議の参加者に含まれる場合、判断部16は、音声データから変換されたコマンドが会議室への入室前に実行可能かどうかを、コマンド情報の入室前可否に基づいて判断する(S73)。入室前に実行可能なコマンドの場合、コマンドが表示装置200に送信される(
図10のステップS8)。
【0112】
入室前に実行可能なコマンドでない場合、判断部16は音声データと共に送信されたユーザーIDのユーザーが入室済みか否かを会議情報の入室状態に基づいて判断する(S74)。
【0113】
ユーザーが入室済みの場合、コマンドが表示装置200に送信される(
図10のステップS8)。この判断により、ユーザーが表示装置200の近くに存在しない場合、遠隔から表示装置200を操作することを抑制できる。例えば、情報処理システム100が会議で使用する資料を参加者に配付したり、表示装置200の電源をオフしたりするような操作を制限できる。
【0114】
音声データと共に送信されたユーザーIDが会議の参加者に含まれない場合、又は、入室済みでない場合、判断部16は音声データ及びコマンドを破棄する(S72)。
【0115】
<コマンドの実行例>
図13は、コマンドの実行による資料の表示例を示す図である。会議室7に入室したユーザーが「資料表示」と発話した。表示装置200が音声データを音声解析装置5に送信する。音声解析装置5は資料を表示するコマンドに音声データを変換し、ユーザーが参加者に登録されている会議情報の資料データとコマンドとを表示装置200に送信する。これにより、表示装置200は資料をディスプレイ220に表示することができる。
【0116】
<主な効果>
以上説明したように、本実施例の音声操作システム1は、発話者がその会議の参加者である場合に、音声解析装置5が発話者の音声データに基づいて会議室7の機器を制御する。したがって、会議の参加者として登録されている者が会議室7内の機器を操作できる。
【0117】
また、音声操作システム1は、発話者がその会議の参加者であり、かつ、実際に会議室7に入室している場合に、音声解析装置5が発話者の音声データに基づいて会議室7の機器を制御する。したがって、ユーザーが表示装置200の近くに存在しない場合、遠隔から表示装置200を操作することを抑制できる。
【実施例2】
【0118】
本実施例では、参加者ごとの音声操作権限により機器の音声操作が制限されている音声操作システム1について説明する。
【0119】
なお、本実施例においては、上記の実施例にて説明した
図3~
図6のハードウェア構成図、及び、
図7に示した機能ブロック図を援用できるものとして説明する。
【0120】
図14は、本実施例において、スケジュール管理装置6に登録されているスケジュール情報を示す。
図14に示すスケジュール情報には、
図9に示した実施例1のスケジュール情報に加えて、各会議の各ユーザーごとに音声操作権限を付与するかどうかが設定されている。音声操作権限の設定方法については、例えば、各会議の主催者が各参加者それぞれに対して音声操作権限の有無を設定できるようにしても良い。あるいは、例えば、主催者のみに音声操作権限が自動的に付与されるようにしても良い。音声操作権限の設定方法についてはこれらに限定されない。
【0121】
図15は、
図10のステップS7の判断の詳細を説明するフローチャート図である。なお、
図15の説明では主に
図12との相違を説明する。
図15のフローチャート図は新たにステップS71-2を有している。
【0122】
発話者が会議参加者であるが(S71のYes)、判断部16は、発話者に音声操作権限があるかどうかを判断する(S71-2)。すなわち、判断部16は、会議情報において、発話者のユーザーIDに対し、音声操作権限が「あり」かどうかを判断する。
【0123】
発話者に音声操作権限がある場合、処理はステップS73に進み、ない場合、処理はステップS72に進む。
【0124】
<主な効果>
本実施例の音声操作システム1によれば、実施例1の効果に加え、主催者等が機器を操作する権限を会議の参加者の一部にのみ付与することができる。換言すると、音声操作システム1は、参加者に対しても機器の操作を制限できる。
【0125】
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0126】
例えば、本実施形態では、ユーザーが会議室に移動する例を説明したが、オンラインで参加してもよい。会議室には一人以上の参加者が存在すればよい。オンラインで会議に参加する場合の入室の有無は、ユーザーが情報処理システム100にログインしたことで代用される。情報処理システム100は会議の開始時刻の10分程度以内にユーザーがログインした場合、このユーザーが参加者である会議に入室したと判断する。
【0127】
また、本実施形態では、電子黒板として使用できる表示装置を説明したが、表示装置は画像を表示できればよく、例えばデジタルサイネージなどでもよい。また、ディスプレイでなくプロジェクターが表示してもよい。
【0128】
電子黒板と同様の機能を有する装置を、電子ホワイトボード、電子情報ボード、インタラクティブボードなどともいう。その他の情報処理装置として、例えば、PJ(Projector:プロジェクター)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA、デジタルカメラ、ウェアラブルPC又はデスクトップPC等であってもよい。
【0129】
また、
図7などの構成例は、表示装置200による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。表示装置200の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
【0130】
また、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【符号の説明】
【0131】
1 音声操作システム
4 端末装置
100 情報処理システム
200 表示装置
【先行技術文献】
【特許文献】
【0132】