(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110833
(43)【公開日】2024-08-16
(54)【発明の名称】表示制御プログラム、表示制御装置、及び表示制御方法
(51)【国際特許分類】
G06F 3/0484 20220101AFI20240808BHJP
G06F 3/16 20060101ALI20240808BHJP
G06F 3/14 20060101ALI20240808BHJP
G06F 3/0481 20220101ALI20240808BHJP
G10L 15/22 20060101ALI20240808BHJP
G10L 15/10 20060101ALI20240808BHJP
G09G 5/00 20060101ALI20240808BHJP
G09G 5/14 20060101ALI20240808BHJP
G02B 27/01 20060101ALN20240808BHJP
【FI】
G06F3/0484
G06F3/16 650
G06F3/14 350B
G06F3/0481
G10L15/22 460Z
G10L15/22 470Z
G10L15/10 500Z
G09G5/00 510Q
G09G5/00 510A
G09G5/00 510H
G09G5/14 A
G06F3/16 680
G02B27/01
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023015673
(22)【出願日】2023-02-03
(71)【出願人】
【識別番号】000006633
【氏名又は名称】京セラ株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100132045
【弁理士】
【氏名又は名称】坪内 伸
(74)【代理人】
【識別番号】100147692
【弁理士】
【氏名又は名称】下地 健一
(72)【発明者】
【氏名】佐々木 匠
【テーマコード(参考)】
2H199
5B069
5C182
5E555
【Fターム(参考)】
2H199DA06
2H199DA17
2H199DA20
2H199DA28
2H199DA29
5B069BA04
5B069CA13
5B069DB05
5B069KA02
5C182AA02
5C182AA03
5C182AA04
5C182AA22
5C182AB02
5C182AB08
5C182AB11
5C182AB12
5C182AC02
5C182AC03
5C182AC43
5C182BA01
5C182BA03
5C182BA04
5C182BA06
5C182BA35
5C182BC22
5C182BC25
5C182BC26
5C182CB34
5C182CC24
5C182DA65
5C182DA68
5C182DA69
5C182FA03
5E555AA26
5E555AA58
5E555AA65
5E555BA04
5E555BB04
5E555BC19
5E555BD07
5E555BE08
5E555CA47
5E555CB64
5E555DB25
5E555DB41
5E555EA23
5E555FA00
(57)【要約】
【課題】音声認識の誤変換を発生させる要因に対処して音声認識の精度を高める。
【解決手段】表示制御プログラムは、複数のユーザの間に配置される表示部と、前記複数のユーザに含まれる少なくとも第1ユーザの音声が音声認識によって変換された文字情報を前記表示部に表示させる表示制御装置とを備える表示システムを制御する表示制御プログラムである。表示制御プログラムは、所定の条件を満たす場合、前記表示部に誤変換の発生を示唆する通知を表示させる処理を、前記表示制御装置の制御部に実行させる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
複数のユーザの間に配置される表示部と、前記複数のユーザに含まれる少なくとも第1ユーザの音声が音声認識によって変換された文字情報を前記表示部に表示させる表示制御装置とを備える表示システムを制御する表示制御プログラムであって、所定の条件を満たす場合、前記表示部に誤変換の発生を示唆する通知を表示させる処理を、前記表示制御装置の制御部に実行させる表示制御プログラム。
【請求項2】
前記表示システムは、漢字と読み方を対応付けた単語群を記憶する記憶部を含み、
前記音声が変換された第1の漢字及び読み方を取得し、前記単語群を参照して前記第1の漢字が前記記憶部に前記音声が変換された読み方に対応づけて記録された第2の漢字と異なる場合、前記第2の漢字を含む通知を前記表示部に表示させる処理を前記制御部に実行させる、請求項1に記載の表示制御プログラム。
【請求項3】
前記表示システムは、前記第1ユーザからの入力を受け付ける入力部をさらに含み、
前記入力部から前記第2の漢字を選択する入力を受け付けると、前記表示部に表示させる文字情報中の前記第1の漢字を前記第2の漢字に変更する処理を前記制御部に実行させる、請求項2に記載の表示制御プログラム。
【請求項4】
前記音声認識により変換される音声の入力レートを取得又は算出し、前記入力レートが第1の閾値よりも大きい場合、前記誤変換の発生を示唆する通知として、発話速度に関する通知を表示させる処理を前記制御部に実行させる、請求項1に記載の表示制御プログラム。
【請求項5】
前記音声認識により変換される音声の入力レートを取得又は算出し、前記入力レートが第2の閾値よりも小さい場合、前記誤変換の発生を示唆する通知として、発話速度に関する通知又は前記音声の入力感度に関する通知を表示させる処理を前記制御部に実行させる、請求項1に記載の表示制御プログラム。
【請求項6】
前記入力レートは、所定時間に前記音声から認識される文字数、及び、音節数、並びに、所定時間に音声を記録したファイルの大きさの少なくとも何れかに基づいて決定される、請求項4又は5に記載の表示制御プログラム。
【請求項7】
前記表示部は、前記第1ユーザに対して前記文字情報を表示し、前記複数のユーザに含まれる前記第1ユーザとは異なる第2ユーザに対して前記文字情報を表示しない所定の表示領域を含み、前記通知を前記所定の表示領域に表示させる処理を前記制御部に実行させる、請求項1に記載の表示制御プログラム。
【請求項8】
請求項1に記載のプログラムを記憶する記憶部と、
前記プログラムを実行する制御部と
を備える表示制御装置。
【請求項9】
複数のユーザの間に配置される表示部と、前記複数のユーザに含まれる少なくとも第1ユーザの音声が音声認識によって変換された文字情報を前記表示部に表示させる表示制御装置とを備える表示システムを制御する表示制御方法であって、
前記表示制御装置の制御部が、所定の条件を満たす場合、前記表示部に誤変換の発生の可能性を示唆する通知を表示させる表示制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、表示制御プログラム、表示制御装置、及び表示制御方法に関する。
【背景技術】
【0002】
音声認識技術には、発音の仕方、及び、同音異義語の存在等により認識精度が低下してしまうという課題がある。特許文献1には、誤変換の傾向を学習して誤変換を自動的に修正するために用いられる誤変換辞書を作成する誤変換辞書作成システムが開示されている。この誤変換辞書作成システムは、入力用語を入力用語音声データに変換し、音声解析を行って入力用語音声データを音声解析用語に変換し、入力用語と音声解析用語とが一致しない場合、音声解析用語を入力用語の誤変換用語とする。誤変換辞書作成システムは、入力用語とその誤変換用語とを関連付けて誤変換辞書に記憶する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、音声認識の認識精度は、話者の発話速度及び周囲の雑音等の種々の要因により低下することがある。ユーザは、音声認識の認識精度を低下させる要因に応じた対応をとることができることが好ましい。
【0005】
したがって、これらの点に着目してなされた本開示の目的は、音声認識の誤変換を発生させる要因に対処して音声認識の精度を高めることにある。
【課題を解決するための手段】
【0006】
一実施形態において、(1)表示制御プログラムは、複数のユーザの間に配置される表示部と、前記複数のユーザに含まれる少なくとも第1ユーザの音声が音声認識によって変換された文字情報を前記表示部に表示させる表示制御装置とを備える表示システムを制御する表示制御プログラムであって、所定の条件を満たす場合、前記表示部に誤変換の発生を示唆する通知を表示させる処理を、前記表示制御装置の制御部に実行させる。
【0007】
(2)上記(1)の表示制御プログラムにおいて、前記表示システムは、漢字と読み方を対応付けた単語群を記憶する記憶部を含み、前記表示制御プログラムは、前記音声が変換された第1の漢字及び読み方を取得し、前記単語群を参照して前記第1の漢字が前記記憶部に前記音声信号が変換された読み方に対応づけて記録された第2の漢字と異なる場合、前記第2の漢字を含む通知を前記表示部に表示させる処理を前記制御部に実行させることができる。
【0008】
(3)上記(2)の表示制御プログラムにおいて、前記表示システムは、前記第1ユーザからの入力を受け付ける入力部をさらに含み、前記表示制御プログラムは、前記入力部から前記第2の漢字を選択する入力を受け付けると、前記表示部に表示させる文字情報中の前記第1の漢字を前記第2の漢字に変更する処理を前記制御部に実行させることができる。
【0009】
(4)上記(1)から(3)の表示制御プログラムは、前記音声認識により変換される音声の入力レートを取得又は算出し、前記入力レートが第1の閾値よりも大きい場合、前記誤変換の発生を示唆する通知として、発話速度に関する通知を表示させる処理を前記制御部に実行させることができる。
【0010】
(5)上記(1)から(3)の表示制御プログラムは、前記音声認識により変換される音声の入力レートを取得又は算出し、前記入力レートが第2の閾値よりも小さい場合、前記誤変換の発生を示唆する通知として、発話速度に関する通知又は前記音声の入力感度に関する通知を表示させる処理を前記制御部に実行させることができる。
【0011】
(6)上記(4)又は(5)の表示制御プログラムにおいて、前記入力レートは、所定時間に前記音声から認識される文字数、及び、音節数、並びに、所定時間に音声を記録したファイルの大きさの少なくとも何れかに基づいて決定されることができる。
【0012】
(7)上記(4)又は(5)の表示制御プログラムにおいて、前記表示部は、前記第1ユーザに対して前記文字情報を表示し、前記複数のユーザに含まれる前記第1ユーザとは異なる第2ユーザに対して前記文字情報を表示しない所定の表示領域を含み、前記通知を前記所定の表示領域に表示させる処理を前記制御部に実行させる、請求項4又は5に記載の表示制御プログラム。
【0013】
一実施形態において、(8)表示制御装置は、(1)から(7)の何れかに記載のプログラムを記憶する記憶部と、前記プログラムを実行する制御部とを備える。
【0014】
一実施形態において、(9)表示制御方法は、複数のユーザの間に配置される表示部と、前記複数のユーザに含まれる少なくとも第1ユーザの音声が音声認識によって変換された文字情報を前記表示部に表示させる表示制御装置とを備える表示システムを制御する表示制御方法であって、前記表示制御装置の制御部が、所定の条件を満たす場合、前記表示部に誤変換の発生を示唆する通知を表示させる。
【発明の効果】
【0015】
本開示の実施形態によれば、音声認識の誤変換を発生させる要因に対処して音声認識の精度を高めることが可能になる。
【図面の簡単な説明】
【0016】
【
図1】一実施形態に係る表示システムの利用シーンを説明する斜視図である。
【
図3】
図1の表示システムの概略構成を示すブロック図である。
【
図4】第1ユーザの側から見た透明スクリーンの表示の一例を示す図である。
【
図5】第2ユーザの側から見た透明スクリーンの表示の一例を示す図である。
【
図6】表示制御装置の制御部が実行する表示制御処理の一例を示すフロー図である。
【
図7】
図6の誤変換発生の可能性評価処理の第1例を示すフロー図である。
【
図8】
図6の誤変換発生の可能性評価処理の第2例を示すフロー図である。
【
図9】
図6の誤変換発生の可能性評価処理の第3例を示すフロー図である。
【
図10】誤変換発生の可能性が高いときの表示部の表示例を示す図である。
【
図11】変換された文字情報に文法の誤りがあるときの表示例を示す図である。
【
図12】記憶部に記憶される単語群の一例を示す図である。
【発明を実施するための形態】
【0017】
以下、本開示の実施形態について、図面を参照して説明する。以下の説明で用いられる図は模式的なものである。図面上の寸法及び比率等は現実のものとは必ずしも一致していない。
【0018】
(表示システムの構成)
一実施形態に係る表示システム1は、
図1及び
図2に示すように、第1ユーザU1と第2ユーザU2との間の対話を支援するシステムである。一例として、第1ユーザU1は、政府、自治体、又は、公的機関の窓口を担当する職員である。第2ユーザU2は、例えば、政府、自治体、又は、公的機関に訪れた聴覚障害者である。表示システム1が使用される場面は、上述のものに限られない。表示システム1は、金融機関、医療機関及び公共交通機関等の窓口、民間事業者の営業店舗、ならびに、オフィス内の会議室等においても使用されうる。
【0019】
近年、感染症の流行により、顧客と接する場面で窓口担当者と顧客との間に、飛沫対策のためのアクリル板又はビニールカーテン等が設置されることがある。表示システム1では、これらのアクリル板又はビニールカーテン等を基材10とし、この基材10に透明スクリーン5を配置する。この、透明スクリーン5に対して、プロジェクタ30から第1ユーザU1の発話内容が投影される。これにより、透明スクリーン5を挟んで第1ユーザU1に対向して位置する第2ユーザU2は、第1ユーザU1の発話内容を聞き取ることができない場合であっても、第1ユーザU1の発話内容を目視して確認することができる。
【0020】
透明スクリーン5は、基材10の任意の場所に配置することができる。透明スクリーン5は、第1ユーザU1と第2ユーザU2とが互いの顔を目視することを妨げない位置に配置されてよい。例えば、透明スクリーン5は、第1ユーザU1及び第2ユーザU2が、視線を水平方向から下側に下げた位置に配置されてよい。
【0021】
表示システム1は、
図1から
図3に示すように、透明スクリーン5と、表示制御装置20と、プロジェクタ30と、マイク40とを含む。透明スクリーン5及びプロジェクタ30は、表示部を構成する。表示制御装置20と、プロジェクタ30及びマイク40のそれぞれとは、無線又は有線で通信可能に接続される。表示制御装置20は、通信回線を介して音声認識処理を提供する外部のクラウドサーバ60と通信可能に構成される。
【0022】
透明スクリーン5は、基材10に配置されたスクリーン部11と遮光部12とを含む。
【0023】
スクリーン部11は、基材10に張付けることが可能なプロジェクタ投影用のフィルム状、シート状又は板状の部材等とすることができる。一般に、スクリーン部11自体が、「透明スクリーン」と呼ばれることがある。スクリーン部11は、プロジェクタ30から入射した光の一部を、入射側及び出射側に拡散させる。第1ユーザU1及び第2ユーザU2は、スクリーン部11により拡散された光が視界に入ることにより、プロジェクタ30から投影された画像を認識することができる。スクリーン部11の形状は、例えば、長方形とすることができるが、これに限られない。スクリーン部11は、種々の形状にすることができる。
【0024】
遮光部12は、プロジェクタ30から射出される光の透過を少なくとも部分的に遮ることができる光学要素である。遮光部12は、例えば、特定の波長の光を抑制するダイクロイックフィルムである。遮光部12は、例えば、赤色を通さないダイクロイックフィルムを使用することができる。遮光部12は、スクリーン部11の一部に重ねて配置することができる。例えば、遮光部12は、スクリーン部11の表面に重ねて配置される。遮光部12の形状は、例えば、長方形とすることができるが、これに限られない。遮光部12は、種々の形状にすることができる。
【0025】
マイク40は、第1ユーザU1の側に配置される。例えば、マイク40は、第1ユーザU1の前の机の上に配置されてよい。また、マイク40は、第1ユーザU1の装着するヘッドセットに取り付けられていてよい。マイク40は、第1ユーザU1の発する音声を電気信号(以下、「音声信号」とも呼ぶ)に変換して、表示制御装置20に出力する。
【0026】
表示制御装置20は、マイク40から音声信号を取得して、クラウドサーバ60に送信する。表示制御装置20は、クラウドサーバ60で音声信号を音声認識処理により変換した文字情報を取得する。文字情報は、漢字かな交じりの情報を含んでよい。表示制御装置20は、取得した文字情報に基づく画像信号をプロジェクタ30に送信し、透明スクリーン5に文字情報に対応した文字列を投影して表示させる。表示制御装置20は、例えば、携帯電話(スマートフォン)及びパソコン等の汎用の機器、又は、専用機器を使用することができる。表示制御装置20は、通信部21、制御部22、記憶部23、及び、入力部24を含んで構成される。
【0027】
通信部21は、無線又は有線の通信手段により、表示制御装置20の外部の機器と通信を行う。外部の機器には、マイク40、プロジェクタ30及びクラウドサーバ60が含まれる。通信部21は、例えば、シリアル通信規格、有線LAN(local area network)規格、Wifi等の無線LAN規格、並びに、4G(4th Generation)及び5G(5th Generation)等の移動体通信規格等の種々の通信方式による通信に対応してよい。通信部21は、クラウドサーバ60に対する音声信号の送信、及び、音声信号が変換された文字情報の受信を行うことができる。
【0028】
制御部22は、一つ又は複数のプロセッサを含む。プロセッサには、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び、特定の処理に特化した専用のプロセッサが含まれる。専用のプロセッサには、特定用途向けIC(ASIC;Application Specific Integrated Circuit)が含まれる。プロセッサには、プログラマブルロジックデバイス(PLD;Programmable Logic Device)が含まれる。PLDには、FPGA(Field-Programmable Gate Array)が含まれる。制御部22は、一つ又は複数のプロセッサが協働するSoC(System-on-a-Chip)、及びSiP(System In a Package)のいずれかであってよい。
【0029】
制御部22は、表示制御装置20全体を制御するとともに、マイク40により取得される音声信号を、通信部21を介してクラウドサーバ60に送信するように構成される。制御部22は、通信部21を介して、クラウドサーバ60により音声信号から変換された文字情報を取得するように構成される。制御部22は、取得した文字情報を表示物としてプロジェクタ30に表示させる。本開示において「表示物」とは、プロジェクタ30により透明スクリーン5上に表示される対象となる文字列及び画像を意味する。「表示物」は、透明スクリーン5上に画像要素として投影される。
【0030】
制御部22は、クラウドサーバ60から取得した第1ユーザU1の発話内容の文字情報を、表示物としてプロジェクタ30に対して表示させる。制御部22は、透明スクリーン5上での表示物の表示位置及び表示態様を制御することができる。制御部22は、後述するように、第1ユーザU1の発話内容の文字情報に基づく文字列を、第1表示物DO1及び第1表示物DO1を左右反転した第2表示物DO2としてプロジェクタ30に投影させることができる。このため、制御部22は、通信部21を介して、第1表示物DO1と第2表示物DO2とを適宜の位置に表示させる画像信号をプロジェクタ30に送信する。
【0031】
制御部22は、所定の条件が満たされる場合、プロジェクタ30に誤変換の発生を示唆する通知を表示させる。「所定の条件」とは、クラウドサーバ60から取得している情報に誤変換を生じさせる条件、及び/又は、クラウドサーバ60から既に取得した文字情報が誤変換を含んでいる可能性が高いことを示す条件である。「所定の条件」は、マイク40から取得される音声信号及び/又はクラウドサーバ60から取得される文字情報に対する条件を含む。「誤変換の発生を示唆する通知」は、話者の発話及び/又は周辺の環境が誤変換を発生する可能性が高い状態にあること、及び/又は、取得した文字情報が誤変換を含んでいる可能性が有ることを示す通知である。制御部22は、プロジェクタ30に送信する画像信号に、誤変換の発生を示唆する通知を含ませることができる。
【0032】
記憶部23は、制御部22が実行するプログラム、制御部22が実行する処理に必要な情報、及び、制御部22が実行した結果得られた情報を記憶するように構成される。記憶部は、漢字を含む単語とその読み方とを対応付けた単語群を記憶してよい。単語群は、漢字とかなとの変換データである。単語群は、表示システム1の用途に応じて用意される。例えば、自治体の窓口用の表示システム1に使用される場合、自治体の窓口で高い頻度で使用される単語群が記憶部23に記憶される。
【0033】
記憶部23は、半導体記憶装置、磁気記憶装置、光記憶装置の少なくとも何れかを含んでよい。半導体記憶装置は、DRAM(Dynamic Random Access Memory)及びSRAM(Static Random Access Memory)等の揮発性メモリ、ならびに、ROM(Read Only Memory)及びフラシュメモリ等の不揮発性メモリを含んでよい。半導体記憶装置には、フラッシュメモリを用いたSSD(Solid State Drive)が含まれる。磁気記憶装置は、磁気テープ、フロッピー(登録商標)ディスク、ハードディスク等が含まれる。光記憶装置は、例えばCD(Compact Disc)、DVD(Digital Versatile Disc)、及びブルーレイ(Blu-ray(登録商標))等が含まれる。
【0034】
入力部24は、表示制御装置20に対する第1ユーザU1の操作を受け付ける装置である。入力部24は、例えば、タッチパネル、キーボード、マウス、及び、ペン入力デバイスを含む。入力部24は、表示制御装置20に内蔵されていてよい。入力部24は、表示制御装置20に外付けされた装置であってよい。
【0035】
プロジェクタ30は、第1ユーザU1の側に配置され、表示制御装置20から受信した画像信号に基づいて、透明スクリーン5に対して表示物を投影する。プロジェクタは、文字列からなる表示物に加え、静止画及び動画等を透明スクリーン5の所定の位置に投影してよい。
【0036】
クラウドサーバ60は、インターネット等のネットワークを介してアクセスできるサーバである。本実施形態のクラウドサーバ60は、音声認識サービスを提供する音声認識サーバである。クラウドサーバ60は、音声信号を受信すると受信した音声信号に対して音声認識処理を実行する。クラウドサーバ60は、音声認識の結果得られた文字情報を音声信号の送信元へ送信する。クラウドサーバ60の提供する文字情報は、一部の文字情報が漢字に変換された漢字かな交じりの文字情報と、漢字変換された文字の読み方の情報を含むかな文字による情報とを含む。クラウドサーバ60は音声認識処理を有料又は無料のサービスとして提供する。
【0037】
他の実施形態において、クラウドサーバ60は、音声信号を受信して変換した漢字かな交じりの文字情報のみを表示制御装置20に送信してよい。表示制御装置20の制御部22は、漢字かな交じりの文字情報に含まれる漢字を、表示制御装置20内又は表示制御装置20の外部の辞書により検索して、読み方の情報を取得してよい。表示制御装置20は、クラウドサーバ60ではなく自装置で取得した読み方の情報を用いて、以下に説明する処理を行ってよい。
【0038】
(表示システムの表示例)
次に、表示制御装置20からの画像信号に基づいて、プロジェクタ30が透明スクリーン5に表示する画像について説明する。透明スクリーン5において、スクリーン部11上の領域は、第1表示領域A1と第2表示領域A2とに分けて使用される。第1表示領域A1は、スクリーン部11と遮光部12とが重ならない領域である。第2表示領域A2は、スクリーン部11と遮光部12とが重なる領域である。第2表示領域A2は、所定の表示領域である。第1表示領域A1は、第1ユーザU1の発話内容を文字情報にして第2ユーザU2に対して表示するために使用される。プロジェクタ30が第1表示領域A1に表示する表示物を第1表示物DO1と呼ぶ。第2表示領域A2は、第2ユーザU2に対して表示される第1表示物DO1の内容を、第1ユーザU1が確認するために、第1ユーザU1に対して表示する領域である。プロジェクタ30が第2表示領域A2に表示する表示物を第2表示物DO2と呼ぶ。第2表示物DO2は、第1表示物DO1を左右反転した表示物である。
【0039】
図4に示すように、透明スクリーン5は、第1ユーザU1から見たとき、第1表示領域A1に第1表示物DO1が表示される。また、第2表示領域A2には、第2表示物DO2が表示される。第1ユーザU1に対して、第1表示物DO1は鏡文字として表示される。第2表示物DO2は正文字として表示される。「鏡文字」とは、正常な文字の左右を反転させた文字である。「正文字」とは、通常の態様で表示された文字である。
【0040】
一方、プロジェクタ30が透明スクリーン5に投影する同じ画像を、第2ユーザU2側から見ると、
図5に示すように、第1表示物DO1は正文字として表示される。第2表示物DO2は、遮光部12が無ければ鏡文字として表示される。第2表示物DO2は、第2ユーザU2に対して表示する必要のない不要な文字であり、鏡文字であるため第2ユーザU2には紛らわしく感じられうる。スクリーン部11の第2表示領域A2に遮光部12が重ねて配置されることにより、第2表示物DO2は、第2ユーザU2に対して表示されない。
【0041】
例えば、遮光部12が、特定の波長(例えば、赤色の波長)の波長の光の透過を妨げるダイクロイックフィルムである場合、プロジェクタ30は、第2表示物DO2を同じ特定の波長光で投影する。これにより、第2表示物DO2を透明スクリーン5に向けて投影する投影光は、遮光部12で反射され第1ユーザU1に視認される。一方、同じ投影光は、遮光部12を透過しにくいので、第2ユーザU2の眼には入りにくくなる。これによって、第2ユーザU2は、鏡文字である第2表示物DO2を視認しづらくなる。そのため、第2ユーザU2は、第2表示物DO2に煩わされにくいというメリットがある。
【0042】
図4及び
図5に示す図は、第1表示領域A1及び第2表示領域A2の配置の一例に過ぎない。第1表示領域A1及び第2表示領域A2の位置、大きさ及び形状等は適宜変更されてよい。
【0043】
一実施形態において、遮光部12としては、ダイクロイックフィルムではなく、透過した光の伝搬する角度を限定するフィルム又は部材を用いることができる。透過した光の伝搬方向を制御するフィルムには、視野角制御フィルムが含まれる。また、他の方法として、遮光部12として偏光フィルムを用いることもできる。プロジェクタ30から第2表示領域A2に照射する光の偏光方向を、遮光部12の偏光フィルムの偏光方向と直交させることにより、第2ユーザU2から第2表示物DO2を視認できないようにすることができる。
【0044】
(制御部の実行する表示制御装置の表示制御方法)
以下に、
図6を参照して表示制御装置20の制御部22が実行する表示制御方法について説明する。表示制御装置20は、以下に説明する制御部22が行う処理を、非一時的なコンピュータ可読媒体に記録されたプログラムを読み込んで実装するように構成されてよい。非一時的なコンピュータ可読媒体は、磁気記憶媒体、光学記憶媒体、光磁気記憶媒体、半導体記憶媒体を含むがこれらに限られない。磁気記憶媒体は、磁気ディスク、ハードディスク、磁気テープを含む。光学記憶媒体は、CD(Compact Disc)、DVD、ブルーレイディスク(Blu-ray(登録商標) Disc)等の光ディスクを含む。半導体記憶媒体は、ROM(Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリを含む。
【0045】
まず、第1ユーザU1が表示システム1を起動すると、制御部22は、マイク40から通信部21を介して音声信号を取得する(ステップS101)。本実施形態において、マイク40は、第1ユーザU1の近くに配置されるので、第1ユーザU1の発話した音声を取得する。制御部22は、マイク40から取得した音声信号から、雑音を低減し人の音声の信号を選択的に取得するように構成されてよい。
【0046】
制御部22は、通信部21を介して、クラウドサーバ60へステップS101で取得した音声信号を送信する(ステップS102)。クラウドサーバ60に送信された音声信号は、クラウドサーバ60により音声認識処理を受ける。クラウドサーバ60は、音声信号から人の声を抽出し自然言語処理により発話内容を示す文字情報に変換する。クラウドサーバ60は、発話内容をかな文字の文字情報と、かな文字の一部を漢字変換した漢字かな交じりの文字情報とを生成する。
【0047】
クラウドサーバ60は、生成した文字情報を表示制御装置20に対して送信する。音声信号に、人の声が含まれない場合、クラウドサーバ60は文字情報を表示制御装置20に送信しなくてよい。これにより、表示制御装置20の制御部22は、通信部21を介してステップS102で送信した音声信号から変換された文字情報を取得する(ステップS103)。
【0048】
制御部22は、文字情報を取得すると、取得した漢字かな交じりの文字情報に、誤変換が発生している可能性を評価する処理を実行する(ステップS104)。誤変換の発生の可能性を評価する方法は、1つに限られず複数種類の方法が存在してよい。制御部22は、複数の誤変換の発生の可能性を評価する処理を、順次又は並行して実行してよい。個々の誤変換の発生の可能性を評価する処理については、
図7から
図9を参照して後述する。
【0049】
ステップS105で、誤変換が発生している可能性が高いと評価された場合(ステップS105:Yes)、制御部22は、誤変換の発生を示唆する通知を生成する(ステップS106)。以下において、「誤変換の発生を示唆する通知」を単に「通知」とも呼ぶ。ステップS106の後、及び、ステップS105で誤変換が発生している可能性が高くはないと評価された場合(ステップS105:No)、制御部22は、ステップS107に進む。
【0050】
ステップS107において、制御部22は、クラウドサーバ60から取得した文字情報をプロジェクタ30により透明スクリーン5に表示させる。制御部22は、取得した文字情報に基づき、透明スクリーン5に投影したとき第2ユーザU2から見て正立して見える文字を第1表示物DO1とし、第1表示物DO1の左右を反転させた文字を第2表示物DO2とする。制御部22は、通信部21を介してプロジェクタ30に対して第1表示物DO1及び第2表示物DO2を含む画像信号を出力する。プロジェクタ30は、
図10に示すように、第1表示物DO1を第1表示領域A1に表示し、第2表示物DO2を第2表示領域A2に表示する。
【0051】
さらに、ステップS107の前に、ステップS106において誤変換の発生を示唆する通知が生成された場合、制御部22は、プロジェクタ30にその通知を表示させる。通知は、例えば、第1表示物DO1及び第2表示物DO2の文字情報に埋め込まれて表示されてよい。また、通知は、例えば、第2表示領域A2内に設けられた通知表示領域A3に表示されてよい。通知は、少なくとも第1ユーザU1が視認できるように表示される。制御部22は、一続きの文字情報に対応して割り当てられた、誤変換の発生を示す一つ以上のフラグを確認し、フラグがONの場合に通知を表示するように構成されてよい。
【0052】
誤変換の発生を示唆する通知は、誤変換された文字情報の正しい変換候補を含むことがある。制御部22は、プロジェクタ30に正しい変換候補を表示させてよい。その場合、制御部22は、入力部24から表示されている文字情報に代えて表示する変換候補の文字情報を選択する入力を受け付ける(ステップS108)。制御部22は、入力部24から変換候補の文字情報が選択されたこと示す入力を受けると、現在表示されている文字情報の少なくとも一部を、選択された変換候補を含む文字情報に変更する。表示中の文字情報に変換候補が無い場合、ステップS108は省略される。
【0053】
制御部22は、ステップS109で、入力部24からの音声変換処理の終了指示、又は、表示制御装置20の電源OFF等の終了の指示を取得しない限り(ステップS109:No)、ステップS101からS108を繰り返す。制御部22は、ステップS109で終了の指示を取得すると(ステップS109:No)、
図6のフローチャートの処理を終了させる。
【0054】
(誤変換の発生の可能性評価方法(1))
次に、
図7から
図9を参照して、ステップS104の誤変換の発生の可能性評価方法について説明する。
【0055】
図7は、マイク40からの音声の入力レートに基づいて、誤変換の発生を評価する処理である。
【0056】
制御部22は、マイク40から取得した音声の入力レートを取得又は算出する(ステップS201)。音声の入力レートは、所定時間に音声から認識される文字数、及び、音節数、並びに、所定時間に音声を記録したファイルの大きさの少なくとも何れかに基づいて決定されてよい。所定時間は、例えば、1秒間、3秒間及び5秒間等であるが、これらの時間に限られない。他の方法として、制御部22は、音声信号をクラウドサーバ60に送信し、変換された文字情報とともに音声の入力レートを受信してよい。
【0057】
制御部22は、取得した音声の入力レートが、第1の閾値よりも大きいか否かを判断する(ステップS202)。取得した音声の入力レートが、第1の閾値よりも大きいことは、プロジェクタ30に誤変換の発生を示唆する通知を表示させる処理を実行させるための所定の条件の1つである。第1の閾値として、例えば、その値を越えると話者の発話速度が速すぎて、クラウドサーバ60における音声認識処理、及び/又は、表示制御装置20における処理が間に合わない可能性が生じる値が設定される。音声の入力レートが、第1の閾値よりも大きいと、クラウドサーバ60において、変換された文字情報に抜け又は誤変換が生じることがある。
【0058】
ステップS202において、音声の入力レートが第1の閾値よりも大きいと判断されると(ステップS202:Yes)、制御部22は、誤変換の発生を示唆する通知の内容として、発話速度が速すぎることを設定する(ステップS203)。制御部22は、記憶部23の発話速度が速すぎることを示す特定のフラグをONにしいてよい。また、制御部22は、ステップS107で通知表示領域A3に表示するための発話速度が速すぎることを示す通知(発話速度に関する通知)を生成してよい。
【0059】
ステップS202において、音声の入力レートが第1の閾値よりも大きくないと判断されると(ステップS202:No)、制御部22は、音声の入力レートが、第2の閾値よりも小さいか否かを判断する(ステップS204)。音声の入力レートが、第2の閾値よりも小さいことは、所定の条件の1つである。第2の閾値は、例えば、その値を下回ると話者の発話速度が遅すぎて、クラウドサーバ60が一続きの発話と認識しなくなる可能性が生じる値、及び/又は、通常行われる会話における入力レートの下限値として表示システム1において決定された値が設定される。第2の閾値は第1の閾値よりも小さい。音声の入力レートが、第2の閾値よりも小さいと、クラウドサーバ60において、発話者の発話内容が意図しない位置で区切られて文字情報に変換される場合がある。また、音声の入力レートが、第2の閾値よりも小さいと、マイク40の異常及び入力感度が低すぎること等により音声信号が正常に取得されていない可能性がある。
【0060】
ステップS204において、音声の入力レートが第2の閾値よりも小さいと判断されると(ステップS204:Yes)、制御部22は、誤変換の発生を示唆する通知の内容として、発話速度が遅すぎることを設定する(ステップS205)。制御部22は、記憶部23の発話速度が遅すぎることを示す特定のフラグをONにしいてよい。また、制御部22は、ステップS107で通知表示領域A3に表示するための発話速度が遅すぎることの通知(発話速度に関する通知)、及び/又は、マイク40の入力感度を確認及び調整すべきことの通知(入力感度に関する通知)を生成してよい(
図10参照)。
【0061】
ステップS204において、音声の入力レートが第2の閾値よりも小さくないと判断されると(ステップS204:No)、制御部22は、音声の入力レートに問題はないと判定する。制御部22は、その情報を記憶部23に設定して
図6の処理に戻る。
【0062】
このように、制御部22は、音声の入力レートの速すぎ又は遅すぎを判断して、
図6のフローチャートのステップS107で、第1ユーザU1に対して、発話速度についての通知、又は、音声の入力感度に関する通知を表示させる。これにより、制御部22は、第1ユーザU1に対して適切な速度で発話することを促すことができる。また、制御部22は、マイク40の調整が必要な場合、その調整を促すことができる。
【0063】
(誤変換の発生の可能性評価方法(2))
図8は、クラウドサーバ60から取得した文字情報を文法解析することにより、誤変換の発生を評価する処理である。
【0064】
まず、制御部22は、クラウドサーバ60から取得した文字情報に対して、文法解析を行う(ステップS301)。文法解析には、公知の文法解析技術、及び/又は、公知の文法解析ツールを使用することができる。文法解析は「てにをは」等の助詞の確認、及び品詞(文末表現及び並列助詞等の付属語)の使い方の確認等を含む。
【0065】
ステップS301の結果、取得した文字情報に文法の誤りがある場合(ステップS302:Yes)、制御部22は、ステップS303の処理に進む。取得した文字情報に文法の誤りがあることは、所定の条件の1つである。マイク40が取得した音声信号が多くの雑音を含むとき、音声信号から変換された文字情報は文法の誤りを含みうる。
【0066】
ステップS303において、制御部22は、文字情報中の文法の誤りのあった箇所を抽出する。例えば、クラウドサーバ60から取得した文字情報に、「本日のご用件はななんでしょうか?」という一文が含まれる場合を想定する。制御部22は、全体の文字情報から「本日のご用件はななんでしょうか」の部分、特に、「ななんでしょうか」の部分を誤り箇所として抽出する。制御部22は、誤り箇所の抽出を、公知の文法解析技術、及び/又は、公知の文法解析ツールの出力を用いて行うことができる。制御部22は、文字情報に対する記憶部23の文法誤り有りを示すフラグをONにしてよい。
【0067】
次に、制御部22は、誤変換箇所の正しい変換を取得し、誤変換の発生を示唆する通知の内容として正誤情報を設定する。正誤情報は、一時的に記憶部23に記憶されてよい。正誤情報は、文字情報の誤変換された情報(例えば、「本日のご用件はななんでしょうか?」)と、正しい変換情報(例えば、「本日のご用件はなんでしょうか?」)とを組み合わせた情報である。
【0068】
正誤情報は、一例を
図11に示すように、ステップS107で、通知表示領域A3に表示してよい。誤変換された情報と正しい変換情報とは並べて表示されてよい。誤変換された情報には、誤り箇所を特定するため、下線が付されてよい。通知表示領域A3に正誤情報が表示されたとき、第1ユーザU1は、誤りを修正する場合入力部24を操作する。第1ユーザU1が入力部24を操作して、誤りの修正を指示すると、制御部22は第1表示領域A1及び第2表示領域A2に表示されている、第1表示物DO1及び第2表示物DO2の誤り箇所を正しく変換された情報に置き換える。
【0069】
ステップS302で文法誤りが無い場合(ステップS302:No)、制御部22は文法誤り無しと判定し(ステップS304)、その情報を記憶部23に設定して
図6の処理に戻る。
【0070】
このように、制御部22は、音声信号が変換された文字情報の文法誤りを検出して、正しく変換された文字情報を提示して、第1ユーザU1に修正を促すことができる。これによって、表示システム1は、誤変換を素早く訂正して、第2ユーザU2に対して正しく変換された文字情報を提示することができる。
【0071】
(誤変換の発生の可能性評価方法(3))
図9は、クラウドサーバ60から取得した文字情報に含まれる漢字の誤変換の可能性を評価する処理である。
【0072】
まず、制御部22は、クラウドサーバ60から取得した文字情報から、漢字変換された文字情報と、当該漢字を含む単語の読み方を抽出する(ステップS401)。
【0073】
次に、制御部22は、記憶部23に記憶された単語群の情報から、ステップS401で抽出された読み方に対応する漢字を含む単語を取得する(ステップS402)。一例として、記憶部23に、
図12に示される単語群が記憶されているものとする。例えば、制御部22がクラウドサーバ60から、漢字が「甲府」であり読み方が「こうふ」である文字情報を取得した場合を想定する。「甲府」は第1の漢字である。制御部22は、記憶部23の単語群から読み方が「こうふ」の単語を抽出する。制御部22は、単語群の情報から読み方が「こうふ」に対応する漢字として「交付」を取得する。「交付」は第2の漢字である。
【0074】
次に、制御部22は、クラウドサーバ60で変換された第1の漢字と、クラウドサーバ60から取得した読み方に対応して単語群から取得した第2の漢字とが同じか否かを判断する(ステップS403)。第1の漢字と、第2の漢字とが異なる場合(ステップS403:No)、制御部22はステップS404の処理に進む。例えば、上述の例では「交付」と「甲府」とは異なるので、ステップS403はNoとなる。クラウドサーバ60で変換された第1の漢字と、記憶部23の単語群から取得した第2の漢字とが異なることは、所定の条件の1つである。
【0075】
ステップS404で、制御部22は、誤変換の発生を示唆する通知の内容として、記憶部23の単語群に登録された漢字を他の変換候補とする情報を設定する。また、制御部22は、当該文字情報に関連付けられた漢字変換に誤りがある可能性が有ることを示すフラグをONにする。
【0076】
制御部22は、後のステップS107で、漢字変換に誤りがある可能性が有ることを示すフラグがONの場合、例えば
図10に示すように、第1表示領域A1及び第2表示領域A2に表示される文字情報に他の変換候補を表示することができる。第1ユーザU1は、ステップS108で入力部24を操作して、文字情報中の第1の漢字「甲府」に代えて第2の漢字「交付」を選択することができる。制御部22は、第1の漢字「甲府」に代えて第2の漢字「交付」を選択する入力を受け付けると、表示される漢字「甲府」を漢字「交付」に変更することができる。
【0077】
ステップS403で、クラウドサーバ60で変換された漢字と、記憶部23の単語群から取得した漢字とが同じである場合(ステップS403:Yes)、制御部22は、漢字変換誤りは無いと判定する(ステップS405)。制御部22は、その情報を記憶部23に記憶して
図6の処理に戻る。
【0078】
このように、制御部22は、よく使用される単語群の情報から音声信号が変換された文字情報に含まれる漢字の誤変換の可能性を判断することができる。さらに、制御部22は、他の変換候補を提示して、第1ユーザU1に修正を促すことができる。これによって、漢字の誤変換を素早く訂正して、第2ユーザU2に対して正しく変換された文字情報を提示することができる。
【0079】
以上説明したように、表示制御装置20は、制御部22が音声認識によって変換された文字情報に誤変換が発生している可能性があることを示す所定の条件が満たされる場合、第1ユーザU1に対して誤変換の発生を示唆する通知を表示させることができる。これにより第1ユーザU1は、音声認識の認識精度を低下させる要因に応じた対処をして、音声認識の精度を高めることができる。
【0080】
本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部に含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部を1つに組み合わせたり、或いは分割したりすることが可能である。
【0081】
本開示において「第1」及び「第2」等の記載は、当該構成を区別するための識別子である。本開示における「第1」及び「第2」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第1表示物DO1は、第2表示物DO2と識別子である「第1」と「第2」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第1」及び「第2」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。
【0082】
本開示の各実施形態に含まれる構成要素及び機能ブロックは、適宜同一のハードウェア又は異なるハードウェアに配置することができる。本開示の各実施形態のマイク40は、表示制御装置20又はプロジェクタ30と同じハードウェアに含まれてよい。本開示の実施形態の通信部21、制御部22、記憶部23、及び、入力部24の一部、或いは全部は、プロジェクタ30に含まれてもよい。
【0083】
本発明の表示部は、透明スクリーン5及びプロジェクタ30を含む構成に限定されない。表示部は、例えば、透明基板内に発光素子が配列された透明有機ELディスプレイ(OLED:Organic Light Emitting Diode)を含むものであってもよい。また、本発明は、実施例のように複数のユーザが表示部を挟んで向かい合って対話するものに限られない。表示部は、液晶ディスプレイ及び有機ELディスプレイ等の一般的な表示装置であってよい。その場合、表示装置は、第2表示領域A2に相当する第2ユーザから見えない表示領域を含まず、第1ユーザ及び第2ユーザの双方から見える表示装置の領域の一部に誤変換の発生を示唆する通知を表示してよい。表示部としては、タブレット端末のディスプレイを使用することもできる。その場合、タブレット本体を表示制御装置とし、タブレット端末のプロセッサを制御部としうる。
【0084】
上記実施形態において、音声認識処理はクラウドに置かれた音声認識サーバにより行うものとしたが、本発明はこれに限られない。音声認識処理は、表示制御装置20の近くに配置されたサーバ、又は、表示制御装置20自身で行ってもよい。
【符号の説明】
【0085】
1 表示システム
5 透明スクリーン(表示部)
10 基材
11 スクリーン部
12 遮光部
20 表示制御装置
21 通信部
22 制御部
23 記憶部
24 入力部
30 プロジェクタ(表示部)
40 マイク
60 クラウドサーバ
A1 第1表示領域
A2 第2表示領域(所定の表示領域)