特許第6392374号(P6392374)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マクセル株式会社の特許一覧

特許6392374ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
<>
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000002
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000003
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000004
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000005
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000006
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000007
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000008
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000009
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000010
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000011
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000012
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000013
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000014
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000015
  • 特許6392374-ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6392374
(24)【登録日】2018年8月31日
(45)【発行日】2018年9月19日
(54)【発明の名称】ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
(51)【国際特許分類】
   G06F 3/16 20060101AFI20180910BHJP
   G06F 17/28 20060101ALI20180910BHJP
   G06F 3/01 20060101ALI20180910BHJP
【FI】
   G06F3/16 650
   G06F3/16 620
   G06F17/28 690
   G06F3/01 510
【請求項の数】13
【全頁数】18
(21)【出願番号】特願2016-565770(P2016-565770)
(86)(22)【出願日】2014年12月25日
(86)【国際出願番号】JP2014084372
(87)【国際公開番号】WO2016103415
(87)【国際公開日】20160630
【審査請求日】2017年6月22日
(73)【特許権者】
【識別番号】317015179
【氏名又は名称】マクセル株式会社
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(72)【発明者】
【氏名】今川 制時
【審査官】 円子 英紀
(56)【参考文献】
【文献】 特開2014−164537(JP,A)
【文献】 特開平10−020883(JP,A)
【文献】 特開平09−081184(JP,A)
【文献】 特表2002−507298(JP,A)
【文献】 特開2002−244842(JP,A)
【文献】 特開2014−203454(JP,A)
【文献】 特開2005−031150(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G06F 3/01
G06F 3/048−3/0489
G06F 17/28
(57)【特許請求の範囲】
【請求項1】
ヘッドマウントディスプレイ装置において、
会話者の発話の入力を受け付け、音声情報を出力するマイクと、
前記音声情報を文字列に変換し、発話文字列を生成する文字列生成部と、
起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を格納する特定発話情報記憶部と、
前記特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成する特定発話抽出部と、
前記特定発話抽出信号を参照し、前記プログラム又は動作モードを、起動又は停止させる制御部と、
会話文を構成する会話辞書を記憶する会話辞書記憶部と、
前記会話辞書を参照し、前記発話文字列に対応する応答文字列を選択又は生成する応答文字列生成部と、
前記ヘッドマウントディスプレイ装置の使用者の眼前に配置される表示画面、及び当該表示画面に前記応答文字列を表示するための制御を行う表示制御部と、
を備え
前記文字列生成部は、複数の言語の内から、前記使用者の各言語の理解力に応じて一つを選択し、選択した言語を用いて前記発話文字列を生成し、
前記応答文字列生成部は、前記複数の言語の内から、前記使用者の発言力に応じて一つを選択し、選択した言語を用いて前記応答文字列を生成する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項2】
請求項1に記載のヘッドマウントディスプレイ装置において、
前記使用者を識別するために、前記使用者が予め発話した音声識別情報を記憶する使用者音声情報記憶部と、
前記マイクから出力された音声情報、及び前記音声識別情報の整合性を基に、前記会話者が前記使用者であるかを判断する発話者特定部と、を更に備え、
前記発話者特定部は、前記会話者が前記使用者であると判断した場合に、前記プログラム又は動作モードを、起動又は停止させる、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項3】
請求項1に記載のヘッドマウントディスプレイ装置において、
前記プログラム又は前記動作モードを起動する際の優先度を規定した起動規則情報を記憶する起動規則情報記憶部を更に備え、
前記制御部は、前記特定発話抽出信号を取得すると、前記起動規則情報において、当該特定発話抽出信号に従って前記プログラム又は前記動作モードを起動することが許容されている場合に、当該プログラム又は前記動作モードを起動する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項4】
請求項1に記載のヘッドマウントディスプレイ装置において、
前記複数の言語は、前記使用者が通常会話で用いる第一言語と、文字の理解はできるが前記第一言語よりも理解度が低い第二言語と、当該第二言語よりもさらに理解度が低く文字の理解が不可能な第三言語とを含み、
前記特定発話抽出部が抽出する前記特定発話は、前記使用者が前記第二言語又は第三言語で発話された挨拶、名前、及び発話の声紋の少なくとも一つである、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項5】
請求項4に記載のヘッドマウントディスプレイ装置において、
前記使用者を識別するために、前記使用者が予め発話した音声識別情報を記憶する使用者音声識別情報記憶部と、
前記マイクから出力された音声情報、及び前記音声識別情報の整合性を基に、前記会話者が前記使用者であるかを判断する発話者特定部と、を更に備え、
前記複数の言語は、前記使用者が発言できるが、前記第一言語よりも発言力が低い第四言語と、当該第四言語よりもさらに発言力が低く、発言が不可能な第五言語とを含み
前記発話者特定部が、前記音声情報は前記使用者とは異なる会話者である対話者によるものと判断した場合、前記文字列生成部は、前記音声情報が第二言語によるものであると判断すると前記第二言語を用いて前記発話文字列し、前記音声情報が前記第一言語又は前記第三言語によるものであると判断すると、前記第一言語を用いて前記発話文字列を生成し、前記応答文字列生成部は、前記音声情報が第四言語によるものであると判断すると前記第四言語を用いて前記応答文字列を生成し、前記音声情報が前記第五言語によるものであると判断すると、第五言語での応答発話の発音に対応した応答文字列をローマ字あるいはカタカナで生成する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項6】
請求項5記載のヘッドマウントディスプレイ装置であって、
前記文字列生成部は、前記音声情報が第二言語によるものであると判断された場合、前記対話者の発話の長さ又は発話中の単語の難易度に応じて、前記発話文字列を構成する言語を前記第二言語から第一言語に変更する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項7】
請求項5記載のヘッドマウントディスプレイ装置であって、
前記文字列生成部は、言語が異なる複数の音声情報を取得すると、当該複数の音声情報のそれぞれについて前記第一言語を用いた前記発話文字列を生成する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項8】
請求項1記載のヘッドマウントディスプレイ装置であって、
前記使用者の周辺環境を撮像し、撮像画像を生成するカメラと、
前記撮像画像に、前記使用者が装着しているヘッドマウントディスプレイ装置と同機種の他のヘッドマウントディスプレイ装置が撮像されていることを示す特徴画像を検出する画像処理部と、備え、
前記制御部は、前記特徴画像が検出された場合は、前記文字列生成部に対して前記使用者が通常会話で用いる第一言語で前記発話文字列を生成することを指示する第一言語使用信号を出力し、前記応答文字列生成部に対して、前記応答文字列の生成動作を停止させる停止信号を出力する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項9】
請求項1記載のヘッドマウントディスプレイ装置であって、
外部装置と通信接続をする通信部を更に備え、
前記通信部は、自機と同機種の他のヘッドマウントディスプレイ装置と通信が確立した場合、前記制御部は、前記文字列生成部に対して前記使用者が通常会話で用いる第一言語で前記発話文字列を生成することを指示する第一言語使用信号を出力し、前記応答文字列生成部に対して、前記応答文字列の生成動作を停止させる停止信号を出力する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項10】
請求項2に記載のヘッドマウントディスプレイ装置であって、
前記発話者特定部が、前記音声情報及び前記音声識別情報に基づいて、前記音声情報を発話した者が使用者として登録されていない者であると判断した場合、前記文字列生成部は、初期設定に用いる設定文字列を生成し、前記表示制御部は、前記設定文字列を前記表示画面に表示し、前記制御部は、前記使用者が前記設定文字列に対して応答して発話した音声情報に基づいて、初期設定登録を行う、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項11】
請求項1に記載のヘッドマウントディスプレイ装置であって、
前記文字列生成部は、敬語及び敬称を使わない基本語により前記発話文字列を生成する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項12】
請求項1に記載のヘッドマウントディスプレイ装置であって、
前記表示制御部は、副詞及び形容詞を省略した前記発話文字列を表示する、又は前記副詞及び形容詞を構成する文字のサイズを標準文字サイズより小さくして表示する、
ことを特徴とするヘッドマウントディスプレイ装置
【請求項13】
ヘッドマウントディスプレイ装置の操作方法において、
会話者の発話の入力を受け付け、音声情報を出力するステップと、
前記音声情報を文字列に変換し、発話文字列を生成するステップと、
起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成するステップと、
前記特定発話抽出信号を参照し、前記プログラム又は動作モードを、起動又は停止させるステップと、
会話文を構成する会話辞書を記憶するステップと、
前記会話辞書を参照し、前記発話文字列に対応する応答文字列を選択又は生成する応答文字列生成ステップと、
前記ヘッドマウントディスプレイ装置の使用者の眼前に配置される表示画面、及び当該表示画面に前記応答文字列を表示するステップと、
を備え
前記応答文字列生成ステップは、複数の言語の内から、前記使用者の各言語の理解力に応じて一つを選択し、選択した言語を用いて前記発話文字列を生成するステップを含むと共に、
前記複数の言語の内から、前記使用者の発言力に応じて一つを選択し、選択した言語を用いて前記応答文字列を生成するステップを含む、
ことを特徴とするヘッドマウントディスプレイ装置の操作方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ヘッドマウントディスプレイ装置(以下「HMD装置」と略記する)の操作技術に関する。
【背景技術】
【0002】
本技術分野の背景技術として、特許文献1には、「眼鏡ユニットの視野内にある単語または文章よりなる文字列を撮像可能なカメラと、カメラによって撮像された文字列の画像信号を、信号伝達線路を介して、翻訳ユニットに出力する制御部とを備え、翻訳ユニットが、眼鏡ユニットの制御部から出力される文字列の画像信号を文字認識するOCRと、OCRが文字認識した文字列を翻訳して、翻訳結果を、信号伝達線路を介して、眼鏡ユニットに出力する制御部を備え、眼鏡ユニットの表示素子が、翻訳結果を表示部に表示するように構成された電子辞書。(要約抜粋)」が開示されている。
【0003】
また、特許文献2には、相手の発言内容に対する回答を表示するシステムについて記載があり、「利用者と他者との間の会話を支援する会話支援装置であって、利用者による第1言語の自然言語文を含む原言語表現を入力する原言語表現入力部と、原言語表現を第2言語による別表現に変換する原言語変換部と、別表現に対して他者が回答を行うための回答画面を生成する回答画面生成部と、原言語表現と別表現及び回答画面を同一画面上に表示する表示部を有する(要約抜粋)」会話支援システムが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007-280163号公報
【特許文献2】特開2005-222316号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
HMD装置を異言語翻訳機や会話補助装置として利用することは、スマートフォンや電子辞書に比べ、装置を持つ必要が無いため、外出先や荷物を抱えている状況など普段の生活に馴染みやすいとい利点がある。
【0006】
しかし、HMD装置を用いたシステムを起動したり、動作モードを変更したりする場合にはユーザ自身が行う必要がある。そのため、両手がふさがっている場合には、依然として操作性が良好ではない。この点について、特許文献1及び特許文献2で考慮されていない。
【0007】
本発明は、上記事情に鑑みてなされたものであり、HMD装置を用いたシステムの操作性をより向上させることができる技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、会話者の発話の入力を受け付け、音声情報を出力し、前記音声情報を文字列に変換し、発話文字列を生成し、起動又は停止させたいプログラム及び動作モードの少なくとも一つ、及びそれらプログラム及び動作モードの其々に対し、起動又は停止させるための特定発話を関連付けた特定発話情報を参照して、前記発話文字列に含まれる前記特定発話を抽出し、その抽出結果を示す特定発話抽出信号を生成し、前記特定発話抽出信号を参照して前記プログラム又は動作モードを起動又は停止させることを特徴とする。
【発明の効果】
【0009】
本発明によれば、HMD装置を用いたシステムの操作性をより向上させることができる技術を提供することができる。なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係る起動・停止プログラムを搭載したHMD装置の外観構成例の概要を示した斜視図
図2】HMD装置のハードウェア構成を示す図
図3】アプリ制御装置の機能構成を示すブロック図
図4】本実施形態に係るHMD装置の起動、停止処理(操作方法)の流れを示すフローチャート
図5】特定発話情報テーブルの一例を示す図
図6】第二実施形態に係る翻訳プログラムの制御装置の機能構成を示すブロック図
図7】言語種類情報テーブルの一例を示す図
図8】翻訳プログラムの起動、停止処理のタイムチャート
図9】第二実施形態に係る翻訳プログラムの処理の流れを示すフローチャート
図10】第三実施形態におけるHMD装置を示すハードウェア構成図
図11】共通、肯定、否定の3分類の応答文字列をタグ表示した例を示す図
図12図11の例において、使用者が発話した応答文の表示態様を変更した例を示す図
図13】タグの項目だけを表示した表示例を示す図
図14】応答文字列をタグにより階層表示した例を示す図
図15】応答文字列を一定の基準に沿って順序立てて表示した例を示す図
【発明を実施するための形態】
【0011】
以下、図面を用いて本発明の実施形態について説明する。全図を通じて同一の構成には同一の符号を付して重複説明を省略する。
【0012】
<第一実施形態>
第一実施形態は、HMD装置で実行されるプログラム及び動作モードの一つを、発話を基に起動・停止させる実施形態である。まず、図1乃至図2を参照してHMDシステムの概略構成について説明する。ここで図1は、本実施形態に係る起動・停止プログラムを搭載したHMD装置の外観構成例の概要を示した斜視図である。図2は、HMD装置のハードウェア構成を示す図である。
【0013】
図1に示すHMDシステム10は、HMD装置1とアプリ制御装置5とを一体に構成される。HMD装置1は、HMD装置1の使用者の頭部にHMD装置1を装着させた状態を維持するための装着体(本体部)1aと、使用者の視野内に映像を表示する機能を備えた半透過型の(透過性を有する)表示画面2と、使用者とほぼ同じ視線で周辺状況(特に対話相手)を撮像するカメラ3と、使用者及び対話者(これらを総称して「会話者」という)の発話を集音し、音声情報を出力するマイク4と、撮像情報及び音声情報の入力を基に、表示画面2への表示処理を含むアプリケーションプログラム及び動作モードを起動及び停止させるアプリ制御装置5を備える。
【0014】
本実施形態1では、装着体1aはメガネのフレームにより構成され、表示画面2は、フレームにはめ込んで使用者の眼前に位置させる。アプリ制御装置5は、メガネのフレームに取付けられる。カメラ3及びマイク4は、アプリ制御装置5の前面に配置される。
【0015】
なお、本実施形態ではアプリ制御装置5を装着体1aと一体に構成したが、アプリ制御装置5を装着体1aとは別体に構成し、通信ケーブルを介して有線接続してもよいし、例えばBluetooth(登録商標)を用いて無線接続してもよい。一体に構成するとHMD装置1の取扱いが便利になり、別体に構成すると、アプリ制御装置5をフレームに取り付けられるサイズに構成するという制約がなくなり、設計上の自由度が向上する。特に、第二実施形態で説明する翻訳システムに本発明を適用する場合、各種辞書を記憶する記憶装置が必要となり、アプリ制御装置5がより大きくなる傾向があるが、この実施形態において別体構成は好適である。
【0016】
図2を参照して本実施形態に係るアプリ制御装置5のハードウェア構成について説明する。図2は、アプリ制御装置5のハードウェア構成を示す図である。
【0017】
図2に示すように、アプリ制御装置5は、CPU(Central Processing Unit)51、RAM(Random Access Memory)52、ROM(Read Only Memory)53、HDD(Hard Disk Drive)54、I/F55、及びバス58含む。そして、CPU51、RAM52、ROM53、HDD54、及びI/F55がバス58を介して互いに接続されて構成される。ROM(Read Only Memory)53、HDD(Hard Disk Drive)54は、プログラムを記憶できる記憶媒体であればその種類を問わず、SSD(Solid State Drive)等、よりアプリ制御装置5を小型化しやすい媒体に適宜変更してもよい。
【0018】
アプリ制御装置5は、I/F55を介して表示画面2、カメラ3、及びマイク4を含むHMD装置1に接続される。そして、表示画面2には、アプリ制御装置5から映像出力信号が出力される。カメラ3は使用者とほぼ同じ視線で撮像した撮像画像をアプリ制御装置5に出力する。マイク4は、使用者周辺の音声を集音するが、使用者の前方の音に対してより高い感度を有するよう、指向性を持たせてもよい。
【0019】
図3を参照して、アプリ制御装置5の機能構成について説明する。図3は、アプリ制御装置5の機能構成を示すブロック図である。
【0020】
図3に示すように、アプリ制御装置5は、発話者特定部510、文字列生成部520、特定発話抽出部530、コントローラ540、及びアプリケーションプログラム(以下「アプリ」という)1、アプリ2、アプリ3を含む。これら発話者特定部510、文字列生成部520、特定発話抽出部530、及びコントローラ540の其々は、各構成を実現するソフトウェアとこのソフトウェアを実行するハードウェアとが協働して構成される。各ブロックの機能の詳細は、フローチャートを参照して詳述する。
【0021】
更にアプリ制御装置5は、使用者音声情報記憶部511、音声辞書記憶部521、及び特定発話情報記憶部531を備える。
【0022】
使用者音声情報記憶部511は、HMD装置1の使用者を識別する際に参照する、使用者の音声識別情報を記憶する。
【0023】
音声辞書記憶部521は、音声情報と表音文字又は表意文字とを関連付けた音声辞書を記憶する。
【0024】
特定発話情報記憶部531は、起動させたいプログラム、及び動作モードの少なくとも一つ(例えばアプリ1、アプリ2、動作モード1)、及びそれらプログラム及び動作モードを起動、停止させるための特定発話を関連付けた特定発話情報を記憶する。また、本実施形態では、特定発話情報において、各プログラムまたは動作モードを起動又する際の優先度も合わせて規定する。従って、本実施形態では特定発話情報は起動規則情報も含み、特定発話情報記憶部531は起動規則情報記憶部としても機能する。
【0025】
次に各ブロックの関係について説明する。マイク4は、使用者あるいは対話者の発話を集音して生成した音声情報を発話者特定部510に出力する。文字列生成部520は音声情報を表音文字からなる文字列(以下、「発話者文字列」という)を生成し、特定発話抽出部530に出力する。特定発話抽出部530は、プログラムまたは動作モードを起動、停止させるための特定発話の抽出処理を行う。特定発話抽出部530は、起動させるための特定発話が抽出された時にはその結果を示す起動特定発話抽出信号を生成する。また、特定発話抽出部530は、停止させるための特定発話が抽出された時にはその結果を示す停止特定発話抽出信号を生成する。
【0026】
特定発話抽出部530は、起動特定発話抽出信号及び停止特定発話抽出信号をコントローラ(制御部に相当する)540に出力する。コントローラ540は、起動特定発話抽出信号及び停止特定発話抽出信号に従って、プログラム又は動作モードを起動させるための起動信号、又は停止させるための停止信号を出力する。
【0027】
次に図4乃至図5を参照して、本実施形態に係るHMD装置1の起動、停止処理の流れについて説明する。図4は、本実施形態に係るHMD装置1の起動、停止処理の流れを示すフローチャートである。図5は、特定発話情報テーブルの一例を示す。
【0028】
マイク4が発話を集音して音声情報を生成し、発話者特定部510が、発話者は使用者であるか否かを判断する(S01)。使用者でなければ(S01/No)、発話者特定部510は音声情報を文字列生成部520に出力することなく、発話者の特定処理を繰り返す。使用者であれば(S01/Yes)、発話者特定部510は音声情報を文字列生成部520に出力する。
【0029】
発話者特定部510は、マイク4から音声情報を取得し、例えばその音声情報に対して高速フーリエ変換処理を施す。そして得られた周波数分析結果と使用者音声情報記憶部511に記憶された音声識別情報との整合性、又は音声情報の声紋と、音声識別情報の声紋との整合性を基に、使用者か否かの判断を判断する。
【0030】
文字列生成部520は、音声情報を発話文字列に変換し(S02)、特定発話抽出部530に出力する。文字列生成部520は、音声辞書を参照し、マイク4から送られた音声情報を表音文字からなる発話文字列に変換する。
【0031】
特定発話抽出部530は、発話文字列と、特定発話情報記憶部531に記憶された特定発話情報との整合性を基に、特定発話を抽出する(S03)。
【0032】
ここで特定発話とは、各プログラムの起動動作、及び停止動作の其々に対して関連付けられた発話である。図5に示すように、特定発話情報は、起動又は停止操作の対象となるプログラム名と、それを起動させるための起動用特定発話及び停止させるための停止用特定発話とを関連付けて規定したデータである。更に本実施形態では、一のプログラムが起動中は、他のプログラムの起動用特定発話を抽出しても、当該他のプログラムを起動させない、所謂排他制御の有無も特定発話情報において規定する。図5では、ドライブアシストプログラムは排他制御「有」と規定される。そのため、ドライブアシストプログラムの実行中は、他のプログラムの起動ができないだけではなく、他のプログラムが実行中に、ドライブアシストプログラムの起動用特定発話が検出されると、起動中の他のプログラムは強制終了して、ドライブアシストのみを実行させる。これにより、ドライブアシストプログラムを実行中に、AR(Augmented Reality)プログラムや翻訳プログラムが実行され、ドライバーの視野に運転には関係がない拡張表示や文字列が表示されて視認性が阻害されるといった不具合を防ぐことできる。
【0033】
上記の例では、プログラムを例に挙げて説明したが、1つのプログラムの中に複数の操作モードが含まれる場合には、操作モード毎に特定発話を規定してもよい。更に、排他制御ではなく、優先度を複数段階で設定し、起動・停止対象となるプログラムや動作モードに順位付けを行ってもよい。
【0034】
特定発話が抽出され(S04/YES)、その特定発話がプログラムまたは動作モードを起動させるための起動特定発話である場合(S05/Yes)、起動のトリガとなる特定発話を検出したことを示す起動特定発話抽出信号をコントローラ540に対して出力する(S06)。特定発話が抽出され(S04/YES)、その特定発話がプログラムまたは動作モードを停止させるための特定発話でない場合(S05/No)、停止のトリガとなる特定発話を検出したことを示す停止特定発話抽出信号をコントローラ540に対して出力する(S07)。また、特定発話が抽出されなければ(S04/No)、ステップS01へ戻り処理を繰り返す。起動特定発話抽出信号及び停止特定発話抽出信号は、どのプログラムの起動又は停止をさせるための特定発話が抽出されたかを示す情報であるので、これらの信号を参照すると起動・停止すべきプログラムや操作モードをコントローラ540が判断することができる。
【0035】
コントローラ540は、起動特定発話抽出信号及び停止特定発話抽出信号を受信すると、起動又は停止操作の対象となるプログラム又は操作モードに対して、起動信号(S08)又は停止信号(S09)を出力する。これにより、対象となるプログラム又は操作モードが起動(S10)又は停止(S11)する。
【0036】
本実施形態によれば、HMD装置1を用いて実行させたいプログラムや操作モードの起動、停止処理に際し、使用者は発話するだけでよいので操作性が向上する。また、特定発話の抽出に際し、使用者による発話であるかを識別してから起動・停止処理が実行されるので、使用者以外の者の発話の中に、起動用特定発話又は停止用特定発話が含まれていても、それにより使用者が意図しないプログラムや操作モードの起動、停止動作が実行されることを防ぐことができる。
【0037】
<第二実施形態>
第二実施形態は、第一実施形態のプログラムとして翻訳プログラムを用いた実施形態である。まず、図6及び図7を参照して概略構成について説明する。図6は、第二実施形態に係る翻訳プログラムの制御装置(以下「翻訳制御装置」という)の機能構成を示すブロック図である。図7は、言語種類情報テーブルの一例を示す図である。
【0038】
図6に示す第二実施形態に係るHMD装置1aは、第一実施形態のアプリ制御装置5を翻訳制御装置5aに置き換えて構成される。翻訳制御装置5aは、アプリ制御装置5の構成に加えて、言語種類情報記憶部522、応答文字列生成部610、応答文辞書記憶部611、画像処理部620、及び表示制御部630を備える。
【0039】
言語種類記憶部522には、図7に示す言語種類情報が格納される。言語種類情報は、各言語に対する使用者の理解力(インプット能力)と、発言力(アウトプット能力)とを規定する。各言語は、理解力及び発言力に応じた言語種類に分類される。言語種類は、使用者が通常会話で用いる第一言語、文字の理解はできるが第一言語よりも理解度が低い第二言語、当該第二言語よりもさらに理解度が低く文字の理解が不可能な第三言語、使用者が発言できるが、第一言語よりも発言力が低い第四言語と、第四言語よりもさらに発言力が低く、発言が不可能な第五言語とがある。例えば、日本語は、理解力及び発言力において共に第一言語、英語は、第二言語及び第四言語、中国語は、第三言語及び第五言語に相当する。
【0040】
応答文字列生成部610は、文字列生成部520から取得した発話文字列に対する応答文(文章、単語単位の双方の場合を含む)を、応答文辞書記憶部611に記憶された応答文辞書から選択、又は応答文辞書を基に生成する。
【0041】
画像処理部620は、カメラ3から対話者を撮像した撮像画像を取得し、予めHMD装置に備えられた特徴画像(バーコードやマーク)を基に、対話者が使用者と同じHMD装置1装着しているかの判断に用いる対話者装着信号を生成し、コントローラ540に出力する。
【0042】
表示制御部630は、文字列生成部520から取得した発話文字列、及び応答文字列生成部610から取得した応答文字列を表示画面2に表示する。なお、応答文字列の表示態様は様々あり、応答文字列をそのまま表示してもよいし、後述する第四実施形態のようにタグを用いた表示を行ってもよい。
【0043】
図8は翻訳プログラムの起動、停止処理のタイムチャートである。図8に示すように、翻訳制御装置5aは、ステップS06において、特定発話抽出部530が起動特定発話抽出信号を生成する。そしてステップS07において、コントローラ540が送られた起動特定発話抽出信号を受信すると、応答文字列生成部610、画像処理部620及び表示制御部630を起動するための起動信号を各ブロックに送信する。そして、各ブロックが起動し、これらの動作によって本実施形態に係るHMD装置は、使用者の発話に応じて自動的に対話者の発話の文字列表示や応答に関連する文字列の表示を行うことが出来る。
【0044】
また、特定発話抽出部530が停止用の特定発話を検出すると、検出したことを通知する停止用検出信号をコントローラ540に送る。コントローラ540は送られた停止用検出信号をトリガにして停止信号を文字列生成部520と応答文字列生成部610と表示制御部630に送り、各ブロックを停止する。
【0045】
図9を参照して、第二実施形態に係るHMD装置を用いた翻訳システムの処理の流れについて説明する。図9は、第二実施形態に係る翻訳プログラムの処理の流れを示すフローチャートである。以下では、対話者もHMD装置を使用している場合に、対話者発言の翻訳のみを表示する態様について説明する。以下の例では、HMD装置1は、対話者が同HMD装置を使用しているか否かを判断し、使用していると判断した場合には、文字列生成部520が第一言語で文字列を生成するように自動的に動作を切り替える。HMD装置1の起動も特定発話の抽出を契機として行う。この際、特定発話抽出部が抽出する特定発話は、第二言語又は第三言語で発話された挨拶、名前、及び発話の声紋の少なくとも一つであってもよい。
【0046】
具体的には、既述のステップS10で、応答文字列生成部610、画像処理部620及び表示制御部630が起動した後、マイク4が再び発話を集音し音声情報を生成する。そして、発話者特定部510がHMD装置1aの使用者とは異なる発話者の対話であると判断すると(S21/Yes)、コントローラ540が対話者使用信号の有無について判断する(S22)。発話者が使用者であれば(S21/No)、発話者からの発話を待機する。
【0047】
対話者使用信号の有無の判断処理の一例として、例えば、カメラ3が出力した撮影画像を用いる手法がある。HMD装置1aにバーコードや特有のマークを予め付けておく。そして、画像処理部620が、撮影画像からバーコードやマークが撮像されている領域を抽出し、その抽出された領域(特徴画像)と、予め参照用に記憶されているバーコードやマークの画像と、のパターンマッチングを実行する。画像処理部620は、その結果をコントローラ540に出力する。コントローラ540は、パターンマッチング結果を基に、対話者がHMD装置を装着しているかを判断する。この場合、コントローラ540がHMD装置1aの装着の有無を判断するために用いるパターンマッチングの結果を示す信号が対話者使用信号に相当する。
【0048】
対話者使用信号の有無の判断処理の他例として、HMD装置1aに通信部710、、例えばRFID(Radio Frequency IDentification)と検出器、Bluetooth(登録商標)による相互通信機装置を備え、互いのIDを互いに受信することでも実現可能である。
【0049】
コントローラ540は対話者が同HMD装置を使用していることを判断すると(S22/Yes)、文字列生成部520に対して使用者が通常会話で用いる第一言語で発話文字列を生成することを指示する第一言語使用信号を出力し、応答文字列生成部610に対して、応答文字列の生成動作を停止させる停止信号を出力する、
【0050】
文字列生成部520と応答文字列生成部610は送られた信号に基づいて、使用者の第一言語で発話文字列を生成し、応答文字列の生成は停止するように動作を切り替える(S23)。
【0051】
対話者が同HMD装置使用していない場合は、対話者の使用言語を判断する(S24)。第二言語の場合(S24/第二言語)、文字列生成部520は第二言語で発話文字列を生成する(S25)。第二言語以外の言語、すなわち第一言語又は第三言語の場合(S24/第一言語or第三言語)、文字列生成部520は使用者の第一言語で発話文字列を生成するように動作を切り替える(S23)。
【0052】
さらに対話者の発話が所定時間以上ある場合(長文の場合)、あるいは使用語彙の難易度が相対的に高い場合(S26/Yes)、文字列生成部520は、第一言語に切り替える(S23)。対話者の発話が所定時間未満あるいは使用語彙の難易度が相対的に低い場合(S26/No)、第二言語で発話文字列の生成を続行する。上記所定時間および難易度の高い単語は事前に登録しておく。
【0053】
応答文字列生成部610は、対話者が発話に用いた言語の種類を判断する。第四言語であると判断すると(S27/第四言語)、第四言語で応答文字列で生成し、表示する(S28)。対話者の発話が第五言語である判断すると(S27/第五言語)、第五言語の音声を第一言語で構成する文字列で応答文字列を生成し、表示する(S29)。例えば使用者の第一言語が日本語、第四言語が英語、第五言語が中国語の場合、対話者の英語で発話したときには英語による応答文字列を生成し、対話者の中国語で発話したときには中国語での応答に関連した文字列をカタカナあるいはローマ字で生成する。
【0054】
本実施形態によれば、翻訳プログラムが起動した後、対話者の発話や対話者のHMD装置の到着の有無に応じて、発話文字列及び応答文字列に用いる言語の種類、すなわち動作モードを設定、変更することができる。このとき、HMD装置の使用者は、動作モードの設定、変更のための操作入力を行う必要がないので、HMD装置の操作性の向上が期待できる。
【0055】
上記では、対話者が1人である時を想定し、発話文字列を第二言語または第一言語を用いて生成、表示したが、発話者特定部510が複数人の対話者を検出した場合、及び文字列生成部520が複数の言語で発話されていると判断すると、上記の処理に関らず、発話文字列は第一言語で生成するようにしてもよい。
【0056】
また、上記では、ステップS22において対話者使用信号の有無を判断したが、このステップは必須ではない。その場合、ステップS22において文字列生成部520が、対話者が第一言語で話しているかを判断してもよい。
【0057】
本実施形態に係るHMD装置1は、使用者音声情報記憶部に記憶すべき使用者音声情報を、使用者との対話形式で自動登録するように動作する。このため、コントローラ540は、マイク4から得られる使用者の発話情報と、使用者音声情報記憶部511の内部で保有する事前登録情報から、使用者が初回の使用であることを検出する。コントローラ540は使用者が初回の使用であることを検出した場合、初期登録固有の動作をするように各ブロックを制御する。
【0058】
具体的には、まずコントローラ540は文字列生成部520が適当な数値と当該数値を母国語で読むように指示文字列を複数の言語で出力するように制御する。これにより使用者の母国語が確定する。
【0059】
次に確定した言語を用いて、使用者が第一言語を選択するように指示文字列と複数の選択肢を出力するように制御する。このとき文字列生成部520は、使用者が数値で回答できるように選択肢には番号を付け、数値で回答する旨を指示する文字列を出力する。これにより使用者の第一言語が確定する。以下、第二言語、第三言語、第四言語、第五言語を同様に確定させる。
【0060】
次に、コントローラ540は、自動起動を行うための特定発話情報の登録を行う。そのためコントローラ540は、文字列生成部520が第二言語および第四言語で所定の挨拶に関わる文字列とこれを読む旨を指示する文字列を出力するように制御する。同様に自動停止を行うため特定発話の登録を行う。挨拶に関わる文字列には使用者の第一言語以外の人名あるいは呼び名を加えても良い。
【0061】
また、使用者の第二言語や第四言語の習熟度を計測するために、コントローラ540は単語や短文、長文を表示画面2に表示して、理解度を検証する。この場合、使用者へ表示文字列を第一言語で読むように指示を出しても良いが、理解しているか否かの判断は使用者に任せて、使用者の「yes」「no」の発話をもって習熟度を設定する、あるいは応答発話まで時間によって習熟度を設定するほうが短時間で当該設定を終えることができる。
【0062】
文字列生成部520は、使用者に適した文字サイズを確定するために、標準文字サイズを設定する旨の文字列と、文字サイズの判定に使用する文字列の表示と、文字サイズを確定するための発話方法とを表示するとともに、判定に使用する文字を最小サイズから徐々に大きくしていき、使用者の文字サイズ確定発話を検出して標準文字サイズを確定する。
【0063】
本実施形態では、応答文字列生成部610は文字列生成部520が変換した文字列に基づいて応答文字列を生成したが、応答文字列生成部610はマイク4から得た音声情報に基づいて応答文字列を生成しても同等の効果が得られる。
【0064】
さらに本実施形態では、言語種類や音声識別情報等の事前登録情報は個々のHMD装置が行ったが、本発明はこれに限定されない。例えば、一度行った事前登録情報を、通信装置を介してサーバなどのデータ記憶装置に使用者のIDと関連付けを行って保存しても良い。この場合、いずれかのHMD装置で事前登録すれば、他のHMDヘッドマウントディスプレイ装置の使用が初回の場合でも事前登録情報をサーバから検索し、ダウンロードすることで事前登録が不要になる。また、事前登録情報の検索可能範囲を限定するために使用者のIDをグルーピングしても良い。
【0065】
また、本実施形態では、文字列生成部520は対話者の発話に基づいて文字列を生成するように動作したが、本発明はこれに限定されない。例えば、使用者が特定の発話と第一言語に変換したい言葉とをマイクに入力した場合に、当該の言葉を第一言語で表示する、あるいは特定の発話と第一言語から変換したい言葉、変換したい言語をマイクに入力した場合に当該の言葉を当該言語で表示しても良い。
【0066】
また、文字列生成部520が発話文字列を表示する際に、難易度に応じて第一言語の全文の訳文を表示してもよいし、単語ごとに訳を表示してもよい。
【0067】
上記初期設定に関する一連の動作は、発話者特定部510が音声情報及び音声識別情報に基づいて、音声情報を発話した者が使用者として登録されていない者であると判断し、文字列生成部520が、初期設定に用いる設定文字列を生成し、表示制御部630が設定文字列を表示画面2に表示し、コントローラ540が、使用者が設定文字列に対して応答して発話した音声情報に基づいて行ってもよい。ここでいう初期設定に関する一連の動作には、特定発話の登録も含む。
【0068】
また、上記「初期設定に用いる設定文字列」とは、使用者が通常会話で得意とする第一言語および使用者が文字の理解可能な第二言語、使用者が文字の理解が不可能な第三言語と問う文字列と、使用者が発言可能な第四言語、使用者が発言不可能な第五言語を問う質問形式の文字列、あるいは挨拶の文言や人名を複数の言語で表した文字列と該文字列を発話するように促す文字列である。質問形式の文字列は、「はい」または「いいえ」で回答可能な質問文、あるいは各文字列の先頭に数字を付加し、当該数字で回答可能な質問文である。
【0069】
<第三実施形態>
第三実施形態は、対話者の発話を、通信装置を経由して取得するHMD装置の例を説明する。図10は、第三実施形態におけるHMD装置を示すハードウェア構成図の例である。図10のHMD装置1bは、通信部710を経由して発話情報を得る点で異なる。通信部710は、対話者の発話情報を特定のフォーマットから音声情報に変換し、変換した音声情報を発話者特定部510に出力する。
【0070】
この場合、コントローラ540は、対話者が同ヘッドマウントディスプレイを使用しているか否かについて、双方のヘッドマウントディスプレイ装置が通信部710の通信フォーマットに装置IDを付加することで判断が可能になる。
【0071】
通信部710が対話者の発話情報を文字列に相当するフォーマットで情報を入力し、文字列情報に変換する場合は、文字列生成部520は通信部710から送られた情報に対しては通信部710が変換した文字列情報をそのまま出力する、あるいは文字列情報を簡略化して出力する。
【0072】
同様に応答文字列生成部610は、通信部710から送られた情報に対しては、通信部710が変換した文字列情報に対する応答文字列を作成し、作成した文字列を表示画面2に送る。
【0073】
<第四実施形態>
一般的にHMD装置は、文字列や画像、図形を使用者の前方にある風景に重ねて表示できることが大きな特徴の一つである。このため文字や画像、図形を表示するエリアが広いと前方風景が見えづらくなってしまう。表示する文字や画像、図形は虚像を作ることで数メートル前方に大きく表示されているように錯覚させることが可能だが、その場合でも表示エリアに限界がある。また、日常使用する言語以外で他者と会話する場合には、訳文や応答リコメンド文に関して一度に見る文字情報は必要最小限にした方が使用者にとって利用しやすく、会話も円滑になる場合が多い。
【0074】
本実施形態では、対話者発話に関する文字列や応答文字列をより少数の文字列で効率的に表示するHMD装置の例を説明する。各ブロックとブロック間の関係は第一実施形態と同様なので省略する。以下、本実施形態に係るHMD装置の特徴動作である文字列生成部520と応答文字列生成部610における文字列生成方法、及び表示画面2での表示形態について、図11乃至図15を参照して説明する。図11は、共通、肯定、否定の3分類の応答文字列をタグ表示した例を示す図である。図12は、図11の例において、使用者が発話した応答文の表示態様を変更した例を示す図である。図13は、タグの項目だけを表示した表示例を示す図である。図14は、応答文字列をタグにより階層表示した例を示す図である。図15は、応答文字列を一定の基準に沿って順序立てて表示した例を示す図である。
【0075】
まず、文字列生成部520は、表示文字列の文字数が少なくなるように文字列を生成する。このため、対話者の発話内容に対し、丁寧語や謙譲語、尊敬語など敬語表現を省略して文字列を生成する。また、名前の前後の敬称も省略する。さらに、主語、動詞、名詞を優先し、形容詞や副詞を省略または小さい文字で表示する。文字列生成部520は、音声情報を発話文字列に変換した後、品詞分解処理、構文解析処理を行い、敬語表現を省略した文字列を生成する。
【0076】
また、応答文字列生成部610は、対話者の発話内容に関連した複数のキーワードをデータベースから選択し、選択したキーワードを所定の方法で分類し、分類したキーワードごとに分類タグを付けたエリアに分けて表示する。あるいは所定の指標に基づいて順に並べて表示する。
【0077】
例えば、「はい/いいえ」を用いて応答する場合には、応答が「はい」の場合と「いいえ」の場合に関連するキーワードおよび両者に共通するキーワードをデータベース(応答文辞書)から選択するとともに、選択したキーワードを「はい」「いいえ」「共通」のタグとともに個別のエリアに表示するように表示画面2に出力する(図11参照)。
【0078】
使用者が選択肢の中からキーワードを使用した場合には、キーワードが使用されたことをヘッドマウントディスプレイが認識したことを使用者に知らせるために、図12に示すように、使用されたキーワード(図11における「Cloudy」)の色を変えて表示した後、対話者の発話内容と使用者が使用したキーワードに関連したキーワードをデータベースから検索する。キーワードの選択が終了したら既表示の文字列やタグを非表示とし新たに検索したキーワードを前述の方法で出力する。ここで、選択されたキーワードの強調方法は太字や文字サイズを大きくしても良いし、非表示とするタイミングを他のキーワードより所定時間だけ遅くしても良い。また、既表示の文字列やタグの非表示化の手順は選択したキーワードとの関連性が低い文字列あるいは分類から消去しても良い。さらに、タグの文字列を第一言語で表示しても良い。
【0079】
また、「どうだった」など抽象的な問いに応答する場合のようにキーワードの選択範囲が広い場合は、抽象的なキーワードから段階的に具体的なキーワードを表示しても良い。例えば、図13のようにまず多数のタグ1301のみを表示し、使用者がタグとして表示されている文字列を発話したら、図14のように使用されたタグの文字列の色を変えて表示するとともに、他のタグを非表示とし、対話者の発話内容と使用者が使用したタグと関連するキーワードをデータベースから検索、表示する手順を用いても良い。このとき、階層の異なるキーワードやタグは表示エリア色を変える、あるいは文字の色を変えても良い。また、既述の初期設定の習熟度データから、使用者にとって所定の難易度以上のキーワードを優先的に表示しても良い。この場合、応答文字列生成部610は、初めは対話者の発話内容に関連したキーワードをデータベースから検索し、使用者が応答している間は所定の周期で対話者の発話内容と使用者の発話内容に関連したキーワードをデータベース(応答文辞書)から検索を行う。
【0080】
さらに、「どのくらいの頻度で」など程度を回答する場合には、図15に示すようにタグ1501に表示規則を示し、キーワードを規則順に並べても良い。また、使用したキーワードにポイント情報を付加して、付加されたポイントに応じて表示する優先順位を決定しても良い。
【0081】
上記さまざまな表示態様は、応答文辞書から必要な用語の抽出、及びタグの種類、1のタグに掲載する単語、応答文の種類の選択を応答文字列生成部610が行い、表示色の変更、配列表示、タグ内への応答文を並べる処理を表示制御部630が実行することで実現される。
【0082】
上記各実施形態は、本発明を限定するものではなく、本発明の趣旨を逸脱しない範囲で様々な変更態様があり、これらも本発明の技術的範囲に属する。
【0083】
例えば、上記実施形態では、発話文字列、応答文字列を、タグを用いて表示したが、図や映像(動画像)を表示してもよい。また、応答文字列を音声で出力するためのスピーカをHMD装置1に備えてもよい。特に第五言語の場合、使用者が発言しても対話者に伝わらない場合がある。この場合、使用者は、応答文字列の選択結果を発話し、スピーカから選択された応答文字列を音声で出力してもよい。
【符号の説明】
【0084】
1:HAD装置、2:表示画面、3:カメラ、4:マイク、5:アプリ制御装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15