(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-18
(45)【発行日】2024-01-26
(54)【発明の名称】バリアフリースマート音声システムとその制御方法
(51)【国際特許分類】
G10L 15/22 20060101AFI20240119BHJP
G10L 15/10 20060101ALI20240119BHJP
【FI】
G10L15/22 453
G10L15/10 200W
【外国語出願】
(21)【出願番号】P 2021072552
(22)【出願日】2021-04-22
【審査請求日】2021-07-06
(32)【優先日】2020-04-22
(33)【優先権主張国・地域又は機関】TW
【前置審査】
(73)【特許権者】
【識別番号】519036455
【氏名又は名称】荘連豪
(74)【代理人】
【識別番号】100137095
【氏名又は名称】江部 武史
(72)【発明者】
【氏名】荘連豪
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2010-55375(JP,A)
【文献】特開2020-42420(JP,A)
【文献】特開2004-301893(JP,A)
【文献】特開2013-88535(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声オーディオの解析に適用され、音声受信ユニットと、音声データベースと、タグデータベースと、音声認識ユニットと、権限検証ユニットと、モバイルデバイスのプロセッサと、を備えているバリアフリースマート音声システムの制御方法であって、
前記音声認識ユニットを前記音声データベースに接続し、前記音声受信ユニットが受信した前記音声オーディオに対し音声分析を実行し、その中から複数の
単音を識別した後、前記複数の
単音に対し形態論解析を実行し、
文法上の制限無しで、その中から独立した語意単位とする複数のワードおよびその組合せを識別する音声オーディオ分析ステップと、
前記音声認識ユニットを前記タグデータベースに接続し、前記複数のワードが、前記モバイルデバイスにより定義されている複数のターゲット音声タグのうちの1つであるかどうか、及び前記モバイルデバイスにより定義されている複数のコマンド音声タグのうちの1つであるかどうかを判断する音声タグを比較するステップと、
前記プロセッサが、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物、及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含むことを特徴とするバリアフリースマート音声システムの制御方法。
【請求項2】
前記音声認識ユニットが前記音声受信ユニットが予め定義されている起動オーディオを受信したかどうかを判断し、受信した場合、前記起動オーディオを起動操作と見なし、続けて前記音声オーディオに対し前記音声オーディオ分析ステップを実行する起動音声を検出するステップをさらに含むことを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
【請求項3】
前記音声タグを比較するステップの実行時に、前記音声認識ユニットが前記音声オーディオから識別した前記複数のワードが前記モバイルデバイスにより定義されている注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンドまたは前記対象物の内容を調整することを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
【請求項4】
前記権限検証ユニットが、比較した前記ターゲット音声タグ及び比較した前記コマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記プロセッサが前記対応する音声コマンドを実行するステップの実行時に、前記モバイルデバイスに現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定する使用権を確認するステップをさらに含むことを特徴とする請求項1に記載のバリアフリースマート音声システムの制御方法。
【請求項5】
前記音声認識ユニットは前記音声受信ユニットが予め定義されているスリープオーディオを受信したかどうかを判断し、受信した場合、前記スリープオーディオをスリープ操作と見なし、前記音声オーディオに対する前記音声オーディオ分析ステップの実行を停止するスリープ音声を検出するステップをさらに含むことを特徴とする請求項1または2に記載のバリアフリースマート音声システムの制御方法。
【請求項6】
モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
前記プロセッサに接続されている通信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の
単音を識別し、前記複数の
単音に対し形態論解析を実行し、
文法上の制限無しで、その中から独立した複数のワードおよびその組合せを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが、前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの1つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの1つであるか否かを判断し、
前記音声認識ユニットは前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。
【請求項7】
前記音声認識ユニットは前記音声受信ユニットが予め定義されている起動オーディオ及びスリープオーディオを受信したかどうか判断し、前記起動オーディオを受信した場合、続けて前記音声オーディオに対し前記音声分析及び前記形態論解析を実行し、前記スリープオーディオを受信した場合、前記音声オーディオに対する前記音声分析及び前記形態論解析の実行を停止することを特徴とする請求項6に記載のバリアフリースマート音声システム。
【請求項8】
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記音声オーディオが識別した前記複数のワードが前記モバイルデバイスにより定義された注記ボイスタグを含んでいるかどうかを判断し、含んでいる場合、前記プロセッサは、前記注記ボイスタグが前記タグデータベースで指向する注記説明に基づいて、前記プログラムコマンド或いは前記対象物の内容を調整することを特徴とする請求項6に記載のバリアフリースマート音声システム。
【請求項9】
権限検証ユニットをさらに備え、前記音声認識ユニットと接続され、比較した前記ターゲット音声タグ及び比較した前記コマンド音声タグに基づいて前記音声オーディオが対応する権限レベルを判断し、前記音声認識ユニットが前記プロセッサに前記モバイルデバイスの現在の前記権限レベルに基づいて前記プログラムコマンドを実行させるかどうか決定することを特徴とする請求項6に記載のバリアフリースマート音声システム。
【請求項10】
プロセッサを有しているモバイルデバイスに適用するバリアフリースマート音声システムであって、
前記プロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記音声データベース及び前記タグデータベースとそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信すると共に前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の
単音を識別し、前記複数の
単音に対し形態論解析を実行し、
文法上の制限無しで、その中から独立した複数のワードおよびその組合せを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが、前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの1つであるかどうか、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの1つであるかどうかを判断し、
判断結果が符合した場合、前記音声認識ユニットが比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させることを特徴とするバリアフリースマート音声システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識技術に関し、更に詳しくは、音声オーディオから複数の独立した語意単位を識別した後、続けてそれがユーザーが自分で作成した複数の音声タグのうちの1つであるかどうか比較し、比較した音声タグ(ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す)の組み合わせに基づいて音声オーディオが対応する音声命令(音声コードネームともいう)を判断し、対応するプログラムを起動するか、他の被制御デバイスを作動するようにトリガーする「バリアフリースマート音声システムとその制御方法」に関する。
【背景技術】
【0002】
科学技術の発展に伴い、音声識別システムを有しているモバイルデバイスが日に日に普及している。現在多くの音声識別システムは言語理解技術により、ユーザーが自然言語とモバイルデバイスとを直接コミュニケーションさせている。例えば、ユーザーがモバイルデバイスに対し「来週の水曜日の東京行きの航空券を買って、中華航空の」と連続的な音声命令を発する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、前述した従来の音声認識技術では、音声識別システムが音声認識のレベルに達するようにするためには、前記連続的音声命令に対し文法分析(例えば、構文解析器を利用する)及び語意解読(例えば、意味解析器を利用する)を実行し、連続的音声命令の各ワードに対し品詞注記を行い、語幹を抽出し、構文木を構成し、構文木の各語彙に主題役割を付与した後、全音声命令の語意を分析するためには多くの演算量を必要とする。
【0004】
また、通常このような連続的音声命令の文法構造は、特定の文法規則(統語論及び形態論を含む)の制限を受け、且つ異なる言語の文法構造にも差異があるため、ユーザーが発した連続的音声命令が複雑であったり、冗長であったり、少し話を止めたり、ユーザーが発した文法構造が不正確であったり、個人の発音の差異やユーザーが異なる単一言語及び混成語を使用した場合にも、音声識別システムの識別精度に影響が及び、自然言語処理モデル(NLP)のトレーニングにも一定の難度をもたらした。
【0005】
さらに、声紋識別技術を採用しなければ、従来の音声識別システムはユーザーの声から特定の動作を実行する権限があるかどうかを識別できなかった。言語理解技術を普遍的に採用している音声識別システムの音声識別のための演算量を減らし、音声識別システムに与える文法構造の影響を低下させ、バリアフリーで使用でき、使用権の認証と秘密保持とを両立し、盗難防止特性を有するオーディオ識別技術を提供することが、解決の待たれる問題であった。
【0006】
そこで、本発明者は上記の欠点が改善可能と考え、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
【0007】
本発明は、以上の従来技術の課題を解決する為になされたものである。即ち、本発明の目的は、バリアフリースマート音声システムの制御方法を提供することである。そのステップは、
(1)音声認識ユニットを音声データベースに接続し、音声受信ユニットが受信した音声オーディオに対して音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対して形態論解析を実行し、その中から独立した語意単位とする複数のワードを識別する音声オーディオを分析するステップと、
(2)音声認識ユニットをタグデータベースに接続して複数のワードがモバイルデバイスにより定義されている複数のターゲット音声タグのうちの1つであるかどうか、及びモバイルデバイスにより定義されている複数のコマンド音声タグのうちの1つであるかどうかを判断する音声タグを比較するステップと、
(3)モバイルデバイスのプロセッサが、比較したターゲット音声タグがタグデータベースで指向する対象物、及び比較したコマンド音声タグがタグデータベースで指向するプログラムコマンドに基づいて、モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる対応する音声コマンドを実行するステップと、を含む。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある態様のバリアフリースマート音声システムは、
モバイルデバイスのプロセッサに接続され、音声オーディオを受信するための音声受信ユニットと、
前記プロセッサに接続されている通信ユニットと、
複数の音声オーディオサンプルを保存している音声データベースと、
複数のターゲット音声タグ及び複数のコマンド音声タグを保存しているタグデータベースと、
前記通信ユニット、前記音声データベース、及び前記タグデータベースにそれぞれ接続され、前記音声受信ユニットが発信した前記音声オーディオを受信し、且つ前記音声オーディオに対し音声分析を実行し、前記音声データベースの読み取り結果に基づいて、その中から複数の音声を識別し、前記複数の音声に対し形態論解析を実行し、その中から独立した複数のワードを識別する音声認識ユニットと、を備え、
前記音声認識ユニットは前記タグデータベースの読み取り結果に基づいて前記複数のワードが前記モバイルデバイスにより定義されている前記複数のターゲット音声タグのうちの1つであるか否か、及び前記モバイルデバイスにより定義されている前記複数のコマンド音声タグのうちの1つであるか否かを判断し、
前記音声認識ユニットは、前記通信ユニットにより、比較した前記ターゲット音声タグが前記タグデータベースで指向する対象物及び比較した前記コマンド音声タグが前記タグデータベースで指向するプログラムコマンドに基づいて、前記プロセッサによって前記モバイルデバイスに前記対象物に対する前記プログラムコマンドを実行させる。
【0009】
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係るスマート音声システムを模式的に示したブロック図である。
【
図2】本発明の一実施形態に係るスマート音声システムの情報の流れを示した概略図である。
【
図3】本発明の一実施形態に係るスマート音声システムの制御方法を示したフローチャート図である。
【
図4】本発明の音声オーディオのステップを分析する概略図である。
【
図5A】本発明の実施形態を示した概略図(一)である。
【
図5B】本発明の実施形態を示した概略図(二)である。
【
図6A】本発明の他の実施形態(一)の情報の流れを示した概略図である。
【
図6B】本発明の他の実施形態(一)を示した概略図(一)である。
【
図6C】本発明の他の実施形態(一)を示した概略図(二)である。
【
図7】本発明の他の実施形態(二)を示したブロック図である。
【
図8】本発明の他の実施形態(三)の方法を示したフローチャート図である。
【
図9】本発明の他の実施形態(四)の方法を模式的に示したブロック図である。
【
図10】本発明の他の実施形態(五)を示した概略図である。
【発明を実施するための形態】
【0011】
本発明における好適な実施の形態について、添付図面を参照して説明する。尚、以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を限定するものではない。また、以下に説明される構成の全てが、本発明の必須要件であるとは限らない。
【0012】
まず、
図1と
図2を参照しながら、本発明のバリアフリースマート音声システム10をさらに詳しく説明する。
【0013】
本発明のバリアフリースマート音声システム10は、下記ユニットを備えている。
(1)モバイルデバイス101のプロセッサ1012に接続され、音声オーディオVの受信に用いられている音声受信ユニット1011。音声受信ユニット1011はモバイルデバイス101のマイクやワイヤレス通信によりモバイルデバイス101と接続するワイヤレスイヤホンでもよい。
(2)プロセッサ1012に接続されている通信ユニット1013。
(3)複数の音声オーディオサンプルを保存し、且つ各音声オーディオサンプル中の各/各組の単音(phone)は独立した語意単位とするワード(word)に対応している音声データベース1021。前述の音声オーディオサンプルは、音声認識ユニット1023が音声オーディオVの各種声母(Initial)及び各種韻母(Final)に基づいて音声オーディオサンプル中から1つまたは複数の音節(Syllable)を識別する。また、前述の音声オーディオサンプルの言語は、中国語、英語、広東語、日本語、韓国語等であるが、但しこれらに限られない。
(4)複数のターゲット音声タグL1及び複数のコマンド音声タグL2を保存しているタグデータベース1022。
(5)通信ユニット1013、音声データベース1021、及びタグデータベース1022とそれぞれ接続されている音声認識ユニット1023。ネットワークNを経由して音声受信ユニット1011から送信された音声オーディオVを受信し、且つ音声オーディオVに対し音声分析を実行し、音声データベース1021の読み取り結果に基づいて、その中から複数の単音(phone)を識別した後、複数の単音に対して形態論解析(morphological)を実行し、その中から独立した複数のワード(Word)を識別する。好ましくは、本発明は前述の複数の単音を識別した後、同時に音声オーディオVに対して音素分析(Phonological Analysis)を実行し、前記音声が属する言語の音素(Phoneme)の帰属を識別する。音素は語義識別機能を有している最小の音声単位であるため、音声認識ユニット1023が複数の単音をワードとして識別するために利用する。
(6)音声認識ユニット1023はタグデータベース1022の読み取り結果に基づいて複数のワードがモバイルデバイス101により定義されている複数のターゲット音声タグL1のうちの1つであるか否か、及びモバイルデバイス101により定義されている複数のコマンド音声タグL2のうちの1つであるか否かを判断する。
(7)音声認識ユニット1023は、通信ユニット1013により、比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、モバイルデバイス101のプロセッサ1012によってモバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる。
(8)前項を受けて、音声受信ユニット1011、プロセッサ1012、及び通信ユニット1013は本実施例では全てモバイルデバイス101上で作動する。
(9)前項を受けて、音声データベース1021、タグデータベース1022、及び音声認識ユニット1023は本実施例では全てサーバー102上で作動する。当然ながら、サーバー102は第二プロセッサを有してもよく、ここでは、その説明を省略する。
【0014】
図1に示される対象物Oはモバイルデバイス101に保存されている担当者の氏名、担当者のコードネーム、担当者の呼称等の担当者情報、或いは標的物の名称、標的物のコードネーム、標的物の呼称、スケジュール情報、To Do情報、To Doリスト情報、ファイルアドレス情報、ハイパーリンク等の標的物情報であるが、但しこれらに限られない。このほか、対象物OはネットワークNを介してモバイルデバイス101の通信ユニット1013と通信接続する被制御デバイス(図示省略)でもよい。
【0015】
また、
図1に例示されるネットワークNは、例えば、ワイヤレスネットワーク(例えば、3G、4G LTE、Wi-Fi)、有線ネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WA)等のパブリックネットワークまたはプライベートネットワークであるが、但しこれらに限られない。
【0016】
また、
図1に例示されるサーバー102は接続サービスを提供する独立したサーバー、サーバー内に装設されて運用される仮想機械(VM)、バーチャル・プライベート・サーバー(Virtual Private Server)形式で運用されるサーバー、パブリッククラウド、プライベートクラウド、或いはエッジデバイス(edge device)等であるが、但しこれらに限られない。
【0017】
図1に例示されるプロセッサ1012は、CPU、MPU、MCU、アプリケーションプロセッサ(AP)、組み込み型プロセッサ、或いはASICのうちの1種類でもよい。
【0018】
また、
図1に例示される音声データベース1021及びタグデータベース1022は、それ自体が物理データベースホストやクラウドデータベースであってもよく、或いは、複数のテーブル(Table)形式でサーバー102に保存され、関係データベースまたはNoSQLとしてもよいが、但しこれらに限られない。
【0019】
図1、
図2と
図3を参照すれば、バリアフリースマート音声システム10は音声オーディオVの解析に適用され、且つ音声受信ユニット1011と、音声データベース1021と、タグデータベース1022と、音声認識ユニット1023と、モバイルデバイス101のプロセッサ1012と、を備えている。バリアフリースマート音声システムの制御方法Sは、下記ステップを含む。
(1)音声オーディオを分析する(ステップS10)では、音声認識ユニット1023を音声データベース1021に接続し、音声受信ユニット1011が受信した音声オーディオVに対し音声分析を実行し、その中から複数の音声を識別した後、複数の音声に対し形態論解析を実行し、その中から独立した語意単位とする複数のワード(word)を識別する。例えば、「本」、「book」、「男性」、「boy」等は全て単独のワードである。このステップに関し、「
図4」の音声オーディオを分析するステップの概略図を参照すると、「
図4」に示されるように、音声受信ユニット1011が受信した音声オーディオVは、「阿部社長が掛ける」、「阿部社長に掛ける」、「阿部主任に掛ける」、「阿部社長がCallする」、「阿部社長にCallする」、「阿部主任がCallする」、「阿部所長が掛ける(▲びん▼南語t'au'-ke)」、「阿部所長に掛ける」、或いは「阿部所長がCallする」という複数の音声に識別され、実際の表現に文法的間違いがあっても、全て「阿部社長」及び「掛ける」、「阿部所長」及び「掛ける」、「阿部主任」及び「掛ける」、「阿部社長」及び「電話を掛ける」、「阿部主任」及び「Callする」、「阿部所長」及び「Callする」、或いは「阿部社長」及び「Callする」から構成されている複数のワードであるとさらに識別される。同様に、音声オーディオVが「阿部社長の集合写真を見せる」、「阿部社長との集合写真を見せる」、「阿部所長の集合写真を見せる」、「阿部所長との集合写真を見せる」、「阿部社長との集合写真をShowする」、「Showする阿部社長との集合写真」、「阿部所長の集合写真をShowする」、或いは「阿部所長との集合写真をShowする」という複数の音声に識別される例では、実際の表現に文法的間違いがあっても、全て「阿部社長」、「集合写真」及び「見せる」、「阿部所長」、「集合写真」及び「見せる」、「阿部社長」、「集合写真」及び「Showする」、或いは「阿部所長」、「集合写真」及び「Showする」で構成されている複数のワードであるとさらに識別される。これは例示に過ぎず、これに制限するものではない。
(2)音声タグを比較する(ステップS20)では、
図4の音声オーディオを分析するステップの概略図を参照すると、
図4に示されるように、音声認識ユニット1023をタグデータベース1022に接続し、前記複数のワードがモバイルデバイス101により定義されている複数のターゲット音声タグL1のうちの1つであるか否か、及びモバイルデバイス101により定義されている複数のコマンド音声タグL2のうちの1つであるか否かを判断する。より具体的には、音声オーディオVが「阿部社長」+「掛ける」、「阿部所長」+「掛ける」、「阿部社長」+「電話を掛ける」、「阿部社長」+「Callする」、「阿部所長」+「Callする」で構成される複数のワードであると識別される例では、ステップS20において音声認識ユニット1023はターゲット音声タグL1の「阿部社長」、及びコマンド音声タグL2の「Callする」または「掛ける」を比較し、或いは他のターゲット音声タグL1の「阿部所長」、及びコマンド音声タグL2「Callする」または「掛ける」を比較する。同様に、音声オーディオVが「阿部社長」+「集合写真」+「見せる」、「阿部所長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット1023はターゲット音声タグL1の「阿部社長の集合写真」及びコマンド音声タグL2の「見せる」或いは「Showする」を比較し、または他のターゲット音声タグL1の「阿部所長の集合写真」及びコマンド音声タグL2の「見せる」または「Showする」を比較する。ここでは、音声認識ユニット1023のターゲット音声タグL1及びコマンド音声タグL2に対する比較結果が符合している場合、続けてステップS30を実行し、符合していない場合、オーディオが識別不能であることを示し、ステップS10またはステップS20を再度実行する。
(3)対応する音声コマンドを実行する(ステップS30)では、プロセッサ1012は、比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、モバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる。より具体的には、音声オーディオVが「阿部社長」+「掛ける」、「阿部社長」+「電話を掛ける」、或いは「阿部社長」+「Callする」で構成される複数のワードであると識別される例では、ステップS30において音声認識ユニット1023が比較したターゲット音声タグL1の「阿部社長」に基づいて、モバイルデバイス101の対象物Oの「阿部太郎の連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Callする」または「掛ける」に基づいて、プログラムコマンドIの「対象物に対しモバイルデバイス101にインストールされている電話アプリケーションプログラム(APP)を実行する」に対応しているか否か判断し、且つ実行し、ここでは、
図5Aに示す。同様に、音声オーディオVが「阿部社長」+「集合写真」+「見せる」、或いは「阿部社長」+「集合写真」+「Showする」で構成される複数のワードであると識別される例では、音声認識ユニット1023が比較したターゲット音声タグL1の「阿部社長の集合写真」に基づいてモバイルデバイス101の対象物Oの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Showする」または「見せる」に基づいてプログラムコマンドIの「モバイルデバイス101にインストールされているフォトビューワープログラムを実行する」に対応しているか否か判断し、実行する(
図5B参照)。
【0020】
また、
図6A乃至
図6Cを参照すれば、本実施例に係る音声認識ユニット1023はステップS20(音声タグを比較する)の実行時に、音声オーディオVにより識別された前記複数のワードがモバイルデバイス101により定義されている注記ボイスタグL3を含んでいるか否か判断し、含んでいる場合、モバイルデバイス101のプロセッサ1012は、注記ボイスタグL3がタグデータベース1022で指向する注記説明Rに基づいて、プログラムコマンドIまたは対象物Oの内容を調整する。より具体的には、音声オーディオVが「阿部社長」+「掛ける」+「ホーム」、或いは「阿部社長」+「Callする」+「ホーム」で構成される複数のワードである例では、音声認識ユニット1023がステップS20(音声タグを比較する)において、ターゲット音声タグL1の「阿部社長」、コマンド音声タグL2の「掛ける」或いは「Callする」、及び注記ボイスタグL3の「ホーム」を比較する。これにより、音声認識ユニット1023はステップS30(対応する音声コマンドを実行する)を実行する際に、比較したターゲット音声タグL1の「阿部社長」及び注記ボイスタグL3の「ホーム」に基づいてモバイルデバイス101の対象物Oの「阿部太郎のホームの連絡先電話番号」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Callする」または「掛ける」に基づいてプログラムコマンドIの「対象物に対しモバイルデバイス101にインストールされている電話アプリケーションプログラム(APP)を実行する」に対応しているか否か判断し、且つ実行し、ここでは
図6Bに示されるように、注記ボイスタグL3が対象物Oの内容を調整する例を示す。同様に、「阿部社長」+「集合写真」+「見せる」+「メモする」、或いは「阿部社長」+「集合写真」+「Showする」+「注釈する」で構成される複数のワードの例では、ステップS20(音声タグを比較する)において音声認識ユニット1023がターゲット音声タグL1の「阿部社長の集合写真」、コマンド音声タグL2の「見せる」或いは「Showする」、及び注記ボイスタグL3の「注釈する」或いは「メモする」を比較することで、ステップS30(対応する音声コマンドを実行する)の実行時に音声認識ユニット1023は比較したターゲット音声タグL1の「阿部社長の集合写真」に基づいてモバイルデバイス101の対象物Oの「阿部太郎と一緒に撮った集合写真」に対応しているか否か判断し、同時に比較したコマンド音声タグL2の「Showする」または「見せる」、及び比較した注記ボイスタグL3の「注釈する」或いは「メモする」に基づいて、プログラムコマンドIの「モバイルデバイス101にインストールされているフォトビューワープログラムを実行し、対象物に関連する注釈情報を再生または表示する」に対応しているか否か判断し、且つ実行し、ここでは、
図6Cに示されるように、注記ボイスタグL3がプログラムコマンドIの内容を調整する例を示す。
【0021】
図7は
図1~
図3に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システム10が複数のプログラムコマンドを保存し、且つ音声認識ユニット1023と接続している権限検証ユニット1024をさらに備え、権限検証ユニット1024は比較したターゲット音声タグL1、比較したコマンド音声タグL2、及び音声認識ユニット1023によるタグデータベース1022の読み取り結果に基づいて、音声オーディオVが対応する権限レベルを判断し、音声認識ユニット1023がモバイルデバイス101の現在の権限レベルに基づいてプログラムコマンドIを実行するかどうか判断する。換言すれば、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「使用権を確認する」(ステップS25)ステップをさらに含み、権限検証ユニット1024が比較したターゲット音声タグL1、比較したコマンド音声タグL2、及び音声認識ユニット1023によるタグデータベース1022の読み取り結果に基づいて、音声オーディオVが対応する権限レベルを判断し、プロセッサ1012がステップ30(対応する音声コマンドを実行する)の実行時に、モバイルデバイス101の現在の権限レベルに基づいてプログラムコマンドIを実行するかどうかを判断する。例えば、権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2が、タグデータベース1022に保存されているテーブル中では第一レベル(最高レベル)に属すると判断することで、モバイルデバイス101の現在の権限レベルが所有者であると判断する。また、プログラムコマンドIの権限レベルが第一レベルである場合、モバイルデバイス101が現在プログラムコマンドIを実行する権限を有していると判断し、第二レベル及び第三レベルの権限レベルでは、例えば家族ユーザーであり、第一レベルに属するプログラムコマンドIを実行できない。権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2がタグデータベース1022に保存されているテーブル中では第二レベルに属すると判断し、且つプログラムコマンドIの権限レベルが第三レベルまたは第二レベルである場合、モバイルデバイス101は現在プログラムコマンドIを実行する権限を有していると判断する。相対的に、権限検証ユニット1024が音声オーディオVは対応するターゲット音声タグL1及びコマンド音声タグL2がタグデータベース1022に保存されているテーブル中では第三レベルに属すると判断し、且つプログラムコマンドIの権限レベルが第二レベルである場合、モバイルデバイス101は現在プログラムコマンドIを実行する権限を有していないと判断し、以降も同様である。
【0022】
図8は、
図1~
図3に例示される技術と類似し、主な差異は、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「起動音声を検出する」(ステップS5)ステップを含み、音声認識ユニット1023はまず音声受信ユニット1011が予め定義されている「シロ」、「秘書」等の起動オーディオを受信したかどうか判断し、受信した場合、起動オーディオを起動操作と見なし、続けて音声オーディオVに対しステップS10(音声オーディオを分析する)を実行し、音声オーディオVに対し音声分析及び形態論解析を実行する。また、本実施例に係るバリアフリースマート音声システムの制御方法Sは、「スリープ音声を検出する」(ステップS35)ステップをさらに含み、音声認識ユニット1023は音声受信ユニット1011が予め定義されている「シロ、終了」、「秘書、休憩」等のスリープオーディオを受信したかどうか判断し、受信した場合、スリープオーディオをスリープ操作と見なし、音声オーディオVに対するステップS10(音声オーディオを分析する)の実行を停止する。即ち、音声オーディオVに対する音声分析及び形態論解析を実行を一時停止し、続けてステップS5のみ実行可能にする。また、ステップS35は、ステップS5、ステップS10、或いはステップS20の後に続けて実行され、且つ
図8に例示する順序に限られない。
【0023】
図9と
図1~
図3とを比較すると、本実施例に係るバリアフリースマート音声システム10は、音声データベース1021、タグデータベース1022、音声認識ユニット1023、及び権限検証ユニット1024が全てモバイルデバイス101に内設されている。本実施例に係るバリアフリースマート音声システム10は、通信ネットワークがない状況でも、ユーザーがモバイルデバイス101により直接音声命令の識別及び実行を即時完遂可能である。
【0024】
図10と
図1乃至
図3を参照すれば、本実施例に係るバリアフリースマート音声システム10は、音声認識ユニット1023が比較したターゲット音声タグL1がタグデータベース1022で指向する対象物O及び比較したコマンド音声タグL2がタグデータベース1022で指向するプログラムコマンドIに基づいて、プロセッサ1012によって、モバイルデバイス101に対象物Oに対するプログラムコマンドIを実行させる場合、対象物Oは被制御デバイス103であり、例えば、モバイルデバイス101以外の電動ドア、ライト、テレビ、電子機器等である。一例を挙げると、ユーザーがモバイルデバイス101を操作し、音声受信ユニット1011に音声オーディオVを受信させた後、音声オーディオVが音声認識ユニット1023により「開く」(コマンド音声タグL2に対応する)+「テレビ、TVS」(ターゲット音声タグL1に対応する)で構成される複数のワードであると識別され、且つ音声オーディオVの文法構造が正確であるかどうかに拘わらず、全て音声認識ユニット1023によりターゲット音声タグL1に対応する対象物Oの「テレビ、TVSニュースチャンネル」及びコマンド音声タグL2に対応するプログラムコマンドIの「モバイルデバイス101の通信ユニット1013により、ワイヤレス方式でスマートテレビを点ける」として比較される。但し、これは例示にすぎず、これに制限するものではない。
【0025】
続いて、本発明は前述のバリアフリースマート音声システムの制御方法Sを実行するパソコンのプログラム製品をさらに提供する。パソコンシステムには前記パソコンプログラム製品の複数のプログラムコマンドがインストールされた後、前述のバリアフリースマート音声システムの制御方法SのステップS5、ステップS10、ステップS20、ステップS25、ステップS30、及びステップS35を少なくとも完遂する。
【0026】
続いて、本発明を実施すると、下記の有利な効果を少なくとも達成する。
(1)音声オーディオの文法規則が正確であるか否かに拘わらず、本発明はユーザーが作成した音声タグの組み合わせ(ある標的物または情報の名称、名前、呼称、コードネーム、単一または複合命令、プログラム、音声メッセージ、録音メッセージ等を示す)を比較することで、特定の対象物及びプログラムコマンドに対応可能かどうか識別可能である。従来の自然言語理解(NLU)または自然言語処理(NLP)と比べると、演算量を効果的に減らし、システムの処理速度を高速化し、システムの判断ミスを最小限にし、異なる言語間の音声翻訳差異及びミスを排除する。また、言語、口調、音色の制限を受けない。よって、本発明は構音障害者のオーディオ、さらには子供、一般成人、老齢者等の健常者の音声オーディオも識別可能であり、バリアフリーな使用を達成させる。
(2)本発明はユーザーが作成した音声タグの組み合わせを比較し、同時に音声オーディオの現在の権限レベルを判断し、検証及びオーディオ暗号化に類する技術を有している。第三者がユーザーが作成した音声タグの組み合わせを知らず、本来のユーザーからの音声オーディオではない場合、音声オーディオを発してモバイルデバイスの特定の機能を実行するように駆動させたり、モバイルデバイス以外の被制御デバイスを起動することはできない。
【0027】
上記説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或いは範囲を限縮するように解すべきではない。また、本発明の各部構成は、上記実施例に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。
【符号の説明】
【0028】
10 バリアフリースマート音声システム
101 モバイルデバイス
1011 音声受信ユニット
1012 プロセッサ
1013 通信ユニット
102 サーバー
1021 音声データベース
1022 タグデータベース
1023 音声認識ユニット
1024 権限検証ユニット
103 被制御デバイス
V 音声オーディオ
Phone 単音
Word ワード
L1 ターゲット音声タグ
L2 コマンド音声タグ
L3 注記ボイスタグ
O 対象物
I プログラムコマンド
R 注記説明
N ネットワーク
S バリアフリースマート音声システムの制御方法
S5 起動音声を検出する
S10 音声オーディオを分析する
S20 音声タグを比較する
S25 使用権を確認する
S30 対応する音声コマンドを実行する
S35 スリープ音声を検出する