IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ニコンの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022168256
(43)【公開日】2022-11-04
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
   G06F 21/62 20130101AFI20221027BHJP
【FI】
G06F21/62
G06F21/62 345
【審査請求】有
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2022145821
(22)【出願日】2022-09-14
(62)【分割の表示】P 2019185889の分割
【原出願日】2011-02-16
(71)【出願人】
【識別番号】000004112
【氏名又は名称】株式会社ニコン
(74)【代理人】
【識別番号】100087480
【弁理士】
【氏名又は名称】片山 修平
(74)【代理人】
【識別番号】100136261
【弁理士】
【氏名又は名称】大竹 俊成
(72)【発明者】
【氏名】山本 哲也
(72)【発明者】
【氏名】宝珠山 秀雄
(72)【発明者】
【氏名】関口 政一
(57)【要約】
【課題】セキュリティが考慮された、使い勝手の良い情報処理装置を提供する。
【解決手段】 情報が入力される入力部と、前記情報を表示する表示部と、登録された人物に関する情報に基づいて守秘性を判断する判断部と、前記判断部が判断した前記守秘性に応じて、前記表示部に表示する前記情報を変化させる制御部と、を備えた情報処理装置である。
【選択図】図1
【特許請求の範囲】
【請求項1】
情報が入力される入力部と、
前記情報を表示する表示部と、
登録された人物に関する情報に基づいて守秘性を判断する判断部と、
前記判断部が判断した前記守秘性に応じて、前記表示部に表示する前記情報を変化させる制御部と、
を備える情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置に関する。
【背景技術】
【0002】
情報化社会において、カメラで撮影した画像におけるプライバシーへの配慮は重要である。最近では、プライバシーへの配慮のため、カメラで撮影した画像から顔画像を検出し、検出した顔画像と、予め登録されている特定人物の顔画像とが一致した場合には、その顔画像にマスク処理(抽象化処理)を施さず、不一致の場合にはその顔画像にマスク処理を施すようにした装置が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-62560号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1では、セキュリィティレベルに応じたきめ細かな配慮が不足しており、必ずしも使い勝手の良いものとはいえなかった。
【0005】
そこで本発明は上記の課題に鑑みてなされたものであり、セキュリティが考慮された、使い勝手の良い情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の情報処理装置は、画像を入力する第1入力装置(52)と、位置情報と時刻情報との少なくとも一方の情報を入力する第2入力装置(52)と、前記画像の出力指示があったときに、前記第2入力装置が入力した情報に基づいて前記画像の出力に制限を加えるか否かを判断する判断装置(70)と、を備える。
【0007】
この場合において、前記第2入力装置は、前記画像が撮影された位置の情報、又は前記画像を出力する位置の情報を入力するとともに、前記画像が撮影された時刻の情報、又は前記画像を出力する時刻の情報を入力することができる。
【0008】
また、前記判断装置は、前記情報に基づき、セキュリティ又はプライバシーが確保されているかどうかに基づいて、前記画像の出力制限が必要か否かを判断することとしてもよい。
【0009】
また、前記判断装置が前記画像の出力に制限を加えると判断したときに、前記画像の少なくとも一部に制限を施す第1処理装置(70)を備えたこととしてもよい。この場合、前記第1処理装置は、前記位置情報により、セキュリティが確保されている場所からセキュリティが確保されていない場所に変化したときに、前記画像の少なくとも一部に制限を施すこととしてもよい。また、前記第1処理装置は、前記位置情報及び前記時刻情報の少なくとも一方の情報に基づいて、前記画像中において出力制限を加える箇所を特定することとしてもよい。また、前記画像中の被写体の情報を入力する第3入力装置(53)を備え、前記第1処理装置は、前記第3入力装置が入力した情報に基づいて、前記画像中において出力制限を加える箇所を特定することとしてもよい。この場合、前記第1処理装置は、前記第3入力装置が入力した前記被写体の情報を、前記画像とともに出力することとしても良い。更に、前記第1処理装置は、前記第3入力装置が入力した前記被写体の情報を、所定のルールに基づいて変換して、前記画像とともに出力することとしてもよい。
【0010】
本発明の情報処理装置では、前記判断装置は、前記画像の人物の表情の情報に基づいて、前記画像の出力に制限を加えるか否かを判断することとすることができる。
【0011】
また、本発明の情報処理装置では、音声データ及びテキストデータの少なくとも一方を入力する第4入力装置(52)を備え、前記判断装置は、前記位置情報及び前記時刻情報の少なくとも一方に基づいて、前記音声データ及び前記テキストデータの少なくとも一方の出力に制限を加えるか否かを判断することとすることができる。
【0012】
この場合において、前記判断装置が、前記音声データの出力に制限が必要と判断した場合、前記音声データから変換・生成されたテキストデータを出力する第2処理装置(70)を備えていてもよい。また、前記判断装置が、前記音声データに出力の制限が必要と判断した場合、前記音声データ及び前記テキストデータの少なくとも一方の特定の名詞を他の名詞に変換して出力する第2処理装置を備えていてもよい。
【0013】
本発明の情報処理装置では、前記第1処理装置が処理した画像を表示する表示部(14)を有する第1筐体(11)と、判断部を有する第2筐体(51)と、を有し、前記第1筐体と前記第2筐体とが分離していることとしてもよい。この場合において、前記第1筐体に設けられた、当該第1筐体の位置情報を検出する位置検出部(22)を備え、前記第2入力装置は、前記位置検出部による検出結果を入力することとしてもよい。
【0014】
なお、本発明をわかりやすく説明するために、上記においては一実施形態を表す図面の符号に対応つけて説明したが、本発明は、これに限定されるものではなく、後述の実施形態の構成を適宜改良しても良く、また、少なくとも一部を他の構成物に代替させても良い。更に、その配置について特に限定のない構成要件は、実施形態で開示した配置に限らず、その機能を達成できる位置に配置することができる。
【発明の効果】
【0015】
本発明は、セキュリティが考慮され、使い勝手が向上した情報処理装置を提供することができるという効果を奏する。
【図面の簡単な説明】
【0016】
図1】一実施形態に係るパーソナルアシスタントシステム100の機能ブロック図である。
図2図2(a)~図2(d)は、音声入力部から入力される音声の録音処理を示すフローチャートである。
図3】声紋DBを示す図である。
図4】音声データの処理に関するフローチャートである。
図5】記憶データDBを示す図である。
図6図4のステップS76の具体的処理を示すフローチャートである。
図7】キーワードDBを示す図である。
図8図4のステップS84の具体的処理を示すフローチャートである。
図9図8のステップS122の具体的処理を示すフローチャートである。
図10図9のステップS142,S148の具体的処理を示すフローチャートである。
図11】特定変換ワードDBを示す図である。
図12図10のステップS164,S166,S178,S180の具体的処理を示すフローチャートである。
図13】地名DBを示す図である。
図14】キーワード格納DBを示す図である。
図15図15(a)~図15(d)は、重みテーブルの例を示す図である。
図16】キーワード記録DBを示す図である。
図17】コマンドDBを示す図である。
図18図18(a)は、タスクリストの表示例を示す図であり、図18(b)は、録音音声リストの表示例を示す図である。
図19】ステップS96において同時並行的に行われる処理(その1)を示すフローチャートである。
図20】ステップS96において同時並行的に行われる処理(その2)を示すフローチャートである。
図21】ステップS96において同時並行的に行われる処理(その3)を示すフローチャートである。
図22】セキュリティ確保可能範囲DBを示す図である。
図23】曖昧ワードDBを示す図である。
図24】画像データの入力・記憶処理に関するフローチャートである。
図25】画像データの表示処理に関するフローチャートである。
図26】携帯型端末側でのデータの消去処理を示すフローチャートである。
図27】サーバ側での音声データの消去処理を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、パーソナルアシスタントシステム100の一実施形態について、図1図27に基づいて詳細に説明する。図1には、パーソナルアシスタントシステム100のブロック図が示されている。この図1に示すように、パーソナルアシスタントシステム100は、携帯型端末10と、サーバ50と、を備えている。
【0018】
携帯型端末10は、ユーザが携帯可能な端末であり、例えば、携帯電話、スマートフォン、PHS(Personal Handy-phone System)、PDA(Personal Digital Assistant)などの端末である。この携帯型端末10の大きさは、例えば胸ポケットに入る程度とされている。携帯型端末10は、図1に示すように、入力部12と、表示部14と、再生部16と、警告部18と、生体情報入力部20と、位置検出部22と、時刻検出部24と、カレンダ部26と、フラッシュメモリ28と、通信部32と、端末側制御部30と、を有する。また、携帯型端末10は、これら各部の少なくとも一部を格納する、携帯可能な第1筐体11を有している。
【0019】
入力部12は、音声入力部42と、画像入力部43と、テキストデータ入力部44とを有する。音声入力部42は、マイクロフォンを含み、ユーザの音声や、ユーザの周辺で発せられる音声を取得し音声符号化部45へ出力する。
【0020】
音声符号化部45は、端末側制御部30の初期設定により定められた符号化方式により音声入力部42から入力された音声を符号化して、通信部32へ出力する。
【0021】
画像入力部43は、光学系や撮像素子などを含み、動画像を生成し画像符号化部46へ出力する。画像符号化部46は、端末側制御部30の初期設定により定められた符号化方式により画像入力部43から入力された画像を符号化して、通信部32へ出力する。なお、画像入力部43への入力が動画であり、当該動画の入力と同時に音声入力部42への入力があった場合には、それらの入力データを関連付けるものとする(多重化処理と同様の処理を行うものとする)。なお、画像入力部43は動画像データに限らず、静止画像データを画像符号化部46へ出力することとしてもよい。
【0022】
テキストデータ入力部44は、キーボードやタッチパネルなどの入力インタフェースを含み、ユーザの入力操作に応じたテキストデータを取得する。なお、入力部12は、タッチパネルなどからのユーザの操作指示を受け付ける機能も有している。なお、入力部12より入力した各種データは必要に応じてフラッシュメモリ28に記憶しておいてもよい。この場合、後述するサーバ側制御部70の制御によりフラッシュメモリ28に記憶された各種データは削除される。
【0023】
表示部14は、液晶ディスプレイや有機ELディスプレイなどのディスプレイを含んでいる。表示部14は、端末側制御部30又はサーバ側制御部70の制御の下、ディスプレイに対して画像データや文字データなどのデータを表示したり、ユーザが操作を行うためのメニュー表示をしたりする。
【0024】
再生部16は、スピーカを含み、音声や音を出力する。例えば、端末側制御部30又はサーバ側制御部70は、表示部14に動画を再生させる場合には、再生部16に、音声入力部42が入力した動画の音声を再生させることができる。なお、音声の再生に代えて、又は音声の再生とともに、サーバ50側で音声からテキストデータに変換されたテキストデータをテロップとして表示部14に表示させてもよい。特に、守秘性やプライバシーが保たれない場所では、音声データにかえてテキストデータを再生することが望ましい。
【0025】
警告部18は、携帯型端末10においてエラーが発生したときなどにおいて、ユーザに対して警告を行うものであり、例えば、再生部16を介した警告音の出力や、表示部14を介した警告表示などを行う。
【0026】
生体情報入力部20は、例えば、ユーザの筋肉の状態(緊張度及び弛緩度)、あるいは血圧、心拍数、脈拍、体温などの生体情報の少なくとも1つを取得して、端末側制御部30に対して入力する装置である。なお、生体情報を検出する方法としては、例えば、特開2005-270543号公報(米国特許第7538890号明細書)に記載されているような腕時計型を採用することができる。なお、血圧や脈拍は赤外線を用いた脈波検出センサにより検出すればよく、心拍数は振動センサにより検出すればよい。心拍数が通常よりも上昇したときが緊張状態であり、減少したときが弛緩状態である。また、緊張状態では瞳孔が拡大し、弛緩状態では瞳孔が縮小するので、瞳孔を検出して、緊張状態か弛緩状態かを判別するような構成を適用してもよい。
【0027】
位置検出部22は、ユーザの位置(絶対位置)を検出するものであり、ここでは、例えばGPS(Global Positioning System:全地球測位システム)が採用されている。なお、位置検出部22としては、RFID(Radio Frequency IDentification)などを用いた絶対位置計測システムを採用することとしても良い。
【0028】
時刻検出部24は、現在の時刻を検出する計時機能を有している。カレンダ部26は、日付と曜日などとを対応付けて記憶している。フラッシュメモリ28は、データを一時記憶するメモリである。通信部32は、WiFi通信でアクセスポイントへアクセスするための無線LANユニットや、イーサネット(登録商標)ケーブルによる有線接続のユニット、あるいは、コンピュータ等の外部機器と通信を行うUSB接続のユニットを有している。本実施形態では、通信部32は、サーバ50の通信部52と通信を行うことが可能である。
【0029】
端末側制御部30は、携帯型端末10の構成各部を統括的に制御し、携帯型端末10側の処理を実行するものである。例えば、端末側制御部30は、音声データ、画像データ、テキストデータなどが音声入力部42や画像入力部43、テキストデータ入力部44に入力されたときの時刻を時刻検出部24を介して取得するとともに、音声データ、画像データ、テキストデータが入力されたときの携帯型端末10の位置を位置検出部22を介して取得する。そして、端末側制御部30は、サーバ50側に音声データ、画像データ、テキストデータを送信する際に、データとともに時刻及び位置の情報をメタデータとして送信する。
【0030】
サーバ50は、例えば、携帯型端末10を使用するユーザが勤務する会社内に設置されるものである。ただし、これに限らず、サーバ50は、システム管理会社に設置することとしても良い。このサーバ50は、図1に示すように、通信部52と、顔認識部53と、テキストデータ生成部54と、声紋分析部55と、重み付け部56と、抽出部58と、分類部60と、変換部62と、フラッシュメモリ64と、ハードディスク66と、サーバ側制御部70と、を有する。また、サーバ50は、これら各部の少なくとも一部を収容する、第2筐体51を有している。第2筐体51と、前述した携帯型端末10の第1筐体とは、機械的に(物理的に)分離されている。
【0031】
通信部52は、携帯型端末10側の通信部32と同様であり、本実施形態では、携帯型端末10側の通信部32との通信を行うことが可能である。通信部52が受信したデータ(音声データ、画像データやテキストデータ)は、サーバ側制御部70を介して、フラッシュメモリ64に格納される。すなわち、通信部52は、サーバ50において、音声データ、テキストデータ、及び画像データをサーバ側制御部70に対して入力する入力部として機能している。
【0032】
顔認識部53は、携帯型端末10側から送信されフラッシュメモリ64に記憶された画像から被写体(人物)の顔領域を検出するとともに、この検出された顔領域の顔と、ハードディスク66に登録された顔画像とを比較して、携帯型端末10側から送信された画像に含まれる顔が誰の顔であるかを特定する。顔認識の手法としては各種手法を用いることができ、本実施形態では、エッジ検出や形状パターン検出による顔検出方法、及び/又は、色相抽出や肌色抽出による顔検出方法とにより、顔認識を行うものとする。なお、顔認識部53は、サーバ側制御部70と協働して、携帯型端末10側から送信された画像データに対してノイズ低減処理やエッジ強調処理を行い、顔認識を行いやすくするための処理を施すこともできる。顔認識部53は、顔から認識した被写体(人物)の情報(名前や役職など)を、サーバ側制御部70に対して通知する。
【0033】
なお、ハードディスク66に顔を登録する際に、その顔の守秘性(高、中、低)を設定することができるようにしてもよい。例えば守秘性が高い顔として登録されていれば、サーバ側制御部70は、その顔の画像を携帯型端末10に転送するのを禁止したり、表示部14に表示する際に画像の解像度を落としたり、モザイクをかけたりするなどの処理を行うことができる。また、サーバ側制御部70は、解像度を落としたり、モザイクをかけたりするなどの処理を行った顔の画像の近傍に、顔認識部53から通知された人物の情報を表示することができる。このようにすることで、モザイクをかけるなどして画像のみからでは誰の顔であるかを認識できなくなった場合でも、人物の情報を表示することでモザイク処理された画像の人物を特定することができるようになる。この場合、サーバ側制御部70は、人物の情報(例えば氏名や役職など)を、イニシャル変換して表示することとしてもよい。
【0034】
また、サーバ側制御部70は、ハードディスク66に登録されていない顔の画像を入力した場合に、未登録の顔の画像を携帯型端末10に転送するのを禁止したり、表示部14に表示する際に画像の解像度を落としたり、モザイクをかけたりするなどすることもできる。この場合、未登録者のプライバシーを守ることができる。
【0035】
なお、顔認識部53に代えて、又はこれとともに文字認識部を設けることとしてもよい。この場合、文字認識部が画像中に存在する文字(例えば、ホワイトボードや黒板などに書かれた文字や、スクリーンに映し出された文字など)を認識した結果をサーバ側制御部70に通知することとする。サーバ側認識部70では、文字の内容が、守秘性の高いものであると判断した場合には、画像の文字部分の解像度を落としたり、モザイクをかけたりするなどすることができる。サーバ側制御部70は、文字認識部による認識結果を所定のルールにしたがって変換し、画像の文字部分近傍に変換後の内容を表示するようにしてもよい。
【0036】
テキストデータ生成部54は、フラッシュメモリ64に格納された音声データを取得し、当該音声データを変換してテキストデータを生成するものである。生成されたテキストデータは、サーバ側制御部70を介して、フラッシュメモリ64に格納される。
【0037】
声紋分析部55は、音声の大きさ(強さ)、周波数、長さを用いて、登録済みの声紋データとのパターンマッチングすることで声紋分析を行い、音声を発した人物を特定するものである。なお、声紋分析では、音声の大きさ(強さ)、周波数、長さの全てを用いなくても良く、少なくとも音声の周波数を用いることで、音声を発した人物を特定することとしても良い。ここで、複数の人の音声が音声入力部42に入力された場合には、声紋分析部55による声紋分析の精度が低下するおそれがある。この場合、音声入力されたときの画像が画像入力部43に入力されていれば、声紋分析部55は、顔認識部53による識別結果を加味して声紋分析を行うこととしてもよい。例えば、声紋分析部55は、顔認識部53により認識することが可能な人の口の動きを加味して、入力した音声を分析するようにしてもよい。
【0038】
重み付け部56は、フラッシュメモリ64に格納されている音声データ及び音声データから生成されたテキストデータ、又はテキストデータ入力部44から入力されたテキストデータを取得し、各テキストデータの重み付けを行う。重み付け部56は、重み付けにより得られた数値(タスク優先度)をテキストデータとともに、フラッシュメモリ64に格納する。
【0039】
重み付け部56による重み付けは、例えば、音声の大きさや周波数、テキストデータの意味に基づいて行われる。具体的には、重み付け部56は、音声の大きさや周波数に基づいて声紋分析部55で分析された結果(音声を発した人物が誰かという情報)から重み付けをしたり、テキストデータの意味から守秘性に応じた重み付けを行ったりする。なお、本実施形態において守秘性とは、他人(不特定の第三者)に見られないほうが好ましい度合いを意味する。
【0040】
重み付け部56には、変更部72と設定部74が接続されている。変更部72は、重み付け部56の重み付けに関する設定を変更するものであり、設定部74は、ユーザの指示に基づいて、重み付け部56の重み付けに関する設定を変更するものである。なお、設定部74は、サーバの入力部(キーボード等)から入力されるユーザの指示に基づいて、設定を変更することとしても良いし、通信部52,32を介して携帯型端末10の入力部12から入力されるユーザの指示を受けて、設定を変更することとしても良い。
【0041】
抽出部58は、フラッシュメモリ64に格納されているテキストデータから、所定のワードを抽出する。すなわち、携帯型端末10の入力部12に入力された情報から、所定のワードを抽出する。この所定のワードとは、他人に見られないほうが好ましいワード、すなわち守秘性が比較的高いワードを意味し、当該ワードは、ハードディスク66に格納されたキーワードDB(図7参照)において、予め定められている。
【0042】
なお、抽出部58は、顔認識部53やサーバ側制御部70と協働して、ユーザ毎にキーワードを設定して守秘性を抽出するようにしてもよい。
【0043】
分類部60は、抽出部58により抽出したワードを守秘性レベルの高いワード(第1ワード)と守秘性レベルがやや高い(中位の)ワード(第2ワード)とに分類する。この分類は、ハードディスク66に格納されているキーワードDB(図7参照)に基づいて、行われる。
【0044】
変換部62は、守秘性レベルが「高」のワードと、守秘性レベルが「中」のワードとを、所定のルールに基づいて変換し、フラッシュメモリ64に格納する。
【0045】
フラッシュメモリ64は、サーバ50内で処理するデータを一時的に記憶するものである。フラッシュメモリ64には、消去部76が接続されている。消去部76は、サーバ側制御部70の指示に基づいて、所定のタイミングで、フラッシュメモリ64に格納された音声データやテキストデータを消去する。なお、データを消去する具体的なタイミングについては、後述する。なお、フラッシュメモリ64に代えて、その他の揮発性メモリを用いることもできる。
【0046】
ハードディスク66には、各種処理で用いるデータベースなどのデータが格納される。なお、ハードディスク66に代えて、その他の不揮発性メモリを用いることとしても良い。
【0047】
サーバ側制御部70は、サーバ50内の各部を統括的に制御し、サーバ50側における処理を実行するものである。なお、サーバ50は、実際には、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有しており、ROM等に格納(インストール)されたプログラムをCPUが実行することで、前述した顔認識部53、テキストデータ生成部54、重み付け部56、抽出部58、分類部60、変換部62、声紋分析部55などの各部の機能を実現する。
【0048】
また、サーバ側制御部70は、顔認識部53が行った画像内の被写体(人物)の顔認識結果に基づき、その画像の少なくとも一部にマスキング処理(解像度を落とす、モザイクをかける)を施す。例えば、画像内の人物が社内や社外の重要人物として予め登録されている人物(守秘性の高い人物)である場合には、その人物の顔にマスキング処理を施すようにする。あるいは、画像内の人物が在宅勤務者として予め登録されている人物である場合には、その人物の背景画像(在宅勤務者の家の中の様子を撮影した部分)にマスキング処理を施すようにする。また、顔認識部53が、被写体である人物が笑顔(表情が柔らかい)であるか、眉間に皺を寄せている(表情が硬い)かなどの表情を検出できる場合には、サーバ側制御部70は、例えば、笑顔であれば画像にマスキング処理を施さず、眉間に皺を寄せているような表情であれば、被写体や被写体の背景などにマスキング処理を施すようにすることができる。なお、前述したように、携帯型端末10の入力部12からの各種データには、時間並びに位置情報がメタデータとして付けられているので、サーバ側制御部70は、このメタデータを用いて画像に対するマスキング処理を行うか否かを判断することとしてもよい。例えば、同じ人の画像であっても、時刻や位置から社内や在宅勤務者の家で取得(撮影)した画像と推定できるような場合であればマスキング処理を施し、社外で取得した画像と推定できるような場合であればマスキング処理を施さないようにしてもよい。また、例えば、同じ人の画像であっても、その画像を閲覧する時刻や位置から社外で画像を閲覧すると推定できるような場合にはマスキング処理を施し、社内で画像を閲覧すると推定できるような場合にはマスキング処理を施さないようにしてもよい。サーバ側制御部70は、これらマスキング処理した画像(変換画像データ)を、オリジナル画像(元画像データ)とともに、フラッシュメモリ64に記憶する。なお、上述した眉間の皺や笑顔検出は、不図示の表情検出部により検出すればよい。不図示の表情検出部により眉間の皺を検出する場合には、眉間に皺のある画像をリファレンス画像としてフラッシュメモリ64に記憶させてパターンマッチングにより検出してもよく、また、左目と右目との間の部分の陰影分布から検出してもよい。なお、眉間の皺の検出は米国公開特許2008-292148号にも開示がある。また、不図示の表情検出部により笑顔を検出する場合には、フラッシュメモリ64に記憶されている笑顔データを参照して眉、瞳孔、唇の各要素の形状の評価ポイントを算出して求めればよい。なお、笑顔検出は米国公開特許2005-201594にも開示がある。
【0049】
次に、本実施形態のパーソナルアシスタントシステム100における処理について、図2図27に基づいて、詳細に説明する。
【0050】
まず、音声入力部42から入力される音声をサーバ50側のフラッシュメモリ64に格納する処理(録音処理)について図2(a)~図2(d)に基づいて説明する。なお、録音処理は、常時行うこととしても良いのは勿論であるが、省電力化を図り、効率的な録音を行うため、本実施形態では、図2(a)~図2(d)の処理のうち、少なくとも2つの処理を同時並行的に行ったり、いずれか1つの処理のみを行ったりする。
【0051】
なお、画像入力処理は、携帯型端末10がポケットに入れられているタイプであれば、ユーザが不図示のスイッチを用いて画像入力操作を行った場合を、開始タイミングとすればよい。例えば、会議の開始と同時に画像入力操作を行って、会議の状況を撮影(入力)したり、あるいは、在宅勤務者が会社内の人と打ち合わせをする際には、画像入力操作を行って、顔や資料を撮影(入力)したりする。この場合、端末側制御部30は、画像入力操作に基づいて、画像入力部43の動作を制御する。
【0052】
なお、最近では、自分の行動を記録するライフログシステムも提案されている。携帯型端末10がユーザの首から吊り下げられているタイプであったりヘッドマウントディスプレイのようなタイプであったり、画像入力部43が携帯型端末10から分離して設けてある場合(例えば、メガネの横に設けられている場合)には、録音処理を行うのと同じタイミングで画像入力を行うものとしてもよい。
【0053】
(録音タイミング例1)
図2(a)は、ある人物が音声を発している間だけ、録音を実行する処理を示すフローチャートである。なお、音声入力部42に入力される音声は、通信部32、52を介して、サーバ側制御部70に入力されているものとする。
【0054】
この図2(a)の処理では、ステップS10において、サーバ側制御部70が、音声入力部42から音声が入力されたか否かを判断する。ここでの判断が肯定されると、ステップS12では、サーバ側制御部70の指示の下、声紋分析部55が、入力された音声の声紋分析を行う。この声紋分析では、ハードディスク66に格納されている声紋DB(図3参照)に含まれる音声データと、入力された音声データとを照合(パターンマッチング)することにより、入力された音声を発した人物を特定する。ここで、図3の声紋DBには、人物名と、その人物の声紋データとが対応付けられている。なお、本システムをビジネス用として用いる場合には、例えば、会社の社員全員の声紋データを声紋DBに登録しておくなどすることができる。また、本システムをプライベート用として用いる場合には、各ユーザが個別に、家族や親戚、友人等の声紋データを声紋DBに登録しておくなどすることができる。この登録は、携帯型端末10の音声入力部42から行う。
【0055】
次いで、ステップS14では、サーバ側制御部70が、ステップS12において人物が特定されたか否か、すなわち、声紋DBに登録された人物の音声であったか否かを判断する。ここでの判断が肯定された場合には、サーバ側制御部70は、ステップS16において録音(フラッシュメモリ64への格納)を開始する。なお、録音された音声データは、テキストデータ生成部54においてテキストデータに変換されることから、この録音開始のタイミングは、テキストデータ生成のタイミングであるともいえる。一方、ステップS14における判断が否定された場合には、ステップS10に戻る。
【0056】
ステップS14の判断が肯定され、ステップS16に移行した後は、サーバ側制御部70は、ステップS18において音声入力が所定秒間途絶えるまで、録音を続ける。そして、音声入力が所定秒間なかった場合、すなわち、音声入力が終了したとみなされた場合に、ステップS18の判断が肯定される。ステップS18の判断が肯定されると、端末側制御部30は、ステップS20において録音を終了して、ステップS10に戻る。
【0057】
その後は、上記処理を繰り返すことで、声紋DBに登録されている人物が音声を発するタイミングごとに、録音が実行されるようになっている。なお、録音タイミングを決定する人物は、声紋DBとは別のDBにて管理しても良い。これにより、例えば、録音タイミングを決定する人物を、会議の主催者などに限定することが可能である。
【0058】
なお、図2(a)では、声紋に基づいて、ある人物が発声したタイミングで、録音を開始する場合について説明したが、これに限らず、例えば、電話に関連した周波数(例えば着信音の周波数)が音声入力部42から入力された時点から録音を開始することとしても良い。これにより、電話での会話を漏らすことなく録音することができるようになる。
【0059】
(録音タイミング例2)
図2(b)は、予め登録されている時刻において録音を実行する処理を示すフローチャートである。なお、この図2(b)の処理は、図2(a)の場合と異なり、携帯型端末10側の通信部32から音声データをサーバ50側に送信するか、しないかを切り替えることで、録音タイミングを切り替えるものである。
【0060】
図2(b)では、ステップS24において、端末側制御部30が、時刻検出部24を介して、現在時刻を検出する。次いで、ステップS26では、端末側制御部30が、予め定められた録音開始時刻か否かを判断する。ここで、録音開始時刻は、携帯型端末10の出荷時に予め定められていても良いし、ユーザ等が、入力部12から予め入力しても良い。この録音開始時刻としては、例えば、人との会話などが多く、情報量が多いと考えられる時間(例えば、会社に出社した直後の1時間)や、集中力が途切れやすい時間(例えば、昼休み前後30分や、疲労がピークに達する残業時間(午後8時以降など))とすることができる。
【0061】
ステップS26の判断が肯定された場合には、ステップS28に移行し、通信部32が、端末側制御部30の指示の下、音声入力部42に入力された音声データをサーバ50側へ送信し始める。この場合、通信部52及びサーバ側制御部70を介して、音声データがフラッシュメモリ64に格納される(録音される)。
【0062】
次いで、ステップS30では、端末側制御部30が、時刻検出部24を介して、現在時刻を検出する。そして、次のステップS32では、端末側制御部30が、予め定められている録音終了時刻が到来したか否かを判断する。ここでの判断が肯定されると、ステップS34に移行するが、判断が否定されると、ステップS30に戻る。ステップS34に移行した場合、通信部32は、端末側制御部30の指示の下、サーバ50側への音声データ送信を停止する。これにより、録音が終了する。その後は、ステップS24に戻り、上記処理を繰り返す。これにより、録音開始時刻が到来するたびに、録音を行うことができる。
【0063】
(録音タイミング例3)
図2(c)は、予め登録されている会議の終盤に録音を実行する処理を示すフローチャートである。なお、この図2(c)の処理も、図2(b)と同様、通信部32から音声データをサーバ50側に送信するか、しないかを切り替えることで、録音タイミングを切り替えるものである。
【0064】
図2(c)では、ステップS36において、端末側制御部30が、時刻検出部24を介して、現在時刻を検出する。次いで、ステップS38では、端末側制御部30が、フラッシュメモリ28に格納されているタスクリスト(後述する)の中から、会議の予定を抽出し、当該会議の終了時刻よりも所定時間前(例えば10分前)か否かを判断する。ここでの判断が肯定された場合には、ステップS40において、図2(b)のステップS28と同様の方法で録音を開始する。
【0065】
次のステップS42では、端末側制御部30が、時刻検出部24を介して、現在時刻を検出する。そして、次のステップS44では、端末側制御部30が、ステップS38の判断に用いた会議の終了時刻が到来したか否かを判断する。ここでの判断が肯定されると、ステップS46に移行するが、判断が否定されると、ステップS42に戻る。ステップS46に移行した場合、通信部32は、端末側制御部30の指示の下、サーバ50側への音声データ送信を停止する。その後は、ステップS36に戻り、上記処理を繰り返す。これにより、会議の終盤の所定時間における録音が可能となる。なお、会議の終盤に録音を行うこととしたのは、会議の終盤ほど、会議の結論が発言されたり、次の会議の予定がアナウンスされたりする可能性が高いからである。
【0066】
なお、図2(c)の処理では、会議が実施されている時間中、継続して録音を行うこととしても良い。また、その会議の司会者や発表者などがタスクリストに登録されている場合には、図2(a)の処理と組み合わせて、登録されている司会者や発表者の音声のみを録音するようにしても良い。
【0067】
(録音タイミング例4)
図2(d)には、生体情報入力部20から入力される情報(ここでは、ユーザの筋肉の状態(緊張度及び弛緩度)とする)に基づいて、録音を実行する処理を示すフローチャートである。なお、この図2(d)の処理も、図2(b)、図2(c)と同様、通信部32から音声データをサーバ50側に送信するか、しないかを切り替えることで、録音タイミングを切り替えるものである。
【0068】
図2(d)では、ステップS50において、端末側制御部30が、生体情報入力部20を介して、ユーザの筋肉の状態を取得する。次いで、ステップS52では、端末側制御部30が、筋肉の状態と予め定められている閾値とを比較して、所定の弛緩状態か否かを判断する。ここでの判断が肯定された場合には、ステップS54において、図2(b)のステップS28と同様の方法で録音を開始する。
【0069】
次のステップS56において、端末側制御部30が、再度、筋肉の状態を取得すると、次のステップS58では、端末側制御部30が、筋肉の状態と予め定められている閾値とを比較して、所定の緊張状態か否かを判断する。ここでの判断が肯定されると、ステップS60に移行するが、判断が否定されると、ステップS56に戻る。ステップS60に移行した場合、通信部32は、端末側制御部30の指示の下、サーバ50側への音声データ送信を停止する。その後は、ステップS50に戻り、上記処理を繰り返す。以上の処理により、筋肉の状態から、ユーザの緊張度合いを判断し、ユーザがリラックスしすぎており、他人の話を聞いていないような状況(例えば居眠りをしている状況)での、音声の自動的な録音を行うことが可能となる。
【0070】
なお、図2(d)では、リラックスしすぎているときにのみ、音声を録音することとしたが、これとともに又はこれに代えて、適度に緊張しているときに音声を録音することとしても良い。適度に緊張している場合には、重要な話がされている可能性が高いからである。
【0071】
なお、受話器(携帯型端末筐体)に発汗センサと圧力センサとの少なくとも一方を設けて受話器を保持する手の発汗量や、受話器の保持力からユーザが緊張状態または弛緩状態であることを検出してもよい。
【0072】
この発汗センサと圧力センサとの出力を端末側制御部30に送信し、端末側制御部30はユーザが緊張状態または弛緩状態であると判断したときに音声入力部42による録音を開始するようにしてもよい。
【0073】
発汗センサとしては複数の電極を設けて手のインピーダンスを測定するようにすれば良い。感動、興奮、緊張といったような精神性発汗は、発汗量が少なく、発汗時間も短いので、指よりも発汗量が多い中手の掌側に対応して受話器に発汗センサを設ければよい。
【0074】
圧力センサとしては、静電容量型、歪ゲージ、電歪素子のいずれを用いてもよく、ユーザが通常受話器を握る圧力よりも例えば10%以上大きな圧力で受話器を握ったときに緊張状態と判断するようにすればよい。
【0075】
また、発汗センサと圧力センサの少なくとも一方は、携帯型端末10に設けてもよく、携帯電話などに設けてもよい。
【0076】
なお、上述したように、図2(a)~図2(d)の処理において録音開始タイミングとなった場合でも、例えば、携帯型端末10が録音禁止位置に存在している場合などにおいては、録音を開始しないようにしても良い。録音禁止位置としては、例えば、ユーザが勤務する会社以外の会社内などを採用することができる。
【0077】
(音声データの処理)
次に、音声データが録音された後に行われる音声データの処理について、図4図23に基づいて説明する。図4は、音声データの処理に関するフローチャートである。
【0078】
図4のステップS70では、サーバ側制御部70が、フラッシュメモリ64に音声データが録音されたか否かを判断する。ここでの判断が肯定されると、ステップS72に移行し、テキストデータ生成部54が、サーバ側制御部70の指示の下、音声データをテキスト化する。この場合、音声データが所定時間途切れるたびにテキスト化される。また、サーバ側制御部70は、音声データをテキスト化したデータ(テキストデータ)と、音声データが音声入力部42に入力された時刻と、音声データが入力された位置と、音声データの音声レベルを、フラッシュメモリ64内の記憶データDB(図5)に登録する。なお、ここで登録される時刻や位置の情報は、前述のように、音声データとともに通信部32から送信されているものである。次いで、ステップS74では、声紋分析部55が、サーバ側制御部70の指示の下、声紋分析をして音声を発した人物を特定し、記憶データDBに登録する。なお、図2(a)のステップS12の処理を経ている場合には、ステップS74を行わずに、ステップS12の内容を記憶データDBに登録することとしても良い。
【0079】
図5には、記憶データDBのデータ構造が示されている。記憶データDBには前述した、時刻、位置、テキストデータ、発声人物、音声レベル、並びにタスクフラグ、タスク優先度が格納される。なお、タスクフラグ及びタスク優先度の項目については、後述する。
【0080】
図4に戻り、次のステップS76では、タスク判定のサブルーチンを実行する。タスク判定のサブルーチンでは、一例として、図6の処理を実行する。図6の処理では、ステップS110において、サーバ側制御部70が、テキストデータに日時が含まれているか否かを判断する。なお、ここでの日時には、何年何月何日何時という具体的な日時のほか、明日、明後日、午前、午後などの日時も含まれる。ここでの判断が肯定された場合には、ステップS114においてタスクと判定された後に、図4のステップS78に移行するが、判断が否定された場合には、ステップS112に移行する。
【0081】
ステップS112では、サーバ側制御部70がテキストデータに、特定のワードが含まれているか否かを判断する。ここで、特定のワードは、タスクに関連するワードであり、例えば、「すること」、「してください」、「しなさい(又は「しろ」、「やれ」)「しよう(又は「しましょう」)」、「します」、「予定しています」などのワードである。この特定のワードは、装置出荷時に予めハードディスク66内にテーブルとして格納されていても良いし、ユーザが随時追加するようにしても良い。ステップS112の判断が肯定された場合には、ステップS114においてタスクと判定された後に、図4のステップS78に移行する。一方、ステップS112の判断が否定された場合には、ステップS116においてタスクでないと判定された後に図4のステップS78に移行する。
【0082】
図4に戻り、ステップS78では、サーバ側制御部70が、図6の処理の結果、タスクと判定されたか否かを判断する。以下、ステップS78の判断が肯定された場合と、否定された場合の処理について説明する。
【0083】
(ステップS78の判断が肯定された場合(タスクであった場合))
ステップS78の判断が肯定されると、ステップS80に移行し、サーバ側制御部70は、記憶データDB(図5)のタスクフラグをオンに設定する。次いで、ステップS82では、抽出部58が、サーバ側制御部70の指示の下、ハードディスク66に格納されているキーワードDB(図7)に基づいて、キーワードを抽出する。図7に示すように、キーワードDBには、キーワードと、そのキーワードの詳細情報、属性、守秘性のレベルと、が紐付けられている。したがって、抽出部58は、このキーワードDBのキーワードの項目に着目し、テキストデータから、キーワードDBに登録されているキーワードを抽出するようにする。
【0084】
例えば、テキストデータが、
『11月20日13時に、クールブルースピーカ2のソフトウェア仕様について、大東京株式会社の青山一郎さんと打合せ予定』
であったとする。
【0085】
この場合、抽出部58は、図7のキーワードDBに登録されている「クールブルースピーカ2」、「ソフトウェア」、「仕様」、「大東京株式会社」、「青山一郎」を、キーワードとして抽出する。
【0086】
なお、キーワードDBは、事前に予め作成しておく必要がある。また、キーワードDBの登録内容は、適宜(例えば、メンテナンス時等において)追加・変更が可能であるものとする。また、図7では、個人名、会社名、技術用語などの属性以外にも、特許情報や予算情報、商談情報などの属性でキーワードを登録しても良い。
【0087】
図4に戻り、次のステップS84では、各キーワードの解析サブルーチンが実行される。図8には、ステップS84の解析サブルーチンの具体的処理がフローチャートにて示されている。
【0088】
この図8では、ステップS120において、分類部60が、サーバ側制御部70の指示の下、キーワードDBから、キーワードの守秘性のレベルを取得する。具体的には、分類部60は、キーワードDBから「クールブルースピーカ2」の守秘性レベルとして「中」を取得し、「ソフトウェア」の守秘性レベルとして「中」を取得し、「仕様」の守秘性レベルとして「中」を取得し、「大東京株式会社」の守秘性レベルとして「高」を取得し、「青山一郎」のレベルとして「高」を取得する。
【0089】
次いで、ステップS122では、変換部62が、サーバ側制御部70の指示の下、ステップS120で取得された守秘性に基づいてキーワードを変換し、変換後のキーワードを、フラッシュメモリ64に記憶するサブルーチンを実行する。
【0090】
図9は、ステップS122のサブルーチンの具体的処理を示すフローチャートである。図9に示すように、変換部62は、まず、ステップS138において、抽出部58で抽出されたキーワードの中から1つのキーワードを選択する。なお、ここでは、一例として、「大東京株式会社」が選択されたものとする。
【0091】
次いで、ステップS140では、変換部62が、選択したキーワードの守秘性レベルが「高」であるか否かを判断する。「大東京株式会社」は、前述のように、守秘性レベルが「高」であるので、ここでの判断は肯定され、ステップS142に移行する。ステップS142では、変換部62が、キーワードを守秘性に応じて変換するサブルーチンを実行する。具体的には、図10に示すフローチャートに沿って処理を実行する。
【0092】
図10のステップS160では、変換部62が、選択したキーワードに特定変換ワードが含まれているか否かを判断する。ここで、特定変換ワードとは、例えば、図11の特定変換ワードDBに定義されているような、会社名に頻繁に用いられるワード(株式会社、有限会社、(株)、(有)など)や、国等の機関に頻繁に用いられるワード(機構、省、庁など)や、教育機関に頻繁に用いられるワード(大学、高等学校など)等を意味する。
【0093】
選択されたキーワード「大東京株式会社」の場合、特定変換ワード「株式会社」を含んでいるので、ステップS160の判断は肯定され、ステップS162に移行する。ステップS162では、変換部62は、特定変換ワードを特定変換ワードDBに基づいて変換する。この場合、「大東京株式会社」のうちの「株式会社」の部分が「社」に変換される。次いで、ステップS164では、特定変換ワード以外の変換サブルーチンを実行する。
【0094】
図12は、ステップS164の変換サブルーチンの具体的処理を示すフローチャートである。この図12に示すように、変換部62は、ステップS190において、変換対象部分(特定変換ワード以外の部分)が、地名であるか否かを判断する。ここで、変換対象部分「大東京」は、地名を含んではいるものの、地名そのものではないので、判断は否定され、ステップS194に移行する。
【0095】
ステップS194では、変換部62は、変換対象部分が氏名であるかを判断する。ここでは、氏名ではないので、判断は否定されステップS198に移行する。そして、ステップS198では、変換部62は、変換対象部分「大東京(DaiTokyo)」をイニシャル変換して「D」とする。ステップS198の処理が終了すると、図10のステップS165に移行する。
【0096】
ステップS165では、変換部62が、ステップS162,S164の変換後のワードを組み合わせる。具体的には、「D」と「社」とを組み合わせて「D社」とする。
【0097】
次いで、ステップS168では、変換部62が、変換対象のキーワード「大東京株式会社」に情報が付帯しているか否かを判断する。ここで、情報が付帯しているとは、図7のキーワードDBの情報の欄に、情報が入力されている場合を意味する。ここでは、「大東京株式会社」に、「電機 東京都品川区」が付帯しているため、ステップS168の判断は肯定され、ステップS170に移行する。
【0098】
ステップS170では、変換部62が、付帯している情報のうちで、未だ選択されていない情報を1つ選択する。次いで、変換部62は、ステップS172において、選択した情報(例えば、「電機」)の守秘性レベルが「高」又は「中」であるか否かを判断する。ここで、「電機」が守秘性レベルが「低」であるとすると、ステップS172の判断は否定されるので、ステップS182に移行する。ステップS182では、変換部62は、全ての情報が選択済みであるか否かを判断する。ここでは、まだ、「東京都品川区」が未選択であるので、判断は否定されて、ステップS170に戻る。
【0099】
次いで、変換部62は、ステップS170において、未選択の情報「東京都品川区」を選択するとともに、ステップS172において、「東京都品川区」の守秘性レベルが「高」又は「中」か否かを判断する。ここで、図7のキーワードDBに示すように、地名は、「低」又は付帯するキーワードの守秘性レベルに準じると定義されているため、「東京都品川区」は、キーワード「大東京株式会社」に準じて、守秘性レベルは「高」となる。したがって、ステップS172の判断は肯定され、ステップS174に移行する。ステップS174では、変換部62は、「東京都品川区」に特定変換ワードが含まれているか否かを判断する。ここでの判断が否定されると、ステップS180に移行して、情報を変換する変換サブルーチンを実行する。このステップS180の変換サブルーチンは、基本的には、前述したステップS164と同様の処理(図12)である。
【0100】
すなわち、図12では、変換部62が、ステップS190において、「東京都品川区」が地名か否かを判断する。ここでの判断が肯定されると、変換部62は、ステップS192において、図13に示す地名DBに基づいて変換処理を実行する。具体的には、変換部62は、「東京都品川区」を、守秘性レベルが「高」の変換方法で変換することで、「関東南部」と変換する。なお、図13の地名DBでは、守秘性レベルが「高」の場合、当該地名を、比較的広い区域の中での位置として表現し、守秘性レベルが「中」の場合には、当該地名を、守秘性レベルが「高」の場合よりも狭い区域の中での位置として表現している。
【0101】
ステップS192の処理が終了すると、その後は、図10のステップS182に移行する。このステップS182の段階では、既に全ての情報(電機、東京都品川区)が選択済みであるので、ステップS182の判断が肯定されて、ステップS184に移行する。ステップS184では、変換部62が、変換後の情報を、変換後のキーワード(ステップS165又はS166)に対応付ける。ここでは、「D社(電機,関東南部)」となる。その後、図9のステップS144に移行する。
【0102】
図9のステップS144では、変換後のキーワードを、フラッシュメモリ64に記憶されているキーワード格納DB(図14参照)の領域Aに格納する。なお、図14に示すように、キーワード格納DBには、領域Aのほか、領域O、B、Cの格納領域が設けられている。領域Oには、キーワードの生データ(変換前キーワード)が、格納される。当該格納処理が完了すると、ステップS154に移行し、抽出部58で抽出されたキーワードの全てが選択済みであるか否かを判断する。ここでの判断が否定されると、ステップS138に戻る。
【0103】
次に、ステップS138において、変換部62が、キーワードとして「クールブルースピーカ2」を選択した場合について説明する。この場合、キーワードは、「クールブルースピーカ2」であり、守秘性レベルが「中」であるので、ステップS140の判断が否定される一方、ステップS146の判断が肯定されて、ステップS148に移行する。
【0104】
ステップS148では、キーワードを守秘性に応じて変換するサブルーチンを実行する。具体的には、ステップS142と同様、図10の処理を実行することになる。図10の処理では、ステップS160において、変換部62が、「クールブルースピーカ2」に特定変換ワードが含まれているか否かを判断するが、ここでの判断は否定されるので、ステップS166に移行し、変換サブルーチンを実行する。このステップS166の変換サブルーチンでは、前述したステップS164、S180と同様に、図12の処理を実行する。図12では、「クールブルースピーカ2」は地名でも人名でもないので、ステップS190,S194の判断が否定され、変換部62は、ステップS198においてイニシャル変換を行う。この場合、キーワードDBにおいて、「クールブルースピーカ2(日本語表記)」に併記されている英語表記「Cool Blue Speaker2」をイニシャル変換(大文字部分をイニシャル変換)して「CBS2」と変換する。
【0105】
以上のようにして図12の処理が終了すると、図10のステップS168に移行するが、図7のキーワードDBでは、「クールブルースピーカ2」には何ら情報が付帯していないので、ステップS168の判断が否定されて、図9のステップS150に移行する。ステップS150では、変換後のキーワードを、図14に示すフラッシュメモリ64の領域Bに格納する。すなわち、変換部62は、領域Oにキーワードそのものを格納するとともに、当該キーワードに対応して領域Bに、「CBS2」を格納する。当該格納処理が完了すると、ステップS154に移行し、抽出部58で抽出されたキーワードの全てが選択済みであるか否かを判断する。ここでの判断が否定されると、再度、ステップS138に戻る。
【0106】
次に、ステップS138において、変換部62が、キーワード「青山一郎」を選択した場合について説明する。この場合、「青山一郎」は守秘性レベルが「高」であるので、ステップS140の判断が肯定されて、ステップS142に移行する。
【0107】
ステップS142では、前述したのと同様、図10の処理を実行する。図10の処理では、ステップS160が否定されて、ステップS166(図12の処理)に移行する。図12のステップS190では、その判断が否定され、ステップS194に移行する。ステップS194では、変換部62が、「青山一郎」が氏名か否かを判断する。そして、ここでの判断が肯定されると、ステップS196に移行する。なお、ステップS194において、「青山一郎」が氏名であると判断されるのは、図7のキーワードDBにおいて「青山一郎」の属性が、取引先の人名となっているからである。
【0108】
ステップS196では、変換部62が、「青山一郎」をイニシャル変換する。なお、ステップS196では、キーワードの守秘性レベルが「高」の場合には、氏及び名の両方をイニシャル変換する。すなわち、「青山一郎(Aoyama Ichiro)」は「AI」に変換されることになる。一方、例えば、図7のキーワードDBに登録されている「上田三郎(Ueda Saburo)」のように、キーワードの守秘性レベルが「中」であった場合には、名のみをイニシャル変換する。すなわち、「上田三郎」は「上田S」にイニシャル変換される。なお、氏のみをイニシャル変換して、「U三郎」と変換しても良い。
【0109】
ステップS196の処理が完了すると、図10のステップS168に移行する。ここで、キーワード「青山一郎」には、図7に示すように、情報として「大東京株式会社 カメラ AFモータ 2009年10月15日特許研修会(東京)」が付帯しているので、ステップS168の判断は肯定され、ステップS170に移行する。そして、ステップS170では、例えば、情報「大東京株式会社」が選択される。「大東京株式会社」は前述したように守秘性レベルが「高」であるので、ステップS172の判断は肯定されて、ステップS174に移行する。そして、「大東京株式会社」は、特定変換ワード「株式会社」を含んでいるので、ステップS174の判断が肯定されて、当該特定変換ワードの変換(ステップS176)、及び特定変換ワード以外の変換(ステップS178)を実行する。なお、ステップS176,S178は、前述したステップS162、S164と同様である。そして、ステップS182の判断が否定されると、ステップS170に戻る。
【0110】
その後は、全ての情報が選択済みとなるまで、ステップS170~ステップS182を繰り返す。そして、全ての情報が選択済みとなった後は、ステップS184において、変換後のキーワードに変換後の情報を対応付ける。ここでは、例えば、「AI(カメラ,AFM,2009年10月15日T会(東京))」と対応付けられる。そして、図9のステップS144で、領域Aへの格納が完了すると、ステップS154に移行し、抽出部58で抽出されたキーワードの全てが選択済みであるか否かを判断する。ここでの判断が否定されると、再度、ステップS138に戻る。
【0111】
なお、上記処理において、図9のステップS146の判断が否定された場合、すなわち、キーワードの守秘性レベルが「低」であった場合には、ステップS152において、当該キーワードをそのまま領域C(及び領域O)に格納する。なお、キーワードに情報が付帯している場合には、当該情報も領域Cに格納する。例えば、図14に示すように、キーワード「エスブイエス社」であれば、領域Cには、「エスブイエス社 機械 ドイツ ミュンヘン」として格納される。
【0112】
また、上記処理において、例えば、ステップS138において選択されたキーワードが「ソフトウェア」であった場合には、ソフトウェアをイニシャル変換し、「SW」とするとともに、図7に示す情報<スポンジ>を変換せずに、SWに対応付ける。この場合において、<xx>という表記は、キーワードと対等で取り扱うワードであることを意味するものとする。すなわち、「ソフトウェア」と「スポンジ」のいずれかを用いるという意味であるものとする。したがって、キーワード「ソフトウェア」に対して上記処理を行った場合、フラッシュメモリ64の領域Bには、「SW」と「スポンジ」が対等に格納されることになる。なお、「SW」と「スポンジ」の使い分けについては、後述する。
【0113】
以上の処理をその他のキーワード(ここでは「仕様」)に対しても行い、図9のステップS154の判断が肯定されると、図8のステップS124に移行する。
【0114】
ステップS124では、サーバ側制御部70が、発言者の属性に関する重みを取得する。この場合、図15(a)に示す属性に関する重みテーブルに基づいて、発言者の役職から、重み(Tw)を取得する。例えば、発言者が、図7の上田三郎である場合には、重み(Tw)としてマネジャー(M)の「2」を取得する。
【0115】
次いで、ステップS126では、サーバ側制御部70が、音声レベルに関する重みを取得する。この場合、サーバ側制御部70は、図15(b)に示す音声レベルに関する重みテーブルと、記憶データDB(図5参照)に記憶されている音声レベルと、に基づいて重み(Vw)を取得する。図5のように、音声レベルが70dbの場合には、重み(Vw)は3となる。なお、音声レベルが大きいほど重み(Vw)が大きいのは、音声レベルが大きいほど、頼まれ方が強く、重要度が高い場合が多いからである。
【0116】
次いで、図8のステップS128では、サーバ側制御部70が、キーワードに関する重みを取得する。この場合、サーバ側制御部70は、図15(c)に示すキーワードに関する重みテーブルと、記憶データDBのテキストデータに含まれるキーワードと、に基づいて重み(Kw)を取得する。図15(c)では、「大切」「重要」や、「とても大切」「とても重要」が登録されているので、これらのキーワードがテキストデータに含まれていれば、重み(Kw)として、2又は3を取得する。また、ステップS128では、サーバ側制御部70は、テキストデータ中に、守秘性レベルが「高」のキーワード、守秘性レベルが「中」のキーワードがいくつ含まれていたかを判定し、その判定結果と、図15(d)に示すキーワードの守秘性に関する重みテーブルと、に基づいて、テキストデータの守秘性に関する重み(Cw)を取得する。例えば、テキストデータに、守秘性レベルが「高」のキーワードが2個、守秘性レベルが「中」のキーワードが1個含まれていた場合には、サーバ側制御部70は、Cw=8(=3×2+2×1)を取得する。
【0117】
図8のステップS128の処理が完了すると、図4のステップS86に移行する。ステップS86では、サーバ側制御部70は、タスク優先度(Tp)を算出し、記憶データDB(図5)に登録する。具体的には、サーバ側制御部70は、タスク優先度(Tp)を、次式(1)を用いて、算出する。
Tp=Uvw×Vw+Utw×Tw
+Ufw×Fw+Ukw×Kw+Ucw×Cw …(1)
【0118】
なお、上式(1)のUvw、Utw、Ufw、Ukw、Ucwは、各重み(Vw,Tw,Fw,Kw,Cw)の重要度を加味した重み付け係数であり、当該重み付け係数は、ユーザ等が設定部74を介して、設定することができるようになっている。
【0119】
次いで、図4のステップS88に移行し、サーバ側制御部70は、テキストデータ中に含まれていたキーワードの、図16に示すキーワード記録DBへの登録を行う。なお、この図16のキーワード記録DBは、例えば、1週間、1ヶ月単位又は1年単位で作成されるものである。この図16のキーワード記録DBでは、テキストデータ中に含まれていたキーワード(登録キーワードと呼ぶ)と同時に使用されたキーワードや、登録キーワードの発言者、登録キーワードが発言された日時、場所、などの関連情報を逐一記録する。また、登録キーワードと関連情報が関連付けられた回数を関連度合いとして、記録する。更に、登録キーワードが発せられた回数を出現頻度として記録する。なお、図16のキーワード記録DBの検索頻度の項目については、後述する。
【0120】
なお、ステップS88の処理が完了した後は、ステップS70に戻る。
【0121】
(ステップS78の判断が否定された場合(タスクでなかった場合))
次に、ステップS78の判断が否定された場合について、説明する。ステップS78が否定されると、ステップS90に移行して、サーバ側制御部70が、タスクフラグをオフにする。次いで、ステップS92では、サーバ側制御部70が、発声者がユーザ自身であるか否かを判断する。ここでの判断が肯定された場合には、ステップS94に移行し、ユーザが発した言葉はコマンドであるか否かを判断する。ここでは、例えば、図17のコマンドDBに示すように、「タスクリスト」という言葉が、タスクリストを表示するコマンドであり、「音声録音テキスト」という言葉が、音声録音リストを表示するコマンドであり、「変換」という言葉が、変換処理のコマンドであるものとする。なお、このコマンドDBは、携帯型端末10側のフラッシュメモリ28又はサーバ50側のハードディスク66に格納されているものとする。このコマンドDBでは、例えば、ユーザの音声が「タスクリスト」であった場合に、図18(a)に示すようなタスクリストを表示することが定義されている。なお、タスクリストの詳細については後述する。また、コマンドDBでは、ユーザの音声が「音声録音リスト」であった場合に、図18(b)に示すような音声録音リストを表示することが定義されている。なお、この音声録音リストの詳細についても後述する。
【0122】
図4に戻り、ステップS94の判断が否定された場合には、ステップS70に戻るが、ステップS94の判断が肯定された場合には、ステップS96に移行して、サーバ側制御部70が、コマンドに応じた処理を実行するサブルーチンを実行する。具体的には、図19図20図21の処理が同時並行的に実行される。
【0123】
まず、図19のフローチャートに沿って、サーバ50側での処理について説明する。サーバ50側では、ステップS202において、サーバ側制御部70が、コマンドは、表示要求であったか否かを判断する。この場合、前述のように、「タスクリスト」や「音声録音リスト」というコマンドが、表示要求に該当する。
【0124】
次いで、ステップS204では、サーバ側制御部70が、コマンドに応じた表示を行うのに必要なデータを、フラッシュメモリ64から抽出する。例えば、コマンドが「タスクリスト」であれば、タスクリストに表示すべきテキストデータ(図5におけるタスクフラグがオンになっているテキストデータ)をフラッシュメモリ64から抽出する。なお、この場合のタスクフラグがオンになっているテキストデータには、音声データから変換されたテキストデータのみならず、テキストデータ入力部44から直接入力されたテキストデータも含んでいる。なお、直接入力されたテキストデータのタスクフラグのオンオフは、前述した図6と同様の処理により実行する。
【0125】
次いで、ステップS206では、サーバ側制御部70が、ユーザの現在位置を取得する。この場合、携帯型端末10が有する位置検出部22において検出される位置情報を、端末側制御部30、通信部32,52などを介して取得する。
【0126】
次いで、ステップS208では、サーバ側制御部70が、取得した位置情報(現在位置)に基づいて、セキュリティ確保可能な場所であるかを判断する。ここで、セキュリティ確保可能な場所としては、例えば、会社内が挙げられる。なお、会社の位置の登録は、以下の方法で行われる。
【0127】
例えば、ユーザは、携帯型端末10をUSB等によりPC(Personal Computer)に接続して、PC上で地図情報を用いた専用のアプリケーションを起動する。そして、当該アプリケーションで、会社の所在地を指定することで、会社の位置を登録する。なお、所在地の指定は、マウス等を用いたドローイング操作などにより行う。この会社の位置は所定面積の領域として表される。したがって、会社の位置としては、図22のセキュリティ確保可能範囲DBに示すように、矩形の領域の対角の2地点(緯度、経度)で表すことができる。この図22のセキュリティ確保可能範囲DBは、サーバ側制御部70のハードディスク66に格納される。
【0128】
すなわち、ステップS208では、サーバ側制御部70が、図22のセキュリティ確保可能範囲DBを参照して、ユーザが当該範囲内に入っている場合に、セキュリティ確保可能な場所内に位置していると判断される。
【0129】
ステップS208の判断が肯定された場合には、ステップS210に移行する。このステップS210では、サーバ側制御部70は、抽出したデータに含まれるキーワードに対応付けられた変換ワードを領域O,A,B、Cから取得し、ステップS214に移行する。一方、ステップS208の判断が否定された場合には、ステップS212に移行する。このステップS212では、サーバ側制御部70は、抽出したデータに含まれるキーワードに対応付けられた変換ワードを領域A,Bから取得し、ステップS214に移行する。
【0130】
ステップS214では、サーバ側制御部70が通信部52を介して、抽出したデータ及びキーワードに対応付けられた変換ワードを携帯型端末10に向けて送信する。
【0131】
なお、ステップS202の判断が否定された場合、すなわち、コマンドが表示要求以外のコマンドであった場合には、サーバ側制御部70は、ステップS216においてコマンドに従った処理を実施する。
【0132】
次に、図20に基づいて、携帯型端末10における処理について説明する。図20のステップS220では、端末側制御部30が、サーバ側からデータが送信されてきたか否かを判断する。本ステップでは、図19のステップS214が実行された後に、判断が肯定されることになる。
【0133】
次いで、ステップS221では、端末側制御部30が、領域A,B,Cの変換ワードが送信されてきたか否かを判断する。ここでは、図19のステップS210を経た場合に判断が肯定され、ステップS212を経た場合に判断が否定される。
【0134】
ステップS221の判断が肯定された場合、ステップS222において、端末側制御部30が、抽出したデータに含まれるキーワードを領域A,B、Cの変換ワードで変換する。すなわち、例えば、抽出したデータが、
『11月20日13時に、クールブルースピーカ2のソフトウェア仕様について、大東京株式会社の青山一郎さんと打合せ予定』
であったとする。この場合、領域A,B、Cの変換ワードを用いて、
『11月20日13時に、CBS2のSWSPについて、D社(電機,関東南部)のAI(カメラ,AFM,2009年10月15日T会(東京))さんと打合せ予定』
と変換される。
【0135】
一方、ステップS221の判断が否定された場合、ステップS223において、端末側制御部30が、抽出したデータを、領域Bの変換ワードで変換するとともに、領域Aのワードを削除する。この場合、上記抽出したデータは、
『11月20日13時に、CBS2のSWSPについて、 の さんと打合せ予定』
と変換される。このように、本実施形態では、セキュリティが確保されているか否かによって、データの表示態様が変更されるようになっている。
【0136】
上記のようにして、ステップS222又はステップS223の処理が行われた後は、ステップS224に移行し、端末側制御部30は、変換後のテキストデータを、表示部14の所定の位置に表示する処理を実行する。この表示においては、単にタスクの時刻(日時)が現在時刻(日時)に近い順に表示することとしても良いが、本実施形態では、これに代えて、タスク優先度の高い順に表示することとする。これにより、ユーザは、重要なタスクの見落としを低減することができるとともに、複数の予定をダブルブッキングしてしまった場合でも優先度の高いタスクを優先して予定を組むことができるようになる。なお、ダブルブッキングしている場合には、端末側制御部30が警告部18を介して警告を発しても良いし、優先度の低い方の予定に関わる人がタスクに含まれているような場合には、その人に対して、端末側制御部30がタスクの日程の変更依頼通知を電子メールにて自動で依頼するようにしてもよい。ただし、上記のようにタスク優先度の高い順に表示する場合に限られるものではなく、日時順に表示しても勿論良い。また、日時順に表示して、タスク優先度の高いタスクのフォント、色、大きさなどを変更して目立つように表示することとしても良い。また、タスク優先度の高い順に並べた上で、タスク優先度が同一であるタスクについては、日時順に表示することとしても良い。
【0137】
以上、図19図20の処理により、図18(a)や図18(b)に示すような画面表示がなされる。なお、図18(b)の録音音声リストには、タスクの項目が設けられている。ユーザは、当該タスクの項目をタッチパネル上でタッチしたりすることで、タスクフラグのオンオフを切り替えることができる。この場合、サーバ側制御部70は、ユーザによるタスクフラグの切り替え操作を認識したときには、図5のタスクフラグを変更するものとする。これにより、図6の処理の結果、タスクフラグのオンオフがユーザの認識と異なっていたとしても、ユーザは、タスクフラグを手動で変更することができるようになる。なお、ユーザがタスクフラグをオンにした場合には、それ以降、そのタスクのテキストデータと類似するテキストデータについては、サーバ側制御部70がタスクフラグを自動でオンにすることとしても良い。
【0138】
なお、図20の処理では、端末側制御部30は、位置検出部22で取得される現在位置をサーバ側制御部70側に送信し、サーバ側制御部70から送信されてくる変換ワードを用いて、テキストデータを変換して表示することとしている。したがって、本実施形態では、端末側制御部30が、位置検出部22で取得される現在位置に応じて、表示部14への表示を制限していると言うことができる。
【0139】
次に、図21に基づいて、図20の処理と並行して行われる処理について説明する。図21では、ステップS232において、端末側制御部30が、ユーザによって、文書変換ボタンが押されたか否かを判断する。なお、文書変換ボタンは、図18(a)、図18(b)では、右上端に表示されているボタンである。ユーザは、タッチパネル操作や、キーボード操作等により、文書変換ボタンを押す。このステップS232における判断が肯定されると、ステップS234に移行し、否定されると、ステップS238に移行する。
【0140】
ステップS234では、端末側制御部30が、変換可能なキーワードが表示されているか否かを判断する。ここで、変換可能なキーワードとは、前述した、図14に示す「SW」と「スポンジ」のように、1つのキーワードに対し複数の変換ワードが対応付けられているようなキーワードを意味する。したがって、表示部14に表示されているテキストデータに、このようなキーワードが含まれている場合には、ここでの判断が肯定され、ステップS236に移行する。一方、ステップS234の判断が否定された場合には、ステップS238に移行する。
【0141】
ステップS236に移行した場合、端末側制御部30が、キーワードを変換する。具体的には、例えば、
『11月20日13時に、CBS2のSWSPについて、D社(電機,関東南部)のAI(カメラ,AFM,2009年10月15日T会(東京))さんと打合せ予定』
と表示されている文章では、「SW」を「スポンジ」に変換することができるので、端末側制御部30は、
『11月20日13時に、CBS2のスポンジSPについて、D社(電機,関東南部)のAI(カメラ,AFM,2009年10月15日T会(東京))さんと打合せ予定』
と、変換して表示する。
【0142】
ユーザは、「SW」という表示では、ソフトウェアを想起できない場合でも、文書変換ボタンを押して、「スポンジ」という表記を見ることで、スポンジ→柔らかい(soft)→ソフトウェア(Software)というような連想により、ソフトウェアを想起できるようになる。なお、スポンジという言葉を初めて見た場合には、このような連想はできないかもしれないが、社内で当該連想の方法を周知させておけば、ソフトウェアの想起は容易である。
【0143】
次に、ステップS238では、端末側制御部30が、変換前表示ボタン(図18(a)、図18(b)参照)が押されたか否かを判断する。なお、ユーザが、変換前表示ボタンを押す場合とは、キーワードが変換されていない文章を見たい場合である。ここでの判断が否定された場合には、ステップS232に戻るが、ここでの判断が肯定された場合には、ステップS240に移行する。ステップS240では、端末側制御部30が、ユーザの現在位置を取得し、ステップS242では、現在位置がセキュリティ確保可能な場所か否かを判断する。ここでの判断が否定された場合、すなわちユーザがセキュリティ確保できない場所にいる場合には、ユーザに変換前の文章を見せるのを制限する必要があるので、ステップS252において表示不可能な旨をユーザに通知して、ステップS232に戻る。なお、ステップS252の通知の方法としては、表示部14への表示や警告部18を介した警告などを採用することができる。
【0144】
ステップS242の判断が肯定された場合には、ステップS244に移行し、端末側制御部30は、質問事項(ユーザであれば簡単に解答ができる質問)を表示部14に表示する。なお、質問事項については、サーバ50側のハードディスク66に格納されているものとし、端末側制御部30は、当該質問事項をハードディスク66から読み出して、表示部14に表示する。この質問事項及び回答例は、例えば、ユーザが事前に登録しておけば良い。
【0145】
次いで、ステップS246では、端末側制御部30は、入力部12に対し、ユーザが、音声で回答を入力したか否かを判断する。ここでの判断が肯定されると、端末側制御部30は、ステップS248において、ユーザの声であり、かつ回答が正しいか否かを判断する。ユーザの声か否かは、前述したサーバ50側の声紋分析部55において音声を分析した結果を用いて判断する。ここでの判断が否定された場合には、ステップS252において、表示不可能な旨をユーザに通知する。一方、ステップS248の判断が肯定された場合には、ステップS250に移行し、領域Oの変換ワードで、キーワードを変換前の状態となるように変換して表示する。具体的には、音声で入力されたままの文章、すなわち、上記の例では、
『11月20日13時に、クールブルースピーカ2のソフトウェア仕様について、大東京株式会社の青山一郎さんと打合せ予定』
と表示する。その後は、ステップS232に移行し、上記処理を繰り返す。なお、上記においては、ユーザが声で質問に回答する場合について説明したが、これに限らず、キーボード等から回答を入力することとしても良い。この場合、端末側制御部30は、質問の回答に加えて、指紋認証などの生体認証の結果に基づいて、変換前の状態の表示を行うか否かを判断しても良い。
【0146】
以上のようにして、図4のステップS96の処理が終了すると、ステップS70に戻る。
【0147】
一方、図4のステップS92の判断が否定された場合、すなわち、発声者がユーザでなかった場合には、ステップS100に移行して、端末側制御部30が、発声者の情報を表示する。なお、ここでは、端末側制御部30は、サーバ側制御部70から受け取った情報に基づいた表示を行う。具体的には、発声者が青山一郎であれば、端末側制御部30は、その情報をサーバ側制御部70から受け取って、「青山一郎」と表示する。なお、青山一郎に付帯する情報を受け取った場合には、その情報も表示することとしても良い。また、青山一郎に関連するタスクを、サーバ側制御部70から受け取った場合には、そのタスクも併せて表示することとしても良い。
【0148】
このようにすることで、例えば、青山一郎氏が「おはよう」などとユーザに声を掛けてきたときに、表示部14上に、名前や、関連する情報、タスクなどを表示することができる。これにより、ユーザが人の名前や情報、あるいはその人に関連してやるべきことなどを思い出すのを支援することができる。
【0149】
次いで、ステップS102では、サーバ側制御部70が、図23に示す曖昧ワードDBに登録されているワードが発言されたか否かを判断する。ここでの判断が否定されると、ステップS70に戻るが、判断が肯定されると、ステップS104に移行する。
【0150】
ステップS104では、サーバ側制御部70及び端末側制御部30が、図23の曖昧ワードDBに基づいて、発言されたワードに対応する処理を実行する。具体的には、「あの件」や「例の件」と発言された場合には、サーバ側制御部70は、キーワード記録DBを参照し、発言者が関連情報に含まれるキーワードのうち、出現頻度が所定の閾値よりも高いキーワードを抽出し、端末側制御部30に送信する。そして、端末側制御部30は、受信したキーワードを、表示部14に表示する。例えば、発言者が山口部長であり、出現頻度の閾値が10であるような場合には、図16のキーワード記録DBにおけるキーワード「プロジェクトA」が表示部14に表示されることになる。また、図23に示すように、「(地名)の件」、例えば、「北海道の件」と発言されたような場合には、発言者が関連情報に含まれており、かつ、音声データが入力された位置(緯度、経度)が所定範囲(例えば北海道内)であるキーワード、又は、発言者が関連情報に含まれており、かつ、「北海道」というワードが関連情報に含まれているようなキーワードを抽出して、表示部14に表示するようにする。更に、例えば、「○月○日(MM/DD)の件」と発言されたような場合には、発言者が関連情報に含まれており、かつ、音声データが入力された日時が○月○日(MM/DD)と一致するキーワード、又は、発言者が関連情報に含まれており、かつ、「○月○日(MM/DD)」というワードが関連情報に含まれているようなキーワードを抽出して、表示部14に表示するようにする。更には、ある人がある時刻(日時)に話すことが、図16のキーワード記録DBから容易に推定できるような場合もある。このような場合には、発言者と現在時刻とから、関連するキーワードを表示するようにしても良い。
【0151】
ステップS104では、以上のような処理を実行することで、発言者が曖昧な問いかけをしてきたとしても、その問いかけで、何を聞いているのかを自動で判断して、ユーザに対して表示することが可能となる。なお、ステップS104において、キーワードを表示するたびに、サーバ側制御部70は、キーワード記録DBの検索頻度を更新する。この検索頻度は、例えば、検索頻度の多いキーワードほど優先的に表示する場合などにおいて利用することができる。
【0152】
(画像データの処理)
次に、画像データがサーバ側制御部70に送信された際の、サーバ側制御部70による画像データの処理について、図24図25に基づいて説明する。図24は、画像データの入力・記憶処理に関するフローチャートである。
【0153】
図24の処理では、まず、ステップS302において、サーバ側制御部70が、画像データが入力されたか否かを判断する。ここでの判断が肯定されると、ステップS304に移行する。ステップS304では、サーバ側制御部70が、画像データのメタデータ(携帯型端末10において画像入力部43が画像を取得したときに、位置検出部22で検出された位置情報又は時刻検出部24で検出された時刻情報)を、取得する。
【0154】
次いで、ステップS306では、サーバ側制御部70が、位置情報又は時刻情報に基づいて、画像データがマスキング処理対象画像のデータであるか否かを判断する。この場合、画像を取得した位置が社内や在宅勤務者の家である場合や、画像を取得した時刻が社内や在宅勤務者の家での撮影時刻であると推定できる時刻である場合に、画像データがマスキング処理対象画像のデータであると判断される(ステップS306の判断が肯定される)。
【0155】
ステップS306の判断が肯定された場合には、ステップS308に移行し、サーバ側制御部70は、画像の中で、マスキング処理する部分を特定する。例えば、サーバ側制御部70は、画像中の被写体(人物)の顔認識結果を、顔認識部53から取得し、当該顔認識結果に基づいて、被写体が社内又は社外の重要人物(守秘性の高い人物)である場合には、当該被写体をマスキング処理する部分として特定する。また、例えば、サーバ側制御部70は、顔認識部53による顔認識結果に基づいて、被写体が在宅勤務者であるような場合には、当該被写体の背景部分を、マスキング処理する部分として特定する。また、例えば、文字認識部(不図示)がホワイトボードや黒板に書かれた文字や、スクリーンなどに映し出されている文字を認識した結果、守秘性の高い単語が含まれていた場合には、サーバ側制御部70は、当該文字部分をマスキング処理する部分として特定する。
【0156】
次いで、ステップS310では、サーバ側制御部70は、画像データのうちステップS308で特定された部分をマスキング処理して、マスキング処理後の画像(変換画像)を生成し、当該変換画像を、フラッシュメモリ64に記憶する。この場合、サーバ側制御部70は、フラッシュメモリ64に設けられた変換画像の記憶領域に記憶する。
【0157】
次いで、ステップS312では、サーバ側制御部70は、元画像データをフラッシュメモリ64に記憶する。この場合、フラッシュメモリ64に設けられた元画像の記憶領域に記憶する。なお、変換画像と当該変換画像の元画像とは、関連付けられた状態で、フラッシュメモリ64に記憶される。
【0158】
なお、ステップS306の判断が否定された場合、すなわち、サーバ側制御部70に入力された画像が、マスキング処理対象画像でなかった場合には、ステップS312において、サーバ側制御部70は、入力画像をフラッシュメモリ64に記憶する。
【0159】
以上のようにして、サーバ側制御部70における、画像データの入力・記憶処理が完了する。
【0160】
なお、上記においては、画像を取得した位置や時刻に基づいて、マスキング処理するか否かを判断したが、これに限られるものではない。顔認識部53が、被写体の表情、すなわち被写体である人物が笑顔(表情が柔らかい)であるか、眉間に皺を寄せている(表情が硬い)かなどの表情を検出できる場合には、サーバ側制御部70は、例えば、笑顔であれば画像にマスキング処理を施さず、眉間に皺を寄せているような表情であれば、被写体や被写体の背景などにマスキング処理を施すように判断をしてもよい。
【0161】
次に、図25に基づいて、サーバ側制御部70による、画像データの表示処理について説明する。図25は、画像データの表示処理に関するフローチャートである。
【0162】
図25の処理では、まず、ステップS330において、サーバ側制御部70は、携帯型端末10を介したユーザからの表示指示が入力されるまで待機する。次いで、ステップS332では、サーバ側制御部70が、表示指示で特定された(表示指示に含まれる)画像データを特定する。次いで、ステップS334では、サーバ側制御部70が、特定した画像データに対応する変換画像が、フラッシュメモリ64内に存在しているか否かを判断する。ここでの判断が否定された場合には、ステップS342に移行し、サーバ側制御部70は、元画像データ(サーバ側制御部70に入力されたデータ)を通信部52、32を介して端末側制御部30に対して送信する。端末側制御部30では、受信した画像データを表示部14を介して表示する。
【0163】
一方、ステップS334の判断が肯定された場合には、ステップS336に移行する。ステップS336では、サーバ側制御部70が、位置情報又は時刻情報を取得する。この場合、サーバ側制御部70は、ユーザから表示指示が入力された携帯型端末10の位置又は時刻を取得する。
【0164】
次いで、ステップS338では、サーバ側制御部70は、取得した位置又は時刻の情報に基づいて、変換画像を表示するか否かを判断する。サーバ側制御部70は、例えば、取得した位置がセキュリティが保たれていない場所(例えば、社外)である場合や、時刻から携帯型端末10がセキュリティが保たれていない場所にあると推定できる場合には、変換画像を表示すると判断する(ステップS338は肯定される)。この場合、サーバ側制御部70は、ステップS340において、変換画像データを通信部52、32を介して端末側制御部30に対して送信する。端末側制御部30では、受信した変換画像データを表示部14を介して表示する。その一方で、例えば、取得した位置が、セキュリティが保たれている場所(例えば、社内)である場合や、時刻から携帯型端末10がセキュリティが保たれている場所にあると推定できる場合には、変換画像を表示しない、すなわち元画像を表示すると判断する(ステップS338は否定される)。この場合、サーバ側制御部70は、ステップS342において、元画像データを通信部52、32を介して端末側制御部30に対して送信する。端末側制御部30では、受信した元画像データを表示部14を介して表示する。
【0165】
以上のようにして、ステップS340又はステップS342の処理が完了すると、図25の全処理を終了する。
【0166】
なお、上記においては、図24の処理において画像が取得された位置又は時刻に基づいて変換画像を予め生成しておき、図25の処理において携帯型端末10の位置又は時刻に基づいて、予め生成しておいた変換画像を表示するか否かを判断する場合について説明したが、これに限られるものではない。例えば、図24の処理を省略し、図25の処理において携帯型端末10の位置又は時刻に基づいて変換画像を表示すべきと判断された場合にのみ、変換画像を生成するようにしてもよい。この場合においても、変換画像は、画像の取得位置や時刻、及び/又は画像の表示位置や時刻に基づいて、生成することとすればよい。
【0167】
なお、図24の処理において変換画像が生成された場合には、表示位置、時刻にかかわらず、常に変換画像を表示する(元画像を変換しない)ようにしてもよい。また、常に変換画像を表示するか、図25の処理を行うかの設定をユーザが行えるようにしてもよい。
【0168】
また、上記においては、サーバ側制御部70は、表示指示が入力された時点での位置又は時刻の情報を取得し、当該情報に基づいて、変換画像データと元画像データのいずれを表示するかを判断する場合について説明した。しかしながら、これに限られるものではない。例えば、サーバ側制御部70は、表示指示を出した携帯型端末10の位置をモニタしておき、携帯型端末10がセキュリティが確保された場所に存在している間は、元画像データを表示し、携帯型端末10がセキュリティが確保されていない場所に移動した場合に、変換画像データを表示するようにしてもよい。このようにすることで、携帯型端末10の移動を考慮した適切な表示を行うことが可能となる。
【0169】
なお、画像データが動画像データである場合には、再生部16は、画像(動画)を表示するときに、スピーカから、当該画像に関連付けられている音声を出力することができる。また、動画の音声データを、前述した方法によりテキストデータに変換している場合には、再生部16は、画像を表示する際にテロップとしてテキストデータを表示することとしてもよい。この場合、テキストデータが上位概念等に変更されている場合には、再生部16は、変更後のテキストデータを表示することとしてもよい。また、再生部16はスピーカから音声を出力する際に、上位概念等に変換されたテキストデータを音声データにしたものを出力することとしてもよい。この場合、上位概念等に変換されたテキストデータには音声データが存在しない。したがって、このような場合には、予め収録した音声波形データ(音声データベース)の多数の音声素片の中から音韻記号を参照して音声合成に使用される音声素片(例えば、エンコーダの連想語である「ぐるぐる」の“gu”,“ru” “gu”,“ru”)を選択する音声合成技術を用いるものとする。なお、音声合成技術については例えば日本特許第3,727,885号に記載されている。なお、表示部14において表示される画像データが変換画像データである場合には、音声を出力しないようにしてもよい。
【0170】
また、変換画像のうち、マスキング処理した部分が、人物の顔である場合には、サーバ側制御部70は、当該部分の近傍に、顔認識部53で認識された人物の情報(名前や役職)を表示するようにしてもよい。この場合の人物の情報は、イニシャルなどであってもよい。
【0171】
なお、上記においては、サーバ側制御部70は、位置や時刻に基づいてセキュリティが確保されていないと判断できる場合に、変換画像を表示する例について説明したが、これに限られるものではない。例えば、セキュリティが確保されていない場合には、画像データ、変換画像データのいずれも表示しないようにしてもよい。また、セキュリティの確保度合に応じて、画像データ、変換画像データのいずれかを表示したり、あるいはいずれの画像データも表示しないようにすることとしてもよい。
【0172】
なお、変換画像データを生成・表示するか否かの判断は、上記に限られるものではなく、例えば、サーバ側制御部70は、画像を取得した位置や時刻、画像を表示する位置や時刻、画像に表示されている人物、人物の表情などの要素を数値化し、各要素の合計値に基づいて、変換画像データを生成・表示するか否かの判断を行うこととしてもよい。また、サーバ側制御部70は、各要素を重み付けし、重み付け後の各要素の合計値に基づいて、変換画像データを生成・表示するか否かの判断を行うこととしてもよい。
【0173】
次に、携帯型端末10及びサーバ50で取得するデータの消去処理について、図26図27に基づいて説明する。
【0174】
(データの消去処理(その1:変換データ(テキストデータ)の消去))
図26には、携帯型端末10がサーバ50側から取得した情報を消去する処理がフローチャートにて示されている。この図26に示すように、端末側制御部30は、ステップS260において、データ取得から一定時間(例えば2~3時間)経過したか否かを判断する。ここでの判断が肯定された場合には、ステップS262に移行し、端末側制御部30は、フラッシュメモリ28に記憶されているテキストデータ(変換前のワード及び変換後のワードを含む)を消去する。一方、ステップS260の判断が否定された場合でも、端末側制御部30は、ステップS264においてユーザが会社内から社外に移動したか否かを判断する。そして、ここでの判断が肯定された場合には、ステップS262に移行して、上記と同様にデータを消去する。なお、ステップS264の判断が否定された場合には、ステップS260に戻る。このように、データを取得してから所定時間経過した場合、又はセキュリティが確保できなくなった場合に、データを消去することで、重要なデータの流出等を防止することができる。なお、上記においては、テキストデータのすべてを消去する場合について説明したが、これに限らず、ステップS262では、最重要のデータのみを消去することとしても良い。例えば、領域Aのデータと領域Oのデータのみを消去することとしても良い。
【0175】
なお、図26の処理では、ユーザ(携帯型端末10)が初めから会社外に存在しているときには、変換データを表示部14上に表示した直後に、フラッシュメモリ28から消去することとしても良い。
【0176】
(データの消去処理(その2:音声データの消去))
サーバ側制御部70では、各音声データに対して、図27の消去処理を実行する。サーバ側制御部70は、図27のステップS270において、テキストデータ生成部54が音声データをテキストデータに変換したか(できたか)否かを判断する。ここでの判断が否定された場合には、ステップS280に移行するが、判断が肯定された場合には、ステップS272に移行し、サーバ側制御部70は、音声データを発声した人物名を取得する。ここでは、サーバ側制御部70は、声紋分析部55から、発声した人物名を取得し、ステップS274に移行する。
【0177】
ステップS274では、サーバ側制御部70は、発声した人物がユーザ自身以外であるか否かを判断する。ここでの判断が肯定された場合には、サーバ側制御部70は、ステップS276において、テキストデータに変換された音声データを消去する。一方、ステップS274の判断が否定された場合、すなわち、ユーザ自身の音声データであった場合には、ステップS278に移行して、所定時間経過後に音声データを消去し、図27の全処理を終了する。
【0178】
一方、ステップS270の判断が否定されてステップS280に移行した場合には、サーバ側制御部70は、音声データを再生可能にする。具体的には、サーバ側制御部70は、携帯型端末10のフラッシュメモリ28に対して音声データを送信する。なお、このステップS280では、音声データがテキストデータに変換できなかったことを、警告部18を介して、ユーザに警告する。この警告に基づいて、ユーザが、ユーザが携帯型端末10の入力部12から音声データを再生する指示を入力した場合、フラッシュメモリ28に格納された音声データを再生部16を介して再生する。
【0179】
次いで、ステップS282では、サーバ側制御部70が、フラッシュメモリ28に送信した音声データ(すなわち再生部16において再生された音声データ)を消去し、図27の全処理を終了する。
【0180】
以上のようにして音声データの消去処理を実行することにより、サーバ50における音声データの保存量を減らすことができるので、サーバ50のフラッシュメモリ64の記憶容量を低減することが可能である。また、ユーザ以外の音声データを、テキストデータ化した直後に消去することで、プライバシーに対して配慮することもできる。なお、本実施形態では、サーバ50内に音声合成部を設けておけば、たとえ音声データを消去したとしても、音声合成部の機能により、フラッシュメモリ64に記憶されているテキストデータから音声を再現することができる。
【0181】
(データの消去処理(その3:画像データの消去))
画像データ(元画像データ及び変換画像データを含む)は、例えば、データ取得から所定時間経過した後に、サーバ側制御部70が、フラッシュメモリ64上から消去する。ただし、これに限らず、例えば、テキストデータと同様のロジックで消去することとしても良い。
【0182】
(データの消去処理(その4:タスクの消去))
サーバ側制御部70では、以下に示すルールに従って、タスクを消去する。
(1)タスクが社外での会議に関するものである場合
この場合、位置検出部22が検出する現在位置がタスクで特定されている会議開催場所と一致し、かつ時刻検出部24の検出する現在時刻がタスクで規定されている会議開始時刻を過ぎた場合に、タスクを消去する。なお、現在時刻が会議開始時刻を過ぎているのに、現在位置が会議開催場所と一致していない場合には、サーバ側制御部70は、端末側制御部30を介して、警告部18からユーザに対して警告を発するようにする。これにより、タスクの実行し忘れを抑制することができる。また、これに限らず、例えば、タスクの所定時間前(30分前など)に、警告を発するようにしても良い。これにより、タスクの実行し忘れを未然に防止することができる。
(2)タスクが社内での会議に関するものである場合
この場合、位置検出部22としてRFIDのように会議室に入ったことを検出できるような位置検出部を採用しておき、位置検出部22が検出する現在位置がタスクで特定されている会議室と一致し、かつ時刻検出部24の検出する現在時刻がタスクで規定されている会議開始時刻を過ぎた場合に、タスクを消去する。この場合にも、上記(1)のように警告を併用することができる。
(3)タスクが買い物に関するものであり、買い物をする場所が特定されている場合
この場合、位置検出部22が検出する現在位置がタスクで特定されている場所と一致し、かつ、「ありがとうございました」などの音声が音声入力部42から入力されたり、あるいはPOSレジ端末から購入情報が入力部12に無線等で入力された場合に、タスクを消去する。なお、POSレジ端末からの入力以外に、例えば、携帯型端末が電子マネー機能を有している場合には、当該機能により支払いを済ませた段階で、タスクを消去することとしても良い。また、画像入力部43が首からぶら下げたり、耳元にとりつけたりするようなライフログカメラの場合には、ライフログカメラの撮像結果に基づいてタスクを消去するようにしてもよい。
(4)その他、タスクにおいて時間が特定されている場合
この場合、時刻検出部24の検出する現在時刻が、タスクで規定されている実施時刻を過ぎた場合に、タスクを消去する。
【0183】
以上、詳細に説明したように、本実施形態によると、通信部52が、画像、位置情報、時刻情報を入力し、サーバ側制御部70は、ユーザからの画像の出力指示(表示指示)があったときに、位置又は時刻に基づいて、画像の表示に制限を加えるか否かを判断する。これにより、位置や時刻に応じた画像の表示制限(マスキング処理:モザイク処理や解像度の調整など)を行うことが可能となる。また、本実施形態では、例えば、通信部52が入力する位置情報や時刻情報が、画像が撮影された位置や時刻の情報である場合には、サーバ側制御部70は、画像が撮影された位置や時刻から、画像の少なくとも一部が守秘性を有する可能性が高いと判断できる場合に、画像の表示に制限を加えると判断するなどすることができる。また、例えば、通信部52が入力する位置情報や時刻情報が、画像を閲覧する位置や時刻の情報である場合には、サーバ側制御部70は、当該情報から画像が閲覧される場所を推定し、当該場所に応じた表示に制限を画像に加えると判断するなどすることができる。このように、サーバ側制御部70が、位置情報や時刻情報に基づいて画像の表示制限を行うか否かを判断することで、画像からの情報漏洩の防止、プライバシーの保護等が図られ、使い勝手を向上することが可能となる。
【0184】
また、本実施形態では、サーバ側制御部70は、画像表示に制限を加えると判断したときに、画像の少なくとも一部に制限を施すこととしているので、例えば、会議中の画像であれば、画像のうちの人物の顔部分の表示を制限したり、あるいは、画像のうちの文字部分(ホワイトボードや黒板に書かれた文字、スクリーンに映し出された文字など)の表示を制限したりすることができる。これにより、位置情報や時刻情報によって表示制限すべき部分が異なる画像を表示する場合であっても、適切な表示制限(画像の内容が分かる程度に守秘性のある部分を隠すなどの表示制限)が可能となる。
【0185】
また、本実施形態では、サーバ側制御部70は、セキュリティが確保されている場所からセキュリティが確保されていない場所に変化したことを位置情報から判別したときに、画像の少なくとも一部に制限を施すこととする。したがって、セキュリティが確保されている場所から確保されていない場所に移動したときに、ユーザは、これに対応して画像の閲覧方法を変更する(例えば、堂々と画像を閲覧していた状態から周囲を気にしながら画像を閲覧する状態に変更する)などしなくても、画像を閲覧することが可能となる。
【0186】
また、本実施形態では、サーバ側制御部70は、位置情報及び時刻情報の少なくとも一方の情報に基づいて、画像中において表示制限を加える箇所を特定するので、位置情報や時刻情報に応じて適切な表示制限(画像の内容が分かる程度に守秘性のある部分を隠すなどの表示制限)が可能となる。
【0187】
また、本実施形態では、顔認識部53が、画像中の被写体の情報をサーバ側制御部70に対して入力し、サーバ側制御部70は、当該情報に基づいて、画像中において表示制限を加える箇所を特定する。これにより、被写体のうち、守秘性を有する人物を隠すように、表示制限を加えることができる。また、被写体のうち、守秘性を有する文字を隠すように、表示制限を加えることもできる。
【0188】
また、本実施形態では、サーバ側制御部70は、顔認識部53がサーバ側制御部70に対して入力した被写体の情報を、画像とともに表示するので、画像に対して顔を隠すように表示制限を加えた場合でも、被写体の情報(例えば、人物名など)を表示することとすることで、ユーザは、表示制限が加えられた人物を容易に把握することが可能となる。
【0189】
また、本実施形態では、サーバ側制御部70は、被写体の情報を、所定のルールに基づいて変換して、画像とともに表示する。これにより、画像とともに、例えば人物名の変換後の情報(イニシャル等)が表示されることとなるので、人物名の秘匿化も可能となる。
【0190】
また、本実施形態では、サーバ側制御部70は、画像の人物の表情の情報に基づいて、画像の出力に制限を加えるか否かを判断することができる。すなわち、画像の人物の表情が硬い場合には、守秘性を有する可能性が高いので、当該画像に表示制限を加えると判断し、画像の人物の表情が柔らかい場合には、守秘性を有する可能性が低いので、当該画像に表示制限を加えないと判断するなどすることができる。これにより、適切な画像表示制限が可能となる。
【0191】
また、本実施形態では、通信部52から、音声データ及びテキストデータの少なくとも一方が入力された場合、サーバ側制御部70は、位置情報及び時刻情報の少なくとも一方に基づいて、音声データ及びテキストデータの少なくとも一方の出力に制限を加える。これにより、音声データやテキストデータにおいても、画像と同様、守秘性を有する部分(ワード)の出力に制限を加えることで、セキュリティ保護やプライバシー保護を図ることができる。
【0192】
この場合、本実施形態では、サーバ側制御部70が、音声データの出力に制限が必要と判断した場合、音声データから変換・生成されたテキストデータを出力するので、音声データの出力制限が必要な場合でも、音声データの内容をテキストデータにて確認することができる。
【0193】
また、本実施形態では、サーバ側制御部70が、音声データに出力の制限が必要と判断した場合、音声データ及びテキストデータの少なくとも一方の特定の名詞を他の名詞に変換して出力するので、特定の名詞を、特定の人にとっては理解できる名詞に変換するなどすることで、特定の人が音声データやテキストデータの内容を認識できるようにしつつ、セキュリティ保護やプライバシー保護を図ることができる。
【0194】
また、本実施形態では、表示部14を有する第1筐体11と、サーバ側制御部70を有する第2筐体51と、を有しており、第1筐体11と第2筐体51とが分離しているので、第1筐体11側を携帯端末とし、第2筐体51側をサーバとすることで、携帯端末にサーバ側制御部70などの機能を持たせる場合と比較して、携帯端末を小型・軽量化することが可能となる。
【0195】
また、本実施形態では、第1筐体11に、第1筐体11の位置情報を検出する位置検出部22を設け、通信部52は、位置検出部22による検出結果を入力する。これにより、第1筐体11の位置に応じた画像表示制限等を行うことが可能となる。
【0196】
また、本実施形態によると、情報が入力される通信部52と、通信部52に入力されたデータから所定のキーワードを抽出する抽出部58と、抽出部58により抽出したキーワードを守秘性レベルが「高」のキーワードと守秘性レベルが「中」のキーワードとに分類する分類部60と、守秘性レベルが「高」のキーワードを所定の変換方法で変換するとともに、守秘性レベルが「中」のキーワードを守秘性レベルが「高」のキーワードとは異なる変換方法で変換する変換部62と、を備えている。このように、守秘性レベルに応じてキーワードを分類し、それぞれのレベルに応じて異なる変換を行うことで、守秘性レベルを考慮したデータの表示等を行うことが可能となる。これにより、使い勝手の向上を図ることが可能となる。
【0197】
また、サーバ側制御部70は、音声データには守秘性のあるキーワードが含まれていない場合でも、画像データに守秘性やプライバシーの問題があるときには、携帯型端末10の表示部14へのその画像データの表示を禁止もしくはマスキング処理するとともに、テキストデータや音声データの再生を禁止したり、制限をかけるようにしてもよい。
【0198】
また、本実施形態では、携帯型端末10と通信する通信部52が、変換部62で変換した結果を携帯型端末10に送信するため、携帯型端末10では、データの処理を行わなくとも、守秘性レベルが考慮されたデータを表示等することができる。
【0199】
また、本実施形態では、音声データからテキストデータを生成するテキストデータ生成部54を備えており、抽出部58は、テキストデータ生成部54で生成したテキストデータからキーワードを抽出することとしているので、キーワードの抽出を簡易に行うことができる。
【0200】
また、本実施形態では、キーワードをイニシャル変換することとしているので、キーワードごとに特別な変換テーブルを作成しなくても、各キーワードを簡易に変換することができる。また、キーワードが氏名の場合、守秘性レベルが「高」であれば、氏と名の両方をイニシャルに変換し、守秘性レベルが「中」であれば、氏と名のいずれか一方をイニシャルに変換することとしているので、守秘性レベルに応じた表示を行うことが可能となる。更に、キーワードが地名の場合、守秘性レベルが「高」であれば、所定の区域の情報(広い範囲内での位置情報)に変換し、守秘性レベルが「中」であれば、所定の区域よりも狭い区域の情報(狭い範囲内での位置情報)に変換することとしているので、この点からも、守秘性レベルに応じた表示を行うことが可能となる。
【0201】
また、本実施形態では、位置情報を検出する位置検出部22と、入力を行う入力部12と、入力に関連した情報を表示する表示部14と、位置検出部22が検出した位置に応じて、表示部14への表示を制限する端末側制御部30と、を備えている。このように、位置に応じた表示制限を行うことにより、セキュリティを考慮した表示を行うことができ、ひいては使い勝手の向上を図ることが可能となる。
【0202】
また、本実施形態では、端末側制御部30は、位置検出部22の出力に基づいてセキュリティが保たれないと判断した際に、表示部14への表示を制限することから、セキュリティを適切に考慮した表示制限を行うことができる。また、本実施形態では、位置検出部22の出力に基づいてセキュリティが保たれると判断した際に、表示部14への表示の制限の少なくとも一部を解除するので、この点からも、セキュリティを適切に考慮した表示制限を行うことができる。
【0203】
また、本実施形態のパーソナルアシスタントシステム100が、上記のようにセキュリティを考慮した表示制限を行う携帯型端末10と、携帯型端末10から入力されたデータの少なくとも一部に表示制限を加えるサーバ50と、を備えているので、携帯型端末10で、データの少なくとも一部に表示制限を加えなくても、携帯型端末10の表示部14に表示制限が加えられたデータを表示することができる。これにより、携帯型端末10での処理負担を軽減することができ、結果的に携帯型端末10の簡素化、及び小型・軽量化等を図ることが可能となる。
【0204】
また、本実施形態では、テキストデータを表示する表示部14と、音声を入力する音声入力部42と、音声の解析結果に応じて前記音声に関連する情報を前記表示部に表示させる端末側制御部30と、を有しているので、図4のステップS100のように、ある人が、例えば「おはよう」などの声を発したときに、その人の情報(名前や、その他登録されている情報、あるいはその人に対して行うべきタスクなど)を表示部14に表示することができる。これにより、ユーザは、声を発した人を忘れてしまっていた場合でも、表示部14を見ることで、その人を思い出すことが可能となる。このように、本実施形態によれば、使い勝手の良いパーソナルアシスタントシステム100及び携帯型端末10を提供することができる。この場合、音声の声紋を分析する声紋分析部55の分析結果を利用することで、適切な表示が可能となる。
【0205】
また、本実施形態では、端末側制御部30及びサーバ側制御部70は、声紋分析部55の分析結果に応じて音声データに含まれる所定のワード(例えば、「あの件」や「北海道の件」など)に関連する情報を、表示部14に表示させるので、「あの件」や「北海道の件」などの曖昧な問いかけをされた場合でも、表示部14を確認することで、当該用件を思い出すことが可能となる。本実施形態では、この点からも、使い勝手の良いパーソナルアシスタントシステム100及び携帯型端末10を提供することができるといえる。また、本実施形態では、所定のワード(「北海道の件」など)に関連する情報を、所定のワード(例えば「北海道」などのワード)とともに入力部に入力された頻度に応じて選択し、表示部14に表示する(図4のステップS104)ので、適切な情報表示が可能となる。
【0206】
また、図4のステップS104では、音声データが入力されたときの位置に応じた情報を表示部14に表示させるようにもしているので、この点からも適切な情報表示が可能である。
【0207】
また、図4のステップS104では、音声データが入力された時刻に応じた情報(音声データが入力された時刻から所定時間内に入力された情報など)を表示部14に表示させるようにもしているので、この点からも適切な情報表示が可能である。
【0208】
また、本実施形態では、音声を入力する音声入力部42と、音声入力部42に入力した音声データに基づいてテキストデータを生成するテキストデータ生成部54と、音声入力部42に入力した音声データの声紋データを分析する声紋分析部55と、声紋分析部55による分析結果に応じてテキストデータ生成部54によりテキストデータが生成された後の音声データを消去する消去部76と、を備えている。これにより、テキストデータが生成された後の音声データを消去することで、フラッシュメモリ64に必要な記憶容量を低減することができる。また、本実施形態では、声紋分析部55による分析結果に応じて音声データを消去するため、ある特定人物の音声データを消去することにより、プライバシーに配慮した良好な使い勝手を実現することが可能となる。
【0209】
また、本実施形態では、情報が入力される通信部52と、通信部52に入力されたデータから所定のキーワードを抽出する抽出部58と、抽出部58により抽出したキーワードを守秘性レベルが「高」のキーワードと守秘性レベルが「中」のキーワードとに分類する分類部60と、守秘性レベルが「高」のキーワードを所定の変換方法で変換するとともに、守秘性レベルが「中」のキーワードを守秘性レベルが「高」のキーワードとは異なる変換方法で変換する変換部62と、を備えている。このように、守秘性レベルに応じてキーワードを分類し、それぞれのレベルに応じて異なる変換を行うことで、守秘性レベルを考慮したデータの表示等を行うことが可能となる。
【0210】
また、本実施形態では、声紋分析部55は、音声データの声紋データが、登録されたユーザの声紋データであるか否かを解析し、消去部76は、ユーザ以外の音声を消去するので、フラッシュメモリ64の記憶可能な記憶容量を効果的に低減するとともに、プライバシーへの配慮をより高めることができる。
【0211】
また、本実施形態では、消去部76は、ユーザの音声とユーザ以外の音声とで、分析後、消去するまでの時間を異ならせている(ステップS276、S278)。これにより、ユーザの音声も所定時間後に消去するので、記憶容量の低減を更に図ることができる。
【0212】
また、本実施形態では、テキストデータ生成部54が音声データからテキストデータを生成できない場合に、警告部18が警告を発するので、ユーザは、音声データからテキストデータを生成できなかったことを認識することができる。また、テキストデータ生成部54が音声データからテキストデータを生成できなかった場合(ステップS270が否定された場合)に、ユーザの指示に応じて、再生部16が音声データを再生するため、ユーザは、テキストデータにできなかった内容を音声データの再生で確認することができる。
【0213】
また、本実施形態によると、表示を行う表示部14と、音声を入力する音声入力部42と、前記入力した音声の大きさ、周波数および意味の少なくとも1つに基づいて重み付けを行う重み付け部56と、音声入力部42が入力した音声と、重み付け部56の重み付けとに基づいて、表示部におけるタスクの表示態様を変更する制御部70、30と、を備えている。これにより、音声データの入力され方や音声データの内容等に応じて重み付け部56が行った重み付けに基づいて、表示部14におけるタスクの表示態様を変更するので、音声データの重み(重要度)に応じた表示態様を実現できる。これにより、使い勝手の向上を図ることが可能である。
【0214】
また、本実施形態によると、重み付け部56は、少なくとも音声データの周波数を用いて、音声を発した人を特定し、当該人(本実施形態では役職)に応じた重み付けを行うこととしているので、音声データの重要度に関する適切な重み付けを行うことができる。
【0215】
また、本実施形態によると、重み付け部56は、音声の意味に基づく守秘性に応じた重み付けを行うこととしているので、この点からも、音声データの重要度に関する適切な重み付けを行うことができる。
【0216】
また、本実施形態では、音声入力部42から入力された音声に日付情報が含まれている場合に、該日付情報に基づいてタスクの表示を行うこともできるため、通常の予定表としての機能も満足することができる。また、本実施形態では、時刻検出部24において検出される時刻に関する情報を考慮して、又はカレンダ部26の日付情報を考慮して、タスクの表示を行うため、現在の時刻に近い順又は現在の時刻から遠い順などの順番で、行うべきタスクを表示することが可能となる。
【0217】
また、本実施形態では、音声入力部42から入力された音声をテキストデータに変換するテキストデータ生成部54を備えているので、重み付け部56は、テキストデータに対する重み付けを行うことができる。これにより、音声データを扱う場合よりも簡易に重み付けを行うことができる。
【0218】
また、本実施形態では、表示順序や、色、表示サイズ、表示フォントなどを重み付け結果に基づいて変更するので、重み付け結果を様々な方法で表現することができる。
【0219】
また、本実施形態では、位置を検出する位置検出部22の出力に応じて、表示部への表示態様を変更する、すなわち、現在位置に基づいて、タスクを実行したと判断されるような場合に、そのタスクを表示しない(削除する)ようにすることとしているので、記憶容量の低減を図ることが可能である。
【0220】
更に、本実施形態では、音声データに定型ワードが含まれているか否かに基づいて、タスクか否かを判断し、この判断結果を用いて、表示部14への表示をするか否かを決定するので、タスクか否かを自動的に判別することができるとともに、表示部への表示を行うか否かも自動的に決定することができる。
【0221】
また、本実施形態では、重み付けをユーザが設定することを可能にするために、サーバ50に設定部74が設けられているので、ユーザは、自己の好みに応じた重み付けに関する設定を行うことが可能である。
【0222】
また、本実施形態によると、音声を入力する音声入力部42と、入力した音声をテキストデータに変換するテキストデータ生成部54と、音声入力部42が特定の周波数を入力した際に、テキストデータ生成部54による変換を開始、すなわち録音を開始し、テキストデータへの変換を開始するサーバ側制御部70と、を備えている。したがって、ある人物が発声して、特定の周波数の音声が入力された場合に、その音声の入力に基づいて、録音、テキストデータへの変換を開始するので(図2(a)参照)、自動で、録音、テキストデータへの変換を開始することができる。これにより、ユーザの操作が簡素化され、使い勝手の向上を図ることが可能となる。
【0223】
また、本実施形態では、音声入力部42が電話に関連した周波数を入力した際にテキストデータへの変換を開始することもできるため、例えば、電話の着信音がなった時点から、電話の音声を録音し、テキストデータへの変換を行うことが可能となる。これにより、電話での会話を漏らすことなく録音、テキストデータへの変換をすることができる。
【0224】
また、本実施形態では、タスクに基づいて、例えば会議の日時になったときなどの適切なタイミングで録音やテキストデータへの変換を開始することができるので、この点からも、ユーザの操作を簡素化することができ、使い勝手を向上することが可能となる。また、例えば会議の終了時刻に応じて録音やテキストデータへの変換を行うこともできるので(図2(c)参照)、会議において最も重要なことが話される可能性がある時間帯の音声データの録音及びテキストデータへの変換を自動的に開始することが可能となる。
【0225】
また、本実施形態では、ユーザの生体情報に基づいて、適切なタイミングで録音やテキストデータへの変換を開始することができるので(図2(d)参照)、この点からも、ユーザの操作を簡素化することができ、使い勝手を向上することが可能となる。
【0226】
更に、本実施形態では、現在時刻が、予め定めておいた時刻になったときに、録音やテキストデータへの変換を開始することができるので(図2(b)参照)、この点からも、ユーザの操作を簡素化することができ、使い勝手を向上することが可能となる。
【0227】
また、本実施形態では、位置検出部22の検出結果に応じて、テキストデータ生成部54による変換を禁止することができるため、例えば、社外の会議など、録音することに問題があるような場合に、録音を自動的に禁止することができる。これにより、より使い勝手を向上することが可能となる。
【0228】
なお、上記実施形態では、ワードごとに、守秘性の高低を決める場合について説明したが、これに限られるものではなく、例えば、分類部60では、ビジネスで用いるワードを守秘性レベルの高いワード、プライベートで用いるワードを守秘性レベルの低いワードというように分類しても良い。
【0229】
なお、上記実施形態では、携帯型端末10の位置検出部22で検出された現在位置が、セキュリティが保たれない位置であったときに、キーワードを変換して表示する場合、すなわち、表示部14における表示が制限される場合について説明したが、これに限られるものではない。例えば、時刻検出部24において検出された時刻が所定時刻(例えば勤務時間内)であった場合に、表示部14における表示が制限されるようにしても良い。このようにしても、上記実施形態と同様、セキュリティを考慮した表示を行うことが可能となる。なお、このような制御を行う場合には、図19のステップS206において、ユーザの現在位置を取得する代わりに、現在時刻を取得し、ステップS208においてセキュリティ確保可能な場所か否かを判断する代わりに、セキュリティ確保可能な時刻か否かを判断するようにすれば良い。
【0230】
なお、上記実施形態では、音声データがタスクか否かの判定を、日時情報の有無、及び音声データの語尾の種類に基づいて行うこととしたが、これに限らず、例えば、音声データの抑揚に基づいて、タスク判定を行うこととしても良い。
【0231】
なお、上記実施形態では、守秘性レベル「高」のワード及び「中」のワードを、その上位概念であるイニシャルに変換する場合について説明したが、これに限られるものではない。例えば、キーワードDBにおいて、各ワードに対する変換後のワードを定義しておいても良い。この場合、例えば、キーワード「カメラ」に対する変換後のワードとして、カメラの上位概念である「精密機器」やそれよりも下位概念である「撮影装置」などを定義しておくことができる。この場合、「カメラ」が守秘性レベル「高」であれば、「精密機器」と変換し、「カメラ」が守秘性レベル「中」であれば、「撮影装置」と変換するなどすることができる。このように、守秘性レベルに応じて、上位概念のワードと中位概念のワードに変換することで、セキュリティレベルを考慮した表示を行うことができる。また、キーワードDBにおいて、予算などの金額情報が登録される場合、当該金額情報の上位概念である桁数で表現したものを定義しておいても良い。
【0232】
なお、上記実施形態では、音声が日本語の場合について説明したが、例えば英語などの外国語であっても良い。外国語(例えば、英語)では、所定の単語の有無や、所定の構文の有無に基づいてタスクか否かを判断することとしても良い。
【0233】
なお、上記実施形態では、携帯型端末10の小型・軽量化を図るため、フラッシュメモリ28を搭載する場合について説明したが、これとともに又はこれに代えて、ハードディスクなどの記憶装置を携帯型端末10に搭載することとしても良い。
【0234】
なお、上記実施形態では、会社の位置などの設定を行う際に、携帯型端末10を外部のPCに接続し、外部のPC上で設定を行う場合について説明した。しかしながら、これに限られるものではなく、例えば、サーバ50のハードディスク66に予め会社の位置を登録しておき、そのハードディスク66から、会社の位置をダウンロードしても良い。また、例えば携帯型端末10に会社の位置などを設定するためのアプリケーションをインストールしておくことで、携帯型端末10上で、会社の位置などの設定ができるようにしても良い。
【0235】
なお、上記実施形態では、タスク優先度を上式(1)に基づいて算出することとしたが、これに限らず、その他の式を用いて、タスク優先度を算出しても良い。例えば、各重みを加算したり、あるいは乗算したりするのみでも良い。また、上式(1)などを用いてタスク優先度を求める場合に限らず、重みのうちのいずれかを選択し、その選択された重みの大きい順にタスク優先度を決定しても良い。この場合、どの重みでタスク優先度を決定するかをユーザが設定できるようにしても良い。
【0236】
なお、上記実施形態では、キーワードをイニシャル化したもの(例えばソフトウェアにおける「SW」)と、イメージに基づくもの(例えばソフトウェアにおける「スポンジ」)のうち、イニシャル化したものの方を最初に表示する場合について説明したが、これに限らず、イメージに基づくものを最初に表示することとしても良い。また、イニシャル化したものとイメージに基づくものを同時に表示しても良い。
【0237】
なお、上記実施形態では、ユーザ以外の人の音声が入力部12に入力されたときに、当該発声者の名前や情報が表示される場合について説明したが、これに限らず、例えば、発声者の顔写真など、発声者に関する画像を表示するようにしても良い。この場合、例えばサーバ50のハードディスク66にそれら画像を格納しておき、かつ当該画像を、キーワードDBの情報の項目に登録しておく必要がある。
【0238】
なお、上記実施形態では、重みとして、ユーザとの親密度を用いることとしても良い。この場合、例えば、音声が比較的多く入力される人物や、携帯型端末を持っている人のうち、接近する機会が多い人物などを、親密度の高い人物とすることができる。
【0239】
なお、上記実施形態で説明した構成は一例である。すなわち、上記実施形態で説明したサーバ50の構成の少なくとも一部を携帯型端末10側に設けることとしても良いし、上記実施形態で説明した携帯型端末10の構成の少なくとも一部をサーバ50側に設けることとしても良い。具体的には、例えば、サーバ50の声紋分析部55やテキストデータ生成部54などを携帯型端末10に持たせることとしてもよい。
【0240】
なお、上記実施形態では、本発明をビジネス用として用いる場合を中心に説明したが、プライベートで用いることとしても良いし、あるいは、プライベートとビジネスの両方で用いることとしても勿論良い。
【0241】
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。
【符号の説明】
【0242】
10…携帯型端末、12…入力部、14…表示部、16…再生部、18…警告部、20…生体情報入力部、22…位置検出部、24…時刻検出部、26…カレンダ部、28…フラッシュメモリ、30…端末側制御部、32…通信部、50…サーバ、52…通信部、53…顔認識部、54…テキストデータ生成部、55…声紋分析部、56…重み付け部、58…抽出部、60…分類部、62…変換部、64…フラッシュメモリ、66…ハードディスク、70…サーバ側制御部、72…変更部、74…設定部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27