特開2019-124777(P2019-124777A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通クライアントコンピューティング株式会社の特許一覧

特開2019-124777情報処理装置,制御プログラムおよび制御方法
<>
  • 特開2019124777-情報処理装置,制御プログラムおよび制御方法 図000003
  • 特開2019124777-情報処理装置,制御プログラムおよび制御方法 図000004
  • 特開2019124777-情報処理装置,制御プログラムおよび制御方法 図000005
  • 特開2019124777-情報処理装置,制御プログラムおよび制御方法 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-124777(P2019-124777A)
(43)【公開日】2019年7月25日
(54)【発明の名称】情報処理装置,制御プログラムおよび制御方法
(51)【国際特許分類】
   G10L 13/00 20060101AFI20190704BHJP
   G06F 3/01 20060101ALI20190704BHJP
   G06F 3/16 20060101ALI20190704BHJP
   G06T 7/00 20170101ALI20190704BHJP
【FI】
   G10L13/00 100Z
   G06F3/01 570
   G06F3/16 610
   G06F3/16 690
   G06T7/00 300E
   G06T7/00 660A
【審査請求】有
【請求項の数】4
【出願形態】OL
【全頁数】15
(21)【出願番号】特願2018-4110(P2018-4110)
(22)【出願日】2018年1月15日
(71)【出願人】
【識別番号】518133201
【氏名又は名称】富士通クライアントコンピューティング株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】藪内 靖士
【テーマコード(参考)】
5E555
5L096
【Fターム(参考)】
5E555AA54
5E555BA38
5E555BB38
5E555BC18
5E555BD06
5E555BE08
5E555CA42
5E555CB67
5E555CC19
5E555DA23
5E555DB45
5E555EA22
5E555FA00
5L096BA18
5L096CA02
5L096DA02
5L096HA09
5L096JA03
(57)【要約】
【課題】認識対象者の口唇の画像に基づく発話の内容を聞き手に伝達する。
【解決手段】認識対象者の口唇を含む処理対象画像を取得する画像取得制御部111と、取得された処理対象画像と複数の語に対応する複数の基準画像122との類似度をそれぞれ算出する類似度算出部112と、類似度に基づき処理対象画像に関する発音候補語を決定する第1決定部113と、発音候補語が複数ある場合に、複数の発音候補語の中から、予め規定された似音優先語を発音語として決定する第2決定部113と、決定された似音優先語を出力装置から音声出力させる出力制御部114とを備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、
取得された前記処理対象画像と、複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第1決定部と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第2決定部と、
決定された前記似音優先語を出力装置から音声出力させる出力制御部と
を備えることを特徴とする、情報処理装置。
【請求項2】
前記第2決定部が、発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
ことを特徴とする、請求項1記載の情報処理装置。
【請求項3】
プロセッサを備える情報処理装置において、
認識対象者の口唇を含む処理対象画像を取得し、
取得された前記処理対象画像と複数種類の基準画像との類似度をそれぞれ算出し、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定し、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定し、
決定された前記似音優先語を出力装置から音声出力させる
処理を、前記プロセッサに実行させる、制御プログラム。
【請求項4】
認識対象者の口唇を含む処理対象画像を取得する処理と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する処理と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する処理と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する処理と、
決定された前記似音優先語を出力装置から音声出力させる処理と
を備えることを特徴とする、制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置,制御プログラムおよび制御方法に関する。
【背景技術】
【0002】
聾唖者の口の動きの撮像から発話された語を判断して、この語の音声を計算機に出力させることがある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開昭60−3793号公報
【特許文献2】特開2000−308198号公報
【特許文献3】特開2003−18278号公報
【特許文献4】特開2002−197465号公報
【特許文献5】特開2006−227425号公報
【非特許文献】
【0004】
【非特許文献1】宮崎剛 、外1名、"日本語の発話映像における初口形の検出方法提案"、[online]、平成24年1月13日、情報処理学会、[平成29年11月30日検索]、インターネット〈URL:http://ci.nii.ac.jp/naid/110009423605〉
【発明の概要】
【発明が解決しようとする課題】
【0005】
画像認識では、認識で得た複数の発話語の候補の中から、より確度の高い候補の語を、認識結果として用いることがある。
【0006】
発話される語の中には、他の語の発話時と、口唇の形状等、画像上での違いが少ないものがあり、画像認識で得た候補のうち、正しい語の確度が、他の語の確度よりも低くなることがある。このような場合、計算機は、正しい語ではなく、正しい語の確度よりも高い確度と判定した他の語の音を出力するので、その音を聞いた人に発話が通じないことがある。
【0007】
1つの側面では、本発明は、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることを目的とする。
【課題を解決するための手段】
【0008】
このため、この情報処理装置は、認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、取得された前記処理対象画像と、複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第1決定部と、前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第2決定部と、決定された前記似音優先語を出力装置から音声出力させる出力制御部とを備える。
【発明の効果】
【0009】
一実施形態によれば、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることができる。
【図面の簡単な説明】
【0010】
図1】実施形態の一例としての無声言葉認証発話装置のハードウェア構成を例示する図である。
図2】実施形態の一例としての無声言葉認証発話装置の機能構成を例示する図である。
図3】実施形態の一例としての無声言葉認証発話装置における似音グループ情報を例示する図である。
図4】実施形態の一例としての無声言葉認証発話装置における発語決定手法を説明するためのフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して本情報処理装置、制御プログラムおよび制御方法に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0012】
(A)構成
図1は実施形態の一例としての無声言葉認証発話装置1のハードウェア構成を例示する図、図2はその機能構成を例示する図である。
【0013】
図1に例示する無声言葉認証発話装置1は、腕時計型のウェアラブルデバイスとして構成されたコンピュータ(情報処理装置)である。
【0014】
無声言葉認証発話装置1は、本体10とベルト20とを備え、ベルト20をユーザの腕に巻いて固定することでユーザに装着可能に構成されている。無声言葉認証発話装置1は、装着者であるユーザの顔(特に口唇)の画像を撮影し、この撮像から発話された語(言葉)を判断して、音声として出力(発話,発声)する。
【0015】
本体10には、プロセッサ11,RAM(Random Access Memory)12,スピーカ13,不揮発性メモリ14,通信インタフェース(IF:Interface)15およびカメラ16が備えられている。
【0016】
カメラ16は、本無声言葉認証発話装置1の本体10の表面に配置され、本無声言葉認証発話装置1のベルト20をユーザの腕に巻いて装着した状態で、ユーザの顔(特に口元)の画像を撮影する撮影装置である。このカメラ16によって撮影された画像(撮影画像)は、RAM12の特定の領域に格納される。
【0017】
スピーカ13は、後述するプロセッサ11(音声合成出力制御部114)によって出力を指示される音声(合成音,合成音声)を出力(発声)する。
【0018】
通信IF15は、図示しないサーバコンピュータ等と無線通信を行なうための無線通信インタフェースであり、例えば、無線LAN(Local Area Network)インタフェースやBluetooth(登録商標)インタフェースである。
【0019】
不揮発性メモリ14には、OS(Operating System)プログラム,アプリケーションプログラム、および各種データが格納される。
【0020】
RAM12は、主記憶装置として使用される。RAM12には、プロセッサ11に実行させるOSプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM12には、プロセッサ11による処理に必要な各種データが格納される。アプリケーションプログラムには、本無声言葉認証発話装置1によって本実施形態の無声言葉認証発話機能を実現するためにプロセッサ11によって実行される制御プログラムが含まれてもよい。
【0021】
また、RAM12には、後述する、発音テンプレート画像122および似音グループ情報121(図3参照)が格納(展開)される。
【0022】
プロセッサ11は、本無声言葉認証発話装置(コンピュータ)1全体を制御する。プロセッサ11は、マルチプロセッサであってもよい。プロセッサ11は、例えばCPU(Central Processing Unit),MPU(Micro Processing Unit),DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit),PLD(Programmable Logic Device),FPGA(Field Programmable Gate Array)のいずれか一つであってもよい。また、プロセッサ11は、CPU,MPU,DSP,ASIC,PLD,FPGAのうちの2種類以上の要素の組み合わせであってもよい。
【0023】
そして、プロセッサ11が、制御プログラムを実行することで、図2に示すように、画像取得制御部111,類似度算出部112,発音決定部113および音声合成出力制御部114としての機能が実現される。
【0024】
なお、無声言葉認証発話装置(コンピュータ)1は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム(制御プログラム等)を実行することにより、本実施形態の無声言葉認証発話機能を実現する。コンピュータ1に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ1に実行させるプログラムを不揮発性メモリ14に格納しておくことができる。プロセッサ11は、不揮発性メモリ14内のプログラムの少なくとも一部をRAM12にロードし、ロードしたプログラムを実行する。
【0025】
また、コンピュータ1(プロセッサ11)に実行させるプログラムを、光ディスク,メモリ装置,メモリカード等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ11からの制御により、不揮発性メモリ14にインストールされた後、実行可能になる。また、プロセッサ11が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0026】
次に、図2を参照しながら、本実施形態の無声言葉認証発話装置1の機能構成について説明する。
【0027】
画像取得制御部111は、ユーザの顔の画像を取得する。例えば、画像取得制御部111は、カメラ16によって、ユーザの顔を撮影させることでユーザの顔の画像を取得する。この際、画像取得制御部111は、発話中のユーザの口元(口唇)の画像を撮影させることが望ましい。以下、カメラ16によって撮影されたユーザの口唇の画像を撮影画像もしくは撮像という場合がある。
【0028】
画像取得制御部111は、RAM12等の記憶装置に格納されたユーザの顔の画像を読み出すことでユーザの顔の画像を取得してもよく、また、カメラ16以外の他の撮影装置にユーザの顔を撮影させることでユーザの顔の画像を取得してもよい。さらに、画像取得制御部111は、外部装置から送信される画像データを受信することでユーザの顔の画像を取得してもよく、種々変形して実施することができる。
【0029】
本無声言葉認証発話装置1は、カメラ16によって撮影されたユーザの口唇の画像に基づき、ユーザが発声しようとしている語に対応する音声を出力させる。すなわち、カメラ16によって撮影されたユーザの口唇の画像は、本無声言葉認証発話装置1において音声出力を行なう処理対象の画像である。以下、画像取得制御部111によって取得されたユーザの口唇の画像を処理対象画像という場合もある。画像取得制御部111は処理対象画像を取得させる制御を行なう。また、カメラ16は処理対象画像を撮影する。
【0030】
画像取得制御部111は、カメラ16によって撮影された画像を、RAM12の所定の領域に格納させる。
【0031】
類似度算出部112は、処理対象画像と、発音テンプレート画像(基準画像)122とを比較する。
【0032】
発音テンプレート画像122は、例えば、日本語において別々の音と分析される各語(音,単音)を発音時の人の口唇の画像であり、予め用意される。例えば、日本語における、五十音の他、濁音、半濁音、長音、促音、撥音、拗音の各語(音)を発音時の口唇を撮影することで、日本語の1音(単音)毎に発音テンプレート画像122が作成される。一つの発音テンプレート画像122は1つの語、すなわち1つの音(単音)に対応する。
【0033】
このようにして作成された日本語における単音数と同数の複数(100以上)の発音テンプレート画像122を予め作成し、不揮発性メモリ14に格納しておく。なお、本無声言葉認証発話装置1のユーザに予め各語を発音させて撮影することで発音テンプレート画像122を作成してもよい。
【0034】
類似度算出部112は、カメラ16によって撮影された処理対象画像と、不揮発性メモリ14から読み出した複数の発音テンプレート画像(基準画像)122のそれぞれとの類似度を算出する。
【0035】
具体的には、類似度算出部112は、不揮発性メモリ14から発音テンプレート画像122を順次読み出してRAM12の特定の領域に格納する。
【0036】
そして、類似度算出部112は、RAM12に格納された、カメラ16によって撮影された撮影画像から処理対象画像である口唇部分(口唇領域)の画像を抽出し、不揮発性メモリ14から読み出しRAM12に格納した発音テンプレート画像122と比較する。
【0037】
なお、撮影画像中からの口唇部分の抽出は、既知の種々の手法を用いて実現することができ、その詳細な説明は省略する。
【0038】
類似度算出部112は、処理対象画像における口唇の形状と、発音テンプレート画像122における口唇の形状との類似性を数値(類似度)で表すことで類似度を算出する。類似度は、例えばマッチングの度合いを表す。
【0039】
類似度の算出は、例えば、画像中の口唇の形状を比較することによって行なわれる。類似度算出部112は、例えば、口唇の画像を既知の画像マッチング手法を用いて比較することで、処理対象画像の口唇形状と発音テンプレート画像122の口唇形状との類似度を数値化する。画像マッチング手法としては、例えば、特徴ベースの手法を用いてもよく、また、領域ベースの手法を用いてもよい。
【0040】
処理対象画像における口唇の形状と、発音テンプレート画像122における口唇の形状との類似度の算出は、既知の種々の手法を用いて実現することができる(例えば、非特許文献1参照)。
【0041】
処理対象画像における口唇の形状についての類似度の算出は、全ての発音テンプレート画像122に対して行なわれる。すなわち、類似度算出部112は、撮影画像における口唇の形状について、日本語の1語毎に類似度を算出する。
【0042】
類似度算出部112は、例えば、処理対象画像と発音テンプレート画像122との比較の結果、類似度を例えばパーセンテージ(%値)として出力(算出)する。
【0043】
発音決定部113は、類似度算出部112によって算出された類似度に基づき、処理対象画像における口唇の形状に応じた発音(語)を決定する。この発音決定部113によって決定された語(音)が、後述する音声合成出力制御部114により、スピーカ13から出力される。
【0044】
発音決定部113は、処理対象画像に対する類似度が所定の閾値(例えば、90%)以上である発音テンプレート画像(基準画像)122の数を確認する。
【0045】
確認の結果、類似度が閾値以上の発音テンプレート画像122が1つだけ検出された場合には、発音決定部113は、処理対象画像の口唇が、その1つだけ検出された発音テンプレート画像122に対応する音(語)に相当すると判断する。すなわち、発音決定部113は、処理対象画像の口唇は、発音テンプレート画像122に対応する語を発音中の形状であると判断し、当該語を発音語として決定する。
【0046】
一方、比較の結果、類似度が閾値以上の発音テンプレート画像122が複数検出された場合には、発音決定部113は、似音グループ情報121を参照して、似音変換処理を行なうことで、口唇の形状に応じた発音語を決定する。
【0047】
ここで、類似度が閾値以上の発音テンプレート画像122が複数検出された場合とは、処理対象画像の口唇形状が、これらの複数の発音テンプレート画像122のいずれにも似ていて区別が困難である状態であるとみなすことができる。
【0048】
このような場合に、発音決定部113は、処理対象画像に対応する語として、似音グループ情報121として規定されている似音処理規則に従って、後述する音声合成出力制御部114から出力させる一の語を決定する。
【0049】
以下、類似度が閾値以上の発音テンプレート画像122が複数検出された場合を複数候補検出時という場合がある。また、検出された類似度が閾値以上の複数の発音テンプレート画像122に対応する各語を、発音候補語という場合がある。
【0050】
また、以下、発音時の口唇の形状が似ていて、口唇の外観では識別が困難な音を似音という場合がある。
【0051】
一般的に、母音は口唇の撮影画像から容易に識別することができるが、子音は識別が困難である。子音を撮影画像から識別することが困難である理由は、人間の発話の仕組みにある。すなわち、音声は肺で空気を押し出し、声帯で空気に振動(周波数)を加え、口の中(舌の位置、歯の開き方、口内の広げ方)および唇の形で音を作っている。そのため、唇の形だけではすべての子音を判別することは困難であると考えられる。
【0052】
このように、撮影画像からすべての子音を識別することは困難であるが、母音や口を閉じる動作、頬や喉仏の動きなど外観から識別することが可能な子音もある。また、言葉に含まれる各音をすべて正しく発声しなくても、言葉を聞く相手の状況や、言葉の前後の文脈等から、聞き手側で正しく認識できる場合がある。
【0053】
出願人は、発音時の口唇の外観上での違いが少ない語の組み合わせについて、特定の(特定の側の)語を発話すれば、その語が、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができることを見出した。
【0054】
画像から認識した候補(発音候補語)として、それらの語の組み合わせの双方がある場合には、双方の確度の優劣にかかわらず、予め決めた側の語を発語として選択すれば、その結果の正誤にかかわらず、聞き手に意味を通じ易くなるのである。
【0055】
例えば、発声時の口唇の形状が似ている語として「は」と「あ」の場合について説明する。
【0056】
聞き手には、「は」の箇所で「あ」と発話されても、「は」と発話しているように聞こえる。一方、「あ」の箇所で「は」と発話されると、そのまま「は」と聞き取れてしまう。そこで、画像から認識した語の発音候補語が、「は」か「あ」であれば、それらの認識の確度に関わらず、「あ」と発話することで、その認識の結果の正誤に関わらず、聞き手には、正しい語として聞こえる。
【0057】
以下、発音時の口唇形状の外観上の違いが少ない語の組み合わせにおいて、その語を発音した場合に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる特定の語を、似音適正語という場合がある。上述の例においては、発音候補語が「あ」と「は」との場合において、「あ」は似音適正語である。そして、この似音適正語は、似音グループに含まれる複数の発音候補語のうちの一つであり、発音語として他の発音候補語よりも優先して選択されることを規定された語(似音優先語)であると言える。
【0058】
似音適正語は、発音時の口唇形状の外観上の違いが少ない語の組み合わせのうちの一の語であり、発音時の口唇形状の外観上の違いが少ない語の種々の組み合わせ毎に、予め発音試験を行ない、正しく聞き取りができるかを確認することで決定してもよい。
【0059】
本無声言葉認証発話装置1においては、発音時の口唇の形状が複数の音に似ていて、口唇の外見では識別が困難な似音については、似音適正語を出力(発声)することで(似音処理)、聞き手に言葉を正しく認識させる。
【0060】
図3は実施形態の一例としての無声言葉認証発話装置1における似音グループ情報121を例示する図である。
【0061】
図3に例示する似音グループ情報121は、類似度が高い語(音)の組み合わせに対して、似音規則を対応付けることにより構成されている。
【0062】
類似度が高い語の組み合わせは、発音時の口唇の形状が似ており識別が困難な語(音)の組み合わせである。以下、このような類似度が高い語の組み合わせを似音グループという場合がある。似音グループは複数の発音候補語を備える。
【0063】
似音グループ情報121には、複数の似音グループが登録されており、図3に例示する似音グループ情報121には29組の似音グループが登録されている。また、この図3に例示する似音グループ情報121においては、各似音グループに対して識別番号(1〜29)が設定されている。
【0064】
例えば、識別番号1で示される似音グループは発音候補語「あ」,「は」,「ば」を備える。この識別番号1で示される似音グループは、「あ」を発音する際の口唇の形状は、「は」を発音する際の口唇の形状、および「ば」を発音する際の口唇の形状に似ていて、識別が困難であることを示す。
【0065】
同じ似音グループを構成する発音候補語は、実際の発音も似ており、例えば、同じ似音グループを構成する発音候補語「あ」,「は」および「ば」の音は似ている。
【0066】
似音規則には、後述する音声合成出力制御部114によってスピーカ13から出力させる語として似音適正語が設定されている。この似音規則に設定する似音適正語は、対応する類似グループを構成する各発音候補語の中から予め規定された語(似音優先語)である。
【0067】
本無声言葉認証発話装置1においては、複数の発音候補語が検出された場合に、これらの発音候補語の組み合わせが似音グループ情報121に似音グループとして登録されている場合、すなわち、発音候補語が特定の組み合わせである場合に、発音決定部113は、その似音規則に従って発音を決定する。具体的には、発音決定部113は、その似音規則に規定された、似音グループを構成する発音候補語のうち予め発音語として優先して選択されることを規定された似音適正語(似音優先語)を出力語として決定する。
【0068】
例えば、似音グループに母音が含まれる場合には、この母音を似音優先語として用い、似音規則に設定してもよい。また、似音グループに、濁音と清音とが含まれる場合には、清音を似音優先語として用い、似音規則に設定してもよい。さらに、似音グループに、濁音と半濁音とが含まれる場合には、半濁音を似音優先語として用い、似音規則に設定してもよい。
【0069】
例えば、図3に例示されている似音グループ情報121においては、識別番号“1”の似音グループは「あ」、「は」および「ば」を備え、この似音グループには、似音規則として似音優先語である母音の「あ」を出力する旨が設定されている。
【0070】
発音決定部113は、類似度が所定の閾値(例えば、90%)以上高いと判断した2つの発音テンプレート画像122に対応する語(発音候補語)に基づいて、似音グループ情報121の似音グループを参照し、対応する似音規則を取得する。
【0071】
例えば、処理対象画像に対する類似度が所定の閾値(例えば、90%)以上の発音テンプレート画像(基準画像)122として、「あ」に対応する発音テンプレート画像122と、「は」に対応する発音テンプレート画像122とが検出された場合には、似音グループ情報121において、識別番号“1”の似音グループが選択される。発音決定部113は、この識別番号“1”の似音グループに対応付けられた似音規則に基づき、「あ」を発音することを決定する。
【0072】
つまり、識別番号1で示される似音グループにおいては、処理対象画像の口唇の形状が、「あ」、「は」および「ば」のいずれの発音時の口唇の形状にも類似すると判断された場合には、発音決定部113は、「あ」を発音することを決定する。
【0073】
例えば、本無声言葉認証発話装置1のユーザが「おはようございます」との言葉を言った場合に、発音決定部113が、この言葉に含まれる語「は」,「よ」,「ご」,「ざ」のそれぞれについて、複数候補を検出したとする。
【0074】
発音決定部113は、これらの複数候補が検出された語「は」,「よ」,「ご」,「ざ」のそれぞれについて、似音グループ情報121を参照して、似音規則として規定されている似音優先語を発音する語として決定する。
【0075】
具体的には、発音決定部113は、語「は」に基づいて似音グループ情報121を参照して、「あ」を出力することを決定する(図3に例示する似音グループ情報121の識別番号“1”を参照)。同様に、発音決定部113は、語「よ」に基づいて似音グループ情報121を参照して、「いお」を出力することを決定する(図3に例示する似音グループ情報121の識別番号“23”を参照)。また、発音決定部113は、語「ご」に基づいて似音グループ情報121を参照して、「こ」を出力することを決定する(図3に例示する似音グループ情報121の識別番号“10”を参照)。さらに、発音決定部113は、語「ざ」に基づいて似音グループ情報121を参照して、「さ」を出力することを決定する(図3に例示する似音グループ情報121の識別番号“11”を参照)。
【0076】
これらの結果、発音決定部113は、本無声言葉認証発話装置1のユーザの「おはようございます」との発語に対して、「おあいおうこさいます」を出力語として決定し、音声合成出力制御部114に出力させる。
【0077】
これらの「あ」,「いお」,「こ」および「さ」は、似音適正語であり、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる語である。従って、これらの似音適正語を含む「おあいおうこさいます」との出力語は聞き手に「おはようございます」と問題なく認識される。
【0078】
音声合成出力制御部114は、発音決定部113により決定された語に対応する音(音声)をスピーカ13から出力させる制御を行なう。
【0079】
例えば、音声合成出力制御部114は、予め用意され、不揮発メモリ14等に記憶された合成音声データの中から、発音決定部113により決定された語に対応する合成音声データを選択する。そして、音声合成出力制御部114は、例えば、図示しない音声出力回路にこの選択した合成音声データを送信することで、スピーカ13から発音決定部113により決定された語に対応する合成音声データを出力させる。
【0080】
(B)動作
上述の如く構成された実施形態の一例としての無声言葉認証発話装置1における発語決定手法を、図4に示すフローチャート(ステップS1〜S5)に従って説明する。
【0081】
ステップS1において、画像取得制御部111がカメラ16によりユーザの口元の画像を撮影させる。カメラ16によって撮影された画像(処理対象画像)は、RAM12の所定の領域に格納される。
【0082】
ステップS2において、類似度算出部112が、処理対象画像と各発音テンプレート画像(基準画像)122との類似度をそれぞれ算出する。
【0083】
ステップS3において、発音決定部113が、処理対象画像と各発音テンプレート画像(基準画像)122との類似度を所定の閾値と比較する。発音決定部113は、処理対象画像に対する類似度が所定の閾値(例えば、90%)以上である発音テンプレート画像(基準画像)122の数を確認する。
【0084】
確認の結果、類似度が閾値以上のものがない場合には(ステップS3の“類似度が閾値以上なし”ルート参照)、発音決定部113は、ユーザは語を発しているのではないと判断し、スピーカ13からの音声出力(発語)を行なうことなく、処理を終了する。
【0085】
また、ステップS3における確認の結果、類似度が閾値以上の発音テンプレート画像122が1つだけ検出された場合には(ステップS3の“類似度が閾値以上が1つ”ルート参照)、発音決定部113は、処理対象画像の口唇が、その発音テンプレート画像122に対応する音(語)に対応すると判断する。すなわち、発音決定部113は、処理対象画像の口唇は、発音テンプレート画像122に対応する語を発音中の形状であると判断し、当該語を発音語として決定する。
【0086】
音声合成出力制御部114は、このようにして決定された発音語に対応する音(音声)をスピーカ13から出力させる制御を行なう。これにより、本無声言葉認証発話装置1を装着したユーザの口唇形状に合った音声がスピーカ13から出力される。
【0087】
ステップS3における確認の結果、類似度が閾値以上の発音テンプレート画像122が2つ以上検出された場合、すなわち、複数候補検出時においては(ステップS3の“類似度が閾値以上が2つ以上”ルート参照)、ステップS4に移行する。
【0088】
ステップS4において、発音決定部113は、類似度が閾値以上として検出された複数の発音テンプレート画像122に対応する各語(発音候補語)に基づいて似音グループ情報121を参照して、これらの発音候補語が含まれる似音グループを特定(決定)する。
【0089】
なお、似音グループの決定に際して、採用される似音グループに、複数の発音候補語の全てが含まれることが望ましいが、これに限定されるものではない。例えば、3つ以上の発音候補語がある場合に、最も多く発音候補語を含む似音グループを採用してもよい。
【0090】
ステップS5において、発音決定部113は、似音グループ情報121を参照し、ステップS4において決定した似音グループに対応する似音規則に従って、発音する語(似音適正語,似音優先語)を決定する。
【0091】
発音決定部113は、決定した語を音声合成出力制御部114に通知して、スピーカ13から出力させて、処理を終了する。
【0092】
(C)効果
このように、実施形態の一例としての無声言葉認証発話装置1においては、画像取得制御部111がカメラ16によりユーザの口元の画像を撮影させ、類似度算出部112が、この撮影された処理対象画像と、複数の発音テンプレート画像122との類似度をそれぞれ算出する。
【0093】
そして、発音決定部113が、算出された類似度に基づき、最も類似度が高い発音テンプレート画像122に対応する語を発音させる語として決定する。これにより、発音決定部113が容易に発音語を決定することができ、プロセッサ11の負荷を軽減することができる。
【0094】
また、発音候補語が複数検出された場合に、発音決定部113は、似音グループ情報121を参照して、似音規則に従って発語を決定することで、ユーザが無声発語した語に近い発音語を容易に決定することができ、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることができる。また、この際、判別処理数を減らすことで、プロセッサ11の負荷を軽減するとともに、誤認識を減らすことができる。
【0095】
似音グループ情報121の似音規則として、似音グループ毎に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる特定の語である似音適正語を設定する。そして、発音候補語が複数ある場合には、発音決定部113が、この似音規則を参照して発語を決定する。これにより、ユーザの口唇に対応する語を一つに特定できず、複数の発音候補語がある場合においても、ユーザの口唇の形状に応じた、自然な発語を出力することができる。すなわち、ユーザの口唇と発話とのずれも生じず、スムーズなコミュニケーションを実現できる。
【0096】
似音規則として、発音時の口唇形状の外観上の違いが少ない語の組み合わせにおいて、その語を発音した場合に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる似音適正語を出力させることを規定している。これにより、処理対象画像から得た認識結果の正誤にかかわらず、発話の内容を聞き手に伝達することができる。
【0097】
また文脈などの長文を入力して文脈解釈や単語のデータベースとの照合等を行なう必要がないので処理負荷を軽減でき、処理の高速化を実現できる。
【0098】
(D)その他
そして、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
【0099】
例えば、上述した実施形態において、似音グループ情報121は図3に例示したものに限定されるものではなく、適宜変更して実施することができる。例えば、似音グループ情報121において似音グループとして他の発音候補語の組み合わせが登録されてもよい。また、似音規則に設定する似音適正語として、対応する類似グループを構成する発音候補語の中から一の語を優先して選択する代わりに、いずれにも音が近い他の語を用いてもよい。
【0100】
また、上述した実施形態においては、類似度算出部112や発音決定部113としての機能を本無声言葉認証発話装置1のプロセッサ11によって実現しているが、これに限定されるものではない。
【0101】
例えば、通信インタフェース15を介して、図示しないサーバコンピュータと無線通信可能に構成するとともに、このサーバコンピュータに類似度算出部112や発音決定部113としての機能を実現させてもよい。これにより、本無声言葉認証発話装置1の負荷を軽減することができる。
【0102】
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
【0103】
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
【0104】
(付記1)
認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第1決定部と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第2決定部と、
決定された前記似音優先語を出力装置から音声出力させる出力制御部と
を備えることを特徴とする、情報処理装置。
【0105】
(付記2)
前記第2決定部が、発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
ことを特徴とする、付記1記載の情報処理装置。
【0106】
(付記3)
プロセッサを備える情報処理装置において、
認識対象者の口唇を含む処理対象画像を取得し、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出し、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定し、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定し、
決定された前記似音優先語を出力装置から音声出力させる
処理を、前記プロセッサに実行させる、制御プログラム。
【0107】
(付記4)
発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
処理を前記プロセッサに実行させる、付記3記載の制御プログラム
【0108】
(付記5)
認識対象者の口唇を含む処理対象画像を取得する処理と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する処理と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する処理と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する処理と、
決定された前記似音優先語を出力装置から音声出力させる処理と
を備えることを特徴とする、制御方法。
【0109】
(付記6)
発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する処理
を備えることを特徴とする、付記5記載の制御方法。
【符号の説明】
【0110】
1 無声言葉認証発話装置
10 本体
11 プロセッサ
12 RAM
13 スピーカ
14 不揮発性メモリ
15 通信インタフェース
16 カメラ
20 ベルト
111 画像取得制御部
112 類似度算出部
113 発音決定部
114 音声合成出力制御部
121 似音グループ情報
122 発音テンプレート画像
図1
図2
図3
図4