特開2019-124777 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通クライアントコンピューティング株式会社の特許一覧

特開2019-124777情報処理装置，制御プログラムおよび制御方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2019-124777(P2019-124777A)

(43)【公開日】2019年7月25日

(54)【発明の名称】情報処理装置，制御プログラムおよび制御方法

(51)【国際特許分類】

G10L 13/00 20060101AFI20190704BHJP

G06F 3/01 20060101ALI20190704BHJP

G06F 3/16 20060101ALI20190704BHJP

G06T 7/00 20170101ALI20190704BHJP

【ＦＩ】

G10L13/00 100Z

G06F3/01 570

G06F3/16 610

G06F3/16 690

G06T7/00 300E

G06T7/00 660A

【審査請求】有

【請求項の数】4

【出願形態】ＯＬ

【全頁数】15

(21)【出願番号】特願2018-4110(P2018-4110)

(22)【出願日】2018年1月15日

(71)【出願人】

【識別番号】518133201

【氏名又は名称】富士通クライアントコンピューティング株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】藪内靖士

【テーマコード（参考）】

5E555

5L096

【Ｆターム（参考）】

5E555AA54

5E555BA38

5E555BB38

5E555BC18

5E555BD06

5E555BE08

5E555CA42

5E555CB67

5E555CC19

5E555DA23

5E555DB45

5E555EA22

5E555FA00

5L096BA18

5L096CA02

5L096DA02

5L096HA09

5L096JA03

(57)【要約】

【課題】認識対象者の口唇の画像に基づく発話の内容を聞き手に伝達する。
【解決手段】認識対象者の口唇を含む処理対象画像を取得する画像取得制御部１１１と、取得された処理対象画像と複数の語に対応する複数の基準画像１２２との類似度をそれぞれ算出する類似度算出部１１２と、類似度に基づき処理対象画像に関する発音候補語を決定する第１決定部１１３と、発音候補語が複数ある場合に、複数の発音候補語の中から、予め規定された似音優先語を発音語として決定する第２決定部１１３と、決定された似音優先語を出力装置から音声出力させる出力制御部１１４とを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、
取得された前記処理対象画像と、複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第１決定部と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第２決定部と、
決定された前記似音優先語を出力装置から音声出力させる出力制御部と
を備えることを特徴とする、情報処理装置。

【請求項2】

前記第２決定部が、発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
ことを特徴とする、請求項１記載の情報処理装置。

【請求項3】

プロセッサを備える情報処理装置において、
認識対象者の口唇を含む処理対象画像を取得し、
取得された前記処理対象画像と複数種類の基準画像との類似度をそれぞれ算出し、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定し、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定し、
決定された前記似音優先語を出力装置から音声出力させる
処理を、前記プロセッサに実行させる、制御プログラム。

【請求項4】

認識対象者の口唇を含む処理対象画像を取得する処理と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する処理と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する処理と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する処理と、
決定された前記似音優先語を出力装置から音声出力させる処理と
を備えることを特徴とする、制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置，制御プログラムおよび制御方法に関する。

【背景技術】

【0002】

聾唖者の口の動きの撮像から発話された語を判断して、この語の音声を計算機に出力させることがある。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開昭６０−３７９３号公報

【特許文献2】特開２０００−３０８１９８号公報

【特許文献3】特開２００３−１８２７８号公報

【特許文献4】特開２００２−１９７４６５号公報

【特許文献5】特開２００６−２２７４２５号公報

【非特許文献】

【0004】

【非特許文献1】宮崎剛、外１名、"日本語の発話映像における初口形の検出方法提案"、［online］、平成24年1月13日、情報処理学会、［平成29年11月30日検索］、インターネット〈URL：http://ci.nii.ac.jp/naid/110009423605〉

【発明の概要】

【発明が解決しようとする課題】

【0005】

画像認識では、認識で得た複数の発話語の候補の中から、より確度の高い候補の語を、認識結果として用いることがある。

【0006】

発話される語の中には、他の語の発話時と、口唇の形状等、画像上での違いが少ないものがあり、画像認識で得た候補のうち、正しい語の確度が、他の語の確度よりも低くなることがある。このような場合、計算機は、正しい語ではなく、正しい語の確度よりも高い確度と判定した他の語の音を出力するので、その音を聞いた人に発話が通じないことがある。

【0007】

１つの側面では、本発明は、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることを目的とする。

【課題を解決するための手段】

【0008】

このため、この情報処理装置は、認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、取得された前記処理対象画像と、複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第１決定部と、前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第２決定部と、決定された前記似音優先語を出力装置から音声出力させる出力制御部とを備える。

【発明の効果】

【0009】

一実施形態によれば、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることができる。

【図面の簡単な説明】

【0010】

【図1】実施形態の一例としての無声言葉認証発話装置のハードウェア構成を例示する図である。

【図2】実施形態の一例としての無声言葉認証発話装置の機能構成を例示する図である。

【図3】実施形態の一例としての無声言葉認証発話装置における似音グループ情報を例示する図である。

【図4】実施形態の一例としての無声言葉認証発話装置における発語決定手法を説明するためのフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して本情報処理装置、制御プログラムおよび制御方法に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0012】

（Ａ）構成
図１は実施形態の一例としての無声言葉認証発話装置１のハードウェア構成を例示する図、図２はその機能構成を例示する図である。

【0013】

図１に例示する無声言葉認証発話装置１は、腕時計型のウェアラブルデバイスとして構成されたコンピュータ（情報処理装置）である。

【0014】

無声言葉認証発話装置１は、本体１０とベルト２０とを備え、ベルト２０をユーザの腕に巻いて固定することでユーザに装着可能に構成されている。無声言葉認証発話装置１は、装着者であるユーザの顔（特に口唇）の画像を撮影し、この撮像から発話された語（言葉）を判断して、音声として出力（発話，発声）する。

【0015】

本体１０には、プロセッサ１１，ＲＡＭ（Random Access Memory）１２，スピーカ１３，不揮発性メモリ１４，通信インタフェース（ＩＦ：Interface）１５およびカメラ１６が備えられている。

【0016】

カメラ１６は、本無声言葉認証発話装置１の本体１０の表面に配置され、本無声言葉認証発話装置１のベルト２０をユーザの腕に巻いて装着した状態で、ユーザの顔（特に口元）の画像を撮影する撮影装置である。このカメラ１６によって撮影された画像（撮影画像）は、ＲＡＭ１２の特定の領域に格納される。

【0017】

スピーカ１３は、後述するプロセッサ１１（音声合成出力制御部１１４）によって出力を指示される音声（合成音，合成音声）を出力（発声）する。

【0018】

通信ＩＦ１５は、図示しないサーバコンピュータ等と無線通信を行なうための無線通信インタフェースであり、例えば、無線ＬＡＮ（Local Area Network）インタフェースやBluetooth（登録商標）インタフェースである。

【0019】

不揮発性メモリ１４には、ＯＳ（Operating System）プログラム，アプリケーションプログラム、および各種データが格納される。

【0020】

ＲＡＭ１２は、主記憶装置として使用される。ＲＡＭ１２には、プロセッサ１１に実行させるＯＳプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１２には、プロセッサ１１による処理に必要な各種データが格納される。アプリケーションプログラムには、本無声言葉認証発話装置１によって本実施形態の無声言葉認証発話機能を実現するためにプロセッサ１１によって実行される制御プログラムが含まれてもよい。

【0021】

また、ＲＡＭ１２には、後述する、発音テンプレート画像１２２および似音グループ情報１２１（図３参照）が格納（展開）される。

【0022】

プロセッサ１１は、本無声言葉認証発話装置（コンピュータ）１全体を制御する。プロセッサ１１は、マルチプロセッサであってもよい。プロセッサ１１は、例えばＣＰＵ（Central Processing Unit），ＭＰＵ（Micro Processing Unit），ＤＳＰ（Digital Signal Processor），ＡＳＩＣ（Application Specific Integrated Circuit），ＰＬＤ（Programmable Logic Device），ＦＰＧＡ（Field Programmable Gate Array）のいずれか一つであってもよい。また、プロセッサ１１は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのうちの２種類以上の要素の組み合わせであってもよい。

【0023】

そして、プロセッサ１１が、制御プログラムを実行することで、図２に示すように、画像取得制御部１１１，類似度算出部１１２，発音決定部１１３および音声合成出力制御部１１４としての機能が実現される。

【0024】

なお、無声言葉認証発話装置（コンピュータ）１は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム（制御プログラム等）を実行することにより、本実施形態の無声言葉認証発話機能を実現する。コンピュータ１に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、コンピュータ１に実行させるプログラムを不揮発性メモリ１４に格納しておくことができる。プロセッサ１１は、不揮発性メモリ１４内のプログラムの少なくとも一部をＲＡＭ１２にロードし、ロードしたプログラムを実行する。

【0025】

また、コンピュータ１（プロセッサ１１）に実行させるプログラムを、光ディスク，メモリ装置，メモリカード等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１１からの制御により、不揮発性メモリ１４にインストールされた後、実行可能になる。また、プロセッサ１１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

【0026】

次に、図２を参照しながら、本実施形態の無声言葉認証発話装置１の機能構成について説明する。

【0027】

画像取得制御部１１１は、ユーザの顔の画像を取得する。例えば、画像取得制御部１１１は、カメラ１６によって、ユーザの顔を撮影させることでユーザの顔の画像を取得する。この際、画像取得制御部１１１は、発話中のユーザの口元（口唇）の画像を撮影させることが望ましい。以下、カメラ１６によって撮影されたユーザの口唇の画像を撮影画像もしくは撮像という場合がある。

【0028】

画像取得制御部１１１は、ＲＡＭ１２等の記憶装置に格納されたユーザの顔の画像を読み出すことでユーザの顔の画像を取得してもよく、また、カメラ１６以外の他の撮影装置にユーザの顔を撮影させることでユーザの顔の画像を取得してもよい。さらに、画像取得制御部１１１は、外部装置から送信される画像データを受信することでユーザの顔の画像を取得してもよく、種々変形して実施することができる。

【0029】

本無声言葉認証発話装置１は、カメラ１６によって撮影されたユーザの口唇の画像に基づき、ユーザが発声しようとしている語に対応する音声を出力させる。すなわち、カメラ１６によって撮影されたユーザの口唇の画像は、本無声言葉認証発話装置１において音声出力を行なう処理対象の画像である。以下、画像取得制御部１１１によって取得されたユーザの口唇の画像を処理対象画像という場合もある。画像取得制御部１１１は処理対象画像を取得させる制御を行なう。また、カメラ１６は処理対象画像を撮影する。

【0030】

画像取得制御部１１１は、カメラ１６によって撮影された画像を、ＲＡＭ１２の所定の領域に格納させる。

【0031】

類似度算出部１１２は、処理対象画像と、発音テンプレート画像（基準画像）１２２とを比較する。

【0032】

発音テンプレート画像１２２は、例えば、日本語において別々の音と分析される各語（音，単音）を発音時の人の口唇の画像であり、予め用意される。例えば、日本語における、五十音の他、濁音、半濁音、長音、促音、撥音、拗音の各語（音）を発音時の口唇を撮影することで、日本語の１音（単音）毎に発音テンプレート画像１２２が作成される。一つの発音テンプレート画像１２２は１つの語、すなわち１つの音（単音）に対応する。

【0033】

このようにして作成された日本語における単音数と同数の複数（１００以上）の発音テンプレート画像１２２を予め作成し、不揮発性メモリ１４に格納しておく。なお、本無声言葉認証発話装置１のユーザに予め各語を発音させて撮影することで発音テンプレート画像１２２を作成してもよい。

【0034】

類似度算出部１１２は、カメラ１６によって撮影された処理対象画像と、不揮発性メモリ１４から読み出した複数の発音テンプレート画像（基準画像）１２２のそれぞれとの類似度を算出する。

【0035】

具体的には、類似度算出部１１２は、不揮発性メモリ１４から発音テンプレート画像１２２を順次読み出してＲＡＭ１２の特定の領域に格納する。

【0036】

そして、類似度算出部１１２は、ＲＡＭ１２に格納された、カメラ１６によって撮影された撮影画像から処理対象画像である口唇部分（口唇領域）の画像を抽出し、不揮発性メモリ１４から読み出しＲＡＭ１２に格納した発音テンプレート画像１２２と比較する。

【0037】

なお、撮影画像中からの口唇部分の抽出は、既知の種々の手法を用いて実現することができ、その詳細な説明は省略する。

【0038】

類似度算出部１１２は、処理対象画像における口唇の形状と、発音テンプレート画像１２２における口唇の形状との類似性を数値（類似度）で表すことで類似度を算出する。類似度は、例えばマッチングの度合いを表す。

【0039】

類似度の算出は、例えば、画像中の口唇の形状を比較することによって行なわれる。類似度算出部１１２は、例えば、口唇の画像を既知の画像マッチング手法を用いて比較することで、処理対象画像の口唇形状と発音テンプレート画像１２２の口唇形状との類似度を数値化する。画像マッチング手法としては、例えば、特徴ベースの手法を用いてもよく、また、領域ベースの手法を用いてもよい。

【0040】

処理対象画像における口唇の形状と、発音テンプレート画像１２２における口唇の形状との類似度の算出は、既知の種々の手法を用いて実現することができる（例えば、非特許文献１参照）。

【0041】

処理対象画像における口唇の形状についての類似度の算出は、全ての発音テンプレート画像１２２に対して行なわれる。すなわち、類似度算出部１１２は、撮影画像における口唇の形状について、日本語の１語毎に類似度を算出する。

【0042】

類似度算出部１１２は、例えば、処理対象画像と発音テンプレート画像１２２との比較の結果、類似度を例えばパーセンテージ（％値）として出力（算出）する。

【0043】

発音決定部１１３は、類似度算出部１１２によって算出された類似度に基づき、処理対象画像における口唇の形状に応じた発音（語）を決定する。この発音決定部１１３によって決定された語（音）が、後述する音声合成出力制御部１１４により、スピーカ１３から出力される。

【0044】

発音決定部１１３は、処理対象画像に対する類似度が所定の閾値（例えば、９０％）以上である発音テンプレート画像（基準画像）１２２の数を確認する。

【0045】

確認の結果、類似度が閾値以上の発音テンプレート画像１２２が１つだけ検出された場合には、発音決定部１１３は、処理対象画像の口唇が、その１つだけ検出された発音テンプレート画像１２２に対応する音（語）に相当すると判断する。すなわち、発音決定部１１３は、処理対象画像の口唇は、発音テンプレート画像１２２に対応する語を発音中の形状であると判断し、当該語を発音語として決定する。

【0046】

一方、比較の結果、類似度が閾値以上の発音テンプレート画像１２２が複数検出された場合には、発音決定部１１３は、似音グループ情報１２１を参照して、似音変換処理を行なうことで、口唇の形状に応じた発音語を決定する。

【0047】

ここで、類似度が閾値以上の発音テンプレート画像１２２が複数検出された場合とは、処理対象画像の口唇形状が、これらの複数の発音テンプレート画像１２２のいずれにも似ていて区別が困難である状態であるとみなすことができる。

【0048】

このような場合に、発音決定部１１３は、処理対象画像に対応する語として、似音グループ情報１２１として規定されている似音処理規則に従って、後述する音声合成出力制御部１１４から出力させる一の語を決定する。

【0049】

以下、類似度が閾値以上の発音テンプレート画像１２２が複数検出された場合を複数候補検出時という場合がある。また、検出された類似度が閾値以上の複数の発音テンプレート画像１２２に対応する各語を、発音候補語という場合がある。

【0050】

また、以下、発音時の口唇の形状が似ていて、口唇の外観では識別が困難な音を似音という場合がある。

【0051】

一般的に、母音は口唇の撮影画像から容易に識別することができるが、子音は識別が困難である。子音を撮影画像から識別することが困難である理由は、人間の発話の仕組みにある。すなわち、音声は肺で空気を押し出し、声帯で空気に振動（周波数）を加え、口の中（舌の位置、歯の開き方、口内の広げ方）および唇の形で音を作っている。そのため、唇の形だけではすべての子音を判別することは困難であると考えられる。

【0052】

このように、撮影画像からすべての子音を識別することは困難であるが、母音や口を閉じる動作、頬や喉仏の動きなど外観から識別することが可能な子音もある。また、言葉に含まれる各音をすべて正しく発声しなくても、言葉を聞く相手の状況や、言葉の前後の文脈等から、聞き手側で正しく認識できる場合がある。

【0053】

出願人は、発音時の口唇の外観上での違いが少ない語の組み合わせについて、特定の（特定の側の）語を発話すれば、その語が、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができることを見出した。

【0054】

画像から認識した候補（発音候補語）として、それらの語の組み合わせの双方がある場合には、双方の確度の優劣にかかわらず、予め決めた側の語を発語として選択すれば、その結果の正誤にかかわらず、聞き手に意味を通じ易くなるのである。

【0055】

例えば、発声時の口唇の形状が似ている語として「は」と「あ」の場合について説明する。

【0056】

聞き手には、「は」の箇所で「あ」と発話されても、「は」と発話しているように聞こえる。一方、「あ」の箇所で「は」と発話されると、そのまま「は」と聞き取れてしまう。そこで、画像から認識した語の発音候補語が、「は」か「あ」であれば、それらの認識の確度に関わらず、「あ」と発話することで、その認識の結果の正誤に関わらず、聞き手には、正しい語として聞こえる。

【0057】

以下、発音時の口唇形状の外観上の違いが少ない語の組み合わせにおいて、その語を発音した場合に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる特定の語を、似音適正語という場合がある。上述の例においては、発音候補語が「あ」と「は」との場合において、「あ」は似音適正語である。そして、この似音適正語は、似音グループに含まれる複数の発音候補語のうちの一つであり、発音語として他の発音候補語よりも優先して選択されることを規定された語（似音優先語）であると言える。

【0058】

似音適正語は、発音時の口唇形状の外観上の違いが少ない語の組み合わせのうちの一の語であり、発音時の口唇形状の外観上の違いが少ない語の種々の組み合わせ毎に、予め発音試験を行ない、正しく聞き取りができるかを確認することで決定してもよい。

【0059】

本無声言葉認証発話装置１においては、発音時の口唇の形状が複数の音に似ていて、口唇の外見では識別が困難な似音については、似音適正語を出力（発声）することで（似音処理）、聞き手に言葉を正しく認識させる。

【0060】

図３は実施形態の一例としての無声言葉認証発話装置１における似音グループ情報１２１を例示する図である。

【0061】

図３に例示する似音グループ情報１２１は、類似度が高い語（音）の組み合わせに対して、似音規則を対応付けることにより構成されている。

【0062】

類似度が高い語の組み合わせは、発音時の口唇の形状が似ており識別が困難な語（音）の組み合わせである。以下、このような類似度が高い語の組み合わせを似音グループという場合がある。似音グループは複数の発音候補語を備える。

【0063】

似音グループ情報１２１には、複数の似音グループが登録されており、図３に例示する似音グループ情報１２１には２９組の似音グループが登録されている。また、この図３に例示する似音グループ情報１２１においては、各似音グループに対して識別番号（１〜２９）が設定されている。

【0064】

例えば、識別番号１で示される似音グループは発音候補語「あ」，「は」，「ば」を備える。この識別番号１で示される似音グループは、「あ」を発音する際の口唇の形状は、「は」を発音する際の口唇の形状、および「ば」を発音する際の口唇の形状に似ていて、識別が困難であることを示す。

【0065】

同じ似音グループを構成する発音候補語は、実際の発音も似ており、例えば、同じ似音グループを構成する発音候補語「あ」，「は」および「ば」の音は似ている。

【0066】

似音規則には、後述する音声合成出力制御部１１４によってスピーカ１３から出力させる語として似音適正語が設定されている。この似音規則に設定する似音適正語は、対応する類似グループを構成する各発音候補語の中から予め規定された語（似音優先語）である。

【0067】

本無声言葉認証発話装置１においては、複数の発音候補語が検出された場合に、これらの発音候補語の組み合わせが似音グループ情報１２１に似音グループとして登録されている場合、すなわち、発音候補語が特定の組み合わせである場合に、発音決定部１１３は、その似音規則に従って発音を決定する。具体的には、発音決定部１１３は、その似音規則に規定された、似音グループを構成する発音候補語のうち予め発音語として優先して選択されることを規定された似音適正語（似音優先語）を出力語として決定する。

【0068】

例えば、似音グループに母音が含まれる場合には、この母音を似音優先語として用い、似音規則に設定してもよい。また、似音グループに、濁音と清音とが含まれる場合には、清音を似音優先語として用い、似音規則に設定してもよい。さらに、似音グループに、濁音と半濁音とが含まれる場合には、半濁音を似音優先語として用い、似音規則に設定してもよい。

【0069】

例えば、図３に例示されている似音グループ情報１２１においては、識別番号“１”の似音グループは「あ」、「は」および「ば」を備え、この似音グループには、似音規則として似音優先語である母音の「あ」を出力する旨が設定されている。

【0070】

発音決定部１１３は、類似度が所定の閾値（例えば、９０％）以上高いと判断した２つの発音テンプレート画像１２２に対応する語（発音候補語）に基づいて、似音グループ情報１２１の似音グループを参照し、対応する似音規則を取得する。

【0071】

例えば、処理対象画像に対する類似度が所定の閾値（例えば、９０％）以上の発音テンプレート画像（基準画像）１２２として、「あ」に対応する発音テンプレート画像１２２と、「は」に対応する発音テンプレート画像１２２とが検出された場合には、似音グループ情報１２１において、識別番号“１”の似音グループが選択される。発音決定部１１３は、この識別番号“１”の似音グループに対応付けられた似音規則に基づき、「あ」を発音することを決定する。

【0072】

つまり、識別番号１で示される似音グループにおいては、処理対象画像の口唇の形状が、「あ」、「は」および「ば」のいずれの発音時の口唇の形状にも類似すると判断された場合には、発音決定部１１３は、「あ」を発音することを決定する。

【0073】

例えば、本無声言葉認証発話装置１のユーザが「おはようございます」との言葉を言った場合に、発音決定部１１３が、この言葉に含まれる語「は」，「よ」，「ご」，「ざ」のそれぞれについて、複数候補を検出したとする。

【0074】

発音決定部１１３は、これらの複数候補が検出された語「は」，「よ」，「ご」，「ざ」のそれぞれについて、似音グループ情報１２１を参照して、似音規則として規定されている似音優先語を発音する語として決定する。

【0075】

具体的には、発音決定部１１３は、語「は」に基づいて似音グループ情報１２１を参照して、「あ」を出力することを決定する（図３に例示する似音グループ情報１２１の識別番号“１”を参照）。同様に、発音決定部１１３は、語「よ」に基づいて似音グループ情報１２１を参照して、「いお」を出力することを決定する（図３に例示する似音グループ情報１２１の識別番号“２３”を参照）。また、発音決定部１１３は、語「ご」に基づいて似音グループ情報１２１を参照して、「こ」を出力することを決定する（図３に例示する似音グループ情報１２１の識別番号“１０”を参照）。さらに、発音決定部１１３は、語「ざ」に基づいて似音グループ情報１２１を参照して、「さ」を出力することを決定する（図３に例示する似音グループ情報１２１の識別番号“１１”を参照）。

【0076】

これらの結果、発音決定部１１３は、本無声言葉認証発話装置１のユーザの「おはようございます」との発語に対して、「おあいおうこさいます」を出力語として決定し、音声合成出力制御部１１４に出力させる。

【0077】

これらの「あ」，「いお」，「こ」および「さ」は、似音適正語であり、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる語である。従って、これらの似音適正語を含む「おあいおうこさいます」との出力語は聞き手に「おはようございます」と問題なく認識される。

【0078】

音声合成出力制御部１１４は、発音決定部１１３により決定された語に対応する音（音声）をスピーカ１３から出力させる制御を行なう。

【0079】

例えば、音声合成出力制御部１１４は、予め用意され、不揮発メモリ１４等に記憶された合成音声データの中から、発音決定部１１３により決定された語に対応する合成音声データを選択する。そして、音声合成出力制御部１１４は、例えば、図示しない音声出力回路にこの選択した合成音声データを送信することで、スピーカ１３から発音決定部１１３により決定された語に対応する合成音声データを出力させる。

【0080】

（Ｂ）動作
上述の如く構成された実施形態の一例としての無声言葉認証発話装置１における発語決定手法を、図４に示すフローチャート（ステップＳ１〜Ｓ５）に従って説明する。

【0081】

ステップＳ１において、画像取得制御部１１１がカメラ１６によりユーザの口元の画像を撮影させる。カメラ１６によって撮影された画像（処理対象画像）は、ＲＡＭ１２の所定の領域に格納される。

【0082】

ステップＳ２において、類似度算出部１１２が、処理対象画像と各発音テンプレート画像（基準画像）１２２との類似度をそれぞれ算出する。

【0083】

ステップＳ３において、発音決定部１１３が、処理対象画像と各発音テンプレート画像（基準画像）１２２との類似度を所定の閾値と比較する。発音決定部１１３は、処理対象画像に対する類似度が所定の閾値（例えば、９０％）以上である発音テンプレート画像（基準画像）１２２の数を確認する。

【0084】

確認の結果、類似度が閾値以上のものがない場合には（ステップＳ３の“類似度が閾値以上なし”ルート参照）、発音決定部１１３は、ユーザは語を発しているのではないと判断し、スピーカ１３からの音声出力（発語）を行なうことなく、処理を終了する。

【0085】

また、ステップＳ３における確認の結果、類似度が閾値以上の発音テンプレート画像１２２が１つだけ検出された場合には（ステップＳ３の“類似度が閾値以上が１つ”ルート参照）、発音決定部１１３は、処理対象画像の口唇が、その発音テンプレート画像１２２に対応する音（語）に対応すると判断する。すなわち、発音決定部１１３は、処理対象画像の口唇は、発音テンプレート画像１２２に対応する語を発音中の形状であると判断し、当該語を発音語として決定する。

【0086】

音声合成出力制御部１１４は、このようにして決定された発音語に対応する音（音声）をスピーカ１３から出力させる制御を行なう。これにより、本無声言葉認証発話装置１を装着したユーザの口唇形状に合った音声がスピーカ１３から出力される。

【0087】

ステップＳ３における確認の結果、類似度が閾値以上の発音テンプレート画像１２２が２つ以上検出された場合、すなわち、複数候補検出時においては（ステップＳ３の“類似度が閾値以上が２つ以上”ルート参照）、ステップＳ４に移行する。

【0088】

ステップＳ４において、発音決定部１１３は、類似度が閾値以上として検出された複数の発音テンプレート画像１２２に対応する各語（発音候補語）に基づいて似音グループ情報１２１を参照して、これらの発音候補語が含まれる似音グループを特定（決定）する。

【0089】

なお、似音グループの決定に際して、採用される似音グループに、複数の発音候補語の全てが含まれることが望ましいが、これに限定されるものではない。例えば、３つ以上の発音候補語がある場合に、最も多く発音候補語を含む似音グループを採用してもよい。

【0090】

ステップＳ５において、発音決定部１１３は、似音グループ情報１２１を参照し、ステップＳ４において決定した似音グループに対応する似音規則に従って、発音する語（似音適正語，似音優先語）を決定する。

【0091】

発音決定部１１３は、決定した語を音声合成出力制御部１１４に通知して、スピーカ１３から出力させて、処理を終了する。

【0092】

（Ｃ）効果
このように、実施形態の一例としての無声言葉認証発話装置１においては、画像取得制御部１１１がカメラ１６によりユーザの口元の画像を撮影させ、類似度算出部１１２が、この撮影された処理対象画像と、複数の発音テンプレート画像１２２との類似度をそれぞれ算出する。

【0093】

そして、発音決定部１１３が、算出された類似度に基づき、最も類似度が高い発音テンプレート画像１２２に対応する語を発音させる語として決定する。これにより、発音決定部１１３が容易に発音語を決定することができ、プロセッサ１１の負荷を軽減することができる。

【0094】

また、発音候補語が複数検出された場合に、発音決定部１１３は、似音グループ情報１２１を参照して、似音規則に従って発語を決定することで、ユーザが無声発語した語に近い発音語を容易に決定することができ、無声発語中の口唇に対応する語の音を聞き手に確実に伝えることができる。また、この際、判別処理数を減らすことで、プロセッサ１１の負荷を軽減するとともに、誤認識を減らすことができる。

【0095】

似音グループ情報１２１の似音規則として、似音グループ毎に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる特定の語である似音適正語を設定する。そして、発音候補語が複数ある場合には、発音決定部１１３が、この似音規則を参照して発語を決定する。これにより、ユーザの口唇に対応する語を一つに特定できず、複数の発音候補語がある場合においても、ユーザの口唇の形状に応じた、自然な発語を出力することができる。すなわち、ユーザの口唇と発話とのずれも生じず、スムーズなコミュニケーションを実現できる。

【0096】

似音規則として、発音時の口唇形状の外観上の違いが少ない語の組み合わせにおいて、その語を発音した場合に、実際に発話すべき語と異なっていたとしても、聞き手には正しい語の様に聞き取ることができる似音適正語を出力させることを規定している。これにより、処理対象画像から得た認識結果の正誤にかかわらず、発話の内容を聞き手に伝達することができる。

【0097】

また文脈などの長文を入力して文脈解釈や単語のデータベースとの照合等を行なう必要がないので処理負荷を軽減でき、処理の高速化を実現できる。

【0098】

（Ｄ）その他
そして、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。

【0099】

例えば、上述した実施形態において、似音グループ情報１２１は図３に例示したものに限定されるものではなく、適宜変更して実施することができる。例えば、似音グループ情報１２１において似音グループとして他の発音候補語の組み合わせが登録されてもよい。また、似音規則に設定する似音適正語として、対応する類似グループを構成する発音候補語の中から一の語を優先して選択する代わりに、いずれにも音が近い他の語を用いてもよい。

【0100】

また、上述した実施形態においては、類似度算出部１１２や発音決定部１１３としての機能を本無声言葉認証発話装置１のプロセッサ１１によって実現しているが、これに限定されるものではない。

【0101】

例えば、通信インタフェース１５を介して、図示しないサーバコンピュータと無線通信可能に構成するとともに、このサーバコンピュータに類似度算出部１１２や発音決定部１１３としての機能を実現させてもよい。これにより、本無声言葉認証発話装置１の負荷を軽減することができる。

【0102】

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

【0103】

（Ｅ）付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0104】

（付記１）
認識対象者の口唇を含む処理対象画像を取得する画像取得制御部と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する類似度算出部と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する第１決定部と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する第２決定部と、
決定された前記似音優先語を出力装置から音声出力させる出力制御部と
を備えることを特徴とする、情報処理装置。

【0105】

（付記２）
前記第２決定部が、発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
ことを特徴とする、付記１記載の情報処理装置。

【0106】

（付記３）
プロセッサを備える情報処理装置において、
認識対象者の口唇を含む処理対象画像を取得し、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出し、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定し、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定し、
決定された前記似音優先語を出力装置から音声出力させる
処理を、前記プロセッサに実行させる、制御プログラム。

【0107】

（付記４）
発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する
処理を前記プロセッサに実行させる、付記３記載の制御プログラム

【0108】

（付記５）
認識対象者の口唇を含む処理対象画像を取得する処理と、
取得された前記処理対象画像と複数の語に対応する複数の基準画像との類似度をそれぞれ算出する処理と、
前記類似度に基づき前記処理対象画像に関する発音候補語を決定する処理と、
前記発音候補語が複数ある場合に、複数の前記発音候補語の中から、予め規定された似音優先語を発音語として決定する処理と、
決定された前記似音優先語を出力装置から音声出力させる処理と
を備えることを特徴とする、制御方法。

【0109】

（付記６）
発音時の口唇の形状の類似度が閾値以上の複数の語の組み合わせに対して、前記複数の語のうちの一つの語を前記似音優先語として予め設定した参照情報を参照して、前記似音優先語を取得する処理
を備えることを特徴とする、付記５記載の制御方法。

【符号の説明】

【0110】

１無声言葉認証発話装置
１０本体
１１プロセッサ
１２ＲＡＭ
１３スピーカ
１４不揮発性メモリ
１５通信インタフェース
１６カメラ
２０ベルト
１１１画像取得制御部
１１２類似度算出部
１１３発音決定部
１１４音声合成出力制御部
１２１似音グループ情報
１２２発音テンプレート画像

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特開2019-124777(P2019-124777A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版