特許第6016134号(P6016134)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6016134音声入力装置、音声入力方法及びプログラム
<>
  • 特許6016134-音声入力装置、音声入力方法及びプログラム 図000002
  • 特許6016134-音声入力装置、音声入力方法及びプログラム 図000003
  • 特許6016134-音声入力装置、音声入力方法及びプログラム 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6016134
(24)【登録日】2016年10月7日
(45)【発行日】2016年10月26日
(54)【発明の名称】音声入力装置、音声入力方法及びプログラム
(51)【国際特許分類】
   G06F 3/01 20060101AFI20161013BHJP
   G06F 3/16 20060101ALI20161013BHJP
【FI】
   G06F3/01
   G06F3/16 630
   G06F3/16 650
【請求項の数】5
【全頁数】12
(21)【出願番号】特願2014-501834(P2014-501834)
(86)(22)【出願日】2012年10月10日
(86)【国際出願番号】JP2012006476
(87)【国際公開番号】WO2013128508
(87)【国際公開日】20130906
【審査請求日】2015年9月4日
(31)【優先権主張番号】特願2012-40133(P2012-40133)
(32)【優先日】2012年2月27日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100096699
【弁理士】
【氏名又は名称】鹿嶋 英實
(72)【発明者】
【氏名】犬塚 祐介
【審査官】 篠塚 隆
(56)【参考文献】
【文献】 米国特許出願公開第2010/0069123(US,A1)
【文献】 米国特許出願公開第2006/0233422(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F3/01
3/16
(57)【特許請求の範囲】
【請求項1】
ユーザの音声を入力する入力手段と、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、
自装置の姿勢を検出する検出手段と、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と
前記特定の姿勢をユーザに選択させる選択手段と
を備えたことを特徴とする音声入力装置。
【請求項2】
さらに、前記ユーザの顔を検出する第二の検出手段と、
この第二の検出手段で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段に対して認識動作を停止するように指示する第二の指示手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
【請求項3】
さらに、前記入力手段によって入力されたユーザの音声を外部のサーバに送信する送信手段と、このサーバから返送される音声認識結果を受信する受信手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
【請求項4】
ユーザの音声を入力する入力工程と、
前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
自装置の姿勢を検出する検出工程と、
前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
前記特定の姿勢をユーザに選択させる選択工程と
を含むことを特徴とする音声入力方法。
【請求項5】
コンピュータに、
ユーザの音声を入力する入力手段、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
自装置の姿勢を検出する検出手段、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
前記特定の姿勢をユーザに選択させる姿勢選択手段
としての機能を与えることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力装置、音声入力方法及びプログラムに関し、詳細には、ディクテーション(dictation:口述)の内容を音声認識して文字入力する音声入力装置、音声入力方法及びプログラムに関する。
【背景技術】
【0002】
近年、携帯電話機などの携帯型端末装置(以下、単に携帯端末という)の性能向上に伴い、端末上で高性能なアプリケーションを実行できる環境が整ってきた。そのアプリケーションの一つに、声で文章を述べる(口述する)だけで、その口述内容を音声認識して文字入力することができるディクテーション用アプリケーションがある(たとえば、下記の特許文献1〜6参照)。かかるディクテーション入力(音声認識による文字入力)は、とりわけ携帯端末に有効である。携帯端末の入力デバイスは、タッチパネルなど操作効率の悪いものしか搭載されていないからである。上記のアプリケーションを実装すれば、口述内容をそのまま文字入力できるので、操作効率の悪いタッチパネルなどの入力デバイスを使用しなくても済む。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−085536号公報
【特許文献2】特開2004−093698号公報
【特許文献3】特開2001−306091号公報
【特許文献4】特開2003−044085号公報
【特許文献5】特開2000−132186号公報
【特許文献6】特開2000−020092号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、前記の特許文献1〜6の技術は、ディクテーション中の文字入力とコマンド入力を正しく区別することができないという第一の問題点があり、また、ディクテーション中に近くの人物から話しかけられたりしたときに、不本意な文字入力が行われてしまうという第二の問題点がある。
【0005】
(1)第一の問題点について説明する。
ディクテーションによって文章を入力するとき、その文章の構造に応じたコマンドの入力を必要とすることがある。たとえば、改行などのコマンド入力、あるいは、文字の削除や任意位置へのカーソル移動、文字の挿入などのコマンド入力である。これらのコマンド入力を音声で行うことも可能(特許文献4、特許文献5)であるが、たとえば、“かいぎょう”と発声しても、それが文字入力なのかコマンド入力なのかを区別できない。この区別を行うために、一定の時間発声がないと、コマンド入力モードに切り換えるという技術(特許文献6)もあるが、発声のタイミングを意識する必要があり、使い勝手に難がある。また、特定のキーやボタンを押しながら発声した場合に、その発声をコマンド入力と解釈するという手法も考えられるが、この手法は、キーやボタンの操作を必要とし、操作性の悪化を招くので好ましくない。したがって、使い勝手や操作性の悪化を招くことなく、ディクテーション中の文字入力とコマンド入力を正しく区別することが求められる。
【0006】
(2)第二の問題点について説明する。
たとえば、職場などでディクテーションを行う場合、しばしば近くの人物から話しかけられることがある。このような場合、システムは近くの人物の発声をディクテーションと誤認し、不本意な文字入力が行われてしまう。このような不本意な文字入力が行われたときには、遡って文字の訂正処理(特許文献2、特許文献3)を実行しなければならないが、その間、ディクテーションを中断しなければならず、文章思考の連続性を保てない。この原因は、そもそも不本意な文字入力が行われるからである。したがって、ディクテーション中の不本意な文字入力を回避することも求められる。
【0007】
そこで、本発明の目的は、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる音声入力装置、音声入力方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の音声入力装置は、ユーザの音声を入力する入力手段と、前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、自装置の姿勢を検出する検出手段と、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と、前記特定の姿勢をユーザに選択させる選択手段とを備えたことを特徴とする。
本発明の音声入力方法は、ユーザの音声を入力する入力工程と、前記入力工程で入力されたユーザの音声を音声認識する認識工程と、前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、自装置の姿勢を検出する検出工程と、前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と、前記特定の姿勢をユーザに選択させる選択工程とを含むことを特徴とする。
本発明のプログラムは、コンピュータに、ユーザの音声を入力する入力手段、前記入力手段によって入力されたユーザの音声を音声認識する認識手段、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、自装置の姿勢を検出する検出手段、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段、前記特定の姿勢をユーザに選択させる姿勢選択手段としての機能を与えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる。
【図面の簡単な説明】
【0010】
図1】実施形態に係る音声入力装置1の構成図である。
図2】実施形態に係る音声入力装置1の動作フローを示す図である。
図3】付記1、付記2及び付記3の構成図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態を、図面を参照しながら説明する。
まず、構成を説明する。
図1は、実施形態に係る音声入力装置1の構成図である。この図において、音声入力装置1は、少なくとも、中央制御部10、姿勢センサ11、マイク12、カメラ13、表示部14、及び、通信部15を備えて構成されている。なお、これら以外にもバッテリを含む電源部などを備えるが、図面の輻輳を避けるために省略している。
【0012】
姿勢センサ11は、音声入力装置1それ自体の姿勢、つまり自装置の姿勢を検出し、その検出結果を示す電気的な信号を中央制御部10に出力する。この姿勢センサ11には、たとえば、三軸加速度センサや傾きセンサまたはジャイロセンサなどを使用することができる。マイク12は、ユーザ(音声入力装置1の操作者)の音声を取り込み、電気的な信号に変換して中央制御部10に出力する。表示部14は、タッチパネル付きの平面表示デバイス(液晶パネルやELパネルなど)であり、カメラ13は、すくなくとも、前記の表示部14を見ているユーザの顔を動画または周期的な静止画(連写画像ともいう)で撮影し、その撮影データを中央制御部10に出力する。通信部15は、任意の通信媒体、たとえば、携帯電話やWiFiなどの無線回線または一般公衆回線や光ケーブルあるいはADSLなどの有線回線を用い、必要に応じて、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
【0013】
中央制御部10は、コンピュータ(CPU)10aや、プログラム記憶用の不揮発性半導体メモリ(ROM)10b及びプログラム実行用の高速半導体メモリ(RAM)10c並びに不図示の周辺回路(入出力部等)で構成された汎用のプログラム制御要素である。中央制御部10は、ROM10bに書き込まれている制御プログラム(基本プログラムや応用プログラム及びそれらのプログラムに必要とされる各種データ)をRAM10bにロードして、CPU10aで実行することにより、その制御プログラムの内容に応じた機能、すなわち、音声入力装置1の動作に必要な各種機能を実現する。
【0014】
上記の“機能”とは、中央制御部10において、CPU10aなどのハードウェアリソースと制御プログラムなどのソフトウェアリソースとの有機的結合によって仮想的に実現される動作や動きまたは仕組みのことをいう。機能は実体(形)を伴わない。
【0015】
実施形態の中央制御部10で実現される機能は、たとえば、姿勢検出機能101、音声入力機能102、コマンド認識機能103、ディクテーション機能104、画像取得機能105、顔検出機能106、表示機能107、および、通信機能108などである。前記のとおり、これらの機能は実体(形)を伴わないものであるが、この態様(実体を伴わないもの)に限定されない。発明の思想上は、上記の各機能の一部またはすべてを“実体を伴うもの”、すなわち、ハードロジック等で構成してもかまわない。
【0016】
総合的に見て、図示の各機能は、第一に、この音声入力装置1にディクテーション、つまり、ユーザの口述内容を音声認識して文字入力する仕組みを与える。ここで「文字入力」とは、表示部14の画面上に文字として認識可能な状態で表示すること、及び、その表示と同時に、コード化された文字列情報として編集可能な状態でRAM10cなどに一時保存することを意味する。
【0017】
図示の各機能は、第二に、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組み(冒頭の第一の問題点を解消するための仕組み)を与える。なお、この実施形態では「コマンド」を通常用と編集用の二種類の用途で使用する。通常用コマンドは、音声入力装置1に対して何らかの動作を促すためのコマンドであり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)である。加えて、この実施形態では、通常用コマンドでディクテーション動作をオンにしたりオフにしたりする。たとえば、ディクテーション動作をオンにする場合は“でぃくてーしょんおん”などと発声し、また、ディクテーション動作をオフにする場合は“でぃくてーしょんおふ”などと発声する。
【0018】
ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組みのポイントは、音声入力装置1の「姿勢」に基づいて行う点にある。たとえば、音声入力装置1が「特定の姿勢」になっていればコマンド入力と識別し、そうでなければ文字入力と識別する。
【0019】
特定の姿勢は様々考えられる。たとえば、文字入力のためのディクテーションを行っているときの音声入力装置1の一般的な姿勢を基準姿勢とし、その基準姿勢から外れた姿勢を「特定の姿勢」としてもよい。また、姿勢を動きと解釈してもよい。たとえば、「特定の姿勢」に、音声入力装置1を振るといった動作の意味を持たせてもよい。なお、“外れた”とは、所定の大きさ(閾値)以上に姿勢が変わったことをいう。
【0020】
文字入力のためのディクテーションを行っているときの一般的な姿勢の典型は、音声入力装置1を立てた姿勢である。具体的には、表示部14の画面が重力方向と平行する姿勢または同平行に近い角度になっている姿勢である。多くのユーザは、文字入力のためのディクテーションを行う際に、表示部14の画面を顔の前に置き、画面を垂直または垂直に近い角度で立てた状態にして、その画面の表示を見ながらマイク12に向かって発声するからである。したがって、この場合は、音声入力装置1が立っていない姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っている姿勢のときの発声を文字入力として識別する。
【0021】
いうまでもなく、「特定の姿勢」はこの例示に限定されない。たとえば、前記例示の逆であってもよい。すなわち、音声入力装置1が立っている姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っていない姿勢のときの発声を文字入力として識別するようにしてもよい。あるいは、音声入力装置1を左右に傾けたり、前後にあおったりした姿勢を「特定の姿勢」としてもよい。または、「特定の姿勢」をユーザが任意に指定できるようにしてもよい。たとえば、システムメニューの中に「コマンド識別用姿勢の設定」という項目を設けておき、ユーザがその項目を選択した際に、表示部14の画面に、たとえば、“希望の姿勢にして決定ボタンを押してください。”などのメッセージを表示し、決定ボタンが押されたときの姿勢を前記の「特定の姿勢」としてシステムに記憶させるようにしてもよい。
【0022】
図示の各機能は、第三に、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避するための仕組み(冒頭の第二の問題点を解消するための仕組み)を与える。この仕組みのポイントは、本来の発話者(ディクテーションを行っている音声入力装置1のユーザ)は、文字入力のためのディクテーションを行っている間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実、つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実に基づき、ユーザの顔の有無に応じてディクテーションの継続と一時中断とを適宜に切り換えられるようにした点にある。
【0023】
具体的に説明する。ディクテーション中のユーザは、近くの人物から話しかけられたりしないとき、表示部14の画面を注視しながら発声を行う。このとき、ユーザの顔は表示部14の画面に正対しており、顔の正面がカメラ13で検出される。一方、近くの人物から話しかけられたとき、多くのユーザはその人物の方向に顔や視線を向けるため、ユーザの横顔や視線を外した顔がカメラ13で検出される。このように、カメラ13で検出される顔の状態は、ディクテーション中に、近くの人物から話しかけらたときと、そうでないときとで異なるものになる。したがって、カメラ14で検出された顔の状態が前者(顔の正面)であればディクテーションを継続し、後者(横顔や視線を外した顔)であればディクテーションを一時中断することにより、ディクテーション中の不本意な文字入力を回避することができる。
【0024】
図示の各機能は、第四に、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(通信機能108など)を与える。この仕組みは、特に携帯型の音声入力装置1(たとえば、携帯電話機等)の場合に有効である。一般的にディクテーションには大きな処理能力を必要とするが、据え置き型の高性能な情報処理装置の処理能力に比べて携帯型の音声入力装置1の処理能力は相当程度低いため、上記の仕組みを適用することにより、この低い処理能力でも充分実用的なディクテーションを行うことができるからである。
【0025】
加えて、ディクテーションには大量の語彙データを必要とし、しかも、それらの語彙データは日進月歩で変化する。そのような語彙データを音声入力装置1の内部に持たせると、記憶容量を圧迫し、さらに、語彙データの更新管理も面倒になるが、この第四の仕組みを採用することによって、これらの不都合(記憶容量の圧迫や語彙データの更新管理の面倒)を回避できる。
【0026】
ただし、この第四の仕組みは、実用性の観点から必要とされるものである。音声入力装置1の処理能力や記憶容量及び更新管理の必要有無等を考慮して、この第四の仕組みを実装すべきか否かを判断すればよい。
【0027】
このように、上記の各機能は、総合的に見て、以上の四つの仕組み(第一〜第四の仕組み)を与えるものであるが、ここで、各機能の具体的な役割等について説明する。
【0028】
姿勢検出機能101は、姿勢センサ11からの信号を取り込み、この信号に基づいて、音声入力装置1の姿勢が現在どのような状態にあるかを検出し、その検出結果をコマンド認識機能103やディクテーション機能104に出力する。音声入力機能102は、マイク12からの信号を取り込み、その信号をコマンド認識機能103やディクテーション機能104に出力する。画像取得機能105は、カメラ13からの信号(表示部14を見ているユーザの顔を動画または周期的な静止画で撮影した画像データ)を取り込み、その信号を顔検出機能106に出力する。顔検出機能106は、画像データの中からユーザの顔を検出すると共に、その顔が表示部14の画面に正対しているか否かを判定する。
【0029】
コマンド認識機能103は、姿勢検出機能101からの信号と音声入力機能102からの信号とに基づき、ディクテーション中の音声が文字入力に関するものであるのかまたはコマンド入力に関するものであるのかを認識し、その認識結果をディクテーション機能104や表示機能107に出力する。ディクテーション機能104は、音声入力機能102からの信号に基づきディクテーションを実行するとともに、コマンド認識機能103でコマンド入力が認識された場合にはディクテーション中の文字入力をコマンド入力と解釈し、あるいは、顔検出機能106でユーザの顔が検出されなかった場合またはユーザの顔が検出されてもその顔が表示部14の画面に正対していなかった場合にディクテーションを一時中断する。表示機能107は、コマンド認識機能103からの出力やディクテーション機能104からの出力を所定の表示形式に整形変換して表示部14に表示する。通信機能108は、通信部15を介して、必要に応じ、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
【0030】
次に、作用を説明する。
図2は、実施形態に係る音声入力装置1の動作フローを示す図である。この動作フローは、中央制御部10のCPU10aで実行される制御プログラムの動作フローの要部を示している。したがって、この動作フローにおける以下の各処理(ステップS1〜ステップS10)の実行主体は、中央制御部10のCPU10aである。
【0031】
この動作フローを開始すると、まず、ユーザによって行われる声を用いたコマンド入力を検出する(ステップS1)。この検出に関与する要素は、マイク12、音声入力機能102及びコマンド認識機能103である。
【0032】
次に、ステップS1で検出されたコマンドがディクテーション開始コマンドであるか否かを判定する(ステップS2)。たとえば、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合にディクテーション開始コマンドであると判定してもよい。
【0033】
この場合、“でぃくてーしょんおん”以外のコマンドは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの前者であり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)などである。
【0034】
したがって、“でんわ”などの音声コマンドの場合は、ステップS2の判定結果がNOとなり、その通常用コマンドに対応した処理を実行し(ステップS3)、音声コマンドの終了を判定して(ステップS4)、音声コマンド終了であれば、そのままフローを完了する一方、音声コマンド終了でなければ、再び、ステップS1に復帰する。
【0035】
ステップS2の判定結果がYESの場合、すなわち、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合には、次に、前記の第三の仕組みを用いて、ユーザの顔を検出し、その顔が所定の状態(表示部14に正対している状態)にあるか否かを判定する(ステップS5)。先にも述べたとおり、ディクテーションを行っている音声入力装置1のユーザは、その間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実がある。つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実があることから、ステップS5の判定結果がYESの間は、ディクテーションを実施(ステップS6)する。
【0036】
一方、ステップS5の判定結果がNOのとき、すなわち、ディクテーション中に近くの人物から話しかけられたりして、ユーザの顔が前記の正対から横向きまたは視線を外した状態になったときには、その間、近くの人物の発声による不本意な文字入力が行われる可能性があることから、ステップS5をループし、ステップS6のディクテーション実施しないようにする(一時停止する)。
【0037】
このようにして、前記の第三の仕組みを用い、ユーザの顔の検出結果に基づいてディクテーションを一時停止することにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができる(冒頭の第二の問題点を解消することができる)。そして、ユーザの顔が所定の状態(表示部14に正対している状態)で検出されている間は、ディクテーションを支障なく実施することができる。
【0038】
次に、ディクテーション実施後、前記の第二の仕組みを用い、コマンドモードであるか否かを判定する(ステップS7)。コマンドモードとは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの後者のコマンドを使用するモードのことをいう。たとえば、改行コマンド、文字の削除コマンド、任意位置へのカーソル移動コマンド、文字の挿入コマンドなどを使用するモードのことをいう。
【0039】
この判定に関与する要素は、姿勢センサ11、姿勢検出機能101及びコマンド認識機能103である。この判定では、音声入力装置1が「特定の姿勢」になっているか否かを判定し、「特定の姿勢」になっていればコマンド入力と識別する一方、そうでなければ文字入力と識別する。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができる(冒頭の第一の問題点を解消することができる)。
【0040】
ステップS7の判定結果がNOの場合、すなわち、音声入力装置1が「特定の姿勢」になっていない場合は、ユーザの口述内容が文字入力のためのものであると判断してステップS5以降を繰り返す。一方、ステップS7の判定結果がYESの場合、すなわち、音声入力装置1が「特定の姿勢」になっている場合は、ユーザの口述内容がコマンド入力のためのものであると判断し、ユーザによる音声コマンド(編集用コマンド)の取り込み(ステップS8)と、その編集用コマンドに対応した処理(たとえば、改行処理等)(ステップS9)とを実行した後、ディクテーション終了コマンド(たとえば、“でぃくてーしょんおふ”)を検出するまで(ステップS10の判定結果がYESになるまで)、ステップS7〜ステップS10を繰り返し実行し、ディクテーション終了コマンドを検出すると(ステップS10の判定結果がYESになると)、ステップS1に復帰する。
【0041】
以上のとおりであるから、実施形態によれば、以下の第一及び第二の効果を得ることができる。
(第一の効果)ユーザの顔が所定の状態(表示部14に正対した状態)で検出されている間、ディクテーションを実施(ステップS6)する一方、所定の状態で検出されないときは、ディクテーションを一時停止(ステップS5をループ)する。これにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができ、冒頭の第二の問題点を解消することができる。
【0042】
(第二の効果)ディクテーション実施後に、音声入力装置1の姿勢を検出し、その姿勢が「特定の姿勢」であればコマンド入力と判定し、「特定の姿勢」でなければ通常の文字入力と判定する(ステップS7)。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができ、冒頭の第一の問題点を解消することができる。
【0043】
加えて、実施形態によれば、以下の第三の効果を得ることができる。
(第三の効果)先にも述べたとおり、実施形態は、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(第四の仕組み)を備える。この仕組みに関与する主要な要素は、通信機能108であり、且つ、この通信機能108と共同で動作する通信部15である。これらの要素により、必要に応じて、外部(インターネット等のネットワーク16)に設けられている音声認識サーバ17にアクセスすることができる。この音声認識サーバ17でディクテーションのすべてまたは一部を実施したり、さらに、ディクテーション実施に必要な語彙データを音声認識サーバ17に蓄積したりすれば、低い処理能力の携帯型の音声入力装置1の処理負担や記憶容量の圧迫を招かないようにでき、且つ、語彙データの面倒な更新管理も行わなくて済むようにできる。
【0044】
なお、以上の説明では、音声入力装置1と音声認識サーバ17との関係を明確にしていない。これは、クライアント−サーバ型の使い方と、スタンドアロン型の使い方のいずれでもよいからである。クライアント−サーバ型の使い方とは、音声入力装置1をクライアントとし、音声認識サーバ17をサーバとして両者を連携する使い方である。また、スタンドアロン型の使い方とは音声入力装置1の内部ですべてを完結させる使い方である。
【0045】
クライアント−サーバ型の場合、音声入力装置1のコマンド認識機能103やディクテーション機能104のすべて又は一部を音声認識サーバ17に実装する。また、スタンドアロン型の場合、音声認識サーバ17を必要としないことはもちろんのこと、音声入力装置1の通信機能108や通信部15も必要としない。
【0046】
いずれの使い方を採用するかは、もっぱらシステムの仕様要求に依存する。ディクテーションの処理負担の軽減やディクテーションの精度向上を意図するのであれば、クライアント−サーバ型とすればよく、ネットワーク等の通信環境を使用しない仕様にするのであれば、スタンドアロン型とすればよい。
【0047】
また、以上の説明では、音声入力装置1の例として携帯電話機を挙げたが、これに限定されない。音声入力を必要とするものであればどのようなものであってもよく、たとえば、タブレット端末、パーソナルコンピュータ、ゲーム機、各種OA機器などの電子機器、または、ロボットや工作機械などの産業機器、あるいは、自動車、航空機、船舶などの乗り物などであってもよい。
【0048】
以下、本発明の特徴を付記する。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
図3は、付記1、付記2及び付記3の構成図である。
付記1は、ユーザの音声を入力する入力手段200(実施形態の音声入力機能102に相当)と、
前記入力手段200によって入力されたユーザの音声を音声認識する認識手段201(実施形態のディクテーション機能104に相当)と、
前記認識手段201の認識結果に基づいて文字またはコマンドを発生する発生手段202(実施形態のコマンド認識機能103及びディクテーション機能104に相当)と、
自装置の姿勢を検出する検出手段203(実施形態の姿勢検出機能101に相当)と、
前記検出手段203の検出結果が特定の姿勢を示しているときには前記発生手段202に対して前記コマンドの発生を指示する一方、前記検出手段203の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段202に対して前記文字の発生を指示する指示手段204(実施形態の姿勢検出機能101に相当)と
を備えたことを特徴とする音声入力装置205(実施形態の音声入力装置1に相当)である。
(付記2)
付記2は、さらに、前記ユーザの顔を検出する第二の検出手段206(実施形態の顔検出機能106に相当)と、
この第二の検出手段206で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段201に対して認識動作を停止するように指示する第二の指示手段207(実施形態の顔検出機能106に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記3)
付記3は、さらに、前記入力手段200によって入力されたユーザの音声を外部のサーバ208(実施形態の音声認識サーバ17に相当)に送信する送信手段209(実施形態の通信機能108に相当)と、このサーバ208から返送される音声認識結果を受信する受信手段210(実施形態の通信機能108に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記4)
付記4は、ユーザの音声を入力する入力工程と、
前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
自装置の姿勢を検出する検出工程と、
前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
を含むことを特徴とする音声入力方法である。
(付記5)
付記5は、コンピュータに、
ユーザの音声を入力する入力手段、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
自装置の姿勢を検出する検出手段、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
としての機能を与えることを特徴とするプログラムである。
【符号の説明】
【0049】
200 入力手段
201 認識手段
202 発生手段
203 検出手段
204 指示手段
205 音声入力装置
206 第二の検出手段
207 第二の指示手段
208 サーバ
209 送信手段
210 受信手段
図1
図2
図3