(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-18
(45)【発行日】2024-10-28
(54)【発明の名称】端末装置、音声認識方法、音声認識プログラム
(51)【国際特許分類】
G10L 15/00 20130101AFI20241021BHJP
G06F 40/169 20200101ALI20241021BHJP
【FI】
G10L15/00 200B
G06F40/169
(21)【出願番号】P 2020163578
(22)【出願日】2020-09-29
【審査請求日】2023-06-08
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100113608
【氏名又は名称】平川 明
(74)【代理人】
【識別番号】100105407
【氏名又は名称】高田 大輔
(74)【代理人】
【識別番号】100175190
【氏名又は名称】大竹 裕明
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】福岡 寿和
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開昭63-263559(JP,A)
【文献】国際公開第2011/064829(WO,A1)
【文献】特開2014-059330(JP,A)
【文献】特開2018-044993(JP,A)
【文献】特開2015-179287(JP,A)
【文献】小林正幸 他,"聴覚障害者のための音声認識を利用したルビ付きリアルタイム字幕提示システム",映像情報メディア学会誌,2003年12月01日,Vol.57, No.12,pp.129-136
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 40/10-40/197
(57)【特許請求の範囲】
【請求項1】
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを
、所定時間毎に音声入力部から受信した音声データと共にネットワーク経由で音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とするルビ作成部と、
前記表示文字情報を、前記ルビ作成部が作成した前記ルビ情報とともに表示する表示部と
を備える端末装置。
【請求項2】
前記ルビ作成部は、前記表示文字情報及び前記表音文字情報を最初の文字から1文字ずつ比較して異なる文字となる1文字前までの文字と、前記表示文字情報及び前記表音文字情報を最後の文字から1文字ずつ比較して異なる文字となる1文字前までの文字とを、前記共通する表音文字とする、
請求項
1に記載の端末装置。
【請求項3】
コンピュータが、
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを
、所定時間毎に音声入力部から受信した音声データと共にネットワーク経由で音声認識手段に指令し、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とし、
前記表示文字情報を、前記ルビ情報とともに表示する
ことを実行する音声認識方法。
【請求項4】
コンピュータが、
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを
、所定時間毎に音声入力部から受信した音声データと共にネットワーク経由で音声認識手段に指令し、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とし、
前記表示文字情報を、前記ルビ情報とともに表示する
ことを実行するための音声認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、端末装置、音声認識方法、音声認識プログラムに関する。
【背景技術】
【0002】
利用者が発声する音声を音声認識技術により文字情報に変換して、当該文字情報を表示する音声認識装置がある。文字情報に変換される際には、読みやすさ等のために漢字等を含む文字情報に変換されることがある。さらに、音声認識装置には、漢字等を含む文字情報にふりがな等のルビを付けて表示するものがある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の音声認識装置では、漢字等を含む文字情報にルビを付ける場合、音声認識された後の文字情報に基づいてルビを付ける。そのため、利用者が発声した音声と付けられたルビとの間に相違が生じることがある。よって、この場合、音声認識装置は、漢字等を含む文字情報に発声した音声と異なるルビを付けるという問題がある。
【0005】
本発明は、音声認識された文字情報にルビを付ける際に、より正確なルビを付ける技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、以下の手段を採用する。
即ち、第1の態様は、
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とするルビ作成部と、
前記表示文字情報を、前記ルビ作成部が作成した前記ルビ情報とともに表示する表示部と
を備える端末装置とする。
【0007】
開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。
【発明の効果】
【0008】
本発明によれば、音声認識された文字情報にルビを付ける際に、より正確なルビを付ける技術を提供することを目的とする。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態の表音文字、表示文字、ルビの例を示す図である。
【
図2】
図2は、実施形態の音声認識システムの構成例を示す図である。
【
図3】
図3は、端末装置の機能ブロックの例を示す図である。
【
図4】
図4は、情報処理装置のハードウェア構成例を示す図である。
【
図5】
図5は、端末装置における処理の動作フローの例を示す図である。
【
図6】
図6は、端末装置におけるふりがな作成の動作フローの例を示す図である。
【
図7】
図7は、表音文字、表示文字、ルビの例1を示す図である。
【
図8】
図8は、表音文字、表示文字、ルビの例2を示す図である。
【
図9】
図9は、実施形態の音声認識システムの動作の具体例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0011】
〔実施形態〕
本実施形態の音声認識システムは、利用者が端末装置に向けて発声した言葉(音声)を、音声認識技術により、文字に変換して表示する。このとき、音声認識システムは、音声を、ひらがな等の表音文字に変換し、当該表音文字をかな漢字変換技術により、漢字、ひらがな、カタカナ等が含まれ得る表示文字に変換する。さらに、音声認識システムは、表音文字と表示文字とに基づいて、表音文字に含まれる漢字等に対するルビを生成し、表示文字とルビとを、表示する。
【0012】
ここで、表音文字は、音声の音素または音節をそのまま文字にしたものである。表音文字は、たとえば、ひらがなである。また、表示文字は、表音文字をかな漢字変換技術等により変換したかな漢字交じりの文字である。かな漢字変換技術は、ひらがな等の表音文字を、意味等を考慮してかな漢字交じりの文字に変換する技術である。表示文字は、意味を表す漢字等の表意文字とひらがな等の表音文字とを含み得る文字である。ルビは、表示文字に含まれる漢字等に対して付けられる読み方を示すひらがな等の表音文字である。ここでは、ひらがなを表音文字とし、ひらがな以外の漢字、カタカナ、アルファベット等の文字を表音文字以外の文字とする。また、ルビを付ける対象は、表音文字以外の文字とする。ここでは、日本語による音声認識を前提としているが、例えば、中国語による音声認識をする場合、表音文字をピンインを示す文字、表音文字以外の文字を漢字(簡体字、繁体字)としてもよい。
【0013】
図1は、表音文字、表示文字、ルビの例を示す図である。
図1の例では、表音文字として、音声認識技術により変換されたままの文字である「あたらしいはたらきかたについておはなしします」が示されている。また、表示文字の例として、当該表音文字をかな漢字変換して得られる「新しい働き方についてお話します」が示されている。また、ルビの例として、表示文字に対するふりがなとして得られる「あたら はたら かた はなし」が示されている。ルビに含まれる「あたら」「はたら」「かた」「はなし」は、それぞれ、表示文字に含まれる漢字の「新」「働」「方」「話」に対するふりがなである。
【0014】
(構成例)
図2は、本実施形態の音声認識システムの構成例を示す図である。
図2の音声認識システム10は、端末装置100、音声認識装置200、ネットワーク300を含む。端末装置100は、ネットワーク300に接続される。音声認識装置200は、入力される音声
データを、表音文字情報及び表示文字情報に変換して、出力する。ネットワーク300は、端末装置100、音声認識装置200等に接続されるインターネット等のネットワークである。
図1のシステム10では、端末装置100は、1台であるが、端末装置100の数は、1台に限定されるものではない。
【0015】
端末装置100は、利用者による音声の入力を受け付け、音声を音声データに変換して、音声認識装置200に送信する。端末装置100は、音声認識装置200から変換後の表音文字情報及び表示文字情報を受信する。端末装置100は、表音文字情報及び表示文字情報を受信すると、ルビ情報を生成し、表示文字情報及びルビ情報を表示する。端末装置100の構成については、後に説明する。
【0016】
音声認識装置200は、端末装置100から、当該端末装置100における使用言語の情報と、音声データとを受け付け、音声データの音声を、周知の音声認識技術により、ひらがなによる表音文字情報に変換する。さらに、音声認識装置200は、当該表音文字情報を、かな漢字変換技術により、漢字等を含む及び表示文字情報に変換する。音声認識装置200は、表音文字情報及び表示文字情報を、端末装置100に送信する。音声認識装置200は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換してもよい。音声認識装置200は、端末装置100から送信される音声データをバッファし、バッファされている一連の音声データの音声を、一連の表音文字情報及び表示文字情報に変換してもよい。音声認識装置200は、音声を改行を示す制御文字を含む表音文字情報及び表示文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除してもよい。これにより、音声認識装置200は、常に、改行以降の音声データについて、表音文字情報及び表示文字情報に変換することになる。音声認識装置200として、周知の音声認識手段が使用され得る。
【0017】
〈端末装置の構成〉
図3は、端末装置の機能ブロックの例を示す図である。
図3の端末装置100は、記憶部102、音声入力部104、音声認識コマンド発行部106、音声認識結果受付部110、ふりがな作成部112、表示部114、通信部120を含む。ふりがな作成部112は、ルビ作成部の一例である。
【0018】
記憶部102は、端末装置100で使用されるデータや、他の装置から受信した文字情報(表音文字情報、表意文字情報)、音声データ等を格納する。また、記憶部102は、自装置や他の装置等の識別情報、ネットワーク上のアドレス等を格納しうる。
【0019】
音声入力部104は、マイクロフォンなどの入力手段により、端末装置100の利用者が発声した音声の入力を受け付ける。音声入力部104は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部106に送信する。音声入力部104は、所定時間毎に音声データを送信する。
【0020】
音声認識コマンド発行部106は、音声入力部104より音声データを受信する。音声認識コマンド発行部106は、受信した音声データを記憶部102に格納する。音声認識コマンド発行部106は、記憶部102から、端末装置100の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部106は、音声認識装置200で音声認識をさせるための音声認識コマンドを生成して、通信部120を介して、音声認識装置200に送信する。音声認識コマンドは、通信部120からネットワークを介して、音声認識装置200に送信される。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンド発行部106は、音声認識指令部の一例である。
【0021】
音声認識結果受付部110は、音声認識装置200による音声認識結果を、通信部120を介して、受信する。音声認識結果受付部110は、受信した音声認識結果を、ふりがな作成部112に送信する。
【0022】
ふりがな作成部112は、音声認識結果受付部110から音声認識結果を受信する。ふりがな作成部112は、受信した音声認識結果を記憶部102に格納する。音声認識結果には、音声データを音声認識した表音文字情報、及び、当該表音文字情報をかな漢字変換した表示文字情報が含まれる。ふりがな作成部112は、表音文字情報及び表示文字情報に基づいて、表示文字情報に含まれる表音文字以外の文字に対するふりがなを作成し、当該ふりがなをルビ情報として、記憶部102に格納する。ルビ情報は、表示文字情報に含まれる対応する表音以外の文字に対応付けられて格納される。
【0023】
表示部114は、端末装置100の利用者に示す情報を表示する。表示部114は、ふりがな作成部112で作成されるルビ情報や、音声認識結果に含まれる表示文字情報を表示する。
【0024】
通信部120は、他の装置等と、データの送受信を行う。通信部120は、所定のコマンドを、ネットワーク300を介して、音声認識装置200に送信する。通信部120は、音声認識装置200から、所定の結果を受信する。
【0025】
〈装置のハードウェア構成〉
端末装置100は、スマートフォン、携帯電話、タブレット型端末、カーナビゲーション装置、PDA(Personal Digital Assistant)、PC(Personal Computer)のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置200は、PC、ワークステーション(WS、Work Station)のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置200は、端末装置100に含まれてもよい。
【0026】
図4は、情報処理装置のハードウェア構成例を示す図である。
図4に示す情報処理装置90は、一般的なコンピュータの構成を有している。制御装置20、端末装置100、音声認識装置200は、
図4に示すような情報処理装置90によって実現される。情報処理装置90は、プロセッサ91、メモリ92、記憶部93、入力部94、出力部95、通信制御部96を有する。これらは、互いにバスによって接続される。メモリ92及び記憶部93は、コンピュータ読み取り可能な記録媒体である。情報処理装置のハードウェア構成は、
図3に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。
【0027】
情報処理装置90は、プロセッサ91が記録媒体に記憶されたプログラムをメモリ92の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。
【0028】
プロセッサ91は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
【0029】
メモリ92は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。メモリ92は、主記憶装置とも呼ばれる。
【0030】
記憶部93は、例えば、EPROM(Erasable Programmable ROM)、ハードディスクドライブ(HDD、Hard Disk Drive)、ソリッドステートドライブ(SSD、Solid Sta
te Drive)である。また、記憶部93は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CD(Compact Disc)やDVD(Digital Versatile Disc)のようなディスク記録媒体である。記憶部93は、二次記憶装置とも呼ばれる。
【0031】
記憶部93は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部93には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル等が格納される。記憶部93に格納される情報は、メモリ92に格納されてもよい。また、メモリ92に格納される情報は、記憶部93に格納されてもよい。
【0032】
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部96を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他の情報処理装置、外部記憶装置等が含まれる。
【0033】
入力部94は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部94は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。
【0034】
出力部95は、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、EL(Electroluminescence)パネル等の表示装置、プリンタ等の出力装置を含む。また、出力部95は、スピーカのような音声の出力装置を含むことができる。
【0035】
通信制御部96は、他の装置と接続し、情報処理装置90と他の装置との間の通信を制御する。通信制御部96は、例えば、LAN(Local Area Network)インタフェースボード、Bluetooth(登録商標)などの無線通信のための無線通信回路、電話通信のための通信回路である。LANインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。
【0036】
端末装置100、音声認識装置200を実現するコンピュータは、プロセッサが二次記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、各機能を実現する。また、各装置の記憶部は、主記憶装置または二次記憶装置の記憶領域に設けられる。
【0037】
プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくても、並列的または個別に実行される処理を含む。プログラムを記述するステップの一部が省略されてもよい。
【0038】
(動作例)
端末装置100の動作例について、説明する。ここでは、端末装置100の動作を、音声入力の動作フローと、ふりがな作成の動作フローとに分けて説明するが、これらの動作は、端末装置100において並行して実行されている。端末装置100では、音声入力及びふりがな作成の動作を実現するアプリケーションが実行されている。
【0039】
〈音声入力〉
図5は、端末装置における処理の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。利用者は、端末装置100に対する発声により音声入力
を行う。
図5の動作フローは、例えば、音声入力の1区間の長さである所定時間(例えば、200ms)毎に実行される。
【0040】
S101では、端末装置100の音声入力部104は、端末装置100の利用者が発声した音声の入力を受け付ける。音声入力部104は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部106に送信する。音声入力部104は、所定時間毎(例えば、200ms毎)に音声データを送信する。当該所定時間が短くなるほど、発声と文字表示とのタイムラグを短くすることができるが、端末装置100や音声認識装置200における処理量が増大する。当該所定時間は、発声における一音や一語程度の長さにすることが望ましい。一音や一語よりも短い音声を音声認識により文字情報に変換することが困難であるからである。
【0041】
S102では、音声認識コマンド発行部106は、音声入力部104より音声データを、所定時間毎に受信する。音声認識コマンド発行部106は、受信した音声データを記憶部102に格納する。音声認識コマンド発行部106は、音声認識装置200で音声認識をさせるための音声認識コマンドを生成(発行)して、通信部120を介して、音声認識装置200に送信する。音声認識処理は、音声データを、あらかじめ音声と文字とを対応付けたデータに基づいて、文字情報に変換する処理である。ここでは、音声認識処理は、音声を、音声をそのまま文字にした表音文字情報、及び、当該表音文字情報をかな漢字変換した表示文字情報に変換する。表示文字情報には、表音文字しか含まれてない場合もある。音声認識コマンドは、通信部120からネットワーク400を介して、音声認識装置200に送信される。音声認識コマンドは、音声データを、表音文字情報、及び、表示文字情報に変換することを指令するコマンドである。音声認識コマンドとともに、音声データが送信される。音声データには一連の通し番号が含まれてもよい。また、音声認識コマンドとともに、端末装置100のアドレスや端末装置100を識別する識別子が送信されてもよい。
【0042】
音声認識装置200は、端末装置100から音声認識コマンドを受信すると、音声認識コマンドに従って、音声データの音声を変換して、音声認識結果として、端末装置100に送信する。音声認識装置200は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換する。音声認識装置200は、端末装置100から送信される音声データをバッファし、バッファされている一連の音声データを結合して1つの結合音声データを作成し、当該音声データの音声を一連の表音文字情報に変換する。表音文字情報は、例えば、ひらがなによる文字である。音声認識装置200は、1つの音声データを処理する際、音声データに含まれる通し番号を用いて、順番が入れ替わらないように音声データを処理してもよい。音声認識装置200は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除する。これにより、音声認識装置200は、常に、無音(改行)以降の音声データについて、表音文字情報に変換することになる。音声認識コマンドには、すでに送信済みの一連の音声データを1つの音声データにして音声認識をする指令、音声データに所定時間以上の無音が含まれている場合に音声認識後にバッファを削除する指令が含まれてもよい。また、音声認識装置200は、変換された表音文字情報に対して、かな漢字変換処理を行い、かな漢字交じりの文字である表示文字情報を生成する。音声認識装置200は、音声認識結果として、音声を変換した、表音文字情報及び表示文字情報を端末装置100に送信する。
【0043】
S103では、音声認識結果受付部110は、S102で送信した音声認識コマンドに対する、音声認識装置200による音声認識結果を、受信したか否かを判定する。音声認識結果を受信した場合(S103;YES)、処理がS104に進む。音声認識結果を受信していない場合(S103;YES)、S103の処理を繰り返す。
【0044】
S104では、音声認識結果受付部110は、今回受信した音声認識結果と、記憶部102に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合(S104;YES)、この動作フローの処理が終了する。この場合、前回の音声認識結果に対してS105の処理が行われているため、同じ音声認識結果に対して同じ処理が行われなくてもよいからである。また、音声認識結果に、表音文字情報及び表示文字情報が含まれない場合も、同様にする。表音文字情報及び表示文字情報が含まれない場合には、表示などの以後の処理が行われなくてもよいからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合(S104;NO)、処理がS105に進む。
【0045】
S105では、音声認識結果受付部110は、受信した音声認識結果である、表音文字情報及び表示文字情報を記憶部102に格納する。また、音声認識結果受付部110は、音声認識結果を、ふりがな作成部112に送信する。音声認識結果受付部110は、音声認識結果を受信した旨の通知をふりがな作成部112に送信してもよい。
【0046】
これにより、端末装置100は、入力された音声に対する音声認識結果を取得することができる。端末装置100は、音声の入力に従って、逐次音声認識をすることで、表音文字情報及び表示文字情報を、徐々に長くすることができる。
【0047】
〈ふりがな作成〉
図6は、端末装置におけるふりがな作成の動作フローの例を示す図である。端末装置100は、利用者によって使用されている。
図6の動作フローは、ふりがな作成部112が音声認識結果を受信する毎に実行される。
【0048】
S201では、端末装置100のふりがな作成部112は、音声認識結果である表音文字情報及び表示文字情報を、音声認識結果受付部110から受信する。ふりがな作成部112は、音声認識結果受付部110からの通知を受けて、記憶部102から音声認識結果を取得してもよい。
【0049】
S202では、ふりがな作成部112は、S201で取得した表示文字情報からひらがな(表音文字)を抽出する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部112は、最後の「し」を抽出する。
【0050】
S203では、ふりがな作成部112は、S202で抽出したひらがなを、S201で取得した表音文字情報から削除したものをふりがな(ルビ情報)として作成する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部112は、「あたらし」から「し」を削除した「あたら」をふりがなとして作成する。即ち、ふりがな作成部112は、表示文字情報と表音文字情報とで共通する「し」を、表音文字情報から削除した「あたら」を「新」に対するふりがなとしている。
【0051】
S204では、ふりがな作成部112は、S203で作成したルビ情報を、表示文字情報と対応付けて、記憶部102に格納する。ふりがな作成部112は、ルビ情報と対応する表示文字情報の表音文字以外の文字とを対応付けて、記憶部102に格納する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部112は、表示文字情報の「新し」の「新」と、ルビ情報の「あたら」とを対応付けて格納する。表示文字情報に含まれる表音文字以外の文字は、先頭から表音文字以外の文字の塊ごとに番号が付けられ、表音文字以外の文字に付けられた番号と
、ルビ情報とが対応付けられてもよい。例えば、表示文字情報の「新し」の1番目の表音文字以外の文字の塊を示す「1番」とルビ情報の「あたら」とが対応付けられる。また、表示文字情報の「新し」の「新」と1番目の表音文字以外の文字の塊を示す「1番」とルビ情報の「あたら」とが対応付けられてもよい。ルビ情報に文字と番号とを対応付けることで、より正確に表示文字情報にふりがなをつけることができる。
【0052】
S205では、ふりがな作成部112は、表示文字情報とルビ情報とを対応付けて、表示部114に表示させる。このとき、ふりがな作成部112は、最後に表示した表示文字情報及びルビ情報を消去してから、今回受信した表示文字情報及び今回作成したルビ情報を表示する。即ち、表示される表示文字情報及びルビ情報が更新される。ただし、ふりがな作成部112は、最後に表示した表示文字情報に改行を示す制御文字が含まれる場合、最後に表示した表示文字情報及びルビ情報を消去せずに、改行してから、今回受信した表示文字情報及び今回作成したルビ情報を表示する。なお、最後に表示した表示文字情報及びルビ情報は、改行により確定される。
【0053】
例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部112は、「新し」を表示し、「新し」の「新」に「あたら」を対応付けて表示する。対応付けて表示とは、例えば、横書き表示の場合、「新」の上側または下側に対応する「あたら」を表示することである。また、例えば、縦書き表示の場合、「新」の右側または左側に「あたら」を表示することである。ふりがな(ルビ情報)の表示方法は、これらに限定されるものではない。
【0054】
図7は、表音文字、表示文字、ルビの例1を示す図である。ここで、S202において、ふりがな作成部112は、表示文字情報からひらがな(表音文字)を抽出する際、表示文字情報の先頭の文字及び最後の文字からひらがな抽出する。また、S203において、ふりがな作成部112は、S202で抽出した文字を、表音文字情報の先頭の文字及び最後の文字から削除して、ルビ情報とする。例えば、表示文字情報が「お話します」であり、表音文字情報が「おはなしします」である場合、先頭の文字である「お」及び最後から3文字である「します」が抽出される。また、表音文字情報の「おはなしします」から、先頭の文字である「お」及び最後の3文字である「します」が削除され、「お話します」の「話」に対応するルビ情報として「はなし」が対応付けられる。
【0055】
図8は、表音文字、表示文字、ルビの例2を示す図である。ここで、S202において、ふりがな作成部112は、表示文字情報に含まれる表音文字以外の文字を、既に対応付けられたルビ情報に置き換えてから、表音文字を抽出してもよい。例えば、既に、表示文字「新しい」の「新」に対してふりがな「あたら」が付けられているとする。その後、改行されることなく、今回取得した表示文字情報が「新しい働き」であり、表音文字情報が「あたらしいはたらき」であるとする。このとき、S202において、ふりがな作成部112は、既に対応付けられたルビ情報を記憶部102から抽出する。ここでは、ふりがな作成部112は、「新」に対応付けられた「あたら」を抽出する。「新しい働き」の「新」を「あたら」に置き換え、「あたらしい働き」とする。さらに、先頭から5文字である「あたらしい」及び最後から1文字である「き」が抽出される。また、S203において、表音文字情報の「あたらしいはたらき」から、先頭から5文字である「あたらしい」及び最後から1文字である「き」が削除され、「働」に対応するルビ情報として「はたら」が対応付けられる。「新しい働き」において、表音文字以外の文字の1番目の塊は「新」であり、2番目の塊は「働」である。よって、「新しい働き」の1番目のルビ情報として「あたら」、2番目のルビ情報として「はたら」が対応付けられてもよい。このようにすることで、表音文字情報及び表示文字情報が徐々に長くなっていった場合でも、適切にふりがなを付けることができる。
【0056】
(具体例)
図9は、本実施形態の音声認識システムの動作の具体例を示す図である。ここでは、利用者によって、端末装置100に約1.6秒間(時刻0sから時刻1.6sまで)で「あたらしいはたらき(新しい働き)」と発声された場合について説明する。
【0057】
端末装置100の音声入力部104は、
図9のように、第1区間(時刻0sから時刻0.2sまで)である最初の200msに入力される「あたらしいはたらき」の「あ」の音声と「た」の一部の音声を、電気信号に変換して、音声認識コマンド発行部106に送信する(
図5のS101)。音声認識コマンド発行部106は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置200に送信する(
図5のS102)。音声認識装置200は、音声認識コマンドにしたがって、音声データの音声の音声認識およびかな漢字変換を実行する。ここでは、音声データの音声が「あ」及び「た」の一部であるため、ここでは音声を表音文字「あ」及び表示文字「あ」に変換する。音声認識装置200は、音声認識結果として、表音文字情報「あ」、表示文字情報「あ」を端末装置100に送信する。端末装置100の音声認識結果受付部110は、文表音文字情報「あ」及び表示字情報「あ」を受信すると、ふりがな作成部112に送信する(
図5のS105)。
【0058】
次に、端末装置100の音声入力部104は、第2区間である200msに入力される「あたらしいはたらき」の「た」の一部の音声と「ら」の音声を、電気信号に変換して、音声認識コマンド発行部106に送信する(
図5のS101)。音声認識コマンド発行部106は、受信した音声データ、音声認識コマンドを、音声認識装置200に送信する(
図5のS102)。音声認識装置200は、音声認識コマンドにしたがって、第1区間の音声データと第2区間の音声データとを結合して1つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「あたら」であるため、ここでは音声を表音文字「あたら」に変換する。また、音声認識装置200は、表音文字「あたら」をかな漢字変換により、表示文字「あたら」に変換する。音声認識装置200は、音声認識結果として、表音文字情報「あたら」、表示文字情報「あたら」を端末装置100に送信する。端末装置100の音声認識結果受付部110は、表音文字情報「あたら」、表示文字情報「あたら」を受信すると、ふりがな作成部112に送信する(
図5のS105)。
【0059】
一方、端末装置100のふりがな作成部112は、受信した、表音文字情報「あ」、表示文字情報「あ」(または、表音文字情報「あたら」、表示文字情報「あたら」)に基づいて、ルビ情報を作成する。ここでは、ふりがな作成部112は、表示文字情報「あ」(「あたら」)に、表音文字以外の文字が含まれていないため、ルビ情報として何も含まれていない文字情報を作成する。ふりがな作成部112は、表示文字情報とルビ情報とを表示部114に表示させる(
図6のS205)。これによって、発声される音声を所定時間で区切って、所定時間毎に音声認識をし、ルビ情報を表示させることができる。
【0060】
同様にして、第3区間の処理では、音声認識の結果として、表音文字「あたらし」、表示文字「新し」が出力され、ルビ情報の作成が行われる。ここでは、ふりがな作成部112は、ルビ情報として「新」に対応する「あたら」を作成する。ふりがな作成部112は、最後に表示した表示文字情報及びルビ情報を消去してから、今回受信した表示文字情報及び今回作成したルビ情報を表示部114に表示させる。表示文字情報及びルビ情報は、端末装置100の表示部114において、逐次、更新される。第4区間以降の処理においても同様である。
【0061】
第5区間、第6区間において、表音文字の「はた」が「旗」に変換され、これに対するふりがなとして、「はた」が作成されている。しかし、第7区間では、表示文字において
「旗」はなくなり「働き」となっている。このとき、ふりがな作成部112は、先に対応付けた「はた」に対する「旗」がないことから、改めて「働き」の「働」に「はたら」を対応付けている、
【0062】
次に、端末装置100の音声入力部104は、第8区間である200msに入力される「あたらしいはたらき」の後の無音部分を、電気信号に変換して、音声認識コマンド発行部106に送信する(
図5のS101)。音声認識コマンド発行部106は、受信した音声データの情報とともに、音声認識コマンドを、音声認識装置200に送信する(
図5のS102)。音声認識装置200は、音声認識コマンドにしたがって、第1区間から第8区間までの音声データを結合して1つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「あたらしいはたらき」であるため、ここでは音声を表音文字「あたらしいはたらき」に変換する。さらに、音声認識装置200は、音声データに所定期間以上の無音部分が含まれているため、無音部分に改行を示す制御文字「[EOL]」を追加する。なお、EOLは、End of Lineの頭文字である。音声認識装置200は、音声認識結果として、表音文字情報「あたらしいはたらき[EOL]」、表音文字情報をかな漢字変換した表示文字情報「新しい働き[EOL]」を端末装置100に送信する。端末装置100の音声認識結果受付部110は、音声認識結果を受信すると、ふりがな作成部112に送信する(
図5のS105)。ふりがな作成部112は、改行を示す制御文字を含めたままルビ情報の作成を行う。ふりがな作成部112は、最後に表示した表示文字情報及びルビ情報を削除してから、改行を示す制御文字を含む表示文字情報、ルビ情報を表示部114に表示する。表示文字情報及びルビ情報には、改行を示す制御文字が含まれるため、表示文字情報及びルビ情報は確定される。なお、表示部114に制御文字は表示されない。
【0063】
(実施形態の作用、効果)
音声が入力される端末装置100では、音声が入力されるのにしたがって、表示部114に音声認識された表示文字情報及び作成されたルビ情報が逐次更新されて表示される。これにより、音声を入力する端末装置100の利用者が話している最中に、音声認識がされ、ルビ情報の作成がされる。端末装置100は、音声認識装置200から取得した表音文字情報を使用してルビ情報を作成するため、表音文字情報を使用せず表示文字情報を使用してルビ情報を生成するよりも、正確なルビ情報を生成することができる。
【0064】
(変形例)
ここでは、端末装置100の音声認識コマンド発行部106は、音声認識コマンドとともに、1区間分ずつ音声データを送るとしたが、音声認識装置200で行う音声データの結合を端末装置100で行い、音声認識を行う結合した一連の音声データを音声認識コマンドとともに音声認識装置200に送信してもよい。このとき、音声認識装置200における負荷を軽減することができる。
【0065】
本発明は、上述した実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において変更したり組み合わせたりすることができる。
【0066】
〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
【0067】
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等
から読み取ることができる記録媒体をいう。このような記録媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
【0068】
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。
【0069】
また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
【符号の説明】
【0070】
10 音声認識システム
100 端末装置
102 記憶部
104 音声入力部
106 音声認識コマンド発行部
110 音声認識結果受付部
112 ふりがな作成部
114 表示部
120 通信部
200 音声認識装置
300 ネットワーク