特許7574029 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士通株式会社の特許一覧

特許7574029端末装置、音声認識方法、音声認識プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-18

(45)【発行日】2024-10-28

(54)【発明の名称】端末装置、音声認識方法、音声認識プログラム

(51)【国際特許分類】

G10L 15/00 20130101AFI20241021BHJP

G06F 40/169 20200101ALI20241021BHJP

【ＦＩ】

G10L15/00 200B

G06F40/169

【請求項の数】 4

(21)【出願番号】P 2020163578

(22)【出願日】2020-09-29

(65)【公開番号】P2022055887

(43)【公開日】2022-04-08

【審査請求日】2023-06-08

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100113608

【弁理士】

【氏名又は名称】平川明

(74)【代理人】

【識別番号】100105407

【弁理士】

【氏名又は名称】高田大輔

(74)【代理人】

【識別番号】100175190

【弁理士】

【氏名又は名称】大竹裕明

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】福岡寿和

【審査官】菊池智紀

(56)【参考文献】

【文献】特開昭６３－２６３５５９（ＪＰ，Ａ）

【文献】国際公開第２０１１／０６４８２９（ＷＯ，Ａ１）

【文献】特開２０１４－０５９３３０（ＪＰ，Ａ）

【文献】特開２０１８－０４４９９３（ＪＰ，Ａ）

【文献】特開２０１５－１７９２８７（ＪＰ，Ａ）

【文献】小林正幸他，"聴覚障害者のための音声認識を利用したルビ付きリアルタイム字幕提示システム"，映像情報メディア学会誌，2003年12月01日，Vol.57, No.12，pp.129-136

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｆ４０／１０－４０／１９７

(57)【特許請求の範囲】

【請求項1】

利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを、所定時間毎に音声入力部から受信した音声データと共にネットワーク経由で音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とするルビ作成部と、
前記表示文字情報を、前記ルビ作成部が作成した前記ルビ情報とともに表示する表示部と
を備える端末装置。

【請求項2】

前記ルビ作成部は、前記表示文字情報及び前記表音文字情報を最初の文字から１文字ずつ比較して異なる文字となる１文字前までの文字と、前記表示文字情報及び前記表音文字情報を最後の文字から１文字ずつ比較して異なる文字となる１文字前までの文字とを、前記共通する表音文字とする、
請求項１に記載の端末装置。

【請求項3】

コンピュータが、
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを、所定時間毎に音声入力部から受信した音声データと共にネットワーク経由で音声認識手段に指令し、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とし、
前記表示文字情報を、前記ルビ情報とともに表示する
ことを実行する音声認識方法。

【請求項4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、端末装置、音声認識方法、音声認識プログラムに関する。

【背景技術】

【0002】

利用者が発声する音声を音声認識技術により文字情報に変換して、当該文字情報を表示する音声認識装置がある。文字情報に変換される際には、読みやすさ等のために漢字等を含む文字情報に変換されることがある。さらに、音声認識装置には、漢字等を含む文字情報にふりがな等のルビを付けて表示するものがある。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００４－３３４２０７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来の音声認識装置では、漢字等を含む文字情報にルビを付ける場合、音声認識された後の文字情報に基づいてルビを付ける。そのため、利用者が発声した音声と付けられたルビとの間に相違が生じることがある。よって、この場合、音声認識装置は、漢字等を含む文字情報に発声した音声と異なるルビを付けるという問題がある。

【0005】

本発明は、音声認識された文字情報にルビを付ける際に、より正確なルビを付ける技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、以下の手段を採用する。
即ち、第１の態様は、
利用者によって発声された音声を、表音文字を含む表音文字情報と表音文字及び表音文字以外の文字を含む表示文字情報とに変換することを音声認識手段に指令する音声認識指令部と、
前記音声認識手段によって変換された前記表音文字情報と前記表示文字情報とにおいて共通する表音文字を、前記表音文字情報から削除した文字をルビ情報とするルビ作成部と、
前記表示文字情報を、前記ルビ作成部が作成した前記ルビ情報とともに表示する表示部と
を備える端末装置とする。

【0007】

開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。

【発明の効果】

【0008】

本発明によれば、音声認識された文字情報にルビを付ける際に、より正確なルビを付ける技術を提供することを目的とする。

【図面の簡単な説明】

【0009】

【図1】図１は、実施形態の表音文字、表示文字、ルビの例を示す図である。

【図2】図２は、実施形態の音声認識システムの構成例を示す図である。

【図3】図３は、端末装置の機能ブロックの例を示す図である。

【図4】図４は、情報処理装置のハードウェア構成例を示す図である。

【図5】図５は、端末装置における処理の動作フローの例を示す図である。

【図6】図６は、端末装置におけるふりがな作成の動作フローの例を示す図である。

【図7】図７は、表音文字、表示文字、ルビの例１を示す図である。

【図8】図８は、表音文字、表示文字、ルビの例２を示す図である。

【図9】図９は、実施形態の音声認識システムの動作の具体例を示す図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

【0011】

〔実施形態〕
本実施形態の音声認識システムは、利用者が端末装置に向けて発声した言葉（音声）を、音声認識技術により、文字に変換して表示する。このとき、音声認識システムは、音声を、ひらがな等の表音文字に変換し、当該表音文字をかな漢字変換技術により、漢字、ひらがな、カタカナ等が含まれ得る表示文字に変換する。さらに、音声認識システムは、表音文字と表示文字とに基づいて、表音文字に含まれる漢字等に対するルビを生成し、表示文字とルビとを、表示する。

【0012】

ここで、表音文字は、音声の音素または音節をそのまま文字にしたものである。表音文字は、たとえば、ひらがなである。また、表示文字は、表音文字をかな漢字変換技術等により変換したかな漢字交じりの文字である。かな漢字変換技術は、ひらがな等の表音文字を、意味等を考慮してかな漢字交じりの文字に変換する技術である。表示文字は、意味を表す漢字等の表意文字とひらがな等の表音文字とを含み得る文字である。ルビは、表示文字に含まれる漢字等に対して付けられる読み方を示すひらがな等の表音文字である。ここでは、ひらがなを表音文字とし、ひらがな以外の漢字、カタカナ、アルファベット等の文字を表音文字以外の文字とする。また、ルビを付ける対象は、表音文字以外の文字とする。ここでは、日本語による音声認識を前提としているが、例えば、中国語による音声認識をする場合、表音文字をピンインを示す文字、表音文字以外の文字を漢字（簡体字、繁体字）としてもよい。

【0013】

図１は、表音文字、表示文字、ルビの例を示す図である。図１の例では、表音文字として、音声認識技術により変換されたままの文字である「あたらしいはたらきかたについておはなしします」が示されている。また、表示文字の例として、当該表音文字をかな漢字変換して得られる「新しい働き方についてお話します」が示されている。また、ルビの例として、表示文字に対するふりがなとして得られる「あたらはたらかたはなし」が示されている。ルビに含まれる「あたら」「はたら」「かた」「はなし」は、それぞれ、表示文字に含まれる漢字の「新」「働」「方」「話」に対するふりがなである。

【0014】

（構成例）
図２は、本実施形態の音声認識システムの構成例を示す図である。図２の音声認識システム１０は、端末装置１００、音声認識装置２００、ネットワーク３００を含む。端末装置１００は、ネットワーク３００に接続される。音声認識装置２００は、入力される音声
データを、表音文字情報及び表示文字情報に変換して、出力する。ネットワーク３００は、端末装置１００、音声認識装置２００等に接続されるインターネット等のネットワークである。図１のシステム１０では、端末装置１００は、１台であるが、端末装置１００の数は、１台に限定されるものではない。

【0015】

端末装置１００は、利用者による音声の入力を受け付け、音声を音声データに変換して、音声認識装置２００に送信する。端末装置１００は、音声認識装置２００から変換後の表音文字情報及び表示文字情報を受信する。端末装置１００は、表音文字情報及び表示文字情報を受信すると、ルビ情報を生成し、表示文字情報及びルビ情報を表示する。端末装置１００の構成については、後に説明する。

【0016】

音声認識装置２００は、端末装置１００から、当該端末装置１００における使用言語の情報と、音声データとを受け付け、音声データの音声を、周知の音声認識技術により、ひらがなによる表音文字情報に変換する。さらに、音声認識装置２００は、当該表音文字情報を、かな漢字変換技術により、漢字等を含む及び表示文字情報に変換する。音声認識装置２００は、表音文字情報及び表示文字情報を、端末装置１００に送信する。音声認識装置２００は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換してもよい。音声認識装置２００は、端末装置１００から送信される音声データをバッファし、バッファされている一連の音声データの音声を、一連の表音文字情報及び表示文字情報に変換してもよい。音声認識装置２００は、音声を改行を示す制御文字を含む表音文字情報及び表示文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除してもよい。これにより、音声認識装置２００は、常に、改行以降の音声データについて、表音文字情報及び表示文字情報に変換することになる。音声認識装置２００として、周知の音声認識手段が使用され得る。

【0017】

〈端末装置の構成〉
図３は、端末装置の機能ブロックの例を示す図である。図３の端末装置１００は、記憶部１０２、音声入力部１０４、音声認識コマンド発行部１０６、音声認識結果受付部１１０、ふりがな作成部１１２、表示部１１４、通信部１２０を含む。ふりがな作成部１１２は、ルビ作成部の一例である。

【0018】

記憶部１０２は、端末装置１００で使用されるデータや、他の装置から受信した文字情報（表音文字情報、表意文字情報）、音声データ等を格納する。また、記憶部１０２は、自装置や他の装置等の識別情報、ネットワーク上のアドレス等を格納しうる。

【0019】

音声入力部１０４は、マイクロフォンなどの入力手段により、端末装置１００の利用者が発声した音声の入力を受け付ける。音声入力部１０４は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部１０６に送信する。音声入力部１０４は、所定時間毎に音声データを送信する。

【0020】

音声認識コマンド発行部１０６は、音声入力部１０４より音声データを受信する。音声認識コマンド発行部１０６は、受信した音声データを記憶部１０２に格納する。音声認識コマンド発行部１０６は、記憶部１０２から、端末装置１００の利用者が使用する言語として登録されている使用言語の情報を取得する。音声認識コマンド発行部１０６は、音声認識装置２００で音声認識をさせるための音声認識コマンドを生成して、通信部１２０を介して、音声認識装置２００に送信する。音声認識コマンドは、通信部１２０からネットワークを介して、音声認識装置２００に送信される。音声認識コマンドとともに、音声データ、使用言語の情報も送信される。音声認識コマンドは、音声データを、使用言語の文字情報に変換することを指令するコマンドである。音声認識コマンド発行部１０６は、音声認識指令部の一例である。

【0021】

音声認識結果受付部１１０は、音声認識装置２００による音声認識結果を、通信部１２０を介して、受信する。音声認識結果受付部１１０は、受信した音声認識結果を、ふりがな作成部１１２に送信する。

【0022】

ふりがな作成部１１２は、音声認識結果受付部１１０から音声認識結果を受信する。ふりがな作成部１１２は、受信した音声認識結果を記憶部１０２に格納する。音声認識結果には、音声データを音声認識した表音文字情報、及び、当該表音文字情報をかな漢字変換した表示文字情報が含まれる。ふりがな作成部１１２は、表音文字情報及び表示文字情報に基づいて、表示文字情報に含まれる表音文字以外の文字に対するふりがなを作成し、当該ふりがなをルビ情報として、記憶部１０２に格納する。ルビ情報は、表示文字情報に含まれる対応する表音以外の文字に対応付けられて格納される。

【0023】

表示部１１４は、端末装置１００の利用者に示す情報を表示する。表示部１１４は、ふりがな作成部１１２で作成されるルビ情報や、音声認識結果に含まれる表示文字情報を表示する。

【0024】

通信部１２０は、他の装置等と、データの送受信を行う。通信部１２０は、所定のコマンドを、ネットワーク３００を介して、音声認識装置２００に送信する。通信部１２０は、音声認識装置２００から、所定の結果を受信する。

【0025】

〈装置のハードウェア構成〉
端末装置１００は、スマートフォン、携帯電話、タブレット型端末、カーナビゲーション装置、ＰＤＡ（Personal Digital Assistant）、ＰＣ（Personal Computer）のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置２００は、ＰＣ、ワークステーション（ＷＳ、Work Station）のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。音声認識装置２００は、端末装置１００に含まれてもよい。

【0026】

図４は、情報処理装置のハードウェア構成例を示す図である。図４に示す情報処理装置９０は、一般的なコンピュータの構成を有している。制御装置２０、端末装置１００、音声認識装置２００は、図４に示すような情報処理装置９０によって実現される。情報処理装置９０は、プロセッサ９１、メモリ９２、記憶部９３、入力部９４、出力部９５、通信制御部９６を有する。これらは、互いにバスによって接続される。メモリ９２及び記憶部９３は、コンピュータ読み取り可能な記録媒体である。情報処理装置のハードウェア構成は、図３に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。

【0027】

情報処理装置９０は、プロセッサ９１が記録媒体に記憶されたプログラムをメモリ９２の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。

【0028】

プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）である。

【0029】

メモリ９２は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）を含む。メモリ９２は、主記憶装置とも呼ばれる。

【0030】

記憶部９３は、例えば、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスクドライブ（ＨＤＤ、Hard Disk Drive）、ソリッドステートドライブ（ＳＳＤ、Solid Sta
te Drive）である。また、記憶部９３は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、ＵＳＢ（Universal Serial Bus）メモリ、あるいは、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）のようなディスク記録媒体である。記憶部９３は、二次記憶装置とも呼ばれる。

【0031】

記憶部９３は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部９３には、オペレーティングシステム（Operating System :ＯＳ）、各種プログラム、各種テーブル等が格納される。記憶部９３に格納される情報は、メモリ９２に格納されてもよい。また、メモリ９２に格納される情報は、記憶部９３に格納されてもよい。

【0032】

オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部９６を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他の情報処理装置、外部記憶装置等が含まれる。

【0033】

入力部９４は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部９４は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。

【0034】

出力部９５は、ＣＲＴ（Cathode Ray Tube）ディスプレイ、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）、ＥＬ（Electroluminescence）パネル等の表示装置、プリンタ等の出力装置を含む。また、出力部９５は、スピーカのような音声の出力装置を含むことができる。

【0035】

通信制御部９６は、他の装置と接続し、情報処理装置９０と他の装置との間の通信を制御する。通信制御部９６は、例えば、ＬＡＮ（Local Area Network）インタフェースボード、Bluetooth（登録商標）などの無線通信のための無線通信回路、電話通信のための通信回路である。ＬＡＮインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。

【0036】

端末装置１００、音声認識装置２００を実現するコンピュータは、プロセッサが二次記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、各機能を実現する。また、各装置の記憶部は、主記憶装置または二次記憶装置の記憶領域に設けられる。

【0037】

プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくても、並列的または個別に実行される処理を含む。プログラムを記述するステップの一部が省略されてもよい。

【0038】

（動作例）
端末装置１００の動作例について、説明する。ここでは、端末装置１００の動作を、音声入力の動作フローと、ふりがな作成の動作フローとに分けて説明するが、これらの動作は、端末装置１００において並行して実行されている。端末装置１００では、音声入力及びふりがな作成の動作を実現するアプリケーションが実行されている。

【0039】

〈音声入力〉
図５は、端末装置における処理の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。利用者は、端末装置１００に対する発声により音声入力
を行う。図５の動作フローは、例えば、音声入力の１区間の長さである所定時間（例えば、２００ｍｓ）毎に実行される。

【0040】

Ｓ１０１では、端末装置１００の音声入力部１０４は、端末装置１００の利用者が発声した音声の入力を受け付ける。音声入力部１０４は、入力された音声を電気的な信号に変換して、音声データとして、音声認識コマンド発行部１０６に送信する。音声入力部１０４は、所定時間毎（例えば、２００ｍｓ毎）に音声データを送信する。当該所定時間が短くなるほど、発声と文字表示とのタイムラグを短くすることができるが、端末装置１００や音声認識装置２００における処理量が増大する。当該所定時間は、発声における一音や一語程度の長さにすることが望ましい。一音や一語よりも短い音声を音声認識により文字情報に変換することが困難であるからである。

【0041】

Ｓ１０２では、音声認識コマンド発行部１０６は、音声入力部１０４より音声データを、所定時間毎に受信する。音声認識コマンド発行部１０６は、受信した音声データを記憶部１０２に格納する。音声認識コマンド発行部１０６は、音声認識装置２００で音声認識をさせるための音声認識コマンドを生成（発行）して、通信部１２０を介して、音声認識装置２００に送信する。音声認識処理は、音声データを、あらかじめ音声と文字とを対応付けたデータに基づいて、文字情報に変換する処理である。ここでは、音声認識処理は、音声を、音声をそのまま文字にした表音文字情報、及び、当該表音文字情報をかな漢字変換した表示文字情報に変換する。表示文字情報には、表音文字しか含まれてない場合もある。音声認識コマンドは、通信部１２０からネットワーク４００を介して、音声認識装置２００に送信される。音声認識コマンドは、音声データを、表音文字情報、及び、表示文字情報に変換することを指令するコマンドである。音声認識コマンドとともに、音声データが送信される。音声データには一連の通し番号が含まれてもよい。また、音声認識コマンドとともに、端末装置１００のアドレスや端末装置１００を識別する識別子が送信されてもよい。

【0042】

音声認識装置２００は、端末装置１００から音声認識コマンドを受信すると、音声認識コマンドに従って、音声データの音声を変換して、音声認識結果として、端末装置１００に送信する。音声認識装置２００は、音声に所定時間継続する無音が含まれている場合、当該音声を改行を示す制御文字に変換する。音声認識装置２００は、端末装置１００から送信される音声データをバッファし、バッファされている一連の音声データを結合して１つの結合音声データを作成し、当該音声データの音声を一連の表音文字情報に変換する。表音文字情報は、例えば、ひらがなによる文字である。音声認識装置２００は、１つの音声データを処理する際、音声データに含まれる通し番号を用いて、順番が入れ替わらないように音声データを処理してもよい。音声認識装置２００は、音声を改行を示す制御文字を含む文字情報に変換した場合、当該制御文字に対応する音声データ以前の音声データをバッファから削除する。これにより、音声認識装置２００は、常に、無音（改行）以降の音声データについて、表音文字情報に変換することになる。音声認識コマンドには、すでに送信済みの一連の音声データを１つの音声データにして音声認識をする指令、音声データに所定時間以上の無音が含まれている場合に音声認識後にバッファを削除する指令が含まれてもよい。また、音声認識装置２００は、変換された表音文字情報に対して、かな漢字変換処理を行い、かな漢字交じりの文字である表示文字情報を生成する。音声認識装置２００は、音声認識結果として、音声を変換した、表音文字情報及び表示文字情報を端末装置１００に送信する。

【0043】

Ｓ１０３では、音声認識結果受付部１１０は、Ｓ１０２で送信した音声認識コマンドに対する、音声認識装置２００による音声認識結果を、受信したか否かを判定する。音声認識結果を受信した場合（Ｓ１０３；ＹＥＳ）、処理がＳ１０４に進む。音声認識結果を受信していない場合（Ｓ１０３；ＹＥＳ）、Ｓ１０３の処理を繰り返す。

【0044】

Ｓ１０４では、音声認識結果受付部１１０は、今回受信した音声認識結果と、記憶部１０２に格納される前回受信した音声認識結果とを比較する。今回受信した音声結果と前回受信した音声認識結果とが同じである場合（Ｓ１０４；ＹＥＳ）、この動作フローの処理が終了する。この場合、前回の音声認識結果に対してＳ１０５の処理が行われているため、同じ音声認識結果に対して同じ処理が行われなくてもよいからである。また、音声認識結果に、表音文字情報及び表示文字情報が含まれない場合も、同様にする。表音文字情報及び表示文字情報が含まれない場合には、表示などの以後の処理が行われなくてもよいからである。また、今回受信した音声結果と前回受信した音声認識結果とが異なる場合（Ｓ１０４；ＮＯ）、処理がＳ１０５に進む。

【0045】

Ｓ１０５では、音声認識結果受付部１１０は、受信した音声認識結果である、表音文字情報及び表示文字情報を記憶部１０２に格納する。また、音声認識結果受付部１１０は、音声認識結果を、ふりがな作成部１１２に送信する。音声認識結果受付部１１０は、音声認識結果を受信した旨の通知をふりがな作成部１１２に送信してもよい。

【0046】

これにより、端末装置１００は、入力された音声に対する音声認識結果を取得することができる。端末装置１００は、音声の入力に従って、逐次音声認識をすることで、表音文字情報及び表示文字情報を、徐々に長くすることができる。

【0047】

〈ふりがな作成〉
図６は、端末装置におけるふりがな作成の動作フローの例を示す図である。端末装置１００は、利用者によって使用されている。図６の動作フローは、ふりがな作成部１１２が音声認識結果を受信する毎に実行される。

【0048】

Ｓ２０１では、端末装置１００のふりがな作成部１１２は、音声認識結果である表音文字情報及び表示文字情報を、音声認識結果受付部１１０から受信する。ふりがな作成部１１２は、音声認識結果受付部１１０からの通知を受けて、記憶部１０２から音声認識結果を取得してもよい。

【0049】

Ｓ２０２では、ふりがな作成部１１２は、Ｓ２０１で取得した表示文字情報からひらがな（表音文字）を抽出する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部１１２は、最後の「し」を抽出する。

【0050】

Ｓ２０３では、ふりがな作成部１１２は、Ｓ２０２で抽出したひらがなを、Ｓ２０１で取得した表音文字情報から削除したものをふりがな（ルビ情報）として作成する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部１１２は、「あたらし」から「し」を削除した「あたら」をふりがなとして作成する。即ち、ふりがな作成部１１２は、表示文字情報と表音文字情報とで共通する「し」を、表音文字情報から削除した「あたら」を「新」に対するふりがなとしている。

【0051】

Ｓ２０４では、ふりがな作成部１１２は、Ｓ２０３で作成したルビ情報を、表示文字情報と対応付けて、記憶部１０２に格納する。ふりがな作成部１１２は、ルビ情報と対応する表示文字情報の表音文字以外の文字とを対応付けて、記憶部１０２に格納する。例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部１１２は、表示文字情報の「新し」の「新」と、ルビ情報の「あたら」とを対応付けて格納する。表示文字情報に含まれる表音文字以外の文字は、先頭から表音文字以外の文字の塊ごとに番号が付けられ、表音文字以外の文字に付けられた番号と
、ルビ情報とが対応付けられてもよい。例えば、表示文字情報の「新し」の１番目の表音文字以外の文字の塊を示す「１番」とルビ情報の「あたら」とが対応付けられる。また、表示文字情報の「新し」の「新」と１番目の表音文字以外の文字の塊を示す「１番」とルビ情報の「あたら」とが対応付けられてもよい。ルビ情報に文字と番号とを対応付けることで、より正確に表示文字情報にふりがなをつけることができる。

【0052】

Ｓ２０５では、ふりがな作成部１１２は、表示文字情報とルビ情報とを対応付けて、表示部１１４に表示させる。このとき、ふりがな作成部１１２は、最後に表示した表示文字情報及びルビ情報を消去してから、今回受信した表示文字情報及び今回作成したルビ情報を表示する。即ち、表示される表示文字情報及びルビ情報が更新される。ただし、ふりがな作成部１１２は、最後に表示した表示文字情報に改行を示す制御文字が含まれる場合、最後に表示した表示文字情報及びルビ情報を消去せずに、改行してから、今回受信した表示文字情報及び今回作成したルビ情報を表示する。なお、最後に表示した表示文字情報及びルビ情報は、改行により確定される。

【0053】

例えば、取得した表示文字情報が「新し」であり、取得した表音文字情報が「あたらし」である場合、ふりがな作成部１１２は、「新し」を表示し、「新し」の「新」に「あたら」を対応付けて表示する。対応付けて表示とは、例えば、横書き表示の場合、「新」の上側または下側に対応する「あたら」を表示することである。また、例えば、縦書き表示の場合、「新」の右側または左側に「あたら」を表示することである。ふりがな（ルビ情報）の表示方法は、これらに限定されるものではない。

【0054】

図７は、表音文字、表示文字、ルビの例１を示す図である。ここで、Ｓ２０２において、ふりがな作成部１１２は、表示文字情報からひらがな（表音文字）を抽出する際、表示文字情報の先頭の文字及び最後の文字からひらがな抽出する。また、Ｓ２０３において、ふりがな作成部１１２は、Ｓ２０２で抽出した文字を、表音文字情報の先頭の文字及び最後の文字から削除して、ルビ情報とする。例えば、表示文字情報が「お話します」であり、表音文字情報が「おはなしします」である場合、先頭の文字である「お」及び最後から３文字である「します」が抽出される。また、表音文字情報の「おはなしします」から、先頭の文字である「お」及び最後の３文字である「します」が削除され、「お話します」の「話」に対応するルビ情報として「はなし」が対応付けられる。

【0055】

図８は、表音文字、表示文字、ルビの例２を示す図である。ここで、Ｓ２０２において、ふりがな作成部１１２は、表示文字情報に含まれる表音文字以外の文字を、既に対応付けられたルビ情報に置き換えてから、表音文字を抽出してもよい。例えば、既に、表示文字「新しい」の「新」に対してふりがな「あたら」が付けられているとする。その後、改行されることなく、今回取得した表示文字情報が「新しい働き」であり、表音文字情報が「あたらしいはたらき」であるとする。このとき、Ｓ２０２において、ふりがな作成部１１２は、既に対応付けられたルビ情報を記憶部１０２から抽出する。ここでは、ふりがな作成部１１２は、「新」に対応付けられた「あたら」を抽出する。「新しい働き」の「新」を「あたら」に置き換え、「あたらしい働き」とする。さらに、先頭から５文字である「あたらしい」及び最後から１文字である「き」が抽出される。また、Ｓ２０３において、表音文字情報の「あたらしいはたらき」から、先頭から５文字である「あたらしい」及び最後から１文字である「き」が削除され、「働」に対応するルビ情報として「はたら」が対応付けられる。「新しい働き」において、表音文字以外の文字の１番目の塊は「新」であり、２番目の塊は「働」である。よって、「新しい働き」の１番目のルビ情報として「あたら」、２番目のルビ情報として「はたら」が対応付けられてもよい。このようにすることで、表音文字情報及び表示文字情報が徐々に長くなっていった場合でも、適切にふりがなを付けることができる。

【0056】

（具体例）
図９は、本実施形態の音声認識システムの動作の具体例を示す図である。ここでは、利用者によって、端末装置１００に約１．６秒間（時刻０ｓから時刻１．６ｓまで）で「あたらしいはたらき（新しい働き）」と発声された場合について説明する。

【0057】

端末装置１００の音声入力部１０４は、図９のように、第１区間（時刻０ｓから時刻０．２ｓまで）である最初の２００ｍｓに入力される「あたらしいはたらき」の「あ」の音声と「た」の一部の音声を、電気信号に変換して、音声認識コマンド発行部１０６に送信する（図５のＳ１０１）。音声認識コマンド発行部１０６は、受信した音声データ、使用言語の情報とともに、音声認識コマンドを、音声認識装置２００に送信する（図５のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、音声データの音声の音声認識およびかな漢字変換を実行する。ここでは、音声データの音声が「あ」及び「た」の一部であるため、ここでは音声を表音文字「あ」及び表示文字「あ」に変換する。音声認識装置２００は、音声認識結果として、表音文字情報「あ」、表示文字情報「あ」を端末装置１００に送信する。端末装置１００の音声認識結果受付部１１０は、文表音文字情報「あ」及び表示字情報「あ」を受信すると、ふりがな作成部１１２に送信する（図５のＳ１０５）。

【0058】

次に、端末装置１００の音声入力部１０４は、第２区間である２００ｍｓに入力される「あたらしいはたらき」の「た」の一部の音声と「ら」の音声を、電気信号に変換して、音声認識コマンド発行部１０６に送信する（図５のＳ１０１）。音声認識コマンド発行部１０６は、受信した音声データ、音声認識コマンドを、音声認識装置２００に送信する（図５のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、第１区間の音声データと第２区間の音声データとを結合して１つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「あたら」であるため、ここでは音声を表音文字「あたら」に変換する。また、音声認識装置２００は、表音文字「あたら」をかな漢字変換により、表示文字「あたら」に変換する。音声認識装置２００は、音声認識結果として、表音文字情報「あたら」、表示文字情報「あたら」を端末装置１００に送信する。端末装置１００の音声認識結果受付部１１０は、表音文字情報「あたら」、表示文字情報「あたら」を受信すると、ふりがな作成部１１２に送信する（図５のＳ１０５）。

【0059】

一方、端末装置１００のふりがな作成部１１２は、受信した、表音文字情報「あ」、表示文字情報「あ」（または、表音文字情報「あたら」、表示文字情報「あたら」）に基づいて、ルビ情報を作成する。ここでは、ふりがな作成部１１２は、表示文字情報「あ」（「あたら」）に、表音文字以外の文字が含まれていないため、ルビ情報として何も含まれていない文字情報を作成する。ふりがな作成部１１２は、表示文字情報とルビ情報とを表示部１１４に表示させる（図６のＳ２０５）。これによって、発声される音声を所定時間で区切って、所定時間毎に音声認識をし、ルビ情報を表示させることができる。

【0060】

同様にして、第３区間の処理では、音声認識の結果として、表音文字「あたらし」、表示文字「新し」が出力され、ルビ情報の作成が行われる。ここでは、ふりがな作成部１１２は、ルビ情報として「新」に対応する「あたら」を作成する。ふりがな作成部１１２は、最後に表示した表示文字情報及びルビ情報を消去してから、今回受信した表示文字情報及び今回作成したルビ情報を表示部１１４に表示させる。表示文字情報及びルビ情報は、端末装置１００の表示部１１４において、逐次、更新される。第４区間以降の処理においても同様である。

【0061】

第５区間、第６区間において、表音文字の「はた」が「旗」に変換され、これに対するふりがなとして、「はた」が作成されている。しかし、第７区間では、表示文字において
「旗」はなくなり「働き」となっている。このとき、ふりがな作成部１１２は、先に対応付けた「はた」に対する「旗」がないことから、改めて「働き」の「働」に「はたら」を対応付けている、

【0062】

次に、端末装置１００の音声入力部１０４は、第８区間である２００ｍｓに入力される「あたらしいはたらき」の後の無音部分を、電気信号に変換して、音声認識コマンド発行部１０６に送信する（図５のＳ１０１）。音声認識コマンド発行部１０６は、受信した音声データの情報とともに、音声認識コマンドを、音声認識装置２００に送信する（図５のＳ１０２）。音声認識装置２００は、音声認識コマンドにしたがって、第１区間から第８区間までの音声データを結合して１つの音声データとして、当該音声データの音声の音声認識を実行する。ここでは、音声データの音声が「あたらしいはたらき」であるため、ここでは音声を表音文字「あたらしいはたらき」に変換する。さらに、音声認識装置２００は、音声データに所定期間以上の無音部分が含まれているため、無音部分に改行を示す制御文字「［ＥＯＬ］」を追加する。なお、ＥＯＬは、End of Lineの頭文字である。音声認識装置２００は、音声認識結果として、表音文字情報「あたらしいはたらき［ＥＯＬ］」、表音文字情報をかな漢字変換した表示文字情報「新しい働き［ＥＯＬ］」を端末装置１００に送信する。端末装置１００の音声認識結果受付部１１０は、音声認識結果を受信すると、ふりがな作成部１１２に送信する（図５のＳ１０５）。ふりがな作成部１１２は、改行を示す制御文字を含めたままルビ情報の作成を行う。ふりがな作成部１１２は、最後に表示した表示文字情報及びルビ情報を削除してから、改行を示す制御文字を含む表示文字情報、ルビ情報を表示部１１４に表示する。表示文字情報及びルビ情報には、改行を示す制御文字が含まれるため、表示文字情報及びルビ情報は確定される。なお、表示部１１４に制御文字は表示されない。

【0063】

（実施形態の作用、効果）
音声が入力される端末装置１００では、音声が入力されるのにしたがって、表示部１１４に音声認識された表示文字情報及び作成されたルビ情報が逐次更新されて表示される。これにより、音声を入力する端末装置１００の利用者が話している最中に、音声認識がされ、ルビ情報の作成がされる。端末装置１００は、音声認識装置２００から取得した表音文字情報を使用してルビ情報を作成するため、表音文字情報を使用せず表示文字情報を使用してルビ情報を生成するよりも、正確なルビ情報を生成することができる。

【0064】

（変形例）
ここでは、端末装置１００の音声認識コマンド発行部１０６は、音声認識コマンドとともに、１区間分ずつ音声データを送るとしたが、音声認識装置２００で行う音声データの結合を端末装置１００で行い、音声認識を行う結合した一連の音声データを音声認識コマンドとともに音声認識装置２００に送信してもよい。このとき、音声認識装置２００における負荷を軽減することができる。

【0065】

本発明は、上述した実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において変更したり組み合わせたりすることができる。

【0066】

〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置（以下、コンピュータ等）に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

【0067】

ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等
から読み取ることができる記録媒体をいう。このような記録媒体内には、ＣＰＵ、メモリ等のコンピュータを構成する要素を設け、そのＣＰＵにプログラムを実行させてもよい。

【0068】

また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ／Ｗ、ＤＶＤ、ＤＡＴ、８mmテープ、メモリカード等がある。

【0069】

また、コンピュータ等に固定された記録媒体としてハードディスクやＲＯＭ等がある。

【符号の説明】

【0070】

１０音声認識システム
１００端末装置
１０２記憶部
１０４音声入力部
１０６音声認識コマンド発行部
１１０音声認識結果受付部
１１２ふりがな作成部
１１４表示部
１２０通信部
２００音声認識装置
３００ネットワーク

【図1】