IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ダイレクトソリューションズ株式会社の特許一覧

<>
  • 特開-音声入力システム及びそのプログラム 図1
  • 特開-音声入力システム及びそのプログラム 図2
  • 特開-音声入力システム及びそのプログラム 図3
  • 特開-音声入力システム及びそのプログラム 図4
  • 特開-音声入力システム及びそのプログラム 図5
  • 特開-音声入力システム及びそのプログラム 図6
  • 特開-音声入力システム及びそのプログラム 図7
  • 特開-音声入力システム及びそのプログラム 図8
  • 特開-音声入力システム及びそのプログラム 図9
  • 特開-音声入力システム及びそのプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024030340
(43)【公開日】2024-03-07
(54)【発明の名称】音声入力システム及びそのプログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240229BHJP
   G06Q 40/08 20120101ALI20240229BHJP
【FI】
G06F3/16 650
G06Q40/08
G06F3/16 620
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022133164
(22)【出願日】2022-08-24
(11)【特許番号】
(45)【特許公報発行日】2023-08-02
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
(71)【出願人】
【識別番号】522337222
【氏名又は名称】ダイレクトソリューションズ株式会社
(74)【代理人】
【識別番号】100134072
【弁理士】
【氏名又は名称】白浜 秀二
(72)【発明者】
【氏名】阿部 清
【テーマコード(参考)】
5L055
【Fターム(参考)】
5L055BB61
5L055EE06
(57)【要約】
【課題】Webの入力ページ等での個人情報等の入力に誤りが発生しないようにすることができる、音声入力システムを得ることを目的とする。
【解決手段】ユーザの携帯端末10と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバ50と、テキスト情報を受信するWebサイトのサーバ50とを通信ネットワークで接続した音声入力システムである。そして、携帯端末10は、テキストを入力する画面をWebサイトのサーバから受信し表示部に表示する画面生成部22と、押下することで音声入力を受け付ける音声入力要求部24と、音声入力要求部24を押下するタイミングで音声認識サービスサイトのサーバを起動させる音声テキスト化要求部26と、変換されたテキスト情報を携帯端末で受信する受信部29とを有する。
【選択図】図1

【特許請求の範囲】
【請求項1】
ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、
前記携帯端末は、
テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部と、
前記画面を押下することで音声入力を受け付ける音声入力要求部と、
前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部と、変換されたテキスト情報を前記携帯端末で受信する受信部とを有することを特徴とする音声入力システム。
【請求項2】
音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えたことを特徴とする請求項1に記載の音声入力システム。
【請求項3】
前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるのケアする処理を行うことを特徴とする請求項2に記載の音声入力システム。
【請求項4】
前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信することを特徴とする請求項1に記載の音声入力システム。
【請求項5】
ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、
コンピュータを、
前記携帯端末、
テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部、
押下することで音声入力を受け付ける音声入力要求部、
前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部、変換されたテキスト情報を前記携帯端末で受信する受信部、として機能させることを特徴とする音声入力プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声入力システム及びそのプログラムに関する。
【背景技術】
【0002】
近年は、スマートフォン(高機能携帯端末ともいう)を用いて、様々なサイトにアクセスして、様々な取引ができるようになってきている。一方、お問い合わせフォーム、あるいは、ユーザ情報をWEB上で入力する際に、年齢等によりキーボード操作が苦手なユーザに対しても、テキストをフォームに手で挿入することが行われている場合がある。
【0003】
特許文献1(特開2014-085954号公報)は、状況に応じて、ユーザにとって良好な入力操作が可能となる携帯端末装置を提供する。音声入力を受け付けるための音声入力部および音声認識部と、ジェスチャー入力(視線入力)を受け付けるための第1撮影部(第2撮影部)およびジェスチャー検出部(視線検出部)と、音声入力の受け付けが困難であることを示す切替条件が満たされたか否かを判定する判定部と、判定部により切替条件が満たされたと判定されたことに基づいて、音声入力を受け付ける音声入力モードからジェスチャー入力(視線入力)を受け付けるジェスチャー入力モード(視線入力モード)へ入力モードを切り替える切替制御部とを備えることが記載されている。
【0004】
特許文献2(特開2002-245354号公報)は、ホームページ閲覧者とのリアルタイムの問合せ対応が可能で、フォームへの入力をオペレータが代替可能なサポートコールセンターシステムの提供をする。インターネットを介してクライアントから商品等の問合せを受けたり、アフターサービスやクレーム処理を行ったりするために、これら処理を行うオペレータの端末を備えると共に、クライアントの端末にインターネットを介して接続可能とされたサポートコールセンターシステムである。商品案内等の画面を表示されたクライアント端末からの指示に基づき、クライアント端末とオペレータ端末とを双方向通信可能に接続し、クライアントとオペレータとの間で、音声、チャット又は画像等を交えたほぼリアルタイムのコミュニケーションを可能とする手段を備えることが記載されている。
【0005】
さらに、特許文献3(特許第7108802号公報)は、商品やサービスの購入など、利用者が毎日行うような決済行動に基づいて適切な保険を提案することを解決するものであり、利用者の決済行動に基づいて適切な保険を提案することが開示されている。そして、電子決済に用いられるアプリケーションプログラム(以下、「電子決済アプリ」という)を利用した電子決済サービスと協働して利用者に保険を提案する装置である。
【0006】
このアプリは、実現するための保険提案システムは、端末装置、複数の店舗端末、決済サーバ、保険提案サーバ、および保険受付サーバ等を通信ネットワークで接続して構成し、「決済方法1」では、端末装置が店舗に設置されたQRコード(登録商標)などのコード画像にエンコードされた店舗ID(識別情報、以下同様)などの情報を電子決済アプリの機能によって端末装置が読み取り、利用者が端末装置に料金を入力して店舗側の確認を経た上で確定操作することで、店舗ID、利用者ID、料金、日時などの情報が決済装置にアップロードされる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2014-085954号公報
【特許文献2】特開2002-245354号公報
【特許文献3】特許第7108802号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、スマートフォンを用いてテキスト、数字等を入力する場合、所定の入力フォームに氏名、年齢等を手で入力しないといけない。
【0009】
このため、入力誤りが発生しやすいし、かつ入力が手間である。特に保険契約、見積の段階での入力誤りは、保険代理店側では非常に問題である。
【0010】
特に、お問い合わせフォーム、あるいは、ユーザ情報をWEB上で入力する際に、年齢的にキーボード操作が苦手なユーザに対して、弊害が大きい。
【0011】
本願の発明は、以上の課題を解決するためになされたものであり、WEBの入力ページ等での個人情報等の入力に誤りが発生しないようにすることができる、音声入力システムを得ることを目的とする。
【課題を解決するための手段】
【0012】
本発明は上述の課題に鑑みてなされたものであり、請求項1に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、前記携帯端末は、テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部と、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部と、変換されたテキスト情報を前記携帯端末で受信する受信部とを有する音声入力システムである。
【0013】
請求項2に係る発明は、音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えてもよい。
【0014】
請求項3に係る発明は、前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるのケアする処理を行ってもよい。
【0015】
請求項4に係る発明は、前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信してもよい。
【0016】
請求項5に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、コンピュータを、前記携帯端末、テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部、押下することで音声入力を受け付ける音声入力要求部、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部、変換されたテキスト情報を前記携帯端末で受信する受信部、として機能させる音声入力プログラムである。
【発明の効果】
【0017】
携帯端末を用いてテキスト入力する場合、所定の入力フォームに氏名、年齢等を音声を使用した簡単な操作で自動で入力可能である。
【0018】
このため、入力誤りが発生せず、かつ入力の手間も省ける。例えば、保険契約、見積の段階での入力誤りを解消できる。
【図面の簡単な説明】
【0019】
図面は、本発明の特定の実施の形態を示し、発明の不可欠な構成ばかりでなく、選択的及び好ましい実施の形態を含む。
図1】本実施の形態の音声入力システムの概略構成図。
図2】本実施の形態の仕組みを説明する流れ図。
図3】本実施の形態の動作を説明するシーケンス図。
図4】本実施の形態の動作を説明するシーケンス図。
図5】本実施の形態の動作を説明するシーケンス図。
図6】音声入力画面を説明する説明図。
図7】音声入力画面を説明する説明図。
図8】音声入力画面を説明する説明図。
図9】音声入力画面を説明する説明図。
図10】音声入力障害発生画面を説明する説明図。
【発明を実施するための形態】
【0020】
以下、本実施の形態について図面を参照して説明する。
【0021】
以下に示す実施の形態は、発明の技術的思想を具体化するための装置や方法を例示したものであって、本発明の技術的思想は、下記のものに特定されるものではない。本発明の技術的思想は、特許請求の範囲に記載された事項の範囲内において、種々の変更を加えることができる。特に、図面は模式的なものであり、現実のものとは異なることに留意すべきである。既に公知の技術である部分は説明を省略している。
【0022】
〔第1実施形態〕
本実施の形態では、例えば保険の契約として説明する。なお、その他の音声入力システムに応用できることは勿論である。
【0023】
図1は本実施の形態の音声入力システム1の概略構成図である。この音声入力システム1は、ユーザの携帯端末(スマートフォン等)10と、Webサイト(例えば、保険契約サイト等)のサーバ50と、音声認識サービスサイトのサーバ70(例えば、商品名:オラリス等)とを通信ネットワーク(例えば、インターネット)30で接続して各種契約を音声認識で行うことを可能とする。ユーザの携帯端末(スマートフォン等)10と、Webサイト(例えば、保険契約サイト等)のサーバ50と、音声認識サービスサイトのサーバ70(例えば、商品名:オラリス等)とはコンピュータよりなるもので、何れも不図示のCPU(Central Processing Unit)と、CPU上で動作する制御プログラム等を格納したROM(Read only Memory)と、各種データを一時的に格納するためのRAM(Random Memory)を備えて構成されている。
【0024】
携帯端末(例えば、スマートフォン)10は、音声入力サービス部20である専用のアプリケーションソフトがダウンロードされている。
【0025】
この専用のアプリケーションソフトは、テキストを入力する画面をWebサイト(例えば、保険契約サイト)のサーバ50から受信し、表示部10aに表示する画面生成部22と、押下(画面をタップ)することで音声入力を受け付ける音声入力要求部24と、音声入力要求部24を押下するタイミングで音声認識サービスサイトのサーバ70を起動させる音声テキスト化要求部26と、変換されたテキスト情報を携帯端末10で受信する受信部29とを有する。
【0026】
前述の携帯端末10には、音声入力サービス部20が、専用アプリ提供サイト(不図示)からダウンロードされる。あるいは、販売企業例えばWebサイトのサーバ50からダウンロードされてもよい。このダウンロードにはQRコード(登録商標)を用いるのが好ましい。
【0027】
すなわち、QRコード(登録商標)には、専用アプリ提供サイトあるいはWebサイトのサーバ50のアドレス情報が含まれていて、QRコード(登録商標)を携帯端末10に備えられた撮像カメラにより撮像することにより、専用アプリ提供サイトあるいは、Webサイトのサーバ50に自動でアクセスすることが出来るように構成されている。そして、音声入力サービス部20としてのアプリをダウンロードする。
【0028】
音声入力サービス部20は、画面生成部(例えば、保険見積画面等)22と、音声入力要求部24と、音声テキスト化要求部26と発声ガイド部28と受信部29等よりなる。画面生成部22は、携帯端末10の表示部10aに、例えば、保険見積画面等を表示する処理を行う。音声テキスト化要求部26は、ユーザの指示を受けて、音声認識サービスサイトのサーバ70にアクセスし、日本語音声認識処理部を実行可能状態にさせる。音声ガイド部28は、音声のイントネーション、速さ及び大きさを解析して、ユーザに適正な音声をすることを指示する。受信部29は、音声が変換されたテキスト情報を受信する。
【0029】
発声ガイド部28は詳しくは、音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、ユーザに発声状態にアドバイスする発声ガイド部28を備えてもよい。
【0030】
この発声ガイド部28は、生年月日等の数字入力に特化するような項目である。音声入力の解読レベルを考慮して、例えば、「2020年」を入力して、エラーとならないように、二・千・二十を発生させて、エラーとなったかどうかでユーザに発声状態をアドバイスするような処理を行う。すなわち、音声をテキストに変換できない場合に発声のイントネーション等を携帯端末のスピーカから発声し、ユーザは、このイントネーションに従い「2020年」を発声することになる。
【0031】
発声ガイド部28は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は小さすぎるのケアする処理を行ってもよい。すなわち、音声をテキストに変換できない場合に発声のスピードが速すぎる、あるいは発声の音声の大きさが小さすぎる等を携帯端末のスピーカから発声し、ユーザは、この指示に従い「2020年」を発声することになる。
【0032】
図2に本願のシステムの仕組みの概念を説明する。携帯端末10を用いて会員登録した後で、介護保険の見積画面を表示する(S1)。この画面には音声でテキストを入力するためのマイクボタンを要求するコメントが表示されている。
【0033】
そして、このマイクボタン要求の選択でジャバスクリプト(JaVaScript)からQRシステムにアクセスして、トークインを取得する(S2)。
【0034】
そして、携帯端末10の音声入力サービス部20のブラウザと音声認識サービスサイトのサーバ70(例えば、ソフト商品名:オラリス)間でAPI(Application Programming Interface)連携を行う。そしてwebSocketを張る。これは、前述のトークインを用いる(S3)。
【0035】
次にWebSokcetを通して音声認識サービスサイトのサーバ70に音声ストリームを送る(S4)。
【0036】
音声認識サービスサイトのサーバ70から解析結果(テキスト)が携帯端末10の音声入力サービス部20に連続してプッシュ方式で返ってくる(S5)。
【0037】
そして、フォームに生年月日等のテキストをセットする(S6)。ここで、画面に複数のフォームがある場合には、音声入力ボタンが各フォームに対応づけられているので、どのフォームにテキストを入力すれば良いのかは特定される。
【0038】
図3図4及び図5のシーケンスを用いて詳細に説明する。ここで、ユーザの携帯端末であるユーザ端末10には、音声入力サービス部20がアプリとしてインストールされている。
【0039】
Webサイトのサーバ50を操作して音声認識サービスサイトのサーバ70と契約を行う(d1)。ここでの契約は、Webサイト側の音声認識サービスサイト側の日本語音声認識ソフトの使用に関する契約である。この契約が成立すれば、ユーザがいつでも、日本語音声認識ソフトを自動で立ち上げて自己の携帯端末10の生年月日等の入力欄へ変換されたテキストを入力することが可能となる。
【0040】
本実施の形態ではユーザの所持する携帯端末10をユーザ端末10として説明する。ユーザはユーザ端末10を操作してWebサイトのサーバ50のQRコード(登録商標)を用いてWebサイトのサーバ50と回線を結び、会員登録(ID、パスワード、メールアドレス、電話番号、年月日時刻等)を行う(d3)。
【0041】
ユーザ情報はWebサイト(例えば、保険契約サイト)のサーバ50の記憶部に記憶される(d5)。このユーザ情報はユーザ端末10より自動で収集するように構成されている。
【0042】
ユーザ端末10は、ID、パスワードを取得しユーザ端末の記憶部に記憶する(d7、d9)。
【0043】
そして、ユーザ端末10の音声入力サービス部20の押下(タップ)に伴って、音声入力サービス部20の画面生成部(例えば、保険見積画面の生成)22は、保険見積画面生成処理を行う(d12)。
【0044】
この見積フォームをブラウザに出力して(d15)、表示部10aに表示(保険画面見積画面生成部22が行う)させる(d17)。この画面は図6に示している。マイクで音声入力ができることをメッセージ表示している。
【0045】
そして、このマイクアイコンがタッチされた場合は、図4に示すように、音声入力受付判定処理が起動する(d20)。この起動に伴って表示部10aには図7に示すように、マイクを使用する許可をするかどうかの判定(許可しない、許可)のメッセージ画面が表示されている。
【0046】
許可した場合は、音声入力要求部24が音声入力要求情報(IDコード、パスワード、年月日時刻を含む)を音声認識サービスサイトのサーバ70に送信する(d24、d26)。
【0047】
そして、音声入力要求部24は、音声入力発行依頼情報(端末番号、アプリ名、アカウント、年月日時刻を含む)を生成して音声認識サービスサイトのサーバ70に送信する(d28、d30)。
【0048】
音声認識サービスサイトのサーバ70は、音声入力発行依頼情報(端末番号、アプリ名、アカウント、年月日時刻)に含まれているアカウントが記憶されている場合は、音声入力許可情報を生成して音声入力サービス部20へ送信する(d32)。
【0049】
次に、音声入力要求部24は、音声入力発行依頼情報を受信したかどうかを判定する(d34)。
【0050】
受信できない場合は画面に不可を表示する(d38)。また、音声入力を受信した場合は、許可を表示し(d42)、マイクアイコン(図8参照)を表示する(d44)。
【0051】
そして、音声テキスト化要求部26が図5に示すように、マイクからの音声を読み込み(d50)、音声認識サービスサイトのサーバ70に送信(例えば、パケット通信)する(d52)。
音声認識サービスサイトのサーバは70、音声データを認識し、これをテキストデータに変換して(d54)、音声入力サービス部20に送信する(d56)。
【0052】
そして、これを見積フォーム処理にセット(図9参照)する(d58)。
【0053】
音声入力サービス部20は、これをブラウザに出力して(d60)、表示部10aに表示(図9参照)する(d62)。
【0054】
そして、同一画面で次のマイクデータの入力があるか否かを判定する(d72)。
【0055】
同一画面で次のマイクデータの入力のある場合は、処理をd50に戻す(d74)。
【0056】
マイクデータの入力がない場合は、終了かどうかを判定する(d76)。終了でない場合は新規画面への入力処理を開始し(d78)、終了の場合は音声入力サービス部20との接続を切断し(d82a)、保険契約サイトのサーバ50と、音声認識サービスサイトのサーバ70との回線を切断する(d82b、d82c)。
【0057】
〔第2実施形態〕
上記実施形態では、ユーザ端末10による音声入力操作の際、ユーザ端末10と音声入力サービス部20との通信環境が安定している場合を想定しているが、通信トラフィックの変動する場合には、安定して音声入力操作が実行できなくなる。そこで、図4に示した(d20)の音声入力受付判定処理を起動する際、バックグラウンド処理として、以下の処理ST1~ST4を組み入れるように制御してもよい。
ST1:ウェブ申込フォーム第1画面読み込み後、ダミー通信を1回行う。ただし、デバイスの通信環境を確認する処理に代えてもよい。
ST2:ユーザ利用環境として安定した通信が可能な場合は、API音声テキスト変換用のウェブ申込フォームを表示する。
【0058】
ST3:接続不安定もしくは接続不能(NG)の場合は、AIテキスト変換ガイドおよびボタンを表示する。
ST4:通信可能と判断した後に、接続不安定もしくは何らかの通信障害、エラー発生時は、図10に示す画面をユーザ端末10に提示して、ウェブ申込フォームのレイアウトから独立して入力し易いキーボード入力画面を項目ごとに表示する。
【0059】
これにより、ウェブ申込フォームの音声入力処理操作中に通信障害が発生しても、ウェブ接続を切断したり、更新したりする操作でユーザ端末10のユーザが混乱することを回避しつつ、受付中のウェブ申込フォームに対する入力を継続させることができる。
【0060】
図10は、音声入力障害発生画面を説明する説明図である。
図10に示すように、ウェブ申込フォームの音声入力処理操作中に通信障害が発生した場合は、生年月日入力画面において、ユーザによるキーボード入力を受け付け、該受け付けた生年月日の情報を操作中のウェブ申込フォームに反映させることで、音声入力障害発生時にも柔軟な対応をユーザに提示できる。
上記本発明は、少なくとも下記の実施の形態を含むことができる。
【0061】
(1)ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、前記携帯端末は、テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部と、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部と、変換されたテキスト情報を前記携帯端末で受信する受信部とを有することを特徴とする。
【0062】
(2)音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えたことを特徴とする。
【0063】
(3)前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるのケアする処理を行うことを特徴とする。
【0064】
(4)前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信することを特徴とする。
【0065】
(5)ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するWebサイトのサーバとを通信ネットワークで接続した音声入力システムであって、コンピュータを、前記携帯端末、テキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部、押下することで音声入力を受け付ける音声入力要求部、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部、変換されたテキスト情報を前記携帯端末で受信する受信部、として機能させることを特徴とする。
【産業上の利用可能性】
【0066】
本発明の音声入力システム1は、Webサイトへの生年月日等の音声入力に利用することが可能である。
【符号の説明】
【0067】
1 音声入力システム
10 携帯端末(ユーザ端末)
20 音声入力サービス部
22 画面生成部
24 音声入力要求部
26 音声テキスト化要求部
28 発声ガイド部
29 受信部
30 通信ネットワーク
50 Webサイトのサーバ
70 音声認識サービスサイトのサーバ

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2023-04-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第1のサーバと、前記第1のサーバから前記テキスト情報を受信するWebサイトの第2のサーバとを通信ネットワークで接続した音声入力システムであって、
前記携帯端末は、
音声情報を入力するマイクと、
前記第2のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を表示部に表示する画面生成部と、
前記画面を押下することで音声入力を受け付ける音声入力要求部と、
前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を前記表示部に表示し、該第1の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第1のサーバを起動させる音声テキスト化要求部と、
前記マイクを通して入力された音声情報に対して前記第1のサーバから変換されたテキスト情報を受信する受信部と、を有し、
前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を生成し、かつ、前記受信部が前記第1のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第2の確認画面を生成し、前記第2の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了すること特徴とする音声入力システム。
【請求項2】
音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えたことを特徴とする請求項1に記載の音声入力システム。
【請求項3】
前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるをケアする処理を行うことを特徴とする請求項2に記載の音声入力システム。
【請求項4】
前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信することを特徴とする請求項1に記載の音声入力システム。
【請求項5】
ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第1のサーバと、前記テキスト情報を受信するWebサイトの第2のサーバとを通信ネットワークで接続した音声入力システムであって、
コンピュータを、
音声情報を入力するマイクを備える前記携帯端末、
前記第2のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部、
前記画面を押下することで音声入力を受け付ける音声入力要求部と、
前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を前記表示部に表示し、該第1の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第1のサーバを起動させる音声テキスト化要求部、
前記マイクを通して入力された音声情報に対して前記第1のサーバから変換されたテキスト情報を受信する受信部として機能させ、かつ、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を生成し、かつ、前記受信部が前記第1のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第2の確認画面を生成し、前記第2の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了させることを特徴とする音声入力プログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正の内容】
【0012】
本発明は上述の課題に鑑みてなされたものであり、請求項1に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第1のサーバと、前記第1のサーバから前記テキスト情報を受信するWebサイトの第2のサーバとを通信ネットワークで接続した音声入力システムであって、前記携帯端末は、音声情報を入力するマイクと、前記第2のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を表示部に表示する画面生成部と、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を前記表示部に表示し、該第1の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第1のサーバを起動させる音声テキスト化要求部と、前記マイクを通して入力された音声情報に対して前記第1のサーバから変換されたテキスト情報を受信する受信部と、を有し、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を生成し、かつ、前記受信部が前記第1のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第2の確認画面を生成し、前記第2の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了すること特徴とする。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
請求項5に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第1のサーバと、前記テキスト情報を受信するWebサイトの第2のサーバとを通信ネットワークで接続した音声入力システムであって、コンピュータを、音声情報を入力するマイクを備える前記携帯端末、前記第2のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を前記Webサイトのサーバから受信し表示部に表示する画面生成部、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を前記表示部に表示し、該第1の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第1のサーバを起動させる音声テキスト化要求部、前記マイクを通して入力された音声情報に対して前記第1のサーバから変換されたテキスト情報を受信する受信部として機能させ、かつ、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第1の確認画面を生成し、かつ、前記受信部が前記第1のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第2の確認画面を生成し、前記第2の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了させることを特徴とする。