IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7468003音声処理装置、音声処理システム、音声処理方法およびプログラム
<>
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図1
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図2
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図3
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図4
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図5
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図6
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図7
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図8
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図9
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図10
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図11
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図12
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図13
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図14
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図15
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図16
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図17
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図18
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図19
  • 特許-音声処理装置、音声処理システム、音声処理方法およびプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】音声処理装置、音声処理システム、音声処理方法およびプログラム
(51)【国際特許分類】
   G10L 15/30 20130101AFI20240409BHJP
   G10L 15/00 20130101ALI20240409BHJP
   G10L 15/10 20060101ALI20240409BHJP
   G06F 3/16 20060101ALI20240409BHJP
【FI】
G10L15/30
G10L15/00 200Z
G10L15/10 200W
G06F3/16 650
G10L15/10 500T
【請求項の数】 10
(21)【出願番号】P 2020041413
(22)【出願日】2020-03-10
(65)【公開番号】P2021144099
(43)【公開日】2021-09-24
【審査請求日】2023-01-16
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】柳浦 豊
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2019-099960(JP,A)
【文献】特開2018-055274(JP,A)
【文献】特開2018-055022(JP,A)
【文献】"人工知能はネット販売に貢献するのか? EC運営の “AI活用” 最前線 事例(1) 音声認識 “声” による採寸で作業時間を短縮へ",月刊ネット販売,2018年02月25日,Vol.19, No.3,pp.24-25
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
測定されたデータを音声入力する音声処理装置であって、
前記データを音声入力するための第1音声コマンドの音声データを取得する第1取得部と、
前記第1取得部により前記音声データが取得された場合に、表示装置において複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する第1特定部と、
前記測定対象と、前記第1音声コマンドの解釈方法を規定した規定情報に関する情報とを関連付けた関連付け情報を参照し、前記第1特定部により特定された前記測定対象に対応する前記規定情報に関する情報を特定する規定情報特定部と、
前記音声データ、前記規定情報特定部により特定された前記規定情報に関する情報と共に声認識サービスへ送信する送信部と、
前記音声認識サービスによる前記音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得する第2取得部と、
前記第2取得部により取得された前記認識結果から、前記データの入力対象となる入力項目を特定する第2特定部と、
前記第2特定部により特定された前記入力項目の入力領域に、前記認識結果に含まれる音声認識された前記データを入力するデータ入力部と、
を備えた音声処理装置。
【請求項2】
前記送信部は、前記規定情報に関する情報として、該規定情報の保存先を示す情報を前記音声認識サービスへ送信し、
前記第2取得部は、前記音声認識サービスによって前記保存先から取得された前記規定情報を用いた前記音声認識処理の前記認識結果を取得する請求項1に記載の音声処理装置。
【請求項3】
前記送信部は、前記規定情報に関する情報として、前記第1特定部により特定された前記測定対象に対応する該規定情報そのものを前記音声認識サービスへ送信し、
前記第2取得部は、前記音声認識サービスによって前記規定情報を用いた音声認識処理の認識結果を取得する請求項1に記載の音声処理装置。
【請求項4】
前記各測定対象に対応する規定情報を外部装置から予め取得する第3取得部を、さらに備え、
前記送信部は、前記第3取得部により取得された前記規定情報のうち、前記第1特定部により特定された前記測定対象に対応する前記規定情報を、前記音声認識サービスへ送信する請求項3に記載の音声処理装置。
【請求項5】
前記第1取得部は、前記表示装置で表示されている前記測定対象の前記入力項目のうち音声入力の対象となる前記入力項目を示すキーワードと、該入力項目の入力領域に音声入力するための数値とを示す前記第1音声コマンドの前記音声データを取得し、
前記第2取得部は、前記音声認識サービスによって、前記音声データに対する前記音声認識処理の結果、前記データの入力対象となる入力項目を識別する識別情報と、音声認識された数値と、を含むものとして生成された前記認識結果を取得し、
前記第2特定部は、前記第2取得部により取得された前記認識結果に含まれる前記識別情報により前記データの入力対象となる入力項目を特定する請求項1~4のいずれか一項に記載の音声処理装置。
【請求項6】
前記第1特定部は、前記表示装置に表示された画面上で選択されたタブ、該表示装置に表示されている画面、または、該表示装置に表示されている入力項目のスクロール位置に応じて、前記複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する請求項1~5のいずれか一項に記載の音声処理装置。
【請求項7】
前記各測定対象に対応する前記規定情報は、該各測定対象とは異なる測定対象の入力項目の表示に切り替えるための第2音声コマンドの解釈方法を、さらに規定し、
前記第1取得部は、前記第2音声コマンドの音声データを取得し、
前記送信部は、前記第2音声コマンドの音声データと、前記第1特定部により特定された前記測定対象に対応する前記規定情報に関する情報と、を音声認識サービスへ送信し、
前記第2取得部は、前記音声認識サービスによる前記第2音声コマンドの音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得し、
該認識結果が示す前記異なる測定対象の入力項目の表示に切り替える表示制御部を、さらに備えた請求項1~6のいずれか一項に記載の音声処理装置。
【請求項8】
測定されたデータを音声入力する音声処理システムであって、
前記データを音声入力するための音声コマンドの音声データを取得する第1取得部と、
前記第1取得部により前記音声データが取得された場合に、表示装置において複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する第1特定部と、
前記測定対象と、前記音声コマンドの解釈方法を規定した規定情報に関する情報とを関連付けた関連付け情報を参照し、前記第1特定部により特定された前記測定対象に対応する前記規定情報に関する情報を特定する規定情報特定部と、
前記音声データ、前記規定情報特定部により特定された前記規定情報に関する情報と共に声認識サービスへ送信する送信部と、
前記音声認識サービスによる前記音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得する第2取得部と、
前記第2取得部により取得された前記認識結果から、前記データの入力対象となる入力項目を特定する第2特定部と、
前記第2特定部により特定された前記入力項目の入力領域に、前記認識結果に含まれる音声認識された前記データを入力するデータ入力部と、
を備えた音声処理システム。
【請求項9】
測定されたデータを音声入力する音声処理方法であって、
前記データを音声入力するための音声コマンドの音声データを取得する第1取得ステップと、
前記第1取得ステップで前記音声データが取得された場合に、表示装置において複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する第1特定ステップと、
前記測定対象と、前記音声コマンドの解釈方法を規定した規定情報に関する情報とを関連付けた関連付け情報を参照し、前記第1特定ステップで特定された前記測定対象に対応する前記規定情報に関する情報を特定する規定情報特定ステップと、
前記音声データ前記規定情報特定ステップで特定された前記規定情報に関する情報と共に声認識サービスへ送信する送信ステップと、
前記音声認識サービスによる前記音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得する第2取得ステップと、
取得した前記認識結果から、前記データの入力対象となる入力項目を特定する第2特定ステップと、
特定した前記入力項目の入力領域に、前記認識結果に含まれる音声認識された前記データを入力するデータ入力ステップと、
を有する音声処理方法。
【請求項10】
コンピュータに、
測定されたデータを音声入力するための音声コマンドの音声データを取得する第1取得ステップと、
前記第1取得ステップで前記音声データが取得された場合に、表示装置において複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する第1特定ステップと、
前記測定対象と、前記音声コマンドの解釈方法を規定した規定情報に関する情報とを関連付けた関連付け情報を参照し、前記第1特定ステップで特定された前記測定対象に対応する前記規定情報に関する情報を特定する規定情報特定ステップと、
前記音声データ前記規定情報特定ステップで特定された前記規定情報に関する情報と共に声認識サービスへ送信する送信ステップと、
前記音声認識サービスによる前記音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得する第2取得ステップと、
取得した前記認識結果から、前記データの入力対象となる入力項目を特定する第2特定ステップと、
特定した前記入力項目の入力領域に、前記認識結果に含まれる音声認識された前記データを入力するデータ入力ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理システム、音声処理方法およびプログラムに関する。
【背景技術】
【0002】
作業者が特定の対象物に対する測定により得たデータを、帳票または情報処理装置等に入力するデータ入力処理が各分野で行われている。例えば、近年ではセミオーダー等でスーツまたはシャツ等を採寸し、自分の体型に合ったものを購入するということが一般的になっており、熟練の技を持つ職人が採寸を行い、ブランド価値を生み出している。この場合、採寸作業者は、採寸作業を行いながら、自分で採寸値を帳票に記載することが大変な作業となるため、現状では、他の作業者が採寸値を帳票に記載する方法を採っており、例えば、お客様1名に対して販売者2~3名で対応しているため、予約が集中する週末等に対応できる顧客数が限られてしまう。したがって、これをより少ない人数で対応できるようにすることで、同時に多くの接客をできるようにしたいという要望がある。
【0003】
最近では、このような測定(採寸)した値を帳票等に手書きで記載する代わりに、音声認識技術を用い、採寸値を音声入力によりタブレット端末等の情報処理装置に入力する、ということが行われる。
【0004】
このような、音声認識技術を利用したデータ入力システムとして、入力された音声データに、認識キーワードデータベースに記憶したキーワードが認識された場合、認識イベント判定手段は、キーワードに対応するイベント(動作)を選択し、帳票画面変更手段はそのイベントに従って帳票画面の変更あるいは入力欄選択の変更を指示し、帳票表示手段は、オペレータ端末の画面を更新表示させ、言語モデル選択手段は、帳票メタ情報言語モデル対応データベースを参照して変更した帳票画面の入力に必要な言語モデルを選択し、選択された言語モデルを用いて帳票に入力されたデータは、帳票データベースに記憶される、という技術が開示されている(例えば特許文献1)。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、採寸業務において入力が必要な項目は多数かつ多種類あるため、入力する項目の名称が重複する場合がある。例えば、スーツの上着とベストとではどちらも「着丈」という項目を登録するが、上着とベストとでは適切な値が異なる。このため、従来のデータ入力システムでは、採寸業務における音声入力において、重複する項目については、発話のための音声コマンドを長くする(例えば「上着の着丈」等)といった方法で識別する必要があるが、この方法では長い音声コマンドを覚える必要があり、発話時間が長くなって煩わしいという問題がある。また、特許文献1に記載された技術は、認識した音声キーワードに基づいて、画面や言語モデルを切り替えるものであり、画面と連動して音声認識するキーワード群(音声コマンド群)を切り替える仕組みがないため、依然として上記の問題を有する。当該問題は、採寸作業の場面に限らず、作業者が特定の対象物に対する測定により得たデータを、音声入力で情報処理装置等に入力するいずれの場面においても起き得る。
【0006】
本発明は、上記に鑑みてなされたものであり、異なる測定対象において入力項目が重複する場合においても、音声コマンドが長くなることを抑制し、作業者にとって使いやすい音声コマンドとすることができる音声処理装置、音声処理システム、音声処理方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本発明は、測定されたデータを音声入力する音声処理装置であって、前記データを音声入力するための第1音声コマンドの音声データを取得する第1取得部と、前記第1取得部により前記音声データが取得された場合に、表示装置において複数の測定対象のうちどの測定対象の入力項目が表示されているかを特定する第1特定部と、前記測定対象と、前記第1音声コマンドの解釈方法を規定した規定情報に関する情報とを関連付けた関連付け情報を参照し、前記第1特定部により特定された前記測定対象に対応する前記規定情報に関する情報を特定する規定情報特定部と、前記音声データ、前記規定情報特定部により特定された前記規定情報に関する情報と共に声認識サービスへ送信する送信部と、前記音声認識サービスによる前記音声データに対する前記規定情報を用いた音声認識処理の認識結果を取得する第2取得部と、前記第2取得部により取得された前記認識結果から、前記データの入力対象となる入力項目を特定する第2特定部と、前記第2特定部により特定された前記入力項目の入力領域に、前記認識結果に含まれる音声認識された前記データを入力するデータ入力部と、を備えたことを特徴とする。
【発明の効果】
【0008】
本発明によれば、異なる測定対象において入力項目が重複する場合においても、音声コマンドが長くなることを抑制し、作業者にとって使いやすい音声コマンドとすることができる。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る音声処理システムの全体構成の一例を示す図である。
図2図2は、実施形態に係るユーザ端末のハードウェア構成の一例を示す図である。
図3図3は、実施形態に係る業務サービスのハードウェア構成の一例を示す図である。
図4図4は、実施形態に係る音声処理システムの機能ブロック構成の一例を示す図である。
図5図5は、採寸対象を説明する図である。
図6図6は、音声コマンドの構成を説明する図である。
図7図7は、採寸アプリのアプリ画面の一例を示す図である。
図8図8は、ルール情報URLテーブルの一例を示す図である。
図9図9は、ルール情報テーブルの一例を示す図である。
図10図10は、音声コマンドから音声認識の認識結果が生成される動作を説明する図である。
図11図11は、予約情報テーブルの一例を示す図である。
図12図12は、実施形態に係る音声処理システムの初期処理の流れの一例を示すシーケンス図である。
図13図13は、グループID入力画面の一例を示す図である。
図14図14は、実施形態に係る音声処理システムの音声入力処理の流れの一例を示すシーケンス図である。
図15図15は、実施形態に係る音声処理システムのデータの流れを説明する図である。
図16図16は、実施液体に係るユーザ端末の項目入力・表示調整処理の流れの一例を示すフローチャートである。
図17図17は、項目入力・表示調整処理により数値が入力された項目が移動する動作を説明する図である。
図18図18は、音声コマンドにより寸法補正値を入力する場合の動作を説明する図である。
図19図19は、音声コマンドによりタブを切り替えて寸法値を入力した場合の動作を説明する図である。
図20図20は、変形例に係る音声処理システムのデータの流れを説明する図である。
【発明を実施するための形態】
【0010】
以下、添付図面を参照しながら、本発明に係る音声処理装置、音声処理システム、音声処理方法およびプログラムを詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
【0011】
また、コンピュータソフトウェアとは、コンピュータの動作に関するプログラム、その他コンピュータによる処理の用に供する情報であってプログラムに準ずるものをいう(以下、コンピュータソフトウェアは、ソフトウェアという)。アプリケーションソフトとは、ソフトウェアの分類のうち、特定の作業を行うために使用されるソフトウェアの総称である。一方、オペレーティングシステム(OS)とは、コンピュータを制御し、アプリケーションソフト等がコンピュータ資源を利用可能にするためのソフトウェアのことである。オペレーティングシステムは、入出力の制御、メモリやハードディスクなどのハードウェアの管理、プロセスの管理といった、コンピュータの基本的な管理・制御を行っている。アプリケーションソフトウェアは、オペレーティングシステムが提供する機能を利用して動作する。以下、アプリケーションソフトウェア(アプリケーション)を、単に「アプリ」と称する場合がある。プログラムとは、コンピュータに対する指令であって、一の結果を得ることができるように組み合わせたものをいう。また、プログラムに準ずるものとは、コンピュータに対する直接の指令ではないためプログラムとは呼べないが、コンピュータの処理を規定するという点でプログラムに類似する性質を有するものをいう。例えば、データ構造(データ要素間の相互関係で表される、データの有する論理的構造)がプログラムに準ずるものに該当する。
【0012】
なお、本実施形態に係る音声処理システムは、作業者が特定の対象物に対する測定により得たデータを、情報処理装置等に音声入力する処理について広く適用できるものであるが、以下の実施形態では、服(スーツ、ズボン、ベスト、シャツ等)に対して採寸(測定の一例)した値を音声入力する場合を例にして説明する。
【0013】
(音声処理システムの全体構成)
図1は、実施形態に係る音声処理システムの全体構成の一例を示す図である。図1を参照しながら、本実施形態に係る音声処理システム1の全体構成について説明する。
【0014】
図1に示す音声処理システム1は、作業者からの音声コマンドに対する音声認識により、服について採寸した値をユーザ端末10に対して音声入力するシステムである。図1に示すように、音声処理システム1は、ユーザ端末10と、音声端末20と、業務サービス30と、通話サービス40と、音声認識サービス50と、情報管理サービス60と、を含む。
【0015】
ユーザ端末10は、音声端末20に入力された音声コマンドを音声データについて、音声認識サービス50により音声認識が行われた認識結果に基づき、音声入力されたデータとしての採寸値を表示させる情報処理装置(音声処理装置の一例)である。ユーザ端末10は、図1に示すように、通話アプリ11と、ブラウザ12と、がインストールされている。なお、ユーザ端末10は、PC(Personal Computer)、ノートPC、スマートフォンまたはタブレット端末等の情報処理装置であるが、本実施形態ではタブレット端末であるものとして説明する。
【0016】
通話アプリ11は、通話サービス40と連携してユーザ端末10を含む情報端末同士の通話を実現するためのアプリケーションである。ブラウザ12は、後述する業務サービス30のWebサーバ31からWebコンテンツ(Webページ、Webアプリ13等)を受信して解釈し、各種処理および表示処理を行うソフトウェアである。Webアプリ13は、Webサーバ31からブラウザ12へ提供されるWebコンテンツとしてのWebアプリであり、ユーザ端末10で実行するためのJavaScript(登録商標)等で作成されたスクリプトを含む。
【0017】
音声端末20は、作業者の音声を入力し、当該音声を音声データとしてユーザ端末10へ無線送信することができるヒアラブルデバイスである。
【0018】
業務サービス30は、音声端末20から入力された音声データであって通話サービス40を介した当該音声データを、ユーザ端末10へ中継するサービス(例えばクラウドサービス)である。また、業務サービス30は、音声端末20から入力された音声コマンドを解釈するためのルール情報を記憶している。なお、業務サービス30は、1または複数のサーバ装置等で実現されるものであるが、本実施形態では、1のサーバ装置で実現されるものとして説明する。通話サービス40、音声認識サービス50および情報管理サービス60についても同様である。
【0019】
通話サービス40は、ユーザ端末10にインストールされている通話アプリ11と連携してユーザ端末10を含む情報端末同士の通話を実現するサービス(例えばクラウドサービス)である。また、通話サービス40は、複数の情報端末同士の通話をグループ単位で実現するためのグループIDを管理している。
【0020】
音声認識サービス50は、入力した音声データに対して音声認識処理を実行してテキスト化等を行うサービス(例えばクラウドサービス)である。特に本実施形態では、音声認識サービス50は、入力した音声データである音声コマンドを、業務サービス30から取得したルール情報を用いて、キーワードを識別して、キーワードに続く部分から数値を抽出してテキスト化し、当該キーワードを識別する識別情報と、テキスト化された数値とを認識結果として出力する。
【0021】
情報管理サービス60は、採寸の対象となる顧客の情報、および音声入力された採寸値等を含む予約情報を管理するサービス(例えばクラウドサービス)である。
【0022】
なお、音声処理システム1は、ユーザ端末10、音声端末20、業務サービス30、通話サービス40、音声認識サービス50および情報管理サービス60をすべて含むことに限られず、音声入力処理の中核的な処理を担う部分(例えばユーザ端末10および業務サービス30)等を含むシステムであると捉えることも可能である。
【0023】
(ユーザ端末のハードウェア構成)
図2は、実施形態に係るユーザ端末のハードウェア構成の一例を示す図である。図2を参照しながら、本実施形態に係るユーザ端末10のハードウェア構成について説明する。
【0024】
図2に示すように、ユーザ端末10は、CPU(Central Processing Unit)801と、ROM(Read Only Memory)802と、RAM(Random Access Memory)803と、EEPROM(Electrically Erasable Programmable ROM)804と、を備える。
【0025】
CPU801は、ユーザ端末10全体の動作を制御する演算装置である。ROM802は、CPU801およびIPL(Initial Program Loader)等のCPU801の駆動に用いられるプログラムを記憶する不揮発性記憶装置である。RAM803は、CPU801のワークエリアとして使用される揮発性記憶装置である。EEPROM804は、CPU801の制御に従って、ユーザ端末10用プログラム等の各種データの読み出しまたは書き込みを行う記憶装置である。
【0026】
また、ユーザ端末10は、CMOS(Complementary Metal Oxide Semiconductor)805と、撮像素子I/F806と、加速度・方位センサ807と、メディアI/F809と、GPS(Global Positioning System)受信部811と、を備える。
【0027】
CMOS805は、CPU801の制御に従って、被写体を撮像して画像データを得る内蔵型のイメージセンサである。なお、CMOS805の代わりに、CCD(Charge Coupled Device)のイメージセンサを用いるものとしてもよい。撮像素子I/F806は、CMOS805の駆動を制御するインターフェース回路である。
【0028】
加速度・方位センサ807は、地磁気を検知する電子磁気コンパス、ジャイロコンパス、または加速度センサ等の各種センサである。メディアI/F809は、フラッシュメモリ等の記録メディア808に対するデータの読み出しまたは書き込み(記憶)を制御するインターフェース回路である。GPS受信部811は、GPS衛星からGPS信号を受信するデバイスである。
【0029】
また、ユーザ端末10は、遠距離通信回路812と、アンテナ812aと、マイク815と、スピーカ816と、音入出力I/F817と、ディスプレイ818(表示装置の一例)と、外部機器接続I/F819と、近距離通信回路820と、アンテナ820aと、タッチパネル821と、を備える。
【0030】
遠距離通信回路812は、通信ネットワークを介して、アンテナ812aにより他の機器と通信する回路である。マイク815は、音を電気信号に変える内蔵型の集音装置である。スピーカ816は、電気信号を物理振動に変えて音楽および音声等の音を生成する内蔵型の回路である。音入出力I/F817は、CPU801の制御に従って、マイク815およびスピーカ816との間で音声データの入出力を処理するインターフェース回路である。
【0031】
ディスプレイ818は、被写体の画像および各種アイコン等を表示する液晶表示装置または有機EL(Electro Luminescence)表示装置等である。外部機器接続I/F819は、各種の外部機器を接続してデータ通信を行うためのインターフェース回路である。
【0032】
近距離通信回路820は、NFC(Near Field Communication)またはBluetooth(登録商標)等の通信回路であり、アンテナ820aを介して外部機器と無線通信を行う。本実施形態では、近距離通信回路820は、少なくともBluetoothの通信回路を含むものとして説明する。
【0033】
タッチパネル821は、利用者がディスプレイ818をタッチ操作することにより、ユーザ端末10を操作する入力装置の一種である。
【0034】
また、ユーザ端末10は、バス810を備えている。バス810は、図2に示すCPU801等の各構成要素を電気的に接続するためのアドレスバスおよびデータバス等である。
【0035】
なお、図2に示したユーザ端末10のハードウェア構成は一例を示すものであり、図2に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。
【0036】
(業務サービスのハードウェア構成)
図3は、実施形態に係る業務サービスのハードウェア構成の一例を示す図である。図3を参照しながら、本実施形態に係る業務サービス30のハードウェア構成について説明する。
【0037】
図3に示すように、業務サービス30は、CPU901と、ROM902と、RAM903と、補助記憶装置905と、メディアドライブ907と、ディスプレイ908と、ネットワークI/F909と、キーボード911と、マウス912と、DVD(Digital Versatile Disc)ドライブ914と、を備えている。
【0038】
CPU901は、業務サービス30全体の動作を制御する演算装置である。ROM902は、業務サービス30用のプログラムを記憶している不揮発性記憶装置である。RAM903は、CPU901のワークエリアとして使用される揮発性記憶装置である。
【0039】
補助記憶装置905は、上述したように、音声端末20から入力された音声コマンドを解釈するためのルール情報等を記憶するHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の不揮発性の記憶装置である。メディアドライブ907は、CPU901の制御に従って、フラッシュメモリ等の記録メディア906に対するデータの読み出しおよび書き込みを制御する装置である。
【0040】
ディスプレイ908は、カーソル、メニュー、ウィンドウ、文字または画像等の各種情報を表示する液晶または有機EL等によって構成された表示装置である。
【0041】
ネットワークI/F909は、ネットワークを利用してユーザ端末10、通話サービス40、音声認識サービス50および情報管理サービス60等の外部の装置またはシステムとデータ通信するためのインターフェースである。ネットワークI/F909は、例えば、イーサネット(登録商標)に対応し、TCP(Transmission Control Protocol)/IP(Internet Protocol)等に準拠した通信が可能なNIC(Network Interface Card)等である。
【0042】
キーボード911は、文字、数字、各種指示の選択、およびカーソルの移動等を行う入力装置である。マウス912は、各種指示の選択および実行、処理対象の選択、ならびにカーソルの移動等を行うための入力装置である。
【0043】
DVDドライブ914は、着脱自在な記憶媒体の一例としてのDVD-ROMまたはDVD-R(Digital Versatile Disk Recordable)等のDVD913に対するデータの読み出しおよび書き込みを制御する装置である。
【0044】
上述のCPU901、ROM902、RAM903、補助記憶装置905、メディアドライブ907、ディスプレイ908、ネットワークI/F909、キーボード911、マウス912およびDVDドライブ914は、アドレスバスおよびデータバス等のバス910によって互いに通信可能に接続されている。
【0045】
なお、図3に示した業務サービス30のハードウェア構成は一例を示すものであり、図3に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。例えば、業務サービス30としての処理に特化し、業務サービス30に対して入出力装置から直接データの入出力を不要とする場合、業務サービス30は、ディスプレイ908、キーボード911およびマウス912を備えていなくてもよい。また、業務サービス30は、図3に示す単一の情報処理装置(サーバ装置)で構成されていることに限定されず、複数の情報処理装置等の複数のネットワーク機器により構成されているものとしてもよい。
【0046】
また、図3に示したハードウェア構成は、業務サービス30のハードウェア構成であるものとして説明したが、通話サービス40、音声認識サービス50および情報管理サービス60のハードウェア構成についても、図3に示したハードウェア構成に準じる。
【0047】
(音声処理システムの機能ブロックの構成および動作)
図4は、実施形態に係る音声処理システムの機能ブロック構成の一例を示す図である。図5は、採寸対象を説明する図である。図6は、音声コマンドの構成を説明する図である。図7は、採寸アプリのアプリ画面の一例を示す図である。図8は、ルール情報URLテーブルの一例を示す図である。図9は、ルール情報テーブルの一例を示す図である。図10は、音声コマンドから音声認識の認識結果が生成される動作を説明する図である。図11は、予約情報テーブルの一例を示す図である。図4図11を参照しながら、本実施形態に係る音声処理システム1の機能ブロック構成および動作について説明する。なお、図4に示すネットワーク2は、各種LAN(Local Area Network)、専用線、インターネットを含んでもよく、有線または無線を問わない。
【0048】
図4に示すように、音声端末20は、音声受信部201と、通信部202と、を有する。
【0049】
音声受信部201は、作業者(採寸者)が服(スーツ、ズボン、ベスト、シャツ等)等に対して採寸した数値を音声入力するために発声した音声コマンドを受信して音声データに変換する機能部である。ここで、図5に採寸対象の一例としてのスーツのジャケットの採寸項目の一例を示す。図5(a)に示すように、採寸項目として、「肩幅」、両袖の付け根下の直線距離である「身幅」、袖付け根下から直角に測った距離である「袖幅」、袖の長さである「袖丈」、および、袖口の幅である「袖口幅」等がある。また、図5(b)に示すように、採寸項目として、首の後ろ側の根本の首を前に倒したときに飛び出てくる背骨の位置であるバックネックポイントから裾先端までの直線距離である「着丈」等がある。
【0050】
また、本実施形態において、ユーザ端末10へ採寸値を音声入力するための音声コマンドの一例の構成を図6に示す。図6に示すように、音声入力するための音声コマンドは、キーワードと数値(採寸値)とを組み合わせた構成となっている。例えば、作業者が、ジャケットの右側の袖丈について採寸した値が「23」である場合、音声コマンドとして「そでたけみぎにじゅうさん」(袖丈右・23)と発声する。
【0051】
なお、図6に示す音声コマンドは、採寸値を音声入力するため音声コマンドであるが、Webアプリ13である採寸アプリにおいてタブを切り替えるための音声コマンドもあり、これについては後述する。
【0052】
通信部202は、音声受信部201により変換された音声コマンドの音声データを、Bluetooth等による無線通信により、ユーザ端末10へ送信する機能部である。
【0053】
図4に示すように、ユーザ端末10は、第1通信部101と、第2通信部102(第3取得部)と、入力部103と、音声通信制御部104と、認証要求部105と、接続要求部106と、予約情報取得部107と、音声取得部108(第1取得部)と、表示内容特定部109(第1特定部)と、ルール情報特定部110と、音声送信部111(送信部)と、認識結果取得部112(第2取得部)と、入力項目特定部113(第2特定部)と、位置判定部114と、表示制御部115(データ入力部)と、入力情報送信部116と、記憶部117と、を有する。
【0054】
第1通信部101は、音声端末20との間でBluetooth等の無線通信によりデータを送受信する(主に音声データを受信する)機能部である。第1通信部101は、図2に示すCPU801によるプログラムの実行、ならびに近距離通信回路820およびアンテナ820aによって実現される。
【0055】
第2通信部102は、ネットワーク2を介して業務サービス30、通話サービス40おおよび音声認識サービス50との間でデータ通信を行う機能部である。第2通信部102は、図2に示すCPU801によるプログラムの実行、ならびに遠距離通信回路812およびアンテナ812aによって実現される。
【0056】
入力部103は、作業者から操作入力を受け付ける機能部である。入力部103は、図2に示すタッチパネル821によって実現される。
【0057】
音声通信制御部104は、音声端末20から第1通信部101により受信された音声データを、作業者が通話を行うグループのグループIDと共に、第2通信部102を介して通話サービス40へ送信(中継)する動作を制御する機能部である。音声通信制御部104は、図2に示すCPU801によるプログラム(通話アプリ11)の実行によって実現される。
【0058】
認証要求部105は、作業者がユーザ端末10を利用する場合にログインするための認証処理の要求を、第2通信部102を介して業務サービス30へ送信する機能部である。認証要求部105は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0059】
接続要求部106は、通話アプリ11と通話サービス40との連携動作により実現される通話のために、業務サービス30を介して通話サービス40へ、作業者が通話を行うグループのグループIDを含む接続要求を送信する機能部である。接続要求部106は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0060】
予約情報取得部107は、採寸作業についての予約情報を、業務サービス30を介して情報管理サービス60から取得する機能部である。予約情報取得部107は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0061】
音声取得部108は、作業者によって発声された音声の音声データを、業務サービス30から第2通信部102を介して取得する機能部である。具体的には、作業者により発声された音声は、音声端末20の音声受信部201により集音(受信)され音声データとして通信部202を介して、ユーザ端末10の第1通信部101により受信される。そして、ユーザ端末10の音声通信制御部104は、第1通信部101により受信された音声データを、第2通信部102を介して通話サービス40へ送信する。通話サービス40の通話制御部402は、通信部401によりユーザ端末10から受信された音声データを、当該通信部401を介して業務サービス30へ送信する。業務サービス30の通信部301は、通話サービス40から受信した音声データを、ユーザ端末10へ送信し、当該音声データは、第2通信部102を介して音声取得部108により取得される。音声取得部108は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0062】
表示内容特定部109は、音声取得部108により音声データが取得された場合に、表示制御部115によりディスプレイ818に表示されているWebアプリ13である採寸アプリの画面において、どのタブの入力項目が表示されているのかを特定する機能部である。表示内容特定部109は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0063】
ルール情報特定部110は、表示内容特定部109により特定されたタブに対応するルール情報を特定するために、記憶部117に記憶されている図8に示すようなルール情報URL(Uniform Resource Locator)テーブルを参照し、当該タブに対応するルール情報のURLを特定する機能部である。すなわち、ルール情報特定部110は、表示内容特定部109により特定されたタブに対応するルール情報のURLを特定することにより、当該ルール情報を特定する。
【0064】
図8に示すように、ルール情報URLテーブルは、採寸アプリにおけるタブ名と、ルール情報が格納されているURL(業務サービス30での格納場所)(ルール情報URL)と、を関連付けて管理する。図8に示すルール情報URLテーブルでは、タブ名として「組上」、「組下」および「ベスト」それぞれについて、対応するルール情報URLが関連付けられている。例えば、タブ名「組下」に対応するルール情報URLが「https://○○○/kumishita.rule」であることが示されている。
【0065】
ルール情報特定部110は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0066】
音声送信部111は、音声取得部108により取得された音声コマンドの音声データを、ルール情報特定部110により特定されたルール情報URL(規定情報に関する情報の一例、規定情報の保存先を示す情報の一例)と共に、第2通信部102を介して音声認識サービス50へ送信する機能部である。音声送信部111は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0067】
認識結果取得部112は、音声認識サービス50において音声認識処理が行われた認識結果を、第2通信部102を介して取得する機能部である。
【0068】
ここで、図10に音声認識サービス50から出力された音声認識処理の認識結果の一例を示す。図10に示す例は、音声送信部111により送信された音声データの音声コマンドが「そでたけみぎにじゅうさん」である場合の認識結果を示す。認識結果は、図10に示すように、採寸アプリのどのタブのどの入力項目であるのかを識別するための識別情報(ルール名)と、音声コマンドのうちの数値(採寸値)がテキスト化された情報とを含む。
【0069】
認識結果取得部112は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0070】
入力項目特定部113は、認識結果取得部112により取得された認識結果から、採寸アプリで表示されているタブと、当該タブの画面において数値(採寸値)が入力される対象となる入力項目とを特定する機能部である。入力項目特定部113は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0071】
位置判定部114は、入力項目特定部113により特定された特定のタブの入力項目が、ディスプレイ818に表示されているアプリ画面に表示されているか否かを判定する機能部である。位置判定部114は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0072】
表示制御部115は、ディスプレイ818における画面の表示動作を制御する機能部である。
【0073】
ここで、図7に、表示制御部115によりディスプレイ818に表示される採寸アプリのアプリ画面の一例であるアプリ画面1001を示す。アプリ画面1001は、服について採寸した数値を手入力または音声入力するための画面である。アプリ画面1001は、図7に示すように、基本寸法入力部1100と、タブ1111~1113と、ゲージ入力部1120と、寸法入力部1131~1134(入力領域の一例)、1136と、寸法補正入力部1141~1146(入力領域の一例)と、登録ボタン1151と、を含む。
【0074】
基本寸法入力部1100は、採寸対象者の基本的な寸法値を入力するフィールドである。図7に示す例では、基本寸法入力部1100として、「バスト」、「中動」、「OB」(オーバーバスト)、「ヒップ」、「総丈」および「P総丈」が入力可能となっている。
【0075】
タブ1111~1113は、それぞれ入力項目を切り替えるためのタブである。タブ1111は、「組上」用の入力項目を表示するためのタブである。タブ1112は、「組下」用の入力項目を表示するためのタブである。そして、タブ1113は、「ベスト」用の入力項目を表示するためのタブである。なお、切り替えられるタブの数および種類は、これらに限られるものではない。
【0076】
ゲージ入力部1120は、服のデザイン等を指定するための型番、体型、および大きさを示す号数を入力するためのコンボボックスである。これらの選択入力することによって、各入力項目について、選択した型番、体型および大きさに対応する基準値(ゲージサイズ)が表示される。例えば、図7では、型番として「GM」、体型として「Y」、号数として「4」が入力された場合に、ゲージサイズとして、入力項目「着丈」について71、「袖丈右」について58.5、「袖丈左」について58.5、「肩巾」について43.4が表示された状態を示している。
【0077】
寸法入力部1131~1134、1136は、各入力項目に対応する採寸値を手入力または音声入力するためのフィールドである。具体的には、寸法入力部1131~1134、1136は、それぞれ入力項目「着丈」、「袖丈右」、「袖丈左」、「肩巾」、「ウエストOW」に対応する採寸値を入力するフィールドである。
【0078】
寸法補正入力部1141~1146は、ゲージサイズに対する差分値(補正値)を手入力または音声入力するためのフィールドである。具体的には、寸法補正入力部1141~1146は、それぞれ入力項目「着丈」、「袖丈右」、「袖丈左」、「肩巾」、「背巾(脇)」、「ウエストOW」に対応する差分値(補正値)を入力するフィールドである。寸法補正入力部1141~1146に差分値が入力されると、ゲージサイズとの加算が実行され、その加算結果が対応する寸法入力部に自動的に入力される。
【0079】
上述のような入力項目、ゲージサイズ、寸法補正入力部(例えば寸法補正入力部1141~1146)および寸法入力部(例えば寸法入力部1131~1134、1136)が表示された表示領域は、タッチパネル821でのフリック操作(スワイプ操作)によりスクロールが可能となっている。すなわち、図7に示すアプリ画面1001での表示領域には表示されていない入力項目、ゲージサイズ、寸法補正入力部および寸法入力部が存在する。
【0080】
登録ボタン1151は、各寸法入力部に入力された採寸値を、情報管理サービス60へ登録させるためのボタンである。
【0081】
表示制御部115は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0082】
入力情報送信部116は、採寸アプリのアプリ画面(例えば図7に示すアプリ画面1001)で登録ボタン1151が押下された場合、音声入力等により入力された各入力項目の採寸値(寸法入力部の値)を採寸情報として、第2通信部102を介して業務サービス30へ送信する機能部である。業務サービス30へ送信された採寸情報は、最終的に情報管理サービス60で登録され、保存される。入力情報送信部116は、例えば、図2に示すCPU801によるプログラム(ブラウザ12上で動くWebアプリ13)の実行によって実現される。
【0083】
記憶部117は、上述の図8に示したルール情報URLテーブル等を記憶する機能部である。記憶部117は、図2に示すROM802、RAM803、EEPROM804、およびメディアI/F809を介したメディア808の少なくともいずれかによって実現される。
【0084】
なお、上述の認証要求部105、接続要求部106、予約情報取得部107、音声取得部108、表示内容特定部109、ルール情報特定部110、音声送信部111、認識結果取得部112、入力項目特定部113、位置判定部114、表示制御部115および入力情報送信部116は、ブラウザ12上で動くWebアプリ13の実行によって実現されるものとしたが、これに限定されるものではなく、ネイティブアプリケーション(専用アプリケーション)の実行によって実現されるものとしてもよい。また、これらの機能部のうち少なくともいずれかは専用のハードウェア回路(集積回路等)によって実現されるものとしてもよい。
【0085】
また、図4に示すユーザ端末10の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示すユーザ端末10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示すユーザ端末10で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0086】
図4に示すように、業務サービス30は、通信部301と、Webサーバ302と、」認証部303と、予約情報管理部304と、ルール情報管理部305と、記憶部306と、を有する。
【0087】
通信部301は、ネットワーク2を介してユーザ端末10、通話サービス40、音声認識サービス50および情報管理サービス60との間でデータ通信を行う機能部である。通信部301は、図3に示すCPU901によるプログラムの実行、およびネットワークI/F909によって実現される。
【0088】
Webサーバ302は、ユーザ端末10のブラウザ12にWebアプリ等のWebコンテンツを提供する機能部である。Webサーバ302は、図1に示したWebサーバ31に対応し、図3に示すCPU901によるプログラムの実行によって実現される。
【0089】
認証部303は、ユーザ端末10の認証要求部105からの認証処理の要求に従い、記憶部306に記憶された認証情報テーブルを参照して認証処理を実行する機能部である。認証情報テーブルは、例えば、個人または組織を識別するユーザIDと、パスワードとを関連付けて管理するテーブルである。認証部303は、図3に示すCPU901によるプログラムの実行によって実現される。
【0090】
予約情報管理部304は、ユーザ端末10からの予約情報の要求に従って、通信部301を介して、情報管理サービス60から予約情報を取得し、当該通信部301を介して、ユーザ端末10へ当該予約情報を送信する機能部である。予約情報とは、例えば採寸の予約がある顧客名、および来店予定日時等の一覧情報である。予約情報管理部304は、図3に示すCPU901によるプログラムの実行によって実現される。
【0091】
ルール情報管理部305は、音声認識サービス50からのルール情報テーブルの要求に応じて、当該要求に対応するルール情報テーブルを記憶部306から読み出し、通信部301を介して音声認識サービス50へ送信する機能部である。ルール情報管理部305は、図3に示すCPU901によるプログラムの実行によって実現される。
【0092】
記憶部306は、図9に示すようなルール情報テーブル(規定情報の一例、規定情報に関する情報の一例)、および上述の認識情報テーブル等を記憶する機能部である。
【0093】
図9に示すように、ルール情報テーブルは、タブおよび入力項目を示すルール名と、音声コマンドの解釈方法を示す認識パターンと、音声コマンドから入力項目を識別するためのキーワードと、入力項目に入力する数値として許容される範囲を示す数値範囲と、を関連付けて管理する。図9のうち、図9(a)は、採寸アプリのアプリ画面における「組上」のタブ(タブ1111)に対応するルール情報テーブルを示す。例えば、図9(a)に示すルール情報テーブルでは、ルール名「kumiue-sodetakemigi」(組上・袖丈右)は、認識パターン「1」、キーワード「そでたけみぎ」、および数値範囲「0-999」と関連付けられている。また、図9のうち、図9(b)は、採寸アプリのアプリ画面における「組下」のタブ(タブ1112)に対応するルール情報テーブルを示す。例えば、図9(b)に示すルール情報テーブルでは、ルール名「vest-waist」(ベスト・ウエスト)は、認識パターン「1」、キーワード「うえすと」、および数値範囲「0-999」と関連付けられている。
【0094】
また、ルール情報テーブルにおける認識パターンは、上述のように作業者により音声として入力された音声コマンドの解釈方法を示すパターンであり、「1」の場合、図6で上述した構成の音声コマンド(すなわち、採寸値を音声入力するための音声コマンド)(第1音声コマンド)であると解釈され、「2」の場合、タブの切り替えを指令するための音声コマンド(第2音声コマンド)であると解釈される。このような認識パターンに応じた音声コマンドの解釈の動作については、音声認識サービス50における動作として後述する。
【0095】
記憶部306は、図3に示す補助記憶装置905によって実現される。
【0096】
なお、上述の認証部303、予約情報管理部304およびルール情報管理部305は、プログラム(ソフトウェア)の実行によって実現されるものとしたが、これに限定されるものではなく、これらの機能部のうち少なくともいずれかは専用のハードウェア回路(集積回路等)によって実現されるものとしてもよい。
【0097】
また、図4に示す業務サービス30の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す業務サービス30で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す業務サービス30で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0098】
図4に示すように、通話サービス40は、通信部401と、通話制御部402と、接続管理部403と、記憶部404と、を有する。
【0099】
通信部401は、ネットワーク2を介してユーザ端末10および業務サービス30との間でデータ通信を行う機能部である。通信部401は、図3に示すCPU901によるプログラムの実行、およびネットワークI/F909によって実現される。
【0100】
通話制御部402は、ユーザ端末10から通信部401を介して受信した音声データを、記憶部404に記憶させると共に、当該音声データと共に受信されたグループIDに基づいて当該音声データの送信先(転送先)である業務サービス30を特定し、当該音声データを、通信部401を介して業務サービス30に中継(転送)する機能部である。通話制御部402は、図3に示すCPU901によるプログラムの実行によって実現される。
【0101】
接続管理部403は、業務サービス30を介したユーザ端末10からのグループIDによる接続要求に応じて、記憶部404に記憶されたグループ情報を参照して接続処理を行う機能部である。グループ情報は、例えば、グループIDおよびグループに含まれる端末のアドレス等を関連付けて管理する情報である。接続管理部403は、図3に示すCPU901によるプログラムの実行によって実現される。
【0102】
記憶部404は、上述のグループ情報等を記憶する機能部である。記憶部404は、図3に示す補助記憶装置905によって実現される。
【0103】
なお、上述の通話制御部402および接続管理部403は、プログラム(ソフトウェア)の実行によって実現されるものとしたが、これに限定されるものではなく、これらの機能部のうち少なくともいずれかは専用のハードウェア回路(集積回路等)によって実現されるものとしてもよい。
【0104】
また、図4に示す通話サービス40の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す通話サービス40で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す通話サービス40で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0105】
図4に示すように、音声認識サービス50は、通信部501と、音声取得部502と、音声認識部503と、認識結果送信部504と、記憶部505と、を有する。
【0106】
通信部501は、ネットワーク2を介してユーザ端末10および業務サービス30との間でデータ通信を行う機能部である。通信部501は、図3に示すCPU901によるプログラムの実行、およびネットワークI/F909によって実現される。
【0107】
音声取得部502は、ユーザ端末10から通信部501を介して、音声コマンドの音声データ、およびルール情報URLを取得する機能部である。音声取得部502は、図3に示すCPU901によるプログラムの実行によって実現される。
【0108】
音声認識部503は、音声取得部502により取得された音声データの音声コマンドについて、ルール情報URLにより業務サービス30から取得したルール情報テーブルに基づいて解釈を行う音声認識処理を実行する機能部である。音声認識部503は、図3に示すCPU901によるプログラムの実行によって実現される。
【0109】
具体的には、音声認識部503は、音声取得部502により取得されたルール情報URLが示すルール情報テーブルの格納先(業務サービス30の記憶部306)から、ルール情報を取得する。次に、音声認識部503は、音声取得部502により取得された音声データをテキスト化する。次に、音声認識部503は、音声データのテキストの先頭から所定数の文字列が、取得したルール情報テーブルのいずれかのキーワードと一致するか探索を行う。次に、音声認識部503は、所定数の文字列と一致するキーワードが探索できた場合、当該キーワードに対応する認識パターンを抽出する。
【0110】
抽出した認識パターンが「1」である場合、音声認識部503は、音声取得部502により取得された音声データの音声コマンドは、採寸値を音声入力するためのコマンドであると判断する。この場合、音声認識部503は、音声データのテキストのキーワードに対応する部分の後側のテキストを、数値(採寸値)を示すテキストであると解釈する。次に、音声認識部503は、当該数値が、ルール情報テーブルにおいて当該キーワードに対応する数値範囲に含まれるか否かを判定する。そして、音声認識部503は、ルール情報テーブルにおいて当該キーワードに対応するルール名を、採寸アプリのタブおよび入力項目を識別するための識別情報とし、当該識別情報と、上述の数値(採寸値)を示すテキストとの組み合わせを、認識結果として生成する。
【0111】
例えば、音声取得部502により取得されたルール情報URLが「組上」用のルール情報テーブルの格納先を示し、同じく取得された音声データの音声コマンドが図6で示した「そでたけみぎにじゅうさん」である場合を考える。この場合、音声認識部503は、業務サービス30から「組上」用のルール情報テーブルを取得し、「そでたけみぎにじゅうさん」という音声コマンドの音声データをテキスト化する。次に、音声認識部503は、テキストの先頭から所定数の文字列が、取得した「組上」用のルール情報テーブルのいずれかのキーワードと一致するか探索を行い、「そでたけみぎ」というキーワードを含むレコードが探索される。そして、音声認識部503は、当該レコードから認識パターンとして「1」を抽出する。当該認識パターンに従い、音声認識部503は、音声データのテキストのキーワード「そでたけみぎ」に対応する部分の後側のテキストを、数値(採寸値)「23」を示すテキストであると解釈する。次に、音声認識部503は、当該数値「23」が、ルール情報テーブルにおいてキーワード「そであけみぎ」に対応する数値範囲「0-999」に含まれるものと判定する。そして、音声認識部503は、ルール情報テーブルにおいてキーワード「そでたけみぎ」に対応するルール名「kumiue-sodetakemigi」を、採寸アプリのタブ「組上」および入力項目「袖丈右」を識別するための識別情報とし、図10に示したように、当該識別情報と、上述の数値(採寸値)「23」を示すテキストとの組み合わせを、認識結果として生成する。
【0112】
なお、数値が、ルール情報テーブルにおいて対応する数値範囲に含まれない場合には、音声認識部503は、例えば、認識結果を生成しない、あるいは、数値をNull値とした認識結果を生成するものとすればよい。
【0113】
一方、抽出した認識パターンが「2」である場合、音声認識部503は、音声取得部502により取得された音声データの音声コマンドは、タブの切り替えを指令するためのコマンドであると判断する。この場合、音声認識部503は、音声データのテキストのキーワードに対応する部分の後側のテキストを無視する(通常は後側にはテキストは含まれない)。そして、音声認識部503は、ルール情報テーブルにおいて当該キーワードに対応するルール名を、切り替え先のタブを識別するための識別情報とし、当該識別情報を含む認識結果を生成する。
【0114】
例えば、音声取得部502により取得されたルール情報URLが「組上」用のルール情報テーブルの格納先を示し、同じく取得された音声データの音声コマンドが「くみした」である場合を考える。この場合、音声認識部503は、業務サービス30から「組上」用のルール情報テーブルを取得し、「くみした」という音声コマンドの音声データをテキスト化する。次に、音声認識部503は、テキストの先頭から所定数の文字列が、取得した「組上」用のルール情報テーブルのいずれかのキーワードと一致するか探索を行い、「くみした」というキーワードを含むレコードが探索される。そして、音声認識部503は、当該レコードから認識パターンとして「2」を抽出する。当該認識パターンに従い、音声認識部503は、音声データのテキストのキーワード「くみした」に対応する部分の後側のテキストを無視する。そして、音声認識部503は、ルール情報テーブルにおいてキーワード「くみした」に対応するルール名「kumiue-tab-kumishita」を、切り替え先のタブを識別するための識別情報とし、当該識別情報を含む認識結果を生成する。
【0115】
図4に戻り説明を続ける。
【0116】
認識結果送信部504は、音声認識部503による音声認識処理により生成された認識結果を、通信部501を介してユーザ端末10へ送信する機能部である。認識結果送信部504は、図3に示すCPU901によるプログラムの実行によって実現される。
【0117】
記憶部505は、例えば、音声認識部503により業務サービス30から取得されたルール情報テーブルをキャッシュするため等の機能部である。すなわち、音声認識部503は、業務サービス30から取得したルール情報テーブルを記憶部505にキャッシュしておき、次回、音声取得部502により音声コマンドの音声データが取得された場合、業務サービス30から新たにルール情報テーブルを取得するのではなく、記憶部505にキャッシュされたルール情報テーブルを用いるものとしてもよい。記憶部505は、図3に示す補助記憶装置905によって実現される。
【0118】
なお、上述の音声取得部502、音声認識部503および認識結果送信部504は、プログラム(ソフトウェア)の実行によって実現されるものとしたが、これに限定されるものではなく、これらの機能部のうち少なくともいずれかは専用のハードウェア回路(集積回路等)によって実現されるものとしてもよい。
【0119】
また、図4に示す音声認識サービス50の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す音声認識サービス50で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す音声認識サービス50で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0120】
図4に示すように、情報管理サービス60は、通信部601と、予約情報管理部602と、記憶部603と、を有する。
【0121】
通信部601は、ネットワーク2を介して業務サービス30との間でデータ通信を行う機能部である。通信部601は、図3に示すCPU901によるプログラムの実行、およびネットワークI/F909によって実現される。
【0122】
予約情報管理部602は、業務サービス30からの予約情報の要求に従って、記憶部603に記憶された予約情報テーブルから、例えば採寸の予約がある顧客名、および来店予定日時等の一覧情報である予約情報を読み出して、通信部601を介して業務サービス30へ送信する機能部である。予約情報管理部602は、図3に示すCPU901によるプログラムの実行によって実現される。
【0123】
記憶部603は、図11に示すような予約情報テーブル等を記憶する機能部である。
【0124】
図11に示すように、予約情報テーブルは、採寸の予約を受け付けた顧客名と、来店予定日時と、実際に採寸が行われた採寸日時と、採寸された数値群である採寸結果と、採寸時に入力された基本情報と、を関連付けて管理する。例えば、図11に示す予約情報テーブルでは、顧客名「採寸太郎」と、来店予定日時「2020/02/27 15:30:00」と、採寸日時「2020/02/27 15:56:00」と、組上の採寸結果「着丈:72 袖丈右:23 ・・・」等と、が関連付けられている。
【0125】
記憶部603は、図3に示す補助記憶装置905によって実現される。
【0126】
なお、上述の予約情報管理部602は、プログラム(ソフトウェア)の実行によって実現されるものとしたが、これに限定されるものではなく、専用のハードウェア回路(集積回路等)によって実現されるものとしてもよい。
【0127】
また、図4に示す情報管理サービス60の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す情報管理サービス60で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す情報管理サービス60で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0128】
また、上述のルール情報URLテーブル(図8参照)、ルール情報テーブル(図9参照)、認証情報テーブル、および予約情報テーブル(図11参照)は、テーブル形式の情報であるものとしたが、これに限定されるものではない。例えば、少なくともいずれかのテーブルは、テーブルの各カラムの値が互いに関連付けて管理することができれば、どのような形式(例えばCSV(Comma-Separated Values)形式)の情報であってもよい。
【0129】
(音声処理システムの初期処理)
図12は、実施形態に係る音声処理システムの初期処理の流れの一例を示すシーケンス図である。図13は、グループID入力画面の一例を示す図である。図12および図13を参照しながら、本実施形態に係る音声処理システム1の初期処理の流れについて説明する。
【0130】
<ステップS11>
作業者(ユーザ)は、ユーザ端末10の入力部103を介して、Webアプリ13である採寸アプリを起動する操作を行う。
【0131】
<ステップS12、S13>
すると、ユーザ端末10の第2通信部102は、Webアプリ読込要求を、ネットワーク2を介して業務サービス30へ送信する。業務サービス30の通信部301により当該Webアプリ読込要求が受信されると、Webサーバ302は、Webアプリ13等のWebコンテンツ(HTML(HyperText Markup Language)データ、JavaScript等)を、通信部301を介してユーザ端末10へ送信する(後述する図15の「(1)Webコンテンツ」)。
【0132】
<ステップS14、S15>
ユーザ端末10の第2通信部102によりWebアプリ13等のWebコンテンツが受信されると、表示制御部115は、Webアプリ13である採寸アプリのアプリ画面をディスプレイ818に表示させると共に、ログイン画面を表示させる。
【0133】
<ステップS16、S17>
作業者は、ログイン画面において、入力部103を介して、例えばユーザ名およびパスワード等のログインに必要な認証情報の入力するログイン操作を行う。すると、ユーザ端末10の認証要求部105は、入力された認証情報を含む認証処理の要求を、第2通信部102を介して業務サービス30へ送信する。
【0134】
<ステップS18、S19>
業務サービス30の通信部301によって認証処理の要求が受信されると、認証部303は、当該認証処理の要求に従い、記憶部306に記憶された認証情報テーブルを参照して認証処理を実行して、認証結果を通信部301を介してユーザ端末10へ送信する。ここでは、認証部303による認証処理により認証が正常に行われたものとして説明する。
【0135】
<ステップS20、S21>
認証が正常に行われると、ユーザ端末10の表示制御部115は、図13に示すようなグループID入力画面1200をディスプレイ818に表示させる。
【0136】
図13に示すグループID入力画面1200は、作業者が通話を行うグループのグループIDによりユーザ端末10と通話サービス40との間で音声データを送受信するためのセッションを確立する接続処理を行うための画面である。図13に示すように、グループID入力画面1200は、グループID入力部1201と、接続ボタン1202と、キャンセルボタン1203と、を含む。
【0137】
グループID入力部1201は、作業者が通話を行うグループを識別するグループIDを入力するためのフィールドである。接続ボタン1202は、グループID入力部1201に入力されたグループIDを用いて上述の接続処理を実行するためのボタンである。キャンセルボタン1203は、当該グループIDを用いた接続処理をキャンセルするためのボタンである。
【0138】
<ステップS22~S24>
作業者は、グループID入力画面1200において、入力部103を介して、グループID入力部1201にグループIDを入力し、接続ボタン1202の押下(タップ操作)を行う。すると、ユーザ端末10の接続要求部106は、通話アプリ11と通話サービス40との連携動作により実現される通話のために、第2通信部102を介して、作業者が通話を行うグループのグループIDを含む接続要求を業務サービス30へ送信する。業務サービス30の通信部301は、ユーザ端末10からグループIDを含む接続要求を受信すると、当該接続要求を通話サービス40へ送信する。
【0139】
<ステップS25~S27>
通話サービス40の通話サービス401によって接続要求が受信されると、接続管理部403は、当該接続要求に応じて、記憶部404に記憶されたグループ情報を参照して接続処理を行い、接続OKの旨を示す接続結果を、通信部401を介して業務サービス30へ送信する。業務サービス30の通信部301は、接続OKの旨を示す接続結果が受信すると、当該接続結果をユーザ端末10へ送信する。また、接続管理部403は、ユーザ端末10の通話アプリ11との間で接続を行う(後述する図15の「(2)接続確認」)。
【0140】
<ステップS28、S29>
ユーザ端末10の音声通信制御部104は、ユーザ端末10と通話サービス40との間で接続(セッション)が確立すると、ディスプレイ818を介して接続完了の旨を作業者に通知する。
【0141】
<ステップS30、S31>
ユーザ端末10の予約情報取得部107は、採寸作業についての予約情報を取得するための予約情報の要求を、第2通信部102を介して業務サービス30へ送信する。業務サービス30の通信部301によって予約情報の要求が受信されると、予約情報管理部304は、当該予約情報の要求を通信部301を介して情報管理サービス60へ送信する。
【0142】
<ステップS32、S33>
情報管理サービス60の通信部601によって予約情報の要求が受信されると、予約情報管理部602は、当該予約情報の要求に従って、記憶部603に記憶された予約情報テーブルから、例えば採寸の予約がある顧客名、および来店予定日時等の一覧(リスト)情報である予約情報を読み出して、通信部601を介して業務サービス30へ送信する。業務サービス30の通信部301によって予約情報が受信されると、予約情報管理部304は、当該予約情報を通信部301を介してユーザ端末10へ送信する(後述する図15の「(3)予約情報取得」)。
【0143】
<ステップS34~S36>
ユーザ端末10の予約情報取得部107は、第2通信部102を介して予約情報を取得する。そして、ユーザ端末10の表示制御部115は、当該予約情報をディスプレイ818に表示させる。作業者は、ディスプレイ818に表示された予約情報の中から、目的の顧客の予約を入力部103を介して選択操作する。
【0144】
<ステップS37~S39>
さらに、作業者は、ディスプレイ818に表示されている採寸アプリのアプリ画面(例えば図7に示したアプリ画面1001)において、基本情報(例えば基本寸法入力部1100およびゲージ入力部1120の情報等)を入力する。
【0145】
以上のステップS11~S39の流れによって、音声処理システム1の初期処理が行われる。
【0146】
(音声処理システムの音声入力処理)
図14は、実施形態に係る音声処理システムの音声入力処理の流れの一例を示すシーケンス図である。図15は、実施形態に係る音声処理システムのデータの流れを説明する図である。図16は、実施液体に係るユーザ端末の項目入力・表示調整処理の流れの一例を示すフローチャートである。図17は、項目入力・表示調整処理により数値が入力された項目が移動する動作を説明する図である。図18は、音声コマンドにより寸法補正値を入力する場合の動作を説明する図である。図19は、音声コマンドによりタブを切り替えて寸法値を入力した場合の動作を説明する図である。図14図19を参照しながら、本実施形態に係る音声処理システム1の音声入力処理の流れについて説明する。なお、以下の説明では、上位術の音声処理システム1の初期処理後、アプリ画面1001において「組上」のタブ1111が選択されているものとして説明する。
【0147】
<ステップS51>
音声端末20を装着した作業者(ユーザ)は、採寸対象となる服についてオーバーウエストを採寸し、その採寸値(データの一例)が「88」である場合、音声コマンドとして「うえすとおーだぶりゅはちじゅうはち」と発声する。音声端末20の音声受信部201は、音声コマンドの音声を受信して音声データに変換する。そして、音声端末20の通信部202は、変換された音声コマンドの音声データをユーザ端末10へ無線通信によって送信する。
【0148】
<ステップS52>
ユーザ端末10の第1通信部101によって無線通信により音声コマンドの音声データが受信されると、音声通信制御部104は、当該音声データを、作業者が通話を行うグループのグループIDと共に、第2通信部102を介して通話サービス40へ送信(中継)する(図15の「(4)音声データ」)。
【0149】
<ステップS53~S55>
通話サービス40の通信部401によって音声データおよびグループIDが受信されると、通話制御部402は、当該音声データを、記憶部404に記憶させると共に、当該音声データと共に受信されたグループIDに基づいて当該音声データの送信先(転送先)である業務サービス30を特定し、当該音声データを、通信部401を介して業務サービス30に中継(転送)する。業務サービス30の通信部301は、音声データを受信すると、当該音声データをユーザ端末10へ送信する(図15の「(5)音声データ」)。
【0150】
<ステップS56>
ユーザ端末10の音声取得部108は、業務サービス30から第2通信部102を介して音声コマンドの音声データを取得する。次に、表示内容特定部109は、音声取得部108により音声データが取得された場合に、表示制御部115によりディスプレイ818に表示されているWebアプリ13である採寸アプリのアプリ画面1001において、どのタブの入力項目が表示されているのか(どのタブが選択されているのか)を特定する。そして、ルール情報特定部110は、表示内容特定部109により特定されたタブ(ここでは「組上」タブであるタブ1111)に対応するルール情報テーブルを特定するために、記憶部117に記憶されているルール情報URLテーブル(図8参照)を参照し、当該タブに対応するルール情報URL(ここでは「組上」用のルール情報テーブルを示すURL)を特定する。すなわち、ルール情報特定部110は、表示内容特定部109により特定されたタブに対応するルール情報URLを特定することにより、当該ルール情報テーブルを特定する。
【0151】
<ステップS57>
ユーザ端末10の音声送信部111は、音声認識の要求として、音声取得部108により取得された音声コマンドの音声データを、ルール情報特定部110により特定されたルール情報URLと共に、第2通信部102を介して音声認識サービス50へ送信する(図15の「(6)音声認識要求」)。
【0152】
<ステップS58、S59>
音声認識サービス50の音声取得部502は、ユーザ端末10から通信部501を介して、音声コマンドの音声データ、およびルール情報URLを取得する。次に、音声認識サービス50の音声認識部503は、音声取得部502により取得されたルール情報URLが示すルール情報テーブルの格納先(業務サービス30の記憶部306)から、ルール情報テーブルを取得するための要求を、通信部501を介して業務サービス30へ送信する。業務サービス30の通信部301によってルール情報テーブルの要求が受信されると、ルール情報管理部305は、当該要求に応じて、当該要求に対応するルール情報テーブル(ここでは図9(a)に示す「組上」用のルール情報テーブル)を記憶部306から読み出し、通信部301を介して音声認識サービス50へ送信する(図15の「(7)ルール情報取得」)。
【0153】
<ステップS60、S61>
音声認識サービス50の通信部501により「組上」用のルール情報テーブルが受信されると、音声認識部503は、音声取得部502により取得された音声データをテキスト化する。次に、音声認識部503は、音声データのテキストの先頭から所定数の文字列が、取得した「組上」用のルール情報テーブルのいずれかのキーワードと一致するか探索を行う。ここでは、音声認識部503は、音声データのテキストの文字列「うえすとおーだぶりゅ」と一致するキーワードが探索されたものとし、当該キーワードに対応する認識パターンとして「1」を抽出する。当該認識パターンに従い、音声認識部503は、音声データのテキストのキーワード「うえすとおーだぶりゅ」に対応する部分の後側のテキストを、数値(採寸値)「88」を示すテキストであると解釈する。次に、音声認識部503は、当該数値「88」が、「組上」用のルール情報テーブルにおいてキーワード「うえすとおーだぶりゅ」に対応する数値範囲「0-999」に含まれるものと判定する。そして、音声認識部503は、「組上」用のルール情報テーブルにおいてキーワード「うえすとおーだびゅりゅ」に対応するルール名「kumiue-waistow」を、採寸アプリのタブ「組上」および入力項目「ウエストOW」を識別するための識別情報とし、当該識別情報と、上述の数値(採寸値)「88」を示すテキストとの組み合わせを、認識結果として生成する。そして、音声認識サービス50の認識結果送信部504は、音声認識部503による音声認識処理により生成された認識結果を、通信部501を介してユーザ端末10へ送信する(図15の「(8)認識結果」)。
【0154】
<ステップS62>
ユーザ端末10の第2通信部102によって認識結果が受信されると、図16に示す認識結果取得部112、入力項目特定部113、位置判定部114および表示制御部115による項目入力・表示調整処理が実行される。項目入力・表示調整処理について、図16を参照しながら説明する。
【0155】
<<ステップS621>>
ユーザ端末10の認識結果取得部112は、音声認識サービス50において音声認識処理が行われた認識結果を、第2通信部102を介して取得する。そして、ユーザ端末10の入力項目特定部113は、認識結果取得部112により取得された認識結果から識別情報を取得する。そして、ステップS622へ移行する。
【0156】
<<ステップS622>>
入力項目特定部113は、取得した識別情報から、採寸アプリで表示されているタブと、当該タブの画面において数値(採寸値)が入力される対象となる入力項目とを特定する。具体的には、入力項目特定部113は、「組上」タブであるタブ1111を特定し、入力対象として「ウエストOW」の入力項目を特定する。そして、ステップS623へ移行する。
【0157】
<<ステップS623>>
また、入力項目特定部113は、認識結果から数値(採寸値)のテキスト「88」を取得する。そして、ステップS624へ移行する。
【0158】
<<ステップS624>>
そして、ユーザ端末10の表示制御部115は、入力項目特定部113により特定された入力項目「ウエストOW」の寸法入力部(フィールド)(入力領域)に、入力項目特定部113により取得されたテキスト「88」を入力する。この時点では、図17(a)に示すアプリ画面1001のように、入力項目「ウエストOW」、ゲージサイズ、寸法補正入力部、および「88」が入力された寸法入力部(フィールド)は、表示領域に表示されていない。そして、ステップ625へ移行する。
【0159】
<<ステップS625>>
そして、ユーザ端末10の位置判定部114は、入力項目特定部113により特定された「組上」タブの少なくとも入力項目「ウエストOW」および寸法入力部(フィールド)が、ディスプレイ818に表示されているアプリ画面の表示領域に完全に表示されているか否かを判定する。入力項目「ウエストOW」および寸法入力部(フィールド)が表示領域に完全に表示されている場合(ステップS625:Yes)、ステップS627へ移行し、完全には表示されていない(すなわち、一部のみが表示、または完全に表示されていない)場合(ステップS625:No)、ステップS626へ移行する。
【0160】
<<ステップS626>>
表示制御部115は、少なくとも入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)が表示領域に完全に表示されるように、当該表示領域において自動的にスクロールさせる。例えば、表示制御部115は、図17(a)に示すアプリ画面1001のように、入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)が表示領域に完全には表示されていない状態から、当該表示領域の内容を上方向に自動的にスクロール(移動)させ、図17(b)に示すように、入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)(寸法入力部1136)を表示領域において完全に表示させるようにする。また、可能であれば、表示制御部115は、入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)(寸法入力部1136)を表示領域の中央に位置するようにスクロールさせることが望ましい。そして、ステップS627へ移行する。
【0161】
<<ステップS627>>
さらに、表示制御部115は、図17(b)に示すように、入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)の部分(これらを含む行の部分等)を、ハイライト表示等によって強調表示する。なお、強調表示は、ハイライト表示に限られず、例えば、入力項目、および寸法入力部に入力された数値を太字にしたり、色を変更したりすることによって強調表示するものとしてもよい。また、強調表示に加えて、適正に数値(採寸値)が音声入力されたことを作業者に通知するための音をスピーカ816によって出力させるものとしてもよい。そして、図14におけるステップS63へ移行する。
【0162】
なお、ステップS625において位置判定部114により少なくとも入力項目および寸法入力部(フィールド)が、アプリ画面の表示領域に完全に表示されているか否かが判定されるものとしているが、当該判定処理はスキップするものとしてもよい。この場合、ステップS626での表示制御部115によるスクロール動作が必ず行われることになる。
【0163】
<ステップS63>
作業者は、音声コマンドの発声による採寸値の音声入力の結果、採寸アプリのアプリ画面1001において、手でスクロール操作等をせずに、表示制御部115により表示領域に完全に表示されるように自動的にスクロールがされた結果、入力項目「ウエストOW」のフィールド(寸法入力部1136)に、発声した「88」が入力されていることを確認することができる。さらに、表示制御部115により入力項目「ウエストOW」および「88」が入力された寸法入力部(フィールド)の部分が強調表示されるので、入力項目「ウエストOW」、および寸法入力部1136に「88」が入力されていることを、迅速に確認することができる。
【0164】
以上のステップS51~S63の処理を、作業者による音声入力が必要とされる入力項目の数だけ繰り返す。
【0165】
なお、上述のステップS51~S63では、アプリ画面1001において寸法入力部について採寸値を直接、音声入力する動作について説明したが、これに限定されるものではなく、寸法補正入力部についてゲージサイズからの差分値(補正値)を音声入力するものとしてもよい。この場合の音声認識動作およびアプリ画面1001における自動的なスクロール動作等は、上述のステップS51~S63と同様である。図18には、アプリ画面1001において、入力項目「着丈」の寸法補正入力部に差分値(補正値)「-1」が音声入力された場合の表示状態が示されている。この場合、入力項目「着丈」の寸法補正入力部に差分値「-1」が入力されると、ゲージサイズ「71」との加算が実行され、その加算結果「70」が対応する寸法入力部に自動的に入力される。そして、図18に示すように、入力項目「着丈」、および「-1」が入力された寸法補正入力部(フィールド)が表示領域に完全に表示されるように自動的にスクロールされ、かつ、強調表示される。
【0166】
<ステップS64>
作業者は、必要な入力項目についての採寸値をすべて音声入力し終わった後、登録ボタン1151を押下する。
【0167】
<ステップS65、S66>
すると、ユーザ端末10の入力情報送信部116は、音声入力等により入力された各入力項目の採寸値(寸法入力部の値)を採寸情報として、基本情報および採寸日時と共に、第2通信部102を介して業務サービス30へ送信する。そして、業務サービス30の通信部301により採寸情報、基本情報および採寸日時が受信された場合、予約情報管理部304は、通信部301を介して、これらの情報を情報管理サービス60へ送信する。
【0168】
<ステップS67~S69>
情報管理サービス60の通信部601によって採寸情報、基本情報および採寸日時が受信されると、情報管理サービス60の予約情報管理部602は、記憶部603の予約情報テーブル(図11参照)において、対応する顧客名のレコードの採寸結果、基本情報および採寸日時の各カラムに、受信された採寸情報、基本情報および採寸日時を登録する。そして、予約情報管理部602は、登録完了の旨を、通信部601を介して業務サービス30へ送信する。業務サービス30の通信部301によって登録完了の旨が受信された場合、予約情報管理部304は、当該登録完了の旨を通信部301を介してユーザ端末10へ送信する。
【0169】
<ステップS70、S71>
ユーザ端末10の第2通信部102によって登録完了の旨が受信された場合、音声通信制御部104は、ディスプレイ818を介して当該登録完了の旨を作業者に通知する。
【0170】
以上のステップS51~S71の流れによって、音声処理システム1の音声入力処理が行われる。
【0171】
なお、上述したように、タブの切り替えを指令するための音声コマンドである場合も、処理は図14のステップS51~S63と同様であり、ステップS62では、ユーザ端末10の認識結果取得部112は、認識結果からタブを識別するための識別情報を取得する。そして、表示制御部115は、取得された識別情報が示すタブの表示に切り替える。例えば、取得された識別情報が「組下」タブを示す場合、表示制御部115は、図19に示すように、「組下」タブ(タブ1112)に対応する入力項目、ゲージサイズ、寸法補正入力部(図19では寸法補正入力部1175)、および寸法入力部(図19では寸法入力部1161~1164)の表示に切り替える。そして、当該「組下」タブが表示されている状態において、対象となる入力項目に対する採寸値の音声コマンドが発声されると、図14のステップS51~S63の処理が実行される。例えば、入力項目「ヒップ上り」の採寸値を音声入力するための音声コマンドが発声された場合、表示制御部115は、図19に示すように、少なくとも入力項目「ヒップ上り」および採寸値が入力された寸法入力部(フィールド)が表示領域に完全に表示されるように、当該表示領域において自動的にスクロールさせる。そして、表示制御部115は、図19に示すように、入力項目「ヒップ上り」および採寸値が入力された寸法入力部(フィールド)の部分(これらを含む行の部分等)を、ハイライト表示等によって強調表示する。
【0172】
また、上述のステップS64における登録ボタン1151の手動による押下操作に代えて、登録を指令するための音声コマンドにより登録処理が実行可能であるものとしてもよい。この場合、例えば、ルール情報テーブルにおいて、認識パターン「2」(キーワードのみ識別)として、登録処理をするためのルール名が登録されていれば、ステップS51~S63の流れで同様に処理が可能である。
【0173】
以上のように、本実施形態に係る音声処理システム1では、ユーザ端末10において音声コマンドの音声データが取得された場合、ディスプレイ818に表示されているアプリ画面において、どのタブの入力項目が表示されているのか(どのタブが選択されているのか)を特定し、特定したタブに対応するルール情報テーブルを特定して、当該ルール情報テーブルを特定するための情報(URL)を、音声データと共に音声認識サービス50へ送信するものとしている。これにより、音声認識サービス50は、特定されたルール情報テーブルを用いて、音声データの音声コマンドを解釈し、入力項目を識別するための識別情報および数値のテキストを含む認識結果を、ユーザ端末10へ送信する。そして、ユーザ端末10は、当該認識結果により示される入力項目の寸法入力部(フィールド)に数値を入力する。これによって、異なる測定対象(例えば「組上」と「組下」)において入力項目が重複する場合においても、測定対象を区別するためのコマンド等を追加して発声する必要がなく、音声コマンドが長くなることを抑制し、作業者にとって使いやすい音声コマンドとすることができる。
【0174】
なお、本実施形態では、選択されているタブに応じて、ユーザ端末10により音声認識処理で用いるルール情報テーブルが切り替えられる(特定される)ものとしていたが、これに限定されない。上述の実施形態では、同じアプリ画面(アプリ画面1001等)上でタブを切り替えているものとしているが、例えば、「組上」用の画面、「組下」用の画面等、画面自体を切り替える場合も考えらえる。この場合、現在表示されている画面に応じて、ユーザ端末10によりルール情報テーブルが切り替えられる(特定される)ものとしてもよい。また、例えば、同じアプリ画面において、「組上」、「組下」および「ベスト」の各入力項目が含まれる場合も考えられる。この場合、現在画面に表示されている入力項目のスクロール位置に応じて、ユーザ端末10によりルール情報テーブルが切り替えられる(特定される)ものとしてもよい。すなわち、上述のような、選択されたタブ、切り替えられた画面、および入力項目のスクロール位置は、「組上」、「組下」および「ベスト」等のように測定対象(採寸対象)を特定することになる。
【0175】
また、図12におけるステップS13において、ユーザ端末10は、業務サービス30からWebコンテンツのみを受信するだけでなく、記憶部306に記憶されている各ルール情報テーブルも予め受信しておくものとしてもよい。この場合、図14におけるステップS57において、ユーザ端末10は、選択されているタブに対応したルール情報テーブルのURLではなく、ルール情報テーブルそのもの(規定情報の一例、規定情報に関する情報の一例)を音声認識サービス50に送信するものとすればよい。
【0176】
また、図1に示したシステムの構成上、音声端末20からユーザ端末10に受信された作業者の音声データは、通話サービス40および業務サービス30を介して、再びユーザ端末10に受信されているものとしているが、これに限定されない。すなわち、音声端末20からユーザ端末10に受信された作業者の音声データは、例えば、通話サービス40のみを介して、再びユーザ端末10に受信されるものとしてもよく、または、音声端末20からユーザ端末10に受信された音声データを、そのまま音声認識サービス50へ送信して音声認識処理に用いられるものとしてもよい。
【0177】
また、ユーザ端末10は、通話を中継する通話アプリ11がインストールされた端末として、かつ、音声入力された採寸値を表示する端末としての双方の役割を担っているがこれに限定されない。すなわち、通話を中継する通話アプリ11がインストールされた端末と、音声入力された採寸値を表示する端末とが、別の情報処理装置であってもよい。
【0178】
また、作業者が発声した音声コマンドは、音声端末20で受信され音声データとしてユーザ端末10へ送信されているが、これに限定されない。すなわち、ユーザ端末10のマイク815による音声入力機能を利用して、ユーザ端末10が、作業者が発声した音声コマンドを直接受信するものとしてもよい。
【0179】
また、上述の実施形態では、アプリ画面(アプリ画面1001等)において、各入力項目に対して採寸値を音声入力する動作を説明したが、タッチパネル821を介して直接、採寸値を手入力することも可能である。この場合、採寸値を手入力する場合、対象となる入力項目は、当然アプリ画面の表示領域に表示されているので、図14で上述したようなスクロール移動、および強調表示(ハイライト表示等)の措置は必要ない。このように、音声入力および手入力の双方を可能とすることにより、データ入力について多様性を持たせることができ、採寸作業のシチュエーションによって、データの入力方法を切り替えることができる。
【0180】
(変形例)
本変形例に係る音声処理システム1について、上述の実施形態に係る音声処理システム1との相違点を中心に説明する。
【0181】
図20は、変形例に係る音声処理システムのデータの流れを説明する図である。図20を参照しながら、本変形例に係る音声処理システム1について説明する。
【0182】
上述の実施形態に係る音声処理システム1では、ユーザ端末10が音声データを取得し(図15の「(5)音声データ」)、業務サービス30へ音声データおよびルール情報URLを音声認識サービス50へ送信することにより音声認識要求を行い(図15の「(6)音声認識要求」)、音声認識サービス50が業務サービス30からルール情報テーブルを取得し(図15の「(7)ルール情報取得」)、音声認識処理の認識結果をユーザ端末10へ送信するものとしている(図15の「(8)認識結果」)。しかし、このような動作に限られず、例えば、図20に示すような動作としてもよい。
【0183】
図20に示すように、業務サービス30が通話サービス40から音声データを受信した後(図20の「(5)音声データ」)、当該音声データ、および自身が記憶しているルール情報テーブルを音声認識サービス50へ送信することにより音声認識要求を行う(図20の「(6)音声認識要求」)。そして、音声認識サービス50は、音声認識処理の認識結果を業務サービス30へ送信し(図20の「(7)認識結果」)、業務サービス30は、認識結果から識別情報および数値を取得してアプリ画面の識別情報が示す寸法入力部(フィールド)に入力し、スクロール移動および強調表示を行ったアプリ画面のWebページをユーザ端末10へ送信する(図20の「(8)画面更新情報」)。
【0184】
以上のような動作によっても、上述の実施形態に係る音声処理システム1と同様の効果を奏することができる。
【0185】
なお、上述の実施形態および変形例に係る音声処理システム1は、上述したように、採寸作業において得られた採寸値を音声入力する場合に限られず、作業者が特定の対象物に対する測定により得たデータを、情報処理装置等に音声入力する処理について広く適用できるものである。例えば、製品または農作物の品質検査において、測定機器を操作することにより測定された測定データを音声入力するような場面にも適用可能である。また、例えば、道路、橋梁およびトンネル等の構造物に対する検査において、検査機器を操作することによって得られたデータを音声入力するような場面にも適用可能である。
【0186】
また、上述の実施形態および変形例の各機能は、一または複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上述した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、SoC(System on a Chip)、GPU(Graphics Processing Unit)や従来の回路モジュール等のデバイスを含むものとする。
【0187】
また、上述の実施形態および変形例において、ユーザ端末10または業務サービス30の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施形態および変形例に係るユーザ端末10および業務サービス30で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk-Recordable)、DVDまたはSD(Secure Digital)カード等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述の実施形態および変形例に係るユーザ端末10および業務サービス30で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施形態および変形例に係るユーザ端末10および業務サービス30で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施形態および変形例に係るユーザ端末10および業務サービス30で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPUが上述の記憶装置からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置上にロードされて生成されるようになっている。
【符号の説明】
【0188】
1 音声処理システム
2 ネットワーク
10 ユーザ端末
11 通話アプリ
12 ブラウザ
13 Webアプリ
20 音声端末
30 業務サービス
31 Webサーバ
40 通話サービス
50 音声認識サービス
60 情報管理サービス
101 第1通信部
102 第2通信部
103 入力部
104 音声通信制御部
105 認証要求部
106 接続要求部
107 予約情報取得部
108 音声取得部
109 表示内容特定部
110 ルール情報特定部
111 音声送信部
112 認識結果取得部
113 入力項目特定部
114 位置判定部
115 表示制御部
116 入力情報送信部
117 記憶部
201 音声受信部
202 通信部
301 通信部
302 Webサーバ
303 認証部
304 予約情報管理部
305 ルール情報管理部
306 記憶部
401 通信部
402 通話制御部
403 接続管理部
404 記憶部
501 通信部
502 音声取得部
503 音声認識部
504 認識結果送信部
505 記憶部
601 通信部
602 予約情報管理部
603 記憶部
801 CPU
802 ROM
803 RAM
804 EEPROM
805 CMOS
806 撮像素子I/F
807 加速度・方位センサ
808 メディア
809 メディアI/F
810 バス
811 GPS受信部
812 遠距離通信回路
812a アンテナ
815 マイク
816 スピーカ
817 音入出力I/F
818 ディスプレイ
819 外部機器接続I/F
820 近距離通信回路
820a アンテナ
821 タッチパネル
901 CPU
902 ROM
903 RAM
905 補助記憶装置
906 記録メディア
907 メディアドライブ
908 ディスプレイ
909 ネットワークI/F
910 バス
911 キーボード
912 マウス
913 DVD
914 DVDドライブ
1001、1002 アプリ画面
1100 基本寸法入力部
1111~1113 タブ
1120 ゲージ入力部
1131~1134、1136 寸法入力部
1141~1146 寸法補正入力部
1151 登録ボタン
1161~1164 寸法入力部
1175 寸法補正入力部
1200 グループID入力画面
1201 グループID入力部
1202 接続ボタン
1203 キャンセルボタン
【先行技術文献】
【特許文献】
【0189】
【文献】特開2010-182191号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20