IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通フロンテック株式会社の特許一覧

特開2024-168410情報処理プログラム、情報処理装置および情報処理方法
<>
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図1
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図2
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図3
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図4
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図5
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図6
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図7
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図8
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図9
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図10
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図11
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図12
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図13
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図14
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図15
  • 特開-情報処理プログラム、情報処理装置および情報処理方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024168410
(43)【公開日】2024-12-05
(54)【発明の名称】情報処理プログラム、情報処理装置および情報処理方法
(51)【国際特許分類】
   G10L 15/10 20060101AFI20241128BHJP
   G10L 17/00 20130101ALI20241128BHJP
   G10L 25/21 20130101ALI20241128BHJP
【FI】
G10L15/10 200Z
G10L17/00 200C
G10L25/21
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023085051
(22)【出願日】2023-05-24
(71)【出願人】
【識別番号】000237639
【氏名又は名称】富士通フロンテック株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】西川 麻依子
(72)【発明者】
【氏名】内田 勝
(57)【要約】
【課題】電子文書に添付される音声データの登録や再生に係る作業負荷を軽減する。
【解決手段】処理部11は、音声データ15から発話単位で発話データを抽出し、発話データごとに発話者を特定して蓄積データ12に記録する。処理部11は、音声データ15に占める発話者ごとの発話率や発話者ごとの平均音量を算出して統計データ13に記録する。処理部11は、発話者19,20,21のうちから統計データ13にもとづいて音声データ15における有意な発話者が発話者19,21であると絞り込む。処理部11は、特記事項として、発話者19の発話データ16と発話者21の発話データ18とを有意な発話データであるとして出力候補に選定する。処理部11は、出力候補に選定された発話データ16,18を電子文書14に紐づけて、電子文書14の参照時に発話データ16,18をスピーカ等から出力可能にする。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータに、
電子文書に紐づけられた音声データから発話者ごとの発話単位で発話データを抽出し、前記発話者ごとに前記発話データを統計処理した統計データを生成し、前記電子文書の参照時における前記発話データの出力候補を前記統計データにもとづいて絞り込み、前記電子文書の参照時に前記出力候補となった発話データを音出力部から出力可能にする、
処理を実行させる情報処理プログラム。
【請求項2】
前記処理は、
前記発話データを前記電子文書に紐づけて発話データ記憶部に記憶させ、
前記統計データを前記発話者に紐づけて統計データ記憶部に記憶させる、
請求項1記載の情報処理プログラム。
【請求項3】
前記処理は、
前記発話データに当該発話データを出力対象とするか否かを識別可能な情報を付加して前記発話データ記憶部に記憶させる、
請求項2記載の情報処理プログラム。
【請求項4】
前記統計データは、
前記発話者ごとの前記発話データが前記音声データに占める割合に関する割合情報と、前記発話者ごとの前記発話データの音量に関する音量情報とを含む、
請求項2記載の情報処理プログラム。
【請求項5】
電子文書に紐づけられた音声データから発話者ごとの発話単位で発話データを抽出し、前記発話者ごとに前記発話データを統計処理した統計データを生成し、前記電子文書の参照時における前記発話データの出力候補を前記統計データにもとづいて絞り込み、前記電子文書の参照時に前記出力候補となった発話データを音出力部から出力可能にする処理部、
を有する情報処理装置。
【請求項6】
コンピュータが、
電子文書に紐づけられた音声データから発話者ごとの発話単位で発話データを抽出し、前記発話者ごとに前記発話データを統計処理した統計データを生成し、前記電子文書の参照時における前記発話データの出力候補を前記統計データにもとづいて絞り込み、前記電子文書の参照時に前記出力候補となった発話データを音出力部から出力可能にする、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
電子文書の任意位置に対して添付された音声等を含むアノテーションが作業の実施を指示するものである場合に当該作業の実施を指示するものであることを示す作業指示情報を作業サブ属性として取得し、アノテーション管理サーバにより、作業指示情報を対応するアノテーション毎に登録する文書処理方法の提案がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-004361号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
電子文書に添付される音声には、雑音や周囲環境の音声が含まれる場合があり目的の音声を取得する作業負荷が大きくなる場合があった。また、電子文書への添付時に登録する音声から雑音や周囲環境の音声を除去して登録することには、登録時の作業負荷や登録環境の制約が大きくなる場合があった。
【0005】
1つの側面では、本件は、電子文書に添付される音声データの登録や再生に係る作業負荷を軽減することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、以下に示すような、情報処理装置が提供される。情報処理装置は、電子文書に紐づけられた音声データから発話者ごとの発話単位で発話データを抽出し、発話者ごとに発話データを統計処理した統計データを生成し、電子文書の参照時における発話データの出力候補を統計データにもとづいて絞り込み、電子文書の参照時に出力候補となった発話データを音出力部から出力可能にする処理部、を有する。
【発明の効果】
【0007】
1態様によれば、電子文書に添付される音声データの登録や再生に係る作業負荷を軽減することができる。
【図面の簡単な説明】
【0008】
図1】第1の実施形態の情報処理装置の一例を示す図である。
図2】第2の実施形態の工程管理システムの一例を示す図である。
図3】第2の実施形態のサーバのハードウェア構成の一例を示す図である。
図4】第2の実施形態のサーバの機能ブロックの一例を示す図である。
図5】第2の実施形態の生産指示書の配布例を示す図である。
図6】第2の実施形態の特記事項登録画面の一例を示す図である。
図7】第2の実施形態の発話者確認画面の一例を示す図である。
図8】第2の実施形態の特記事項確認画面の一例を示す図である。
図9】第2の実施形態の音声蓄積処理のフローチャートの一例を示す図である。
図10】第2の実施形態の音声蓄積データの一例を示す図である。
図11】第2の実施形態の発話蓄積データの一例を示す図である。
図12】第2の実施形態の発話者データの一例を示す図である。
図13】第2の実施形態の統計データ更新処理のフローチャートの一例を示す図である。
図14】第2の実施形態の発話者統計データの一例を示す図である。
図15】第2の実施形態の発話者統計データの変形例を示す図である。
図16】第2の実施形態の発話データ確認処理のフローチャートの一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本実施形態について図面を参照して説明する。なお各実施形態は、矛盾のない範囲で複数の実施形態を組み合わせて実施することができる。
〔第1の実施形態〕
まず、第1の実施形態について図1を用いて説明する。図1は、第1の実施形態の情報処理装置の一例を示す図である。情報処理装置10は、電子文書14に紐づけられた音声データ15から発話データを抽出し、抽出した発話データのうちから所定基準にしたがって選択された発話データを電子文書の参照時に出力可能にするものである。
【0010】
電子文書14は、特記事項を追加可能にして電子化された文書であり、たとえばマニュアル、生産指示書等である。特記事項は、電子文書14に紐づけられて記録され、電子文書14の出力時に電子文書14とともに一部または全部が出力可能にされている。特記事項は、電子文書14に紐づけられて記録された情報であればよく、たとえば、あらかじめ用意された定型文、フリー形式の文章入力(フリー入力)、音声入力等がある。
【0011】
第1の実施形態における情報処理装置10は、特記事項として音声データ15が紐づけられた電子文書14を扱う。音声データ15は、発話者(特記事項入力者)の発話(メッセージ)を含む。音声データ15に含まれる発話は、1に限らず2以上の場合がある。また、音声データ15における発話者は、1人に限らず2人以上の場合がある。また、音声データ15は、必ずしも良好な録音環境での録音が保証されないことから雑音を含む場合があるし、録音環境に居合わせた第三者の発話を含む場合がある。
【0012】
情報処理装置10は、いわゆるコンピュータであり、情報処理をおこなう処理部11を有する。処理部11は、情報処理装置10を制御し、所要の処理を実行可能である。処理部11は、たとえば、情報処理装置10が有するプロセッサまたは演算回路である。
【0013】
処理部11は、音声データ15から発話単位で発話データを抽出し、発話データごとに発話者を特定して蓄積データ12に記録する。たとえば、処理部11は、音声データ15から発話データ16,17,18を抽出する。処理部11は、発話者19を特定して発話データ16を蓄積データ12に記録し、発話者20を特定して発話データ17を蓄積データ12に記録し、発話者21を特定して発話データ18を蓄積データ12に記録する。蓄積データ12を記録(記憶)する記憶部は、発話データ記憶部に相当する。
【0014】
処理部11は、音声データ15に占める発話者ごとの発話率(占有率)や発話者ごとの平均音量を算出して統計データ13に記録する。たとえば、処理部11は、蓄積データ12が記録する発話データ16,17,18から発話者19,20,21のそれぞれの発話率と平均音量を算出して統計データ13に記録する。統計データ13を記録(記憶)する記憶部は、統計データ記憶部に相当する。統計データ13は、1の電子文書から抽出した発話データに限らず、2以上の電子文書から抽出した発話データを統計処理したデータであってもよい。
【0015】
処理部11は、発話者19,20,21のうちから統計データ13にもとづいて音声データ15における有意な発話者が発話者19,21であると絞り込む。処理部11は、特記事項として、発話者19の発話データ16と発話者21の発話データ18とを有意な発話データであるとして出力候補に選定する。言い換えれば、処理部11は、発話者19,20,21のうちから統計データ13にもとづいて音声データ15における価値の低い発話データ17を排除可能である。たとえば、処理部11は、統計データ13から発話率が大きい発話データ(たとえば、発話データ16,18)が特記事項として価値が高い発話に関するものであると判断できるし、発話率が小さい発話データ(たとえば、発話データ17)が特記事項として価値が低い発話に関するものであると判断できる。また、処理部11は、統計データ13から平均音量が大きい発話データ(たとえば、発話データ16,18)が特記事項として価値が高い発話に関するものであると判断できるし、平均音量が小さい発話データ(たとえば、発話データ17)が特記事項として価値が低い発話に関するものであると判断できる。
【0016】
処理部11は、出力候補に選定された発話データ16,18を電子文書14に紐づけて、電子文書14の参照時に発話データ16,18を音出力装置(スピーカ等)から出力可能にする。
【0017】
なお、音声データ15は、図示しない端末装置によって録音されるものであってもよいし、情報処理装置10によって録音されるものであってもよい。また、電子文書14は、図示しない端末装置によって参照され、当該端末装置が備える音出力装置によって発話データ16,18が再生されるものであってもよい。また、情報処理装置10は、表示装置を備えて電子文書14を表示出力可能にし、音出力装置を備えて発話データ16,18を音出力可能にするものであってもよい。
【0018】
このように、情報処理装置10は、電子文書14の参照時に特記事項として有用でない発話データ17を排除可能にするとともに、特記事項として有用な発話データ16,18を音声出力可能にする。このような情報処理装置10は、電子文書14の特記事項として音声録音をおこなうときの環境条件を緩和することができる。たとえば、情報処理装置10は、特記事項に関する話者以外の第3者がいる環境で音声録音された音声データを取り扱うことができる。また、情報処理装置10は、電子文書14の参照時に特記事項として音声データ15を音声出力することに代えて発話データ17を排除して発話データ16,18を音出力可能にするので電子文書14の閲覧者(利用者)の作業負担が軽減される。
【0019】
このような、情報処理装置10は、電子文書に添付される音声データの登録や再生に係る作業負荷を軽減することができる。
〔第2の実施形態〕
次に、第2の実施形態について説明する。第2の実施形態は、生産管理部署から工場(生産部署)に送付する生産指示書を電子文書として、生産指示書に特記事項として紐づける音声の録音と再生とを実現可能にする工程管理システムに関する。
【0020】
まず、工程管理システムのシステム構成について図2を用いて説明する。図2は、第2の実施形態の工程管理システムの一例を示す図である。工程管理システム50は、ネットワーク30と、ネットワーク30に接続するサーバ100、端末200(a),200(b),200(c),・・・を有する。ネットワーク30は、たとえば、工程管理システム50を有する企業のイントラネットである。
【0021】
端末200(a),200(b),200(c),・・・は、生産指示書に特記事項を登録(入力)可能なコンピュータ、あるいは生産指示書から特記事項を確認(出力)可能なコンピュータである。端末200(a),200(b),200(c),・・・は、生産指示書を作成する生産管理部署や生産指示書を確認する工場等に備えられて担当者が操作するPC(Personal Computer)である。あるいは、端末200(a),200(b),200(c),・・・は、生産管理部署や工場等に配属されている担当者が持ち運び操作するモバイル端末である。
【0022】
特記事項として音声を登録可能にする端末200は、音入力装置(マイク)を接続し、特記事項として音声を確認可能にする端末200は、音出力装置(スピーカ)を接続する。
【0023】
サーバ100は、生産指示書に特記事項として登録された音声データから抽出した発話データを生産指示書の特記事項として確認可能にする。なお、第2の実施形態のサーバ100は、第1の実施形態の情報処理装置10に相当する情報処理装置である。なお、サーバ100は、端末200が有する特記事項の登録機能や確認機能を有するものであってもよい。
【0024】
次に、サーバ100のハードウェア構成について図3を用いて説明する。図3は、第2の実施形態のサーバのハードウェア構成の一例を示す図である。サーバ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス114を介してメモリ102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、またはDSP(Digital Signal Processor)である。プロセッサ101がプログラムを実行することで実現する機能の少なくとも一部を、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)等の電子回路で実現してもよい。
【0025】
メモリ102は、サーバ100の主記憶装置として使用される。メモリ102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ102には、プロセッサ101による処理に利用する各種データが格納される。メモリ102としては、たとえばRAM(Random Access Memory)等の揮発性の半導体記憶装置が使用される。
【0026】
バス114に接続されている周辺機器としては、ストレージ装置103、GPU(Graphics Processing Unit)104、入力インタフェース105および光学ドライブ装置106がある。また、バス114に接続されている周辺機器としては、機器接続インタフェース107およびネットワークインタフェース108がある。
【0027】
ストレージ装置103は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しをおこなう。ストレージ装置103は、コンピュータの補助記憶装置として使用される。ストレージ装置103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置103としては、たとえばHDD(Hard Disk Drive)やSSD(Solid State Drive)を使用することができる。
【0028】
GPU104には、モニタ31が接続されている。GPU104は、プロセッサ101からの命令にしたがって、画像をモニタ31の画面に表示させる。モニタ31としては、有機EL(Electro Luminescence)を用いた表示装置や液晶表示装置等がある。
【0029】
入力インタフェース105には、キーボード32とマウス33とが接続されている。入力インタフェース105は、キーボード32やマウス33から送られてくる信号をプロセッサ101に送信する。なお、マウス33は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボール等がある。
【0030】
光学ドライブ装置106は、レーザ光等を利用して、光ディスク34に記録されたデータの読み取りをおこなう。光ディスク34は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク34には、DVD(Digital Versatile Disc)、DVD-RAM、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等がある。
【0031】
機器接続インタフェース107は、サーバ100に周辺機器を接続するための通信インタフェースである。たとえば機器接続インタフェース107には、メモリ装置35やメモリリーダライタ36を接続することができる。メモリ装置35は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ36は、メモリカード37へのデータの書き込み、またはメモリカード37からのデータの読み出しをおこなう装置である。メモリカード37は、カード型の記録媒体である。
【0032】
ネットワークインタフェース108は、ネットワーク30に接続されている。ネットワークインタフェース108は、ネットワーク30を介して、他のコンピュータまたは通信機器との間でデータの送受信をおこなう。
【0033】
サーバ100は、以上のようなハードウェア構成によって、第2の実施形態の処理機能を実現することができる。なお、第1の実施形態に示した情報処理装置10も、図3に示したサーバ100と同様のハードウェアにより実現することができる。また、端末200(a),200(b),200(c),・・・もサーバ100と同様のハードウェアにより実現することができる。なお、端末200(a),200(b),200(c),・・・は、機器接続インタフェース107にマイクやスピーカを接続可能にする構成とすることができる。また、プロセッサ101は、第1の実施形態に示した処理部11の一例である。
【0034】
サーバ100は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施形態の処理機能を実現する。サーバ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。たとえば、サーバ100に実行させるプログラムをストレージ装置103に格納しておくことができる。プロセッサ101は、ストレージ装置103内のプログラムの少なくとも一部をメモリ102にロードし、プログラムを実行する。またサーバ100に実行させるプログラムを、光ディスク34、メモリ装置35、メモリカード37等の可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、たとえばプロセッサ101からの制御により、ストレージ装置103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
【0035】
次に、サーバ100の機能について図4を用いて説明する。図4は、第2の実施形態のサーバの機能ブロックの一例を示す図である。サーバ100は、処理部120と記憶部130を有する。処理部120は、所要の処理内容を記述したプログラムをプロセッサ101が実行することにより実現可能であり、音声処理部121と、統計処理部122と、出力候補生成部123とを含む。記憶部130は、ストレージ装置103により実現可能であり、蓄積データ131と統計データ132を含むデータを記憶可能である。
【0036】
音声処理部121は、端末200が録音した音声データから雑音を除去し、雑音を除去した音声データから発話単位で発話データを抽出し、抽出した発話データを蓄積データ131に記録する。なお、発話データから抽出する発話データは、発話者単位で抽出されるものであってもよい。たとえば、前者であれば音声データから1の発話者について1以上の発話データが抽出され、後者であれば1の発話者から1の発話データが抽出される。
【0037】
統計処理部122は、蓄積データ131が記録する発話データについて発話者ごとに統計処理し、統計データ132に記録する。統計データ132には、発話率や平均音量が含まれる。統計データ132の集計範囲は、1の生産指示書の音声データであってもよいし、2以上の生産指示書の音声データであってもよい。2以上の生産指示書の音声データを統計データの集計範囲とする場合、所定のグループに属する生産指示書の音声データを集計範囲とすることができる。なお、所定のグループは、生産指示書の属性(たとえば、指示先、指示元、作成時期等)ごとに分けられることが望ましい。このようなグループ分けは、統計データを一層有意なものとすることができる。
【0038】
出力候補生成部123は、生産指示書に特記事項として紐づけられた発話データのうちから出力対象として有意な発話データを出力候補として生成する。出力候補生成部123は、所定の基準にしたがう統計データを有する発話者の発話データを、有意な発話データとして選択する。
【0039】
次に、生産指示書に紐づけられた特記事項の登録場面と確認場面について、図5に示す生産指示書の配布例を用いながら説明する。図5は、第2の実施形態の生産指示書の配布例を示す図である。
【0040】
生産指示書は、生産指示書を特定可能な案件ID、設計部署から製品の設計図を受領して生産管理部署によって作成される。生産指示書は、製品の基本情報(製品名や、型式等)を含むほか、生産指示書の作成理由(モデルチェンジ、コスト削減や不具合対応等の仕様変更等)、開始条件(即時、生産ラインが空き次第、日時指定等)、開始期限日、完了期限日、特記事項を含む。特記事項は、生産指示書の標準フォームにとらわれない事項であり、たとえば製造時の注意事項、制限事項等が特記事項として登録される。
【0041】
生産管理部署は、当該製品を生産する工場に当該製品の設計図と生産指示書を配布する。また、生産管理部署は、当該製品の納品先となり、当該製品を部品として二次製品を生産する工場にも当該製品の設計図と、二次製品の設計図と生産指示書とを配布する。
【0042】
たとえば、設計部署は、製品Aについて設計図Aを作成し、製品Bについて設計図Bを作成し、製品Cについて設計図Cを作成する。生産管理部署は、製品Bを工場Bが製作するとき、工場Bに生産指示書Bと設計図Bを配布する。また、生産管理部署は、製品Cを工場Cが製作するとき、工場Cに生産指示書Cと設計図Cを配布する。また、生産管理部署は、製品Aと製品Bを構成部品(一次製品)とする組立品(二次製品)を工場Cが制作するとき、工場Cに生産指示書Cと設計図Cに加えて設計図Aと設計図Bとを配布する。
【0043】
生産指示書は、電子文書として配布され、特記事項として音声を追加(紐づけ)可能である。生産指示書に追加される音声は、生産管理部署において録音される場合があるし、対応する工場において録音される場合もあり得る。たとえば、生産指示書に追加される音声の録音環境は、生産管理部署においては良好とすることができるが、工場においては良好とすることが容易でない場合がある。したがって、生産指示書に追加される音声は、雑音を含む場合があるし、第三者の音声を含む場合があり、目的とする音声だけではない場合がある。
【0044】
次に、生産指示書に特記事項を登録する際に、端末200に表示される特記事項登録画面について図6を用いて説明する。図6は、第2の実施形態の特記事項登録画面の一例を示す図である。
【0045】
特記事項登録画面は、生産指示書の表示時に特記事項登録メニューを担当者が選択することで表示される画面である。特記事項登録画面は、案件ID表示、特記事項の登録方法の選択入力表示、録音操作表示、録音時間表示、決定・戻る操作表示を含む。
【0046】
案件ID表示は、特記事項が紐づけられる生産指示書を特定可能な情報である。特記事項の登録方法の選択入力表示は、選択式入力フォームのUI(User Interface)、たとえばラジオボタンを有し、特記事項を音声入力とするか、フリー入力とするか、定型文とするかを選択可能にする。録音操作表示と録音時間表示と発話者選択表示は、選択入力表示において音声入力を選択しているときに表示される。なお、フリー入力は、文章や画像等の入力を許容する。定型文は、あらかじめ用意している定型文の1つを選択、あるいは2以上の定型文の組合せの選択を許容する。
【0047】
録音操作表示は、録音開始、一時停止、録音終了の各操作をアイコン表示する。録音時間表示は、録音開始、一時停止、録音終了の各操作によって録音された音声の録音時間と、音声再生操作のアイコンを表示する。決定・戻る操作表示は、録音された音声を特記事項とするか否かの操作を受け付けるアイコンを表示する。
【0048】
端末200は、このような特記事項登録画面を用いて生産指示書に紐づけられた音声データを特記事項として登録可能にする。端末200は、生産指示書に紐づけられた音声データをサーバ100に通知することができる。サーバ100は、取得した音声データから発話単位の発話データを抽出し、発話者を特定して発話者ごとの統計データ132を生成することができる。サーバ100は、生産指示書に特記事項として登録した音声データのうち再生対象となる発話データを統計データ132にもとづいて絞り込み出力候補とすることができる。なお、サーバ100は、発話者を絞り込むことによって発話データの絞り込みをおこなうことができる。
【0049】
端末200は、サーバ100が生成した出力候補を確認可能にし、必要に応じて変更可能にする。次に、サーバ100が生成した出力候補を確認する際に、端末200に表示される発話者確認画面について図7を用いて説明する。図7は、第2の実施形態の発話者確認画面の一例を示す図である。
【0050】
端末200は、特記事項登録画面において音声データを特記事項として登録した後に、発話者確認画面を表示する。発話者確認画面は、案件ID表示、統計区分表示、判定基準表示、再生対象表示、非再生対象表示、発話者入替操作表示、決定・戻る操作表示を含む。
【0051】
案件ID表示は、特記事項が紐づけられる生産指示書を特定可能な情報である。統計区分表示は、発話者の絞り込みに用いる統計データ132の範囲を指定するものである。たとえば、統計データ132の範囲は、蓄積データ131のすべてとすることができるし、蓄積データ131のうち過去1年以内のように期間を限定した一部とすることができるし、案件IDから特定される生産指示書の属性を限定した一部とすることができる。生産指示書の属性は、製品種別や、生産工場等がある。端末200は、受け付けた統計区分をサーバ100に通知する。サーバ100は、受け付けた統計区分にしたがい統計処理をおこなう。
【0052】
判定基準表示は、発話者の絞り込みに用いる統計データ132の絞込み判定基準を指定する表示である。判定基準表示は、発話率指定表示と、音量指定表示とを含む。端末200は、受け付けた統計区分をサーバ100に通知する。サーバ100は、受け付けた発話率と音量にしたがい発話者の絞り込みをおこなう。判定基準の1つである発話率は、プルタブから基準値を選択可能にする。図示する判定基準表示は、発話率80%以上を判定基準の1つとする。また、判定基準の1つである音量は、ラジオボタンから基準値を選択可能にする。図示する判定基準表示は、音量「中」以上を判定基準の1つとする。
【0053】
なお、発話率は、発話者ごとの発話データの合計時間が音声データにおける録音時間に占める割合である。発話率は、発話者ごとの発話データが音声データに占める割合に関する割合情報の1つである。なお、発話率は、音声データに現れる発話者の重要度を時間的尺度で測るものであれば他の算出式によって算出されるものであってもよい。音量は、発話者ごとの発話データの平均音量(dB)である。音量は、発話者ごとの発話データの音量に関する音量情報の1つである。なお、音量は、たとえば音声データの平均音量と比較して発話データの平均音量が大きいか、同程度か、小さいかなどのように、音声データと発話データとの比較による相対的評価であってもよい。このような音量の相対的評価は、録音環境によらず発話者の音量を評価できる。また、このような音量の相対的評価は、音声データの正規化処理(たとえば、平均音量の補正)を簡潔にできる。
【0054】
再生対象表示と非再生対象表示は、生産指示書に紐づけられた音声データに含まれる発話者の一覧表示である。再生対象表示は、統計データ132の絞込み判定基準を満たして再生対象となる発話者の一覧表示であり、非再生対象表示は、統計データ132の絞込み判定基準を満たさないことから再生対象とならない発話者の一覧表示である。
【0055】
再生対象表示と非再生対象表示は、それぞれ発話者ごとに、ラジオボタン、識別情報表示、発話再生アイコン、発話者統計情報を含む。再生対象表示と非再生対象表示は、ラジオボタンにチェックを入れて、矢印状のアイコンである発話者入替操作表示を操作することで再生対象表示と非再生対象表示との間で発話者を入れ替えることができる。決定・戻る操作表示は、再生対象表示と非再生対象表示の発話者の構成を確認して決定するか否かの操作を受け付けるアイコンを表示する。端末200は、再生対象表示と非再生対象表示の発話者の構成に変更があればサーバ100に変更内容を通知する。
【0056】
なお、再生対象表示に表示される発話者は、サーバ100が判定基準に合致したとした発話者であり、非再生対象表示は、サーバ100が判定基準に合致しないとした発話者である。たとえば、端末200の操作者は、非再生対象表示にある発話者Cの発話を再生して特記事項として再生対象としたいとした場合、発話者Cのラジオボタンにチェックを入れて発話者入替操作表示を操作することで発話者Cを再生対象表示に入れ替えることができる。同様にして、再生対象表示に表示されている発話者を非再生対象表示に入れ替えることができる。端末200は、発話者の入替結果をサーバ100に通知し、サーバ100は、発話者の入替結果にもとづいて生産指示書に紐づけられて再生対象とする発話データを更新する。
【0057】
次に、端末200から特記事項を確認する際に、端末200に表示される特記事項確認画面について図8を用いて説明する。図8は、第2の実施形態の特記事項確認画面の一例を示す図である。
【0058】
特記事項確認画面は、生産指示書の表示時に特記事項確認メニューを担当者が選択することで表示される画面である。特記事項確認画面は、案件ID表示、特記事項の確認方法の選択入力表示、発話者表示、再生操作表示、再生時間表示、戻る操作表示を含む。
【0059】
案件ID表示は、特記事項が紐づけられる生産指示書を特定可能な情報である。特記事項の確認方法の選択入力表示は、選択式入力フォームのUI、たとえばラジオボタンを有し、確認対象となる特記事項を音声出力とするか、フリー表示とするか、定型文表示とするかを選択可能にする。なお、特記事項として登録されている項目を黒色表示、登録されていない項目をグレー表示として登録の有無を明示する。
【0060】
発話者表示は、生産指示書に紐づけられて再生対象とする発話データに対応する発話者が表示される。ここで表示される発話者は、発話者確認画面において発話者表示に表示される発話者である。発話者表示は、発話者ごとに、ラジオボタン、識別情報表示、発話再生表示、発話者統計情報を含む。発話再生表示は、再生開始、一時停止の各操作をアイコン表示する。再生時間表示は、再生開始、一時停止の各操作によって再生する音声の再生時間を表示する。戻る操作表示は、特記事項確認の終了操作を受け付けるアイコンを表示する。なお、1の発話者に2以上の発話データがある場合、一連の発話データとして連続して再生可能にしてもよいし、それぞれ個別に再生可能にしてもよい。
【0061】
これにより、サーバ100は、端末200から特記事項を確認する際に、音声データのすべての確認を求めることを要しない。また、サーバ100は、端末200から特記事項を確認する際に、その都度に発話データを選択することを求めずに、適当とされる発話データを確認可能にする。
【0062】
次に、サーバ100が実行する処理について説明する。まず、端末200が特記事項として音声データを取得した際に、サーバ100が実行する音声蓄積処理について図9から図12を用いて説明する。図9は、第2の実施形態の音声蓄積処理のフローチャートの一例を示す図である。図10は、第2の実施形態の音声蓄積データの一例を示す図である。図11は、第2の実施形態の発話蓄積データの一例を示す図である。図12は、第2の実施形態の発話者データの一例を示す図である。
【0063】
[ステップS11]音声処理部121(処理部120)は、端末200が特記事項として登録した音声データを取得する。音声処理部121は、取得した音声データを蓄積データ131のうちの音声蓄積データとして記憶部130に保存する。
【0064】
図10に示す音声蓄積データ140は、音声蓄積データの一例である。音声蓄積データ140は、音声データごとに、案件ID、音声録音時間、音量、日付を含む。音声データは、音声処理部121によってユニークな識別情報(たとえば、識別情報「V-xxxx」)が付される。たとえば、識別情報「V-xxxx」で特定される音声データは、案件ID「XXXX-xxxx」によって紐づけられている生産指示書を特定可能にする。また、識別情報「V-xxxx」で特定される音声データは、音声録音時間「2’54”」、音量「50」、日付(特記事項としての登録日)「y1/m1/d1」とともに音声蓄積データとして記憶部130に保存される。なお、音声処理部121は、音声データを取得する都度、音声蓄積データとして記憶部130に保存する。
【0065】
[ステップS12]音声処理部121(処理部120)は、取得した音声データからノイズ除去をおこなう。なお、音声処理部121は、ノイズ除去に加えて平均音量を規定値に補正する正規化処理等をおこなうようにしてもよい。また、音声処理部121は、発話を聞き取りやすくするためのフィルタ処理等をおこなうようにしてもよい。また、音声処理部は、規定以上の無音部を削除するようにしてもよい。
【0066】
[ステップS13]音声処理部121(処理部120)は、加工した音声データから発話単位で発話データを抽出する。なお、発話単位は、発話者の交代によって区切られるものであってもよいし、同一発話者による規定時間以上の無音期間によって区切られるものであってもよい。また、発話単位は、その他の既知の方法によって区切られるものであってもよい。音声処理部121は、抽出した発話データを蓄積データ131のうちの発話蓄積データとして記憶部130に保存する。
【0067】
図11に示す発話蓄積データ150は、発話蓄積データの一例である。発話蓄積データ150は、発話データごとに、案件ID、発話者、発話時間、音量、再生フラグ、日付、音声IDを含む。なお、再生フラグは、発話データを出力対象(再生対象)とするか否かを識別可能な情報であり、初期値が「0」であり、特記事項における発話者候補(再生候補)となったときに「1」になる。日付は、特記事項としての登録日である。音声IDは、抽出元となる音声データを特定可能な情報である。
【0068】
発話データは、音声処理部121によってユニークな識別情報(たとえば、識別情報「v000001」)が付される。たとえば、識別情報「v000001」で特定される発話データは、案件ID「XXXX-xxxx」によって紐づけられている生産指示書を特定可能にする。また、識別情報「v000001」で特定される発話データは、発話者「A」、発話時間「2’36”」、音量「82」、再生フラグ「0」、日付「y1/m1/d1」、音声ID「V-xxxx」とともに発話蓄積データとして記憶部130に保存される。
【0069】
なお、発話蓄積データ150のうち音声ID「V-xxxx」から抽出された発話データは、識別情報「v000001」,「v000002」,「v000003」で特定される発話データである。その余の発話データは、音声ID「V-xxxx」以前に抽出された発話データである。このように、音声処理部121は、発話データを抽出する都度、発話蓄積データとして記憶部130に保存する。
【0070】
[ステップS14]音声処理部121(処理部120)は、抽出した発話データについて発話者を特定する。まず、音声処理部121は、発話データごとに発話者を区別可能な情報により発話者を区別する。音声処理部121は、区別した発話者ごとに発話者を特定可能な特定情報があれば特定情報を付与する。
【0071】
なお、発話者を区別可能な情報は、音声の特徴(たとえば、声紋や声域、イントネーション等)によってもよいし、発話に含まれる発話者情報(たとえば、所属、役職、氏名等)によってもよいし、これらの組合せによってもよい。
【0072】
なお、発話者を特定可能な特定情報は、発話者を区別したときに付与する識別情報に代えて表示可能な情報とすることができる。たとえば、識別情報は、A,B,C,D,・・・のような特定の人物を想起容易でない情報であり、特定情報は、「生産管理部〇〇課長」のように特定の人物を想起容易な情報とすることができる。
【0073】
図12に示す発話者データ152は、発話者データの一例である。発話者データ152は、発話者を区別可能な識別情報と発話者を特定可能な特定情報との対応関係である。発話者を区別可能な識別情報は、たとえば、A,B,C,D,Eである。発話者Aは、所属「生産管理部」、役職「課長」、名前「山田」として特定されているが、発話者Eは、他の発話者と区別されているものの個人が特定されていない。たとえば、新規の発話者は、個人が特定されていないが、特記事項の登録後、あるいは再生後に、本人あるいは本人以外によって発話者が特定されて関連情報が入力される。
【0074】
[ステップS15]統計処理部122(処理部120)は、発話データを統計処理する統計データ更新処理を実行する。統計処理部122は、統計データ更新処理において、発話者データ、あるいは発話者データに加えて音声データを対象にして統計処理をおこない、統計データ132の生成と更新をおこなう。統計データ更新処理については、後で図13を用いて説明する。
【0075】
[ステップS16]出力候補生成部123(処理部120)は、取得した音声データに紐づけられた生産指示書において特記事項として再生対象となる発話データに係る発話者を発話者候補として統計データ132を用いて生成する。
【0076】
[ステップS17]出力候補生成部123(処理部120)は、取得した音声データに紐づけられた生産指示書において特記事項として再生対象となる発話データのうち発話者候補に係る発話データに再生フラグ「1」をセットする。たとえば、発話蓄積データ150において、案件ID「XXXX-xxxx」における発話者Aを発話者候補として生成したとき、発話データ「v000001」における再生フラグ「0」を「1」に更新する。
【0077】
これにより、案件ID「XXXX-xxxx」により特定される生産指示書は、特記事項における音声再生時に、発話者Aに係る発話データ「v000001」を再生対象とすることができる。
【0078】
次に、サーバ100が実行する統計データ更新処理について図13を用いて説明する。統計データ更新処理は、サーバ100が音声蓄積処理のステップS15において実行する処理である。図13は、第2の実施形態の統計データ更新処理のフローチャートの一例を示す図である。
【0079】
[ステップS21]統計処理部122(処理部120)は、統計処理における集計範囲を選択する。集計範囲は、端末200の利用者によって選択されるものであってもよいし、デフォルトで決められているものであってもよい。集計範囲は、蓄積データ131のすべてとすることができるし、蓄積データ131のうち特定の属性を有する生産指示書に係るデータとすることができる。たとえば、特定の属性を有する生産指示書は、案件IDによって限定されるものがあるし、特定の発話者の発話を含む音声データと紐づけられているものがあるし、特定の期間に録音された音声データと紐づけられているものがある。
【0080】
[ステップS22]統計処理部122(処理部120)は、蓄積データ131のうち選択された集計範囲に属するデータを集計対象となるデータ(対象データ)として取得する。
【0081】
[ステップS23]統計処理部122(処理部120)は、対象データを発話者ごとに統計処理する。具体的には、統計処理部は、対象データについて発話者ごとの発話率や平均音量を生成する。
【0082】
[ステップS24]統計処理部122(処理部120)は、生成した統計データを統計データ132として記憶部130に保存する。
ここで、統計データ132の一例について図14を用いて説明する。図14は、第2の実施形態の発話者統計データの一例を示す図である。発話者統計データ160は、記憶部130に保存される統計データ132の1つである。
【0083】
発話者統計データ160は、集計範囲を「すべて」とする統計データであり、発話者ごとの発話率と平均音量を含む。発話率は、抽出元となった音声データに占める当該発話者に係る発話データが占める割合である。平均音量は、発話データの平均音量であり、dB単位で生成される。たとえば、発話者Aは、発話率「80(%)」と平均音量「85(dB)」の統計データである。発話者ごとの統計データは、発話者候補の生成に用いられる。このような発話者統計データ160は、発話者に係る統計データをより多くの集計範囲から生成可能であり、統計データの精度向上を図ることができる。
【0084】
次に、発話者統計データ160の変形例について図15を用いて説明する。図15は、第2の実施形態の発話者統計データの変形例を示す図である。発話者統計データ162は、記憶部130に保存される統計データ132の1つである。
【0085】
発話者統計データ162は、集計範囲を生産指示書ごととする統計データであり、案件ID別に発話者ごとの発話率と音量評価を含む。発話率は、抽出元となった音声データに占める当該発話者に係る発話データが占める割合である。音量評価は、発話データの平均音量の評価レベルであり、たとえば大、中、小のように3段階の音量レベルで評価される。たとえば、案件ID「XXXX-xxxx」における発話者Aは、発話率「80(%)」と音量評価「大」の統計データである。また、案件ID「YYYY-yyyy」における発話者Aは、発話率「5(%)」と音量評価「小」の統計データである。すなわち、発話者Aは、案件ID「XXXX-xxxx」により特定される生産指示書の特記事項において主要な発話者であるが、案件ID「YYYY-yyyy」により特定される生産指示書の特記事項において主要な発話者でない。案件IDかつ発話者ごとの統計データもまた、発話者候補の生成に用いることができる。このような発話者統計データ162は、発話者に係る統計データを特定の集計範囲から生成可能であり、発話者の異動があった時など環境変化に対応して統計データの精度向上を図ることができる。
【0086】
次に、サーバ100が実行する発話データ確認処理について図16を用いて説明する。発話データ確認処理は、端末200が発話者確認画面を表示するときに実行される。図16は、第2の実施形態の発話データ確認処理のフローチャートの一例を示す図である。
【0087】
[ステップS31]出力候補生成部123(処理部120)は、端末200が発話者確認画面を表示する際に、生産指示書に係るすべての発話者と、再生対象となる発話者(音声蓄積処理のステップS17において再生フラグ「1」が設定された発話者)とを端末200に通知する。端末200は、当該通知を受けて再生対象となる発話者を再生対象表示(図7参照)に表示し、生産指示書に係るすべての発話者のうち再生対象とならない発話者を非再生対象表示に表示する。
【0088】
[ステップS32]出力候補生成部123(処理部120)は、端末200から発話者確認画面を表示する際に、再生対象表示と非再生対象表示の発話者の構成の確認を決定する通知にもとづいて発話データの確認終了を判定する。出力候補生成部123は、発話データの確認終了があれば発話データの確認を終了してステップS35に進み、発話データの確認終了がなければステップS33に進む。
【0089】
[ステップS33]出力候補生成部123(処理部120)は、端末200から発話再生指示があればステップS34に進み、発話再生指示がなければステップS32に進み、発話再生指示もしくは発話データの確認終了を待ち受ける。
【0090】
[ステップS34]出力候補生成部123(処理部120)は、発話再生指示にもとづく発話データを端末200に送信する。
[ステップS35]出力候補生成部123(処理部120)は、発話データの確認終了の通知とともに、再生対象表示と非再生対象表示の発話者の構成変更に係る通知があるか否か、すなわち出力候補(再生候補)の入替があるか否かを判定する。出力候補生成部123は、出力候補の入替がなければ発話データ確認処理を終了し、出力候補の入替があればステップS36に進む。
【0091】
[ステップS36]出力候補生成部123(処理部120)は、出力候補の入替通知にしたがい発話データの再生フラグを更新する。出力候補生成部123は、再生対象となる発話データの再生フラグに「1」をセットし、非再生対象となる発話データの再生フラグに「0」をセットする。なお、サーバ100は、出力候補の入替通知にもとづく再生フラグの更新情報を保持するようにしてもよく、以降における統計データ132にもとづく再生フラグの設定を更新情報にもとづいて上書き更新するようにしてもよい。
【0092】
これにより、サーバ100は、統計データ132にもとづいた再生対象となる発話データを提示したうえで、端末200の利用者による修正を受け付けることができる。また、サーバ100は、特記事項の確認時に適切な発話データを出力可能にする。このようなサーバ100は、生産指示書に紐づけられた発話データの登録や再生に係る作業負荷を軽減することができる。
【0093】
また、開示した実施形態はすべての点で例示されるものであって制限的なものではないと考えられるべきである。また、上述の実施形態および変形例の各構成を組み合わせて適用してもよい。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0094】
10 情報処理装置
11 処理部
12 蓄積データ
13 統計データ
14 電子文書
15 音声データ
16,17,18 発話データ
19,20,21 発話者
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16