(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024075868
(43)【公開日】2024-06-05
(54)【発明の名称】音声データ検索システム、検索キーワード決定補助装置およびその方法
(51)【国際特許分類】
G06F 16/68 20190101AFI20240529BHJP
G06V 30/12 20220101ALI20240529BHJP
【FI】
G06F16/68
G06V30/12 C
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022187079
(22)【出願日】2022-11-24
(71)【出願人】
【識別番号】522458859
【氏名又は名称】一般社団法人治安防災研究機構
(74)【代理人】
【識別番号】100092956
【弁理士】
【氏名又は名称】古谷 栄男
(74)【代理人】
【識別番号】100101018
【弁理士】
【氏名又は名称】松下 正
(72)【発明者】
【氏名】平田 豊
【テーマコード(参考)】
5B064
5B175
【Fターム(参考)】
5B064AB03
5B064DA10
5B064DA27
5B064EA10
5B064EA30
5B175DA05
5B175FB02
5B175FB03
5B175GA03
(57)【要約】
【課題】音声データに関する検索キーワード決定を補助する。
【解決手段】第1~第3のAI光学文字認識手段101~105は、異なるアルゴリズムで手書き画像データの文字部分をテキストデータに変換する。判定手段107は、第1~第3のAI光学文字認識手段101~105による変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果をその音声データに対応する確定結果として記憶させ、そうでなければ未確定変換結果として記憶する。提示手段119は、未確定変換結果を、前記一致していない部分が判別できるように操作者に提示し、修正手段117は、前記操作者から修正指示が与えられると、前記未確定変換結果を修正して、修正後の変換結果を、対応する音声データの確定変換結果として記憶させる。3つが一致した場合には、手動修正処理が不要となる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識手段、
前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識手段、
前記第1および前記第2のAI光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識手段、
手書き文字画像を記憶する手書き文字画像データ記憶手段、
音声データを記憶する音声データ記憶手段、
前記手書き文字画像と前記音声データとの関連づけを記憶する関連づけデータ記憶手段、
前記第1~第3のAI光学文字認識手段による変換結果が完全一致するか否か判断し、完全一致する場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応するテキストデータとして確定判定結果記憶手段に記憶させ、完全一致しない場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応する未確定変換結果として未確定結果記憶手段に記憶させる判定手段、
前記未確定結果記憶手段に記憶された変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、
前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識手段による変換結果を修正して、修正後の変換結果を、対応する音声データのテキストデータとして、前記確定変換結果記憶手段に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを前記各AI光学文字認識手段に与える修正手段、
検索キーワードが与えられると、該当するキーワードを含むテキストデータを抽出し、前記関連づけデータを参照して、対応する音声データを出力する検索手段、
を備えた音声データ検索システム
【請求項2】
所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段、
前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段、
前記手書き文字画像に対応する音声データを記憶する音声データ記憶手段、
前記各光学文字認識手段による変換したテキストデータが完全一致するか否か判断し、完全一致する場合には、当該変換結果を前記音声データの検索キーワード用のテキストデータとして確定判定結果記憶手段に記憶させ、異なる場合には、当該変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段、
を備えた音声データに関する検索キーワード決定補助装置。
【請求項3】
請求項2の音声データに関する検索キーワード決定補助装置において、
前記手書き画像データおよびこれに対応する前記未確定変換結果を操作者に提示する提示手段、
前記操作者から与えられた修正指示に基づいて、前記各光学文字認識手段による変換結果を修正するとともに、修正後の変換結果を、前記音声データの検索キーワード用のテキストデータとして、前記確定変換結果記憶手段に追加記憶する修正手段、
を備えた音声データに関する検索キーワード決定補助装置。
【請求項4】
請求項2の音声データに関する検索キーワード決定補助装置において、
前記未確定変換結果および前記修正指示に基づいて、前記各光学文字認識手段向けの再学習用データを与える再学習手段、
を備えた音声データに関する検索キーワード決定補助装置。
【請求項5】
請求項2の音声データに関する検索キーワード決定補助装置において、
前記第1および前記第2の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3の光学文字認識手段を更に備え、
前記判定手段は、前記全ての光学文字認識手段による変換結果が一致する場合だけ、前記完全一致すると判断すること、
を特徴とする音声データに関する検索キーワード決定補助装置。
【請求項6】
請求項5の音声データに関する検索キーワード決定補助装置において、
前記判定手段は、前記未確定変換結果について、2つの光学文字認識手段による変換結果が一致した場合は仮登録と、3つの光学文字認識手段がいずれも異なる場合は要確認と判断すること、
を特徴とする音声データに関する検索キーワード決定補助装置。
【請求項7】
請求項3の音声データに関する検索キーワード決定補助装置において、
前記提示手段は、前記未確定変換結果について、他の光学文字認識手段による変換結果と一致していない部分を、他の部分と区別可能に表示すること、
を特徴とする音声データに関する検索キーワード決定補助装置。
【請求項8】
請求項7の音声データに関する検索キーワード決定補助装置、
検索キーワードが与えられると、前記検索キーワード決定補助装置の確定変換結果記憶手段に記憶されたテキストデータのうち、前記検索キーワードを含むテキストデータを特定し、特定したテキストデータに対応づけられている音声データを出力する検索手段、
を備えた音声データ検索システム。
【請求項9】
コンピュータを以下の手段を備えた音声データに関する検索キーワード決定補助装置として機能させるための音声データの検索キーワード決定補助プログラム。
手書き文字画像およびこれに対応する音声データを記憶する画像・音声データ記憶手段、
所定のアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段から前記手書き文字画像の変換結果を第1変換結果として取得する第1変換結果取得手段、
前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段から前記手書き文字画像の変換結果を第2変換結果として取得する第2変換結果取得手段、
前記第1および第2変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を対応する音声データの検索キーワード用のテキストデータとして確定判定結果記憶手段に記憶させ、異なる場合には、当該変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段。
【請求項10】
コンピュータに、手書き文字画像およびこれに対応する音声データを記憶しておき、
前記コンピュータが、以下のステップを実行すること、
所定のアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段から前記手書き文字画像の変換結果を第1変換結果として取得するステップ、
前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段から前記手書き文字画像の変換結果を第2変換結果として取得するステップ、
前記第1および第2変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を対応する音声データの検索キーワード用のテキストデータとして記憶し、異なる場合には、当該変換結果を未確定変換結果として記憶するステップ、
を特徴とする音声データに関する検索キーワード決定補助方法。
【請求項11】
所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識手段、
前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識手段、
前記第1および前記第2のAI光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識手段、
前記手書き文字画像に対応する音声データを記憶する音声データ記憶手段、
前記第1~第3のAI光学文字認識手段による変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果をその音声データに対応するテキストデータとして確定判定結果記憶手段に記憶させ、完全一致しない場合には、当該変換結果をその音声データに対応する未確定変換結果として未確定結果記憶手段に記憶させる判定手段、
前記未確定結果記憶手段に記憶された変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、
前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識手段による変換結果を修正して、修正後の変換結果を、対応する音声データのテキストデータとして、前記確定変換結果記憶手段に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを前記各AI光学文字認識手段に与える修正手段、
を備えた光学文字認識システムにおける要修正変換結果仕分けシステム。
【請求項12】
請求項11の要修正変換結果仕分けシステムにおいて、
前記修正手段は、前記各光学文字認識手段について、当該光学文字認識手段による未確定変換結果と前記修正後の変換結果から、それぞれの再学習用データを生成し、前記第1~第3のAI光学文字認識手段にそれぞれに与えること、
を特徴とする要修正変換結果仕分けシステム。
【請求項13】
所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識装置、前記第1のAI光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識装置、前記第1および前記第2のAI光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識装置に手書き画像データを与える手書き画像データ送信手段、
前記第1~第3のAI光学文字認識装置から、変換結果を受信する受信手段、
前記受け取った3つの変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を確定判定結果記憶手段に記憶させ、完全一致しない場合には、当該3つの変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段、
前記未確定変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、
前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識装置による変換結果を修正して、修正後の変換結果を前記確定変換結果記憶手段に記憶させる修正手段、
を備えた要修正変換結果仕分けシステム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声データ検索システムに関し、特に、その検索キーワード決定処理に関する。
【背景技術】
【0002】
110番通報があると、司令センターのオペレータが通報者から内容を聴き取り、警官の派遣などを行う。かかる110番通報は、音声データとして記録される。かかる音声データは、環境音など、テキストにはできない多種の情報を含むため、捜査資料として重要視されている。たとえば、被害者が110番通報してきた場合など、犯人の手かがりとなる情報を含むこともあるためである。そのため同種の事件が起きた際に、過去の110番通報から共通する犯人像があれば、その110番通報を特定して、その音声データをチェックして、捜査の資料として用いることができる。
【0003】
かかる110番通報は多数に渡るので、適切な検索キーワードを付与しておかなければ、該当する音声データを抽出することができない。
【0004】
かかる検索キーワードとして、最も好ましいのは、音声データそれ自体をテキスト化することである。
【0005】
特許文献1には、音声データをテキスト化する装置が開示されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、現在の音声データのテキスト化技術では110番通報時の音声データをテキスト化するには、あまりにも変換精度が低く、実用には耐えないという問題があった。これは、通常の音声と異なり、通報者が興奮していること、さらに通報者が方言を用いるという特殊な状況下だからである。
【0008】
ところで、前記内容聴き取りの際は、オペレータが場所、犯人などについて、特徴的な用語をメモ書きしている。発明者は、このメモをOCR処理して、キーワードとすることを考えた。
【0009】
しかしながら、AIを使ったOCRであっても、現在の技術では、やはり、現場で使用するには十分な読み取り精度ではなく、人間による確認が欠かせないのが現状である。
【0010】
かかる問題は、音声データとは連動していないが、人間による手書きメモをOCR処理する場合には、同様に問題となる。
【0011】
この発明は、音声データを検索するためのキーワードのデータ作成における人間の確認作業の負担軽減が可能な検索キーワード決定補助装置を提供することを目的とする。また、手書きメモを人間によってOCR処理する場合の負担軽減できる検索キーワード決定補助装置を提供することを目的とする。さらにこの検索キーワード決定補助装置を用いた音声データ検索システムを提供することを目的とする。
【課題を解決するための手段】
【0012】
(1)本発明にかかる音声データ検索システムは、所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識手段、前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識手段、前記第1および前記第2のAI光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識手段、
手書き文字画像を記憶する手書き文字画像データ記憶手段、
音声データを記憶する音声データ記憶手段、
前記手書き文字画像と前記音声データとの関連づけを記憶する関連づけデータ記憶手段、
前記第1~第3のAI光学文字認識手段による変換結果が完全一致するか否か判断し、完全一致する場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応するテキストデータとして確定判定結果記憶手段に記憶させ、完全一致しない場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応する未確定変換結果として未確定結果記憶手段に記憶させる判定手段、前記未確定結果記憶手段に記憶された変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識手段による変換結果を修正して、修正後の変換結果を、対応する音声データのテキストデータとして、前記確定変換結果記憶手段に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを前記各AI光学文字認識手段に与える修正手段、検索キーワードが与えられると、該当するキーワードを含むテキストデータを抽出し、前記関連づけデータを参照して、対応する音声データを出力する検索手段を備えている。
【0013】
したがって、前記音声データの検索キーワード用のテキストデータを生成するに当たって、異なるアルゴリズム光学文字認識手段を用いて、一致する場合は確定結果として、一致しない場合は未確定変換結果とする判定ができる。これにより、人間が目視で手書き文字画像を確認しなければならない対象を減らすことができる。また、決定した検索キーワードで、前記音声データの検索が可能となる。
【0014】
(2)本発明にかかる検索キーワード決定補助装置は、所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段、前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段、前記手書き文字画像に対応する音声データを記憶する音声データ記憶手段、前記各光学文字認識手段による変換したテキストデータが完全一致するか否か判断し、完全一致する場合には、当該変換結果を前記音声データの検索キーワード用のテキストデータとして確定判定結果記憶手段に記憶させ、異なる場合には、当該変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段を備えている。
【0015】
したがって、前記音声データの検索キーワード用のテキストデータを生成するに当たって、異なるアルゴリズム光学文字認識手段を用いて、一致する場合は確定結果として、一致しない場合は未確定変換結果とする判定ができる。これにより、人間が目視で手書き文字画像を確認しなければならない対象を減らすことができる。
【0016】
(3)本発明にかかる音声データに関する検索キーワード決定補助装置においては、前記手書き画像データおよびこれに対応する前記未確定変換結果を操作者に提示する提示手段、前記操作者から与えられた修正指示に基づいて、前記各光学文字認識手段による変換結果を修正するとともに、修正後の変換結果を、前記音声データの検索キーワード用のテキストデータとして、前記確定変換結果記憶手段に追加記憶する修正手段を備える。
【0017】
したがって、手動で前記未確定変換結果を修正して、前記確定結果とすることができる。
【0018】
(4)本発明にかかる音声データに関する検索キーワード決定補助装置においては、前記未確定変換結果および前記修正指示に基づいて、前記各光学文字認識手段向けの再学習用データを与える再学習手段を備えている。したがって、 前記各光学文字認識手段の変換精度を向上させることができる。
【0019】
(5)本発明にかかる音声データに関する検索キーワード決定補助装置においては、前記第1および前記第2の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3の光学文字認識手段を更に備え、前記判定手段は、前記全ての光学文字認識手段による変換結果が一致する場合だけ、前記完全一致すると判断する。
【0020】
したがって、3つの光学文字認識手段による変換結果が一致する場合には、確定結果とし、それ以外は未確定変換結果とできる。アルゴリズムが異なる3つの光学文字認識手段による変換結果が一致する場合は、経験則上、かなりの確率で正しい変換であると推定できる。
【0021】
(6)本発明にかかる音声データに関する検索キーワード決定補助装置においては、前記判定手段は、前記未確定変換結果について、2つの光学文字認識手段による変換結果が一致した場合は仮登録と、3つの光学文字認識手段がいずれも異なる場合は要確認と判断する。したがって、手動修正の際に、両者を区別可能に操作者に報知することができる。
【0022】
を特徴とする音声データに関する検索キーワード決定補助装置。
【0023】
(7)本発明にかかる音声データに関する検索キーワード決定補助装置においては、前記提示手段は、前記未確定変換結果について、他の光学文字認識手段による変換結果と一致していない部分を、他の部分と区別可能に表示する。これにより、手動修正処理の煩雑さを減らすことできる。
【0024】
(8)本発明にかかる音声データ検索システムは、音声データに関する検索キーワード決定補助装置、検索キーワードが与えられると、前記検索キーワード決定補助装置の確定変換結果記憶手段に記憶されたテキストデータのうち、前記検索キーワードを含むテキストデータを特定し、特定したテキストデータに対応づけられている音声データを出力する検索手段、を備えている。したがって、決定した検索キーワードでの検索が可能となる。
【0025】
(9)本発明にかかる音声データの検索キーワード決定補助プログラムは、コンピュータを以下の手段を備えた音声データに関する検索キーワード決定補助装置として機能させるためのプログラムである。
【0026】
手書き文字画像およびこれに対応する音声データを記憶する画像・音声データ記憶手段、所定のアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段から前記手書き文字画像の変換結果を第1変換結果として取得する第1変換結果取得手段、前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段から前記手書き文字画像の変換結果を第2変換結果として取得する第2変換結果取得手段、前記第1および第2変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を対応する音声データの検索キーワード用のテキストデータとして確定判定結果記憶手段に記憶させ、異なる場合には、当該変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段。
【0027】
したがって、前記音声データの検索キーワード用のテキストデータ生成するに当たって、異なるアルゴリズム光学文字認識手段を用いて、一致する場合は確定結果として、一致しない場合は未確定変換結果とする判定ができる。これにより、人間が目視で手書き文字画像を確認しなければならない対象を減らすことができる。
【0028】
(10)本発明にかかる音声データに関する検索キーワード決定補助方法は、コンピュータに、手書き文字画像およびこれに対応する音声データを記憶しておき、前記コンピュータが、以下のステップを実行する。所定のアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第1の光学文字認識手段から前記手書き文字画像の変換結果を第1変換結果として取得するステップ、前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2の光学文字認識手段から前記手書き文字画像の変換結果を第2変換結果として取得するステップ、前記第1および第2変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を対応する音声データの検索キーワード用のテキストデータとして記憶し、異なる場合には、当該変換結果を未確定変換結果として記憶するステップ。
【0029】
したがって、前記音声データの検索キーワード用のテキストデータ生成するに当たって、異なるアルゴリズム光学文字認識手段を用いて、一致する場合は確定結果として、一致しない場合は未確定変換結果とする判定ができる。これにより、人間が目視で手書き文字画像を確認しなければならない対象を減らすことができる。
【0030】
(11)本発明にかかる光学文字認識システムにおける要修正変換結果仕分けシステムは、所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識手段、前記第1の光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識手段、前記第1および前記第2のAI光学文字認識手段とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識手段、前記手書き文字画像に対応する音声データを記憶する音声データ記憶手段、前記第1~第3のAI光学文字認識手段による変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果をその音声データに対応するテキストデータとして確定判定結果記憶手段に記憶させ、完全一致しない場合には、当該変換結果をその音声データに対応する未確定変換結果として未確定結果記憶手段に記憶させる判定手段、前記未確定結果記憶手段に記憶された変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識手段による変換結果を修正して、修正後の変換結果を、対応する音声データのテキストデータとして、前記確定変換結果記憶手段に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを前記各AI光学文字認識手段に与える修正手段を備えている。
【0031】
したがって、異なるアルゴリズムのAI光学文字認識手段を用いて、一致する場合は確定結果として、一致しない場合は未確定変換結果とする判定ができる。これにより、人間が目視で手書き文字画像を確認しなければならない対象を減らすことができる。
【0032】
(12)本発明にかかる要修正変換結果仕分けシステムにおいては、前記修正手段は、前記各光学文字認識手段について、当該光学文字認識手段による未確定変換結果と前記修正後の変換結果から、それぞれの再学習用データを生成し、前記第1~第3のAI光学文字認識手段にそれぞれに与える。したがって、 前記各AI光学文字認識手段の変換精度を向上させることができる。
【0033】
(13)本発明にかかる要修正変換結果仕分けシステムは、所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識装置、前記第1のAI光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識装置、前記第1および前記第2のAI光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識装置に手書き画像データを与える手書き画像データ送信手段、前記第1~第3のAI光学文字認識装置から、変換結果を受信する受信手段、前記受け取った3つの変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を確定判定結果記憶手段に記憶させ、完全一致しない場合には、当該3つの変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段、前記未確定変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識装置による変換結果を修正して、修正後の変換結果を前記確定変換結果記憶手段に記憶させる修正手段、
を備えた光学文字認識システムにおける要修正変換結果仕分けシステム。
【0034】
本明細書において、「異なるアルゴリズム」とは、変換のアルゴリズムが異なる場合は全て含み、たとえば、辞書が異なる場合はもちろん、辞書が同じでも、別のアルゴリズムを更に付加させて変換する場合も含む。また、AI技術の中間層の数が異なる結果、別の変換結果となるような場合も含む。
【0035】
請求項の各手段と、実施形態との関係について説明する。
【0036】
「第1のAI光学文字認識手段」は、第1AIOCRプログラム26a1およびCPU23による変換処理が該当する。第2のAI光学文字認識手段は、第2AIOCRプログラム26a2およびCPU23による変換処理が該当する。第3のAI光学文字認識手段は、第3AIOCRプログラム26a3およびCPU23による変換処理が該当する。
【0037】
「音声データ記憶手段」「手書きメモ記憶手段」は、それぞれ
図2の音声データ記憶部26v、手書きメモ記憶部26gが該当する。「判定手段」はCPU23による
図4のステップS5、ステップS9の処理が該当する。「提示手段」は、CPU23による
図5ステップS27の処理が該当する。「修正手段」はCPU23による
図5ステップS30、S32、S33、S39の処理が該当する。「検索手段」はCPU23による
図7の処理が該当する。「確定判定結果記憶手段」および「未確定結果記憶手段」は、
図2の変換結果記憶部26kが該当する。「関連づけデータ記憶手段」は、
図2のインデックスデータ記憶部26iが該当する。
【図面の簡単な説明】
【0038】
【
図1】音声データ検索装置システム1の全体構成を示す図である。
【
図2】音声データ検索システム1を、CPUを用いて実現したハードウェア構成の一例を示す図である。
【
図6】手動修正処理における対比表次欄および修正用表示欄を示す図である。
【発明を実施するための形態】
【0039】
以下、本発明における実施形態について、図面を参照して説明する。
【0040】
(1. 全体構成)
図1に、本発明の1実施形態にかかる音声データに関する検索システム1(以下、検索システム1という)の機能ブロックを示す。
【0041】
検索システム1は、第1のAI光学文字認識手段101、第2のAI光学文字認識手段103、第3のAI光学文字認識手段105、音声データ記憶手段123、手書きメモ記憶手段121、判定手段107、提示手段119、修正手段117、検索手段131、関連づけデータ記憶手段125、二者一致判定結果記憶手段113、三者不一致判定結果記憶手段115、および確定判定結果記憶手段111、を備える。
【0042】
第1のAI光学文字認識手段101は、所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する。第2のAI光学文字認識手段103は、第1の光学文字認識手段101とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する。第3のAI光学文字認識手段105は、第1および前記第2のAI光学文字認識手段101、103とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する。
【0043】
手書きメモ記憶手段121は、手書き文字画像を記憶する。音声データ記憶手段123は、前記手書き文字画像に対応する音声データを記憶する。関連づけデータ記憶手段125は前記手書き文字画像と前記音声データとの関連づけを記憶する。
【0044】
判定手段107は、第1~第3のAI光学文字認識手段101~105による変換結果が完全一致するか否か判断し、完全一致する場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応するテキストデータとして確定判定結果記憶手段111に記憶させ、完全一致しない場合には、前記関連づけデータを参照して、当該変換結果をその音声データに対応する未確定変換結果として未確定結果記憶手段(二者一致判定結果記憶手段113、および三者不一致判定結果記憶手段115)に記憶させる。
【0045】
提示手段119は、未確定結果記憶手段(2者一致判定結果記憶手段113、3者不一致判定結果記憶手段115)に記憶された変換結果を、前記一致していない部分が判別できるように操作者に提示する。修正手段117は、前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識手段101~105による変換結果を修正して、修正後の変換結果を、対応する音声データのテキストデータとして、確定変換結果記憶手段111に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを各AI光学文字認識手段101~105に与える。検索手段131は、検索キーワードが与えられると、該当するキーワードを含むテキストデータを抽出し、前記関連づけデータを参照して、対応する音声データを出力する。
【0046】
(2. ハードウェア構成)
図1に示す検索システム1のハードウェア構成を、
図2を用いて説明する。同図は、検索システム1を、CPUを用いて構成したハードウェア構成の一例である。
【0047】
検索システム1は、CPU23、メモリ27、ハードディスク26、モニタ30、通信ボード31、入力デバイス28,光学式ドライブ25、およびバスライン29を備えている。CPU23は、ハードディスク26に記憶された各プログラムにしたがいバスライン29を介して、各部を制御する。
【0048】
ハードディスク26は、手書きメモ記憶部26g、音声データ記憶部26v、インデックスデータ記憶部26i、変換結果記憶部26kを有する。
【0049】
音声データ記憶部26vには、音声データIDごとに、110番通報があった際の通報者と通信指令のオペレータとの電話による応答の音声データが記憶されている。手書きメモ記憶部26gには、手書きメモIDごとに、オペレータが通報者とやりとりする際の手書きメモの画像データが記憶されている。
図3に一例を示す。この例では、4頁で1の画像データを構成しているが、これに限定されない。
【0050】
前記音声データのIDと手書きメモの画像データのIDの対応付けは、インデックスデータとしてインデックスデータ記憶部26iに記憶されている。例えば事件ごとに、事件番号、テキストデータID、音声データIDを対応づけて記憶しておけばよい。事件番号は、通信指令システムの受理番号を採用すればよい。
【0051】
変換結果記憶部26kは、後述するように、手書きメモの画像データのOCR変換により、変換されたテキストデータが記憶されている。
【0052】
また、ハードディスク26は、オペレーティングシステムプログラム26o(以下OSと略す)、メインプログラム26m、および3つのOCRプログラムが記憶されている。3つのOCRプログラム(第1AIOCRプログラム26a1、第2AIOCRプログラム26a2、第3AIOCRプログラム26a3)は、AIによる学習がなされたOCRプログラムであり、手書きメモの画像データが与えられると、テキストデータに変換する。第1AIOCRプログラム26a1、第2AIOCRプログラム26a2、第3AIOCRプログラム26a3は、学習に用いられた学習用画像データが異なるために、最終的に得られている学習済みプログラムのアルゴリズムが異なっている。したがって、これらはAI技術を用いたという点では同じAIOCRプログラムであるが、同じ画像データが与えられても、異なるテキストデータを変換結果として出力する可能性がある。
【0053】
メインプログラム26pの処理は、後述する。
【0054】
本実施形態においては、オペレーティングシステムプログラム(OS)26oとして、WINDOWS(登録商標または商標)を採用したが、これに限定されるものではない。
【0055】
なお、上記各プログラムは、光学式ドライブ25を介して、プログラムが記憶されたDVD-ROM25aから読み出されてハードディスク26にインストールされたものである。なお、DVD-ROM以外に、ICカード等のプログラムをコンピュータ可読の記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いてダウンロードするようにしてもよい。
【0056】
本実施形態においては、プログラムをDVD-ROMからハードディスク26にインストールさせることにより、DVD-ROMに記憶させたプログラムを間接的にコンピュータに実行させるようにしている。しかし、これに限定されることなく、DVD-ROMに記憶させたプログラムを光学式ドライブ25から直接的に実行するようにしてもよい。なお、コンピュータによって、実行可能なプログラムとしては、そのままインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの(例えば、データ圧縮されているものを、解凍する等)、さらには、他のモジュール部分と組合して実行可能なものも含む。
【0057】
(3.選別処理)
図4にメインプログラム26mによる選別処理のフローチャートを示す。
【0058】
かかる選別処理では、前記3つのAIOCRプログラムが行った変換結果について人間が確認処理をするべきかを決定する。
【0059】
CPU23は、手書きメモ記憶部26gから、画像データを1つ読みだして、3つのAIOCRプログラムに、前記手書き画像データにおける文字部分をテキスト変換する変換要請をおこなう(
図4ステップS1)。3つのAIOCRプログラムは、かかる要請を受けると、手書き画像データにおける文字部分をテキスト変換する。
【0060】
CPU23は、前記3つのAIOCRプログラムから変換されたテキストデータを受け取ると、インデックスデータ記憶部26iを参照して、音声データと紐付けて、変換結果をメモリ27に記憶する(ステップS3)。ここでは、第1AIOCRプログラム26a1~第3AIOCRプログラム26a3に変換要求が与えられ、それぞれ、第1変換結果~第3変換結果が得られたものとする。
【0061】
CPU23は、3つのAIOCRプログラムからの変換結果(第1変換結果~第3変換結果)が全て一致するか否か判断し(ステップS5)、全て一致する場合には、「確定変換結果」として、ハードディスク26の変換結果記憶部26k(
図2参照)に、いずれかの変換結果をインデックスデータ記憶部26iを参照して、音声データIDと紐付けて記憶する(ステップS7)。いずれでもよいのは、全て一致するからである。ここで「全て一致する」とは3つのAIOCRプログラムの変換結果としては、3つのテキストデータが存在するが、これらの3つのテキストデータの全ての文字が一致する場合をいう。たとえば、変換後のテキストデータの文字数が450文字である場合、第1変換結果の450文字と、第2変換結果の450文字、第3変換結果の450文字が全て一致する場合をいう。
【0062】
CPU23は、ステップS5にて、「no」の場合、第1変換結果~第3変換結果のうち、2つのテキストデータが全て一致するか否か判断する(ステップS9)。ステップS9にて「yes」の場合、すなわち、第1変換結果~第3変換結果のうち、2つの変換結果が全て一致する場合には、「仮登録変換結果」として変換結果記憶部26kに1の手書きメモ画像データについて、前記3つの第1変換結果~第3変換結果を、インデックスデータ記憶部26iを参照して、音声データIDと紐付けて記憶する。
【0063】
一方、ステップS9にて「no」の場合、すなわち、3つのAIOCRプログラムのいずれも一致しない場合には、「要検討変換結果」として変換結果記憶部26kに1の手書きメモ画像データについて、インデックスデータ記憶部26iを参照して、3つの変換結果を音声データIDと紐付けて記憶する。
【0064】
このように、3つのOCR変換プログラムによる変換結果が全て一致する場合には「確定変換結果」と、2つのOCR変換プログラムによる変換結果が全て一致する場合には「仮登録変換結果」と、のいずれも一致しない場合には、「要検討変換結果」と場合分けして記憶しておくことで、後述するように人間が個別に内容検討する対象とするかのフィルタリングを行うことができる。
【0065】
(4.手動修正処理)
図5にメインプログラム26mによる手動修正処理のフローチャートを示す。
【0066】
CPU23は、変換結果記憶部26kから「仮登録変換結果」および「要検討変換結果」の変換結果を読みだし(ステップS21)、未確定変換結果のデータ総数をnmaxとする(ステップS23)。
【0067】
前記未確定変換結果のデータ総数は、新たに変換した手書きメモの画像データの件数から、前記確定変換結果の件数分を減じた数となる。例えば、100件の手書きメモの画像データのうち、確定変換結果が30件であれは、前記未確定変換結果のデータ総数は70件となる。
【0068】
CPU23は、処理番号nを初期化し(ステップS25)、n番目の未確定変換結果について、3つのAIOCRプログラムによって変換されたテキストデータを変換結果記憶部26kから読みだすとともに,インデックスデータ記憶部26iを参照して、対応する手書きメモを手書きメモ記憶部26gから読みだして、モニタ30(
図2参照)に対比表示する(ステップS27)。
【0069】
図6に、対比表示の一例を示す。本実施形態においては、対比表次欄150および修正用表示欄152をモニタ30に表示するようにした。対比表次欄150には、左側に手書きメモを、その右側に3つの変換結果が表示されている。かかる表示形式は任意である。修正用表示欄152には、操作者が修正を容易にするために、候補用の記載が表示されている。
【0070】
本実施形態においては、3つの変換結果のうち同じテキスト文字に変換している場合には、それを候補として表示するようにした。たとえば、テキスト文字「細身」は、第1AIOCRプログラム26a1は、テキスト文字156(細身)に、第2AIOCRプログラム26a2は、テキスト文字157(細年)と、第3AIOCRプログラム26a3は、テキスト文字158(細身)と変換している。したがって、修正用表示欄152にはテキスト文字159(細身)と表示される。他の箇所についても同様である。なお、3つの変換結果全てが異なる場合は、空白とするようにしたが、3つの内いずれかを表示するようにしてもよい。
【0071】
なお、本実施形態においては、修正用表示欄152において、3つのAIOCRプログラムによる変換結果が異なる箇所については、アンダーラインを表示するようにしたが、操作者が当該箇所を認識できる表示であれば何でもよく、たとえば、修正用表示欄のアンダーライン表示、ハイライト表示などであってもよい。
【0072】
また、OCR変換時に、テキストデータの各文字について、手書きメモ画像における文字の位置(座標)を記憶させておけば、上記不一致となったテキストデータについて、その手書きメモ部分をほかと区別可能に表示(たとえばハイライト表示等)するようにしてもよい。
【0073】
また、上記のような区別可能な表示ではなく、画像データの各行と並列にテキストデータを表示するようにしてもよい。
【0074】
操作者は、左に表示された手書きメモの画像データを参照しつつ、修正用表示欄152のテキスト文字を自らの判断で修正する。これにより、手書き文字を人間が目視して確認したテキストデータが、確定変換結果として記憶される。かかる修正は通常のワープロソフトと同様に、操作者がマウスでカーソルを修正した文字に移動させて、キーボードから修正後のテキストデータを入力するようにすればよい。
【0075】
CPU23は、操作者から修正指示があるか否か判断しており(
図5ステップS29)、修正指示があれば、該当箇所を修正する(ステップS30)。
【0076】
オペレータは、修正が完了すると、モニタ30に表示されている修正完了ボタン(図示せず)を選択する。
【0077】
CPU23は、終了命令があるか否か判断しており(ステップS31)、かかる修正完了ボタンが選択されると、終了命令があったと判断して、修正用表示欄152に記載されているテキストデータを、インデックスデータ記憶部26iを参照して、対応する音声データと紐付けて、確定結果として変換結果記憶部26kに記憶する(ステップS32)。
【0078】
なお、ステップS31にて修正命令がなければ、ステップS29へ戻る。
【0079】
CPU23は、再学習用データを生成する(ステップ33)。再学習用データは、一般的なAI技術における再学習と同じである。すなわち、3つのAIOCRプログラムそれぞれについて、前記確定結果と元の変換データの差分を演算して、どの文字がどう変更されたのかを与えるようにすればよい。
【0080】
CPU23は、処理番号nがデータ総数nmaxとなったか否か判断し(ステップS35)、処理番号nがデータ総数nmaxとなったと判断すると、ステップS33で生成した再学習用データを、各AIOCRプログラムに与える(ステップS39)。また、ステップS35にて「NO」である場合は、ステップS27以下の処理を繰り返す。
【0081】
これにより、3つのAIOCRプログラムによる変換が完全一致した変換結果を除いて、人間の目視による確認が行われる。このような3つのAIOCRプログラムによる変換が完全一致した場合を除いて、人間の目視による確認を行う理由は以下の通りである。
【0082】
アルゴリズムが異なるOCR変換プログラムを2つ用いて変換した場合に、この2つのOCR変換プログラムによる変換結果が完全一致したとしても、双方とも間違って変換している場合も考えられる。この場合、そのような変換結果を確定するのは好ましくない。特に学習させた際のデータが異なることによってアルゴリズムが異なるAIOCRプログラムの場合、2つの変換結果が一致したら、正しい変換であるとは言い切れない。これに対して、アルゴリズムの異なる3つのAIOCRプログラムが全て同じ変換結果の場合、上記誤変換の確率はかなり低くなる。もちろん、AIOCRプログラムの数をもっと増やせば、上記誤変換の確率を低くすることはできる。しかしながら、その場合、システム構築に必要なAIOCRプログラムが増えていくので、その分だけ、コストアップとなる。その意味で、3つのAIOCRプログラムを採用するのは、精度とコストとのバランスの点で好ましい。
【0083】
(5.検索処理)
本実施形態においては、もともと、音声データと手書きメモが関連づけられており、また、かかる手書きメモの画像データに対応するテキストデータが、自動または手動で生成される。したがって、音声データとテキストデータが対応づけられることとなる。これにより、これらのテキストデータを用いて、音声データを検索することが可能となる。これにより、環境音など、テキストにはできない多種の情報を含む音声データを捜査資料として特定することができる。
【0084】
例えば、前記音声データに、手書きメモに出てこなかった名前や地名、建物名称などの情報が含まれていることもある。これらから他の照会システムに対して検索を行い、捜査対象を広げていくことで犯人に辿り着くこともある。
【0085】
また、他の事件や事故の届け出が端緒となって犯人に結びつくケースもある。例えば、強盗事件発生後の数時間後に、犯行現場から遠く離れた場所で発生した交通事故の被害者が、前記強盗事件の犯人であったこともある。また、傷害事件で被害関係者を「ちょっと、○○ちゃんこっちに来て」と110番に通報した人が友人を呼んだところ、その人が犯人と繋がっていたということもある。このようななにげない情報は、110番に入電したときの受理画面には記載されていないこともおおく、音声情報だけが頼りとなる。
【0086】
以下、
図7の検索処理のフローチャートを用いて、メインプログラム26mによる検索処理について説明する。
【0087】
初期画面では、検索キーワード入力画面(図示せず)が表示されている。CPU23は、かかる検索キーワード入力画面にて、検索キーワードを特定した検索命令が与えられたか否か判断する(
図7ステップS41)。)ここでは、「ひったくり」および「スクータ」で検索したものとする。
【0088】
CPU23は、かかる検索キーワードを含む検索命令が与えられたと判断すると、変換結果記憶部26kの確定結果から当該検索キーワード「ひったくり」および「スクータ」を有するテキストデータを抽出する(ステップS43)。
【0089】
CPU23は、インデックスデータ記憶部26iを参照して、抽出したテキストデータの事件番号、日時などの書誌的事項および該当のテキストデータ一を一覧表示する(ステップS45)。
図8に、一例を示す。検索キーワード「ひったくり」および「スクータ」を含むテキストデータが抽出されている。
【0090】
CPU23は、一覧表示状態では、「絞り込みボタン」「音声データ再生ボタン」、「データ出力ボタン」、「戻るボタン」、「終了ボタン」のいずれかがクリックされるかを判断している(ステップS47、S49、S51、S59、S61)。
【0091】
操作者は、さらに絞り込みを行う場合には、「絞り込みボタン223」(
図8参照)をクリックする。これにより、さらなる絞り込みが可能となる(ステップS53)。 また、音声データの確認したい場合には、操作者は、「音声データ再生ボタン225」(
図8参照)をクリックする。これにより、音声データが再生される(ステップS55)。 また、音声データを出力したい場合には、操作者は、「データ出力ボタン227」(
図8参照)をクリックする。これにより、当該事件番号で特定された事件の書式データ、テキストデータおよび音声データを出力できる(ステップS57)。
【0092】
また、検索キーワードを変更した別の検索をする場合には、操作者は、戻るボタン221(
図8参照)をクリックする。これにより、初期画面となり、検索キーワードの入力が可能となる。
【0093】
また、検索処理を終了する場合には、操作者は、終了ボタン229(
図8参照)をクリックすればよい。これにより、検索処理は終了する。
【0094】
このようにして、音声データと対応づけられた手書きメモをOCR変換し、変換結果を音声データと対応つけておくことで、操作に有益な音データを確実に探しやすくなる。
【0095】
(6.他の実施形態)
本実施形態においては、検索システム全体として説明したが、本発明を検索キーワード決定補助装置として把握することも可能である。
【0096】
本実施形態においては、3つのAIOCRプログラムで実行させた場合について説明したが、2以上であってもよい。ただし、上述したように、3つのAIOCRプログラムを用いるのが最適である。
【0097】
本実施形態においては、異なるアルゴリズムを有するAIOCRプログラムを採用したが、異なるアルゴリズムであれば、AI技術を用いないOCRプログラムであってもよい。なお、異なるアルゴリズムとは、同じ構成であっても、AIの学習過程において、用いた学習用データが異なることで中間層の重み付けのみが変わっている場合も含む。
【0098】
本実施形態においては、2つのOCRプログラムの変換結果が一致した場合と、3つのOCRプログラムの変換結果がいずれも不一致の場合、とを分けて記憶しているが、手動修正処理では、その区別をしていない。しかし、これらが操作者が区別できるように表示のさせ方を変えてもよい。
【0099】
本実施形態においては、
図6において、修正表示欄に、より確率の高い候補を例として表示するようにしたが、修正用表示欄を空欄としておき、操作者に入力させるようにしてもよい。また、入力表示欄を設けることなく、3つの変換結果のいずれかまたは、すべてを表示し、いずれか1つを操作者に手動修正させるようにしてもよい。これは最終的に必要なのは、3つの変換結果ではなく、手書きメモを変換した1のテキストデータだからである。
【0100】
本実施形態においては、110番の緊急通報の場合を例として説明したが、音声データとそのメモが対応づけられており、音声データを後で検索したい場合には他の緊急通報であってもよい。また緊急通報以外であってもよい。
【0101】
さらに手書きメモが音声データと対応づけられていない場合でも、手書きメモをAIOCRプログラムを3つ用いて、3つ一致する場合には、手動修正候補から外す処理をする場合にも適用できる。
【0102】
本実施形態においては、検索キーワード決定補助装置がAIOCRプログラムを含む場合について説明したが、これらのAIOCRプログラムを含まない検索キーワード決定補助装置として構成することもできる。例えば、複数のサービス提供者が、AIOCR処理をネットワークを通じて提供することも考えられるからである。この場合、以下のような発明として把握できる。
【0103】
所定のアルゴリズムで手書き画像データの文字部分をテキストデータに変換する第1のAI光学文字認識装置、前記第1の光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第2のAI光学文字認識装置、前記第1および前記第2のAI光学文字認識装置とは異なるアルゴリズムで前記手書き画像データの文字部分をテキストデータに変換する第3のAI光学文字認識装置に手書き画像データを与える手書き画像データ送信手段、
前記第1~第3のAI光学文字認識装置から、変換結果を受信する受信手段、
前記受け取った3つの変換結果が完全一致するか否か判断し、完全一致する場合には、当該変換結果を確定判定結果記憶手段に記憶させ、完全一致しない場合には、当該3つの変換結果を未確定変換結果として未確定結果記憶手段に記憶させる判定手段、
前記未確定変換結果を、前記一致していない部分が判別できるように操作者に提示する提示手段、
前記操作者から修正指示が与えられると、前記第1~第3のAI光学文字認識装置による変換結果を修正して、修正後の変換結果を前記確定変換結果記憶手段に記憶させるとともに、この修正後のテキストデータおよび未確定変換結果から決められる再学習用データを前記各AI光学文字認識装置に与える修正手段、
を備えた要修正変換結果仕分けシステム。
【0104】
上記実施形態においては、
図1に示す機能を実現するために、CPU23を用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路などのハードウェアによって実現してもよい。なお、プログラムの一部の処理を、オペレーティングシステム(OS)にさせるようにしてもよい。