IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

<>
  • 特許-データ変換装置 図1
  • 特許-データ変換装置 図2
  • 特許-データ変換装置 図3
  • 特許-データ変換装置 図4
  • 特許-データ変換装置 図5
  • 特許-データ変換装置 図6
  • 特許-データ変換装置 図7
  • 特許-データ変換装置 図8
  • 特許-データ変換装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-13
(45)【発行日】2022-06-21
(54)【発明の名称】データ変換装置
(51)【国際特許分類】
   G10L 15/30 20130101AFI20220614BHJP
   G10L 15/10 20060101ALI20220614BHJP
   G10L 15/00 20130101ALI20220614BHJP
   G10L 15/28 20130101ALI20220614BHJP
【FI】
G10L15/30
G10L15/10 200W
G10L15/00 200B
G10L15/00 200A
G10L15/28 230K
【請求項の数】 5
(21)【出願番号】P 2017179920
(22)【出願日】2017-09-20
(65)【公開番号】P2019056746
(43)【公開日】2019-04-11
【審査請求日】2020-09-11
【前置審査】
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100080953
【弁理士】
【氏名又は名称】田中 克郎
(72)【発明者】
【氏名】志田 知優
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2004-177777(JP,A)
【文献】特開2003-177776(JP,A)
【文献】国際公開第2006/097975(WO,A1)
【文献】国際公開第2011/052412(WO,A1)
【文献】特開2001-022744(JP,A)
【文献】特開2017-090716(JP,A)
【文献】特開2016-029468(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
入力される一連の音に所定の音が含まれているか否かを判定する判定部と、
少なくとも、前記一連の音のうち前記所定の音に基づいて特定される区間の音のデータを記憶する記憶部と、
前記区間の音のデータを、複数の音データに分割する分割部と、
前記判定部により前記一連の音に前記所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成する複数のサーバに対して、前記複数の音データの順序を入れ替えて、前記複数の音データのそれぞれを、前記複数の音データのそれぞれの発話者の情報に基づいて選択される少なくとも一つのサーバに分配して送信する送信部と、
前記少なくとも一つのサーバから、前記複数の音のデータのそれぞれに基づいて生成された複数のテキストデータのそれぞれであって、各単語の信頼度を含む前記複数のテキストデータのそれぞれを受信する受信部と、
前記送信部による前記複数の音データの順序の入れ替えに基づいて、前記複数のテキストデータを一つのテキストデータに合成する合成部と、
過去の文書を学習用データとして学習された言語モデルに基づいて、前記信頼度が一定値以下の前記単語を修正する修正部と、
を備えるデータ変換装置。
【請求項2】
前記記憶部は、前記判定部により前記一連の音に前記所定の音が含まれていると判定された場合に、前記所定の音より後に入力される一連の音の少なくとも一部を前記区間の音のデータとして記憶する、
請求項1に記載のデータ変換装置。
【請求項3】
前記記憶部は、前記一連の音のデータを記憶し、
前記記憶部に記憶された前記一連の音のデータから、前記所定の音より後に入力された一連の音の少なくとも一部を前記区間の音のデータとして抽出する抽出部をさらに備える、
請求項1に記載のデータ変換装置。
【請求項4】
前記修正部は、前記合成部によって合成された前記一つのテキストデータに含まれる単語であって、前記信頼度が一定値以下の前記単語を修正する、
請求項1~3のいずれか一項に記載のデータ変換装置。
【請求項5】
前記分割部は、前記区間の音データの波形の振幅に基づいて、前記区間の音データを前記複数の音データに分割する、
請求項1~4のいずれか一項に記載のデータ変換装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ変換装置に関する。
【背景技術】
【0002】
従来、人が話す音声等を含む音データを、テキストデータに変換する技術が研究されている。音データをテキストデータに変換する技術によれば、ある言語を用いて行われた会話やスピーチを録音して、その内容を文字に変換することができる。このような技術は、議事録の自動作成や翻訳の前処理に応用されている。
【0003】
議事録の自動作成に関して、下記特許文献1には、複数の話者の音声を符号化した音声データを文字情報に変換して議事録を作成する議事録自動作成システムであって、文字情報への変換を終えた音声データの一部分が全体に占める割合である変換進捗度と仕上がり希望日から処理優先度をタスク毎に算出し、変換進捗度及び処理優先度に基づいて少なくとも1つの特定分野辞書とその収録語彙数を選択することで議事録の精度を調節する議事録自動作成システムが記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第4703385号
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、音データからテキストデータへの変換を高精度で行うことのできる言語モデルがクラウドサービスの形態で提供されるようになり、音データをテキストデータに変換する技術が容易に利用できるようになりつつある。そのようなサービスでは、インターネットを介して音データの入力を受け付けて、サーバに記憶された言語モデルによって、入力された音データに基づいてテキストデータを生成し、得られたテキストデータを、インターネットを介してクライアントに返送する。
【0006】
音データをテキストデータに変換するクラウドサービスは、利便性が高い反面、任意のユーザによって利用可能な場合があるため、秘密情報を含む音データをテキストデータに変換したい場合には利用しづらいことがあった。例えば、会議において外部に流出してはならない会話が行われた場合、会議の録音をクラウドサービスによってテキストデータに変換することは、セキュリティの観点から推奨されないことがある。
【0007】
そこで、本発明は、利便性とセキュリティを両立させて、音データをテキストデータに変換することのできるデータ変換装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様に係るデータ変換装置は、入力される一連の音に所定の音が含まれているか否かを判定する判定部と、少なくとも、一連の音のうち所定の音に基づいて特定される区間の音のデータを記憶する記憶部と、判定部により一連の音に所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成するサーバに対して、区間の音のデータを送信する送信部と、サーバから、区間の音のデータに基づいて生成されたテキストデータを受信する受信部と、を備える。
【0009】
この態様によれば、所定の音に基づいて特定される区間の音のデータをサーバに送信し、入力される音のデータ全体をサーバに送信しないことで、外部に流出してはならない音が入力された場合であっても、テキストデータに変換する区間を限定することができ、クラウドサービスの利便性とセキュリティを両立させて、音データをテキストデータに変換することができる。
【0010】
また、上記態様において、記憶部は、判定部により一連の音に所定の音が含まれていると判定された場合に、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶してもよい。
【0011】
この態様によれば、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶することで、記憶部に記憶すべき音データの容量を少なくすることができ、記憶された音のデータに所定の音が含まれているか否かを処理する必要が無いため、演算負荷を減らすことができる。
【0012】
また、上記態様において、記憶部は、一連の音のデータを記憶し、記憶部に記憶された一連の音のデータから、所定の音より後に入力された一連の音の少なくとも一部を区間の音のデータとして抽出する抽出部をさらに備えてもよい。
【0013】
この態様によれば、入力される一連の音のデータを記憶し、所定の音より後に入力された一連の音の少なくとも一部を抽出することで、抽出された区間の音のデータ以外のデータであっても事後的に選択してサーバに送信し、テキストに変換することができるようになる。
【0014】
また、上記態様において、区間の音のデータを、複数の音データに分割する分割部をさらに備え、送信部は、複数の音データの順序を入れ替えて、複数の音データをサーバに送信し、受信部は、複数の音データに基づいて生成された複数のテキストデータを受信し、送信部による複数の音データの順序の入れ替えに基づいて、複数のテキストデータを一つのテキストデータに合成する合成部をさらに備えてもよい。
【0015】
この態様によれば、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、その順序を入れ替えてサーバに送信することで、送信した音データの内容が第三者に読み取られることを防止することができる。
【0016】
また、上記態様において、送信部は、複数の音データを、音データに基づいてテキストデータを生成する複数のサーバに分配して送信してもよい。
【0017】
この態様によれば、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、複数のサーバに分配して送信することで、それぞれのサーバに送信した音データの内容から全体の内容を再現することが困難となり、音データの内容が第三者に読み取られるおそれをさらに低減させることができる。
【発明の効果】
【0018】
本発明によれば、利便性とセキュリティを両立させて、音データをテキストデータに変換することのできるデータ変換装置を提供することができる。
【図面の簡単な説明】
【0019】
図1】本発明の実施形態に係るデータ変換装置のネットワーク構成を示す図である。
図2】本実施形態に係るデータ変換装置の物理構成を示す図である。
図3】本実施形態に係るデータ変換装置の機能ブロックを示す図である。
図4】本実施形態に係るデータ変換装置により特定される音データの区間の一例を示す図である。
図5】本実施形態に係るデータ変換装置により実行される第1処理のフローチャートである。
図6】本実施形態に係るデータ変換装置により更新された議事録の一例を示す図である。
図7】本実施形態に係るデータ変換装置により実行される第2処理のフローチャートである。
図8】本実施形態に係るデータ変換装置により特定される音データの区間の他の例を示す図である。
図9】本実施形態に係るデータ変換装置により音データの区間を指定する例を示す図である。
【発明を実施するための形態】
【0020】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0021】
図1は、本発明の実施形態に係るデータ変換装置10のネットワーク構成を示す図である。データ変換装置10は、マイクロフォン等の入力部によって入力される一連の音から所定の区間の音のデータを切り出して、当該区間の音のデータを、通信ネットワークNを介して第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40の少なくともいずれかに送信する。第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40は、受信した音データに基づいてテキストデータを生成するサーバであり、生成したテキストデータをデータ変換装置10に返送する。
【0022】
ここで、通信ネットワークNは、有線又は無線の通信網であり、例えばインターネットであってよい。第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40は、通信ネットワークNを介して、いわゆるパブリッククラウドの形態で、音声データをテキストデータに変換するサービスを提供するサーバであってよい。すなわち、第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40は、利用者を限定せずに、音声データをテキストデータに変換するサービスを提供するサーバであってよい。なお、本例では、仮に3台のサーバが通信ネットワークNに接続されている場合を示しているが、パブリッククラウドとして利用可能な音声認識サーバの台数は3台に限られず、任意である。また、データ変換装置10は、パブリッククラウドのみならず、プライベートクラウドの形態(すなわち利用者を限定する形態)で、音声データをテキストデータに変換するサービスを提供するサーバに接続されてもよい。
【0023】
データ変換装置10は、例えば、会議において録音された音のデータから、議事録として記録すべき内容が含まれる区間の音のデータを切り出す。データ変換装置10は、会議において録音された音のデータ全体を第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40に送信することはせず、議事録として記録すべき内容が含まれる区間の音のデータを切り出して、当該区間の音のデータを第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40の少なくともいずれかに送信する。このように、会議において録音された音のデータ全体をサーバに送信せず、テキスト化すべき区間の音のデータを切り出してサーバに送信することで、会議において外部に流出してはならない会話が行われた場合であっても、テキストデータに変換する区間を限定することができ、クラウドサービスの利便性とセキュリティを両立させて、音データをテキストデータに変換することができる。
【0024】
図2は、本発明の実施形態に係るデータ変換装置10の物理的な構成を示す図である。データ変換装置10は、ハードウェアプロセッサに相当するCPU(Central Processing Unit)10aと、メモリに相当するRAM(Random Access Memory)10bと、メモリに相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fとを有する。これら各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例ではデータ変換装置10が一台のコンピュータで構成される場合について説明するが、データ変換装置10は、複数のコンピュータを用いて実現されてもよい。
【0025】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、音データからテキストデータへの変換の制御に関するプログラム(データ変換プログラム)を実行する演算装置である。CPU10aは、入力部10eや通信部10dから種々の入力データを受け取り、入力データの演算結果を表示部10fに表示したり、RAM10bやROM10cに格納したりする。
【0026】
RAM10bは、データの書き換えが可能な記憶部であり、例えば半導体記憶素子で構成される。RAM10bは、CPU10aが実行するアプリケーション等のプログラムやデータを記憶する。
【0027】
ROM10cは、データの読み出しのみが可能な記憶部であり、例えば半導体記憶素子で構成される。ROM10cは、例えばファームウェア等のプログラムやデータを記憶する。
【0028】
通信部10dは、データ変換装置10を通信ネットワークNに接続するインターフェースであり、例えば、有線又は無線回線のデータ伝送路により構成されたLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークNに接続される。
【0029】
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、マイクロフォン、キーボード、マウス及びタッチパネルを含む。
【0030】
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成される。
【0031】
データ変換プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。データ変換装置10では、CPU10aがデータ変換プログラムを実行することにより、次図を用いて説明する様々な機能が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、データ変換装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0032】
図3は、本実施形態に係るデータ変換装置10の機能ブロックを示す図である。データ変換装置10は、判定部11、音データ記憶部12、送信部13、抽出部14、分割部15、受信部16、合成部17、修正部18及び議事録記憶部19を備える。なお、本例では、これらの機能部が一台のコンピュータで実現される場合について説明するが、これらの機能部は、複数のコンピュータによって実現されていてもよい。
【0033】
判定部11は、入力部10eにより入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音は、予め設定された音であればどのような音であってもよいが、例えば、物理的なベルを鳴らした音であったり、電子的に合成された音であったりしてよい。判定部11は、所定の音を認識できるように予め学習されたRNN(Recurrent Neural Network)等の学習済みモデルであってよい。会議においてデータ変換装置10を利用するユーザは、議事録に記録すべき発言が行われる前に、所定の音を鳴らして、その後に発言される内容をテキスト化するように指定することができる。
【0034】
また、所定の音は、所定の規則に従った発言であってもよい。例えば、判定部11は、約2秒間の沈黙に続いて「議事録お願いします」と発言されたか否かによって、所定の音が含まれているか否かを判定してもよい。このような場合も、判定部11は、所定の音を認識できるように予め学習されたRNN等であってよい。そして、所定の音は、ユーザ毎に設定できる構成であってもよく、話者別若しくはシステム利用者別に所定の音を設定でき、各ユーザが任意のタイミングで議事録対象を特定する動作を行うことができる構成であってもよい。また、後説する議事録に音声認識結果後のテキストを挿入する例においても、ユーザ毎に議事録を記憶し、所定の音を発話したユーザ用に音声認識を実施して対象ユーザ用の音声認識結果を対象ユーザ用の議事録に挿入する構成にすることもでき、ユーザ個別の議事録を個別に保有することとしてもよい。そして、議事録担当者のみが自己が保有する議事録を編集した後に、共有用に当該議事録をファイルサーバにアップロードすることも可能である。
【0035】
音データ記憶部12は、少なくとも、入力部10eにより入力される一連の音のうち所定の音に基づいて特定される区間の音のデータを記憶する。音データ記憶部12は、判定部11により一連の音に所定の音が含まれていると判定された場合に、所定の音より後に入力される一連の音の少なくとも一部を、所定の音に基づいて特定される区間の音のデータとして記憶してもよい。例えば、音データ記憶部12は、所定の音より後に入力され、再度所定の音が入力されるまでの区間の音のデータを記憶してもよい。この場合、音データ記憶部12は、所定の音が録音区間に含まれないように、音データを記憶してもよい。このように、所定の音より後に入力される一連の音の少なくとも一部を区間の音のデータとして記憶することで、記憶部に記憶すべき音データの容量を少なくすることができ、記憶された音のデータに所定の音が含まれているか否かを事後的に判定する必要が無いため、演算負荷を減らすことができる。なお、区間の開始を特定するための音と、区間の終了を特定するための音は、同じ音であってもよいし、別の音であってもよい。また、区間の終了は、区間の開始を特定するための所定の音が入力された時からの経過時間によって定めてもよい。
【0036】
また、音データ記憶部12は、入力部10eにより入力される一連の音のデータを記憶してもよい。抽出部14は、音データ記憶部12に記憶された一連の音のデータから、所定の音より後に入力された一連の音の少なくとも一部を、所定の音に基づいて特定される区間の音のデータとして抽出する。抽出部14は、所定の音より後に入力され、再度所定の音が入力されるまでの区間の音のデータを抽出してもよい。この場合、抽出部14は、所定の音が抽出する区間に含まれないように、音データを抽出してもよい。このように、入力される一連の音のデータを記憶し、所定の音より後に入力された一連の音の少なくとも一部を抽出することで、抽出された区間の音のデータ以外のデータも記憶部に記憶されることとなり、抽出された区間の音のデータ以外のデータを事後的にテキストに変換することができるようになり、より柔軟な音データのテキスト化が可能となる。
【0037】
送信部13は、判定部11により一連の音に所定の音が含まれていると判定された場合に、音データに基づいてテキストデータを生成するサーバ(第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40)に対して、所定の音に基づいて特定される区間の音のデータを送信する。なお、図3では、サーバを図示せず、通信ネットワークNを図示している。
【0038】
受信部16は、サーバから、所定の音に基づいて特定される区間の音のデータに基づいて生成されたテキストデータを受信する。
【0039】
分割部15は、所定の音に基づいて特定される区間の音のデータを、複数の音データに分割する。送信部13は、複数の音データの順序を入れ替えて、複数の音データをサーバに送信してもよい。この場合、受信部16は、複数の音データに基づいて生成された複数のテキストデータを受信する。そして、合成部17は、送信部13による複数の音データの順序の入れ替えに基づいて、受信した複数のテキストデータを一つのテキストデータに合成する。このように、所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、その順序を入れ替えてサーバに送信することで、送信した音データの内容が第三者に読み取られることを防止することができる。
【0040】
また、送信部13は、分割部15により得られた複数の音データを、音データに基づいてテキストデータを生成する複数のサーバに分配して送信してもよい。本実施形態の場合、送信部13は、分割した複数の音データを、第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40に分配して送信してもよい。所定の音に基づいて特定された区間の音のデータを、複数の音データに分割して、複数のサーバに分配して送信することで、それぞれのサーバに送信した音データの一部から全体の内容を再現することが困難となり、音データの内容が第三者に読み取られるおそれをさらに低減させることができる。分割した音データを複数のサーバに分配する方法としては、ランダムに分配する方法の他、過去の音声データを音声認識した結果、品質の良いサーバに優先的に分配を行う構成であってもよい。品質の良いサーバに基づき優先的に分配を行う場合、発話者であるユーザ毎にサーバを決定して分配してもよい。具体的には、あるユーザAの過去の音声認識結果の品質が、サーバαが最も優れている場合には、当該ユーザAに関する音データはサーバαに優先的に分配し、他のユーザBの過去の音声認識結果の品質が、サーバβが最も優れている場合には、当該ユーザBに関する音データはサーバβに優先的に分配することとしてよい。
【0041】
修正部18は、得られたテキストデータに含まれる各単語について、テキスト化の処理を実行したサーバにより出力されたテキスト化の信頼度に基づいて、単語の修正を行う。第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40は、一般的な用語について音データをテキストデータに変換することができるものであり、社内用語等、一般には用いられていない単語が音データに含まれていると、音データを正しくテキストデータに変換することが困難な場合がある。修正部18は、議事録記憶部19に記憶された過去の議事録を学習用データとして学習されたRNN等の言語モデルを含み、テキスト化の信頼度が低い単語について、正しい単語への修正を行う。これにより、社内用語等の一般には用いられていない単語が音データに含まれており、サーバによって音データを正しくテキスト化することが困難な場合であっても、より正確な内容の議事録が作成できるようになる。
【0042】
議事録記憶部19は、音データを変換して得られたテキストデータを、議事録の形式で記憶する。データ変換装置10は、音データを変換して得られたテキストデータに含まれる議題を表す文字又は記号を検出し、議事録記憶部19に記憶された議事録の適切な箇所に新たなテキストデータを追記する。また、データ変換装置10は、音データを変換して得られたテキストデータに含まれる人名を表す文字を検出し、議事録記憶部19に記憶された議事録の適切な議題に担当者名を追記する。これらの処理については、後に図6を用いて詳細に説明する。
【0043】
図4は、本実施形態に係るデータ変換装置10により特定される音データの区間の一例を示す図である。同図では、会議において録音された音データの波形を示している。本例の音データは、第1区間A1、第2区間A2及び第3区間A3を含む。第1区間A1は、議事録に記録する必要の無い発言に対応する区間であり、第2区間A2は、所定の音として予め設定されているベルの音に対応する区間であり、第3区間A3は、議事録に記録する必要がある発言に対応する区間である。
【0044】
データ変換装置10は、判定部11によって、入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音が含まれているか否かは、所定の音の波形が含まれているか否かによって判定してよい。本例では、判定部11は、第2区間A2の波形が入力されることで、所定の音が含まれていると判定する。
【0045】
判定部11により一連の音に所定の音が含まれていると判定されると、音データ記憶部12は、所定の音より後に入力される第3区間A3の音を、所定の音に基づいて特定される区間の音のデータとして記憶する。その後、データ変換装置10は、第3区間A3の音データを第1音声認識サーバ20等に送信し、その内容に対応するテキストデータを受信する。
【0046】
また、データ変換装置10は、第3区間A3の音データを第1音声認識サーバ20等に送信する前に、第3区間A3の音データを複数の音データに分割して、その順序を変えてサーバに送信したり、複数のサーバに分配したりしてもよい。この場合、分割の方法を幾つか変えて、第1音声認識サーバ20等によるテキストデータへの変換の信頼度が良好となる分割方法を採用することとしてもよい。例えば、第3区間A3の音データを等間隔で3分割して第1音声認識サーバ20等にそれぞれの音データを認識させた場合と、第3区間A3の音データを等間隔で10分割して第1音声認識サーバ20等にそれぞれの音データを認識させた場合と、におけるテキスト化の信頼度を比較して、より信頼度の高い分割数を採用することとしてもよい。これにより、サーバによる音声認識精度を向上させることができ、より正確なテキスト化が行えるようになり、テキスト化の精度とセキュリティを両立することができる。
【0047】
また、音データの分割箇所を、波形の振幅に応じて決定することとしてもよい。例えば、音データの振幅が所定値以下となる区間の中央で音データを分割することとしてもよい。これにより、音データを所定の区間数に分割したり、所定の区間幅で分割したりする場合よりも、サーバによる音声認識精度を向上させることができ、より正確なテキスト化が行えるようになり、テキスト化の精度とセキュリティを両立することができる。
【0048】
図5は、本実施形態に係るデータ変換装置10により実行される第1処理のフローチャートである。第1処理は、入力される一連の音に所定の音が含まれていると判定された場合に、所定の音に基づいて特定される区間の音のデータを記憶し、テキスト化して議事録を更新する処理である。
【0049】
データ変換装置10は、入力部10eにより、入力される音のデータを取得する(S10)。判定部11は、入力される一連の音に所定の音が含まれているか否かを判定する(S11)。入力される一連の音に所定の音が含まれていない場合(S11:No)、音データの取得と、所定の音が含まれているか否かの判定を継続する。
【0050】
一方、入力される一連の音に所定の音が含まれている場合(S11:Yes)、音データ記憶部12は、所定の音の後に入力される一連の音を、所定の音に基づいて特定される区間の音のデータとして記憶する(S12)。
【0051】
分割部15は、特定された区間の音のデータを、複数の音データに分割する(S13)。送信部13は、複数の音データの順序を入れ替えて、第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40のうち1又は複数のサーバに送信する(S14)。すなわち、送信部13は、複数の音データの順序を入れ替え、且つ、複数の音データを複数のサーバに分配して送信してもよい。
【0052】
受信部16は、1又は複数のサーバから、複数の音データをテキスト化した複数のテキストデータを受信する(S15)。合成部17は、複数の音データの順序の入れ替え及びサーバへの分配に基づいて、複数のテキストデータの順序を入れ替えて、一つのテキストデータに合成する(S16)。
【0053】
修正部18は、1又は複数のサーバによるテキスト化の信頼度に基づいて、信頼度が低い単語を、適切と推定される単語に修正する(S17)。なお、修正部18による単語の修正は、合成部17によって一つのテキストデータが合成された後に行われることが望ましい。分割された複数の音データに対応する複数のテキストデータの状態で単語の修正を行うこととすると、文章の前後関係が不明となり、適切な修正が困難になる場合があるからである。
【0054】
データ変換装置10は、得られたテキストデータの中の所定の文字に基づいて、議事録への追記箇所を特定する(S18)。例えば、特定の議題を表す文字列や記号を認識して、議事録のうちその議題を記載した箇所に、得られたテキストデータを追記する。また、データ変換装置10は、得られたテキストデータの中の人名に基づいて、担当者を特定する(S19)。データ変換装置10は、特定された担当者の名前を、対応する議題の担当者として議事録に追記してよい。
【0055】
最後に、データ変換装置10は、当日の日付を記載日として議事録に付加して、議事録を更新する(S20)。なお、日付のみならず、会議が行われた時刻を付加することとしてもよい。以上で第1処理が終了する。
【0056】
図6は、本実施形態に係るデータ変換装置10により更新された議事録Dの一例を示す図である。本例の議事録Dは、7月1日と7月3日に記載された内容を含み、さらに7月4日に最新の更新が行われたものである。議事録Dは、「#1000」と名付けられた第1議題D1と、「#2517 正しい在り方での証明書の検証」と名付けられた第2議題D2と、に関する記載を含む。
【0057】
第1議題D1について、「→まずは設計書に記載する(7/1記載)」、「→明日議論する(7/3記載)」という記載を含む。このことから、7月3日の時点で、翌日の7月4日に第1議題D1について議論することが決定していたことがわかる。そして、第1議題D1には、「→ABCパラメータは1000とする(7/4記載)」と追記されている。
【0058】
このような記載は、例えば以下のようにして追記される。まず、会議において様々な議論がなされ、「ABCパラメータ」をどのような値とするかについて結論が得られたとする。そのような段階で、所定の音に相当するベルが鳴らされると、データ変換装置10は、所定の音が入力された後に発言された「シャープ1000、ABCパラメータは1000とする」という音データを記憶し、第1音声認識サーバ20等に送信して、その内容をテキスト化したテキストデータを受信する。そして、「シャープ1000」という文字列に基づいて、「#1000」と名付けられた第1議題D1の記載箇所に、「ABCパラメータは1000とする」というテキストデータを追記する。この際、会議が行われた当日の日付である7月4日(7/4)を付加する。
【0059】
第2議題D2は、「→7/12リリース予定。手順をアプリTに連携済み。(7/1記載)」、「→[Aさん宿題]品質管理委員のリリース予定に書く(7/3記載)」、「→記載済み、本日実行をお願いします。(7/4追記)」という記載を含む。
【0060】
このような記載は、例えば以下のようにして追記される。まず、会議において様々な議論がなされ、「品質管理委員のリリース予定に書く」というタスクを実行する必要があることが決定され、その担当者を「Aさん」とすることが決定されたとする。そのような段階で、所定の音に相当するベルが鳴らされると、データ変換装置10は、所定の音が入力された後に発言された「シャープ2517、Aさん宿題、品質管理委員のリリース予定に書く」という音データを記憶し、第1音声認識サーバ20等に送信して、その内容をテキスト化したテキストデータを受信する。そして、「シャープ2517」という文字列に基づいて、「#2517」と名付けられた第2議題D2の記載箇所に、「品質管理委員のリリース予定に書く」というテキストデータを追記する。また、「Aさん宿題」という文字列に基づいて、そのタスクの担当者を明らかにするように「[Aさん宿題]」と追記する。そして、会議が行われた当日の日付である7月3日(7/3)を付加する。
【0061】
このように、本実施形態に係るデータ変換装置10によれば、会議がどのような議題に関するものであるかを識別して、議事録の適切な箇所に追記を行うことができる。これにより、議事録作成者の作業負担が低減する。また、担当者名を識別して、議事録の適切な箇所に担当者を追記することができ、作業の円滑な進行を支援することができる。
【0062】
図7は、本実施形態に係るデータ変換装置10により実行される第2処理のフローチャートである。第2処理は、入力される一連の音を記憶し、記憶された一連の音に所定の音が含まれていると判定された場合に、所定の音に基づいて特定される区間の音のデータを抽出し、テキスト化して議事録を更新する処理である。
【0063】
データ変換装置10は、入力部10eにより入力される音のデータを音データ記憶部12に記憶する(S30)。ここで、音データ記憶部12への音データの記憶は、会議中連続的に行われてよい。判定部11は、記憶された一連の音に所定の音が含まれているか否かを判定する(S31)。一連の音に所定の音が含まれていない場合(S31:No)、第2処理は終了する。
【0064】
一方、一連の音に所定の音が含まれている場合(S31:Yes)、抽出部14は、所定の音の後に入力される一連の音を、所定の音に基づいて特定される区間の音のデータとして抽出する(S32)。
【0065】
分割部15は、特定された区間の音のデータを、複数の音データに分割する(S33)。送信部13は、複数の音データの順序を入れ替えて、第1音声認識サーバ20、第2音声認識サーバ30及び第3音声認識サーバ40のうち1又は複数のサーバに送信する(S34)。すなわち、送信部13は、複数の音データの順序を入れ替え、且つ、複数の音データを複数のサーバに分配して送信してもよい。
【0066】
受信部16は、1又は複数のサーバから、複数の音データをテキスト化した複数のテキストデータを受信する(S35)。合成部17は、複数の音データの順序の入れ替え及びサーバへの分配に基づいて、複数のテキストデータの順序を入れ替えて、一つのテキストデータに合成する(S36)。
【0067】
修正部18は、1又は複数のサーバによるテキスト化の信頼度に基づいて、信頼度が低い単語を、適切と推定される単語に修正する(S37)。
【0068】
データ変換装置10は、得られたテキストデータの中の所定の文字に基づいて、議事録への追記箇所を特定する(S38)。例えば、特定の議題を表す文字列や記号を認識して、議事録のうちその議題を記載した箇所に、得られたテキストデータを追記する。また、データ変換装置10は、得られたテキストデータの中の人名に基づいて、担当者を特定する(S39)。データ変換装置10は、特定された担当者の名前を、対応する議題の担当者として議事録に追記してよい。
【0069】
最後に、データ変換装置10は、当日の日付を記載日として議事録に付加して、議事録を更新する(S40)。なお、日付のみならず、会議が行われた時刻を付加することとしてもよい。以上で第2処理が終了する。
【0070】
図8は、本実施形態に係るデータ変換装置10により特定される音データの区間の他の例を示す図である。同図では、会議において録音された音データの波形の他の例を示している。本例の音データは、第5区間A5、第6区間A6、第7区間A7及び第8区間A8を含む。第5区間A5は、議事録に記録する必要の無い発言に対応する区間であり、第6区間A6は、約2秒間のほとんど無音の区間であり、第7区間A7は、所定の発言として設定された「議事録お願いします」という発言に対応する区間であり、第8区間A8は、議事録に記録する必要がある発言に対応する区間である。
【0071】
データ変換装置10は、判定部11によって、入力される一連の音に所定の音が含まれているか否かを判定する。ここで、所定の音が含まれているか否かは、所定の音の波形が含まれているか否かによって判定してよい。本例では、判定部11は、第6区間A6及び第7区間A7の波形が入力されることで、所定の音が含まれていると判定する。すなわち、判定部11は、約2秒間の沈黙の後に、「議事録お願いします」と発言されたか否かによって、一連の音に所定の音が含まれているか否かを判定する。
【0072】
判定部11により一連の音に所定の音が含まれていると判定されると、音データ記憶部12は、所定の音より後に入力される第8区間A8の音を、所定の音に基づいて特定される区間の音のデータとして記憶する。その後、データ変換装置10は、第8区間A8の音データを第1音声認識サーバ20等に送信し、その内容に対応するテキストデータを受信する。
【0073】
このように、所定の規則に従った発言が行われたか否かによって、入力される一連の音に所定の音が含まれているか否かを判定することで、所定の音として特殊な音(例えば、物理的なベルの音や電子的に合成したベルの音)を鳴らすための用意が不要となり、より手軽に議事録作成の指示を出すことができるようになる。
【0074】
図9は、本実施形態に係るデータ変換装置10により音データの区間を指定する例を示す図である。同図では、図8で示した第5区間A5、第6区間A6、第7区間A7及び第8区間A8を含む音データについて、第9区間A9及び第10区間A10を指定した例を示している。
【0075】
データ変換装置10は、録音した音データの波形と、認識された音データの区間(本例の場合、第5区間A5、第6区間A6、第7区間A7及び第8区間A8)を表示部10fに表示して、入力部10eに含まれるポインティングデバイス等によって、ユーザから区間の修正や追加を受け付けてよい。例えば、会議を行った当初は、所定の音を発生させた後の発言、すなわち第8区間A8における発言のみを議事録に記録すれば十分だと考えていたところ、事後的に第5区間A5で話し合った内容の一部も議事録に残したいと考える場合があり得る。このような場合に、ユーザは、ポインタPT等によって抽出する音データの区間を指定することができる。本例では、ユーザは、第9区間A9及び第10区間A10を新たに抽出する区間として指定している。
【0076】
データ変換装置10は、新たに指定された第9区間A9及び第10区間A10の音データを第1音声認識サーバ20等に送信し、テキスト化したテキストデータを受信し、議事録の適切な箇所に当該テキストデータを追記する。
【0077】
このように、テキスト化する音データの区間を視覚的に確認できるように表示して、修正や追加を行えるようにすることで、より柔軟にテキスト化する音データを選択することができるようになり、データ変換装置10の利便性が向上する。
【0078】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【符号の説明】
【0079】
10…データ変換装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…判定部、12…音データ記憶部、13…送信部、14…抽出部、15…分割部、16…受信部、17…合成部、18…修正部、19…議事録記憶部、20…第1音声認識サーバ、30…第2音声認識サーバ、40…第3音声認識サーバ、N…通信ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9