IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ジェイ・エックス・ウィンドの特許一覧

<>
  • 特許-情報処理システムおよび文字起こし方法 図1
  • 特許-情報処理システムおよび文字起こし方法 図2
  • 特許-情報処理システムおよび文字起こし方法 図3
  • 特許-情報処理システムおよび文字起こし方法 図4
  • 特許-情報処理システムおよび文字起こし方法 図5
  • 特許-情報処理システムおよび文字起こし方法 図6
  • 特許-情報処理システムおよび文字起こし方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-15
(45)【発行日】2022-07-26
(54)【発明の名称】情報処理システムおよび文字起こし方法
(51)【国際特許分類】
   G10L 15/00 20130101AFI20220719BHJP
【FI】
G10L15/00 200B
【請求項の数】 2
(21)【出願番号】P 2019072482
(22)【出願日】2019-04-05
(62)【分割の表示】P 2018204832の分割
【原出願日】2018-10-31
(65)【公開番号】P2020071470
(43)【公開日】2020-05-07
【審査請求日】2021-07-26
(73)【特許権者】
【識別番号】518386586
【氏名又は名称】株式会社ジェイ・エックス・ウィンド
(74)【代理人】
【識別番号】100109081
【弁理士】
【氏名又は名称】三木 友由
(72)【発明者】
【氏名】永瀬 哲也
【審査官】中村 天真
(56)【参考文献】
【文献】特開2017-090716(JP,A)
【文献】特開2014-067098(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G06F 3/16
G06F 40/00-40/197
G06Q 10/00
(57)【特許請求の範囲】
【請求項1】
文字起こしの対象の音声が録音された対象音声データを記憶する第1記憶部と、
ダミーの音声が録音されたダミー音声データを記憶する第2記憶部と、
前記対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、
前記複数の区間音声データの少なくとも1つと前記ダミー音声データの組を外部装置へ提供する提供部と、
前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、
前記受付部が受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成する生成部と、
前記ダミー音声データに録音された予め定められた音声の内容を示すテキストデータを記憶する第3記憶部と、
評価部と、
を備え
前記提供部は、1つの外部装置に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先し、
前記評価部は、前記第3記憶部に記憶されたテキストデータと、前記受付部が受け付けた、前記ダミー音声データを文字起こししたテキストデータとを比較することにより、文字起こしを行った主体を評価することを特徴とする情報処理システム。
【請求項2】
文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データと、前記ダミー音声データに録音された予め定められた音声の内容を示すダミー音声テキストデータとを記憶する情報処理システムが、
前記対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、
前記複数の区間音声データの少なくとも1つと前記ダミー音声データの組を外部装置へ提供するステップと、
前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、
受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成するステップと、
を実行し、
前記提供するステップは、1つの外部装置に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先し、
前記情報処理システムが、予め記憶されたダミー音声テキストデータと、前記受け付けるステップで受け付けられた、前記ダミー音声データを文字起こししたテキストデータとを比較することにより、文字起こしを行った主体を評価するステップをさらに実行することを特徴とする文字起こし方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、データ処理技術に関し、特に情報処理システムおよび文字起こし方法に関する。
【背景技術】
【0002】
音声として記録された会話から文字を起こす文字起こしシステムが提案されている(例えば特許文献1参照)。特許文献1の文字起こしシステムでは、サーバは、会話が録音された音声データを複数の音声区間に係る音声データに分割して、各音声区間の音声データを複数の情報端末に送信する。各情報端末は、音声データから文字起こしした文字列をサーバに出力し、サーバは、個々の文字列を結合して元の音声データの会話全体を文章化した文章データを構築する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2008-107624号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
文字起こしの対象となる音声は、機密事項が含まれる場合等、音声の内容が文字起こしを行う作業者にそのまま伝わることは望ましくないことがある。本発明者は、文字起こし対象の音声の内容の秘匿性を高めるための改善の余地があると考えた。
【0005】
本発明は本発明者の上記課題認識に基づきなされたものであり、1つの目的は、文字起こし対象の音声の内容の秘匿性を高めることにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のある態様の情報処理システムは、文字起こしの対象の音声が録音された対象音声データを記憶する第1記憶部と、ダミーの音声が録音されたダミー音声データを記憶する第2記憶部と、対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、複数の区間音声データの少なくとも1つとダミー音声データの組を外部装置へ提供する提供部と、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、受付部が受け付けたテキストデータのうち、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成する生成部と、を備える。
【0007】
本発明の別の態様は、文字起こし方法である。この方法は、文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データとを記憶する情報処理システムが、対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、複数の区間音声データの少なくとも1つとダミー音声データの組を外部装置へ提供するステップと、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、受け付けたテキストデータのうち、複数の区間音声データの少なくとも1つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成するステップと、を実行する。
【0008】
なお、以上の構成要素の任意の組合せ、本発明の表現を、装置、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0009】
本発明によれば、文字起こし対象の音声の内容の秘匿性を高めることができる。
【図面の簡単な説明】
【0010】
図1】実施例の文字起こしシステムの構成を示す図である。
図2図1の管理装置の機能ブロックを示すブロック図である。
図3】音声データの分割例を示す図である。
図4】音声データの例を示す図である。
図5】区間音声データの割当例を示す図である。
図6】作業者による作業結果の例を示す図である。
図7】音声データの分割例を示す図である。
【発明を実施するための形態】
【0011】
実施例の文字起こしシステムは、文字起こしの対象となる音声(ユーザに関する音声であり、秘密情報が含まれうる音声)の少なくとも一部と、ダミーの音声の組を、文字起こしを行う作業者に提供して、それらの音声の両方を作業者に文字起こしさせる。これにより、文字起こしの対象となる音声全体の内容が漏洩するリスクを低減し、文字起こしの対象となる音声の内容の秘匿性を高めることができる。
【0012】
図1は、実施例の文字起こしシステム10の構成を示す。文字起こしシステム10は、文字起こしを支援する情報処理システムであり、管理装置12と、複数のユーザ端末14と、複数の作業者装置16を備える。文字起こしシステム10の各装置は、LAN・WAN・インターネット等を含む通信網18を介して接続される。文字起こしは、音声の内容をテキストに変換することであり、テープ起こしとも言える。
【0013】
管理装置12は、文字起こしのウェブサービスを複数のユーザ端末14に提供する情報処理装置である。管理装置12の詳細な機能は後述する。
【0014】
複数のユーザ端末14は、文字起こしサービスを利用するユーザにより操作される情報処理装置である。複数のユーザ端末14は、A社に所属するユーザaにより操作されるユーザ端末14aと、B社に所属するユーザbにより操作されるユーザ端末14bと、C社に所属するユーザcにより操作されるユーザ端末14cを含む。ユーザ端末14は、PC、タブレット端末、スマートフォンであってもよい。
【0015】
複数の作業者装置16は、文字起こしを行う主体の情報処理装置である。実施例では、人間が音声を聞いてその音声をテキスト化する。複数の作業者装置16は、作業者xにより操作される作業者装置16xと、作業者yにより操作される作業者装置16yと、作業者zにより操作される作業者装置16zを含む。作業者装置16は、PC、タブレット端末、スマートフォンであってもよい。
【0016】
図2は、図1の管理装置12の機能ブロックを示すブロック図である。本明細書のブロック図で示す各ブロックは、ハードウェア的には、コンピュータのプロセッサ、CPU、メモリをはじめとする素子や電子回路、機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
【0017】
管理装置12は、制御部20、記憶部22、通信部24を備える。制御部20は、文字起こしサービスを提供するための各種データ処理を実行する。記憶部22は、制御部20により参照または更新されるデータを記憶する。通信部24は、所定の通信プロトコルにしたがって外部装置と通信する。制御部20は、通信部24を介して、ユーザ端末14および作業者装置16とデータを送受信する。
【0018】
記憶部22は、対象音声記憶部30、ダミー音声記憶部32、割当規則記憶部34、配信データ記憶部36、作業結果記憶部38、文章記憶部40、正解記憶部42、評価記憶部44を含む。なお、記憶部22に記憶されるデータの少なくとも一部は、管理装置12とは別の記憶装置(不図示)に記憶されてもよく、管理装置12は、外部の記憶装置に記憶されたデータを参照・更新してもよいことはもちろんである。
【0019】
対象音声記憶部30は、ユーザ端末14から受け付けた音声データであって、文字起こしの対象となる音声(以下「対象音声」とも呼ぶ。)が録音された対象音声データを記憶する。ダミー音声記憶部32は、ユーザ端末14から受け付けた音声データではなく、ダミーの音声(以下「ダミー音声」とも呼ぶ。)が録音されたダミー音声データを記憶する。ダミー音声は、管理装置12の管理者(例えば文字起こしサービスを提供する企業の担当者)により予め定められた内容の音声である。
【0020】
正解記憶部42は、ダミー音声の内容を示すテキストデータを記憶する。なお、実施例では、ダミー音声データは、複数の区間に係る区間毎の音声データ(以下「区間音声データ」とも呼ぶ。)に予め分割され、ダミー音声記憶部32は、ダミー音声データに基づく複数の区間音声データを記憶することとする。また、正解記憶部42は、ダミー音声データに基づく複数の区間音声データそれぞれの内容を示すテキストデータ(以下「正解データ」とも呼ぶ。)を記憶することとする。
【0021】
割当規則記憶部34は、対象音声データが分割された区間音声データと、ダミー音声データが分割された区間音声データを作業者に割り当てるための規則(以下「割当規則」とも呼ぶ。)を記憶する。割当規則は、割当部56の構成に関連して後述する。
【0022】
配信データ記憶部36は、複数の作業者のそれぞれに配信するデータであり、1つ以上の区間音声データを含む配信データを記憶する。例えば、配信データ記憶部36は、作業者x(作業者装置16x)への配信データ、作業者y(作業者装置16y)への配信データおよび作業者z(作業者装置16z)への配信データを記憶する。
【0023】
作業結果記憶部38は、作業者x(作業者装置16x)による文字起こしの結果であるテキストデータ、作業者y(作業者装置16y)による文字起こしの結果であるテキストデータおよび作業者z(作業者装置16z)による文字起こしの結果であるテキストデータを記憶する。
【0024】
文章記憶部40は、後述の文章生成部62により生成された、対象音声全体の内容を示すテキストデータ(以下「文章データ」とも呼ぶ。)を記憶する。評価記憶部44は、後述の評価部66により生成された、複数の作業者に関する評価結果を記憶する。
【0025】
制御部20は、要求受付部50、変換部52、分割部54、割当部56、配信部58、作業結果受付部60、文章生成部62、文章提供部64、評価部66を含む。これら複数の機能ブロックの機能を実装したコンピュータプログラムが記憶部22に格納されてもよい。管理装置12のプロセッサは、そのコンピュータプログラムをメインメモリに読み出して実行することにより、制御部20の複数の機能ブロックの機能を発揮してもよい。
【0026】
要求受付部50は、音声の文字起こしを要求する複数の要求データを複数のユーザ端末14から受け付ける。要求受付部50は、受け付けた要求データを要求元のユーザまたはユーザ端末14に対応付けて対象音声記憶部30に保存する。ユーザ端末14aから受け付ける要求データは、A社に関する音声(社長の発言や会議の音声等)が録音された対象音声データを含む。また、ユーザ端末14bから受け付ける要求データは、B社に関する音声が録音された対象音声データを含む。また、ユーザ端末14cから受け付ける要求データは、C社に関する音声が録音された対象音声データを含む。
【0027】
変換部52は、要求受付部50により受け付けられた複数の対象音声データのうち少なくとも1つの対象音声データを公知の音声変換機能により変換することで、複数の対象音声データの声質(音高、音圧、音色等)を均質化させる。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にし、対象音声の内容の秘匿性を高めることができる。
【0028】
実施例では、変換部52は、要求受付部50により受け付けられた複数の対象音声データの声質を、ダミー音声データの声質と同一または類似するものとなるよう変換する。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にでき、また、ダミー音声か否かを見分けることを困難にでき、対象音声の内容の秘匿性を一層高めることができる。
【0029】
分割部54は、対象音声記憶部30に記憶された対象音声データを複数の区間に係る複数の区間音声データに分割する。図3は、音声データの分割例を示す。分割部54は、A社の対象音声データAaを、区間音声データAa-1、区間音声データAa-2、区間音声データAa-3の3つに分割する。また、分割部54は、A社の対象音声データAbを、区間音声データAb-1、区間音声データAb-2、区間音声データAb-3の3つに分割する。同様に、分割部54は、B社の対象音声データBaおよび対象音声データBbを分割する。
【0030】
既述したように、実施例では、ダミー音声データは、複数の区間音声データに予め分割されている。例えば図3では、ダミー音声データCaは、区間音声データCa-1と区間音声データCa-2の2つに分割されている。変形例として、分割部54は、対象音声データの分割時に、ダミー音声データを複数の区間音声データに分割してもよい。
【0031】
分割部54は、複数の区間音声データのそれぞれについて、分割前の対象音声データまたはダミー音声データにおける位置情報(例えば先頭からの順番や時間位置等)を記憶部22に保存する。例えば、分割部54は、区間音声データAa-1について、対象音声データAaの1番目の区間であることを示す情報を保存し、また、区間音声データAa-2について、対象音声データAaの2番目の区間であることを示す情報を保存してもよい。
【0032】
図4は、音声データの例を示す。同図は音声の波形を示し、具体的には、同図の横軸は音声開始からの経過時間を示し、縦軸は音量を示している。分割部54は、音声を区切る区間がとりうる予め定められた最小時間と最大時間(言い換えれば最大長)を保持する。実施例における区間の最小時間は10秒(図4の終了範囲始点70)であり、最大時間は20秒(図4の終了範囲終点72)である。区間が短いほど音声内容の秘匿性は高くなるが、文字起こしの正確度は低下する。区間の最小時間と最大時間は、音声内容の秘匿性と文字起こしの正確度とを比較衡量して、適切な値に決定されてよい。
【0033】
分割部54は、対象音声データにおける1つの区間の終了位置を決定する場合、予め定められた最小時間以上かつ最大時間以下の範囲内で、かつ、音量が所定の閾値未満の時点を区間の終了位置として決定する。例えば、図4の例では、音声開始から15.5秒の時点を区間の終了位置(分割点74)に決定する。次の区間については、分割部54は、図4の分割点74を開始位置とし、分割点74から10秒~20秒の範囲内で、かつ、音量が所定の閾値未満の時点を次の区間の終了位置として決定する。なお、音量の閾値は、無音と見なされる音量の値でもよく、また、静かな室内の場合に想定される音量の値でもよい。例えば、音量の閾値は、0.002パスカル(40デシベル)であってもよい。
【0034】
対象音声において、単語の切れ目や意味の切れ目は、音量が小さくなりやすい。実施例では音量が閾値未満の位置を区間の終了位置とすることで、単語の切れ目や意味の切れ目を区間の終了位置とすることができ、文字起こしの正確性を高めることができる。
【0035】
図2に戻り、割当部56は、割当規則記憶部34に記憶された割当規則にしたがって、対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を、複数の作業者のそれぞれに割り当てる。割当部56は、各作業者に割り当てた対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を配信データ記憶部36に格納する。
【0036】
実施例の割当規則は、1人の作業者に対して割り当てる複数の区間音声データが、互いに時間的・空間的に離れたものになるよう定められる。具体的には、(1)割当規則は、作業者装置16が複数存在する場合に、1つの作業者装置16に対して、1つの対象音声データを起原とする複数の区間音声データのうち一部の区間音声データを割り当てるよう定める。すなわち、割当規則は、1つの作業者装置16に対して、1つの対象音声データに基づく全ての区間音声データを割り当てることを禁止する。これにより、対象音声の内容の秘匿性を高めることができる。
【0037】
また、(2)割当規則は、1つの作業者装置16に対して、1つの対象音声データにおいて時間的に連続する複数の区間音声データを割り当てることを禁止する。言い換えれば、割当規則は、1つの対象音声データにおいて時間的に連続する複数の区間音声データを異なる作業者に割り当てるよう規定する。例えば、図3の区間音声データAa-1と区間音声データAa-2を同じ作業者に割り当てることを禁止し、異なる作業者に割り当てるよう規定する。これにより、対象音声の内容の秘匿性をさらに高めることができる。
【0038】
また、(3)割当規則は、1つの作業者装置16に対して複数の区間音声データを提供する場合に、1つの対象音声データを起原とする複数の区間音声データを提供することより、異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。
【0039】
また、(4)割当規則は、1つの作業者装置16に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる組織に関する異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が一層高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。
【0040】
図5は、区間音声データの割当例を示す。同図に示す区間音声データは、図3に示した区間音声データに対応する。同図の例では、割当部56は、作業者xに対して、対象音声データAaを起原とする区間音声データAa-1と、ダミー音声データCaを起原とする区間音声データCa-1と、対象音声データBbを起原とする区間音声データBb-2を割り当てている。また、割当部56は、作業者yと作業者zにもそれぞれ、異なる組織の異なる対象音声データを起原とする複数の区間音声データを割り当てている。
【0041】
図2に戻り、配信部58は、割当部56による割当結果にしたがって、各作業者へ区間音声データを提供する。具体的には、配信部58は、配信データ記憶部36に記憶された対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を各作業者の作業者装置16へ提供する。
【0042】
実施例では、配信部58は、文字起こし作業を行うためのウェブページ(以下「作業ページ」とも呼ぶ。)を複数の作業者装置16に送信し、表示させる。配信部58は、作業者x用の作業ページを作業者装置16xに提供し、作業者y用の作業ページを作業者装置16yに提供し、作業者z用の作業ページを作業者装置16zに提供する。なお、配信部58は、各作業者用の作業ページのURLを電子メール等により各作業者の作業者装置16へ通知してもよい。
【0043】
配信部58は、作業者x用の作業ページのデータに、割当部56により作業者xに割り当てられた区間音声データ(図5の例では区間音声データAa-1、区間音声データCa-1、区間音声データBb-2)を含める。同様に、配信部58は、作業者y(作業者z)用の作業ページのデータに、割当部56により作業者y(作業者z)に割り当てられた区間音声データを含める。なお、配信部58は、各作業者用の作業ページに、各区間音声データを再生するためのボタン、各区間音声データの音声を文字起こしした結果のテキストを入力するエリア、送信ボタンを配置する。
【0044】
作業結果受付部60は、各作業者の作業者装置16から送信された、各作業者による作業結果を受け付ける。実施例では、作業結果受付部60は、作業者x用の作業ページに入力された作業者xによる文字起こし結果を受け付け、作業者y用の作業ページに入力された作業者yによる文字起こし結果を受け付け、作業者z用の作業ページに入力された作業者zによる文字起こし結果を受け付ける。作業結果受付部60は、各作業者の作業結果を作業結果記憶部38に格納する。
【0045】
図6は、作業者による作業結果の例を示す。同図は、図5の割当に基づく作業結果を示している。例えば、作業者xによる作業結果は、テキストデータAa-1、テキストデータCa-1、テキストデータBb-2を含む。テキストデータAa-1は、対象音声データAaを起原とする区間音声データAa-1の音声を文字起こししたものである。また、テキストデータCa-1は、ダミー音声データCaを起原とする区間音声データCa-1の音声を文字起こししたものである。また、テキストデータBb-2は、対象音声データBbを起原とする区間音声データBb-2の音声を文字起こししたものである。
【0046】
図2に戻り、文章生成部62は、作業結果受付部60により受け付けられ、作業結果記憶部38に記憶されたテキストデータのうち、対象音声データを起原とする区間音声データをもとに文字起こししたテキストデータを用いて、対象音声の全体を文字起こしした文章データを生成する。文章生成部62は、文章データを生成する際、ダミー音声データを起原とする区間音声データをもとに文字起こししたテキストデータは使用しない。
【0047】
文章生成部62は、分割部54により記憶部22に格納された各区間音声データの位置情報(すなわち対象音声データ内での位置情報)にしたがって、複数の区間音声データに基づくテキストデータを組み合わせることにより文章データを生成する。文章生成部62は、或る対象音声に対する文章データを、その対象音声の文字起こしを要求したユーザ(またはユーザ端末14)に対応付けて文章記憶部40に格納する。
【0048】
図6の作業者xの作業結果に含まれるテキストデータAa-1は、対象音声データAaの1番目の区間に対応する区間音声データAa-1のテキストである。また、図6の作業者yの作業結果に含まれるテキストデータAa-2は、対象音声データAaの2番目の区間に対応する区間音声データAa-2のテキストである。また、図6の作業者zの作業結果に含まれるテキストデータAa-3は、対象音声データAaの3番目の区間に対応する区間音声データAa-3のテキストである。文章生成部62は、テキストデータAa-1、テキストデータAa-2、テキストデータAa-3をこの順に合成することにより、対象音声データAaの全体をテキスト化した文章データAaを生成する。
【0049】
図2に戻り、文章提供部64は、文章記憶部40に記憶された文章データを、文字起こしの要求元のユーザ(ユーザ端末14)へ送信する。例えば、文章提供部64は、図6に示した対象音声データAaが文字起こしされた文章データAaを、その文字起こしを要求したユーザa(ユーザ端末14a)へ送信する。なお、文章提供部64は、ユーザ端末14aから文章データの提供要求を受け付けたことを契機に、文章記憶部40に記憶された複数の文章データのうち、ユーザaに対応付けられた文章データをユーザ端末14aへ送信してもよい。
【0050】
評価部66は、正解記憶部42に予め記憶された正解データと、各作業者によるダミー音声の文字起こし結果(作業結果受付部60により受け付けられ、作業結果記憶部38に記憶されたテキストデータ)とを比較することにより、各作業者を評価する。例えば、評価部66は、ダミー音声データCaを起原とする区間音声Ca-1の正解データと、作業xによる区間音声Ca-1の文字起こし結果であるテキストデータCa-1とを比較することにより、作業者xを評価する。
【0051】
実施例では、評価部66は、形態素解析により、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とを抽出し、両者の間で一致する形態素が多いほど、作業者の変換精度が高いと評価し、作業者に高い評価値を付与する。なお、評価部66は、類義語辞書を参照し、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とが不一致であっても、類義語であれば一致すると見なしてもよい。このように実施例では、ダミー音声の文字起こし結果に基づいて、作業者を客観的に評価することができる。
【0052】
評価部66は、複数の作業者それぞれの評価結果(評価値)を評価記憶部44に格納する。管理装置12は、評価記憶部44に記憶された各作業者の評価結果を外部装置に提供する評価結果出力部(不図示)をさらに備えてもよい。この場合の外部装置は、例えば、作業者との料金交渉や契約を行う担当者の端末でもよい。
【0053】
以上の構成による文字起こしシステム10の動作を説明する。文字起こしシステム10の複数のユーザはそれぞれ、対象音声データをユーザ端末14から管理装置12へアップロードする。管理装置12の要求受付部50は、複数のユーザ端末14から送信された複数の対象音声データを受け付ける。管理装置12の変換部52は、複数の対象音声データの声質を予め定められた基準の声質(実施例ではダミー音声データと同じ声質であり、合成音声の声質でもよい)に変換する。
【0054】
管理装置12の分割部54は、複数の対象音声データのそれぞれを複数の区間音声データに分割する。管理装置12の割当部56は、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を、各作業者に割り当てる。管理装置12の配信部58は、各作業者用のウェブページにて、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を各作業者に提示する。
【0055】
作業者は、自身向けのウェブページにて自身に割り当てられた区間音声データを再生し、その音声内容を示すテキストをウェブページの所定エリアに入力する。作業者がウェブページの送信ボタンを押下すると、作業者装置16は、作業者が上記所定エリアに入力したテキストデータを管理装置12へ送信する。
【0056】
管理装置12の作業結果受付部60は、各作業者の作業者装置16から送信された対象音声データの区間音声を文字起こししたテキストデータと、ダミー音声データの区間音声を文字起こししたテキストデータを受け付ける。管理装置12の文章生成部62は、各作業者の作業者装置16から送信された対象音声データの区間音声を文字起こししたテキストデータを合成して、対象音声データ全体の音声をテキスト化した文章データを生成する。
【0057】
管理装置12の文章提供部64は、各対象音声データに対応する文章データを、各対象音声データをアップロードしたユーザ端末14へ送信する。ユーザは、自身がアップロードした対象音声データに対応する文章データを得て業務を進める。管理装置12の評価部66は、予め内容が定められたダミー音声データに対する文字起こし結果をもとに、各作業者の評価値を決定する。
【0058】
以上、本発明を実施例をもとに説明した。この実施例は例示であり、実施例に記載の各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を示す。
【0059】
第1変形例を説明する。管理装置12の分割部54は、対象音声データを分割して、第1区間に係る第1区間音声データと、第1区間の直後の第2区間に係る第2区間音声データを生成する場合に、第1区間の一部と第2区間の一部を重複させてもよい。言い換えれば、分割部54は、第1区間と第2区間にのりしろとなる時間領域を設けてもよい。
【0060】
図7は、音声データの分割例を示す。ここでは、対象音声データ80は、区間音声データ82a、区間音声データ82b、区間音声データ82c、区間音声データ82dの4つに分割される。分割部54は、区間音声データ82aと区間音声データ82bに、重複期間84aと重複期間84bを設ける。また、分割部54は、区間音声データ82bと区間音声データ82cに、重複期間84cと重複期間84dを設ける。また、分割部54は、区間音声データ82cと区間音声データ82dに、重複期間84eと重複期間84fを設ける。ここでは、重複期間84a~重複期間84fのそれぞれは、2.5秒とする。
【0061】
図7の例では、区間音声データ82aは、対象音声データ80の開始点から15秒の区間の音声である。区間の終了位置は、実施例に記載の方法により決定してよい。この区間では終了前5秒が重複期間(重複期間84a+重複期間84b)となる。区間音声データ82bは、対象音声データ80の開始点から10秒以降、25秒までの区間の音声である。この区間では開始後5秒と終了前5秒が重複期間となる。区間音声データ82aと区間音声データ82bは、異なる作業者に割り当てられるが、重複期間84aと重複期間84bの音声は、異なる作業者の両者が文字起こしを行う。
【0062】
また、区間音声データ82cは、対象音声データ80の開始点から20秒以降、35秒までの区間の音声である。この区間では開始後5秒と終了前5秒が重複期間となる。区間音声データ82dは、対象音声データ80の開始点から30秒以降、45秒までの区間の音声である。この区間では開始後5秒が重複期間となる。
【0063】
文章生成部62は、時間的に連続する第1区間音声データ(例えば区間音声データ82a)のテキストデータと、第2区間音声データ(例えば区間音声データ82b)のテキストデータについて、重複期間における所定数の文字(所定数の形態素でもよい)が一致するように両者のテキストデータを合成する。
【0064】
また、文章生成部62は、重複期間におけるテキストデータとして、端部から遠い方の区間音声データのテキストを採用する。言い換えれば、各区間音声データの端部に対応するテキストデータ(例えば所定数の文字や形態素)は、合成語の文章データには反映しない。例えば、文章生成部62は、重複期間84aについて、区間音声データ82aに基づくテキストデータを採用する一方、重複期間84bについては、区間音声データ82bに基づくテキストデータを採用する。同様に、文章生成部62は、重複期間84cについて、区間音声データ82bに基づくテキストデータを採用する一方、重複期間84dについては、区間音声データ82cに基づくテキストデータを採用する。
【0065】
本発明者は、文字起こしに関するPoC(Proof of Concept)を実施する中で、区間音声データにおける開始時と終了時はテキスト化の正確度が低下することを認識した。そこで、本変形例では、時間的に連続する第1区間音声データと第2区間音声データに重複期間を設け、第1区間音声データのテキストデータと第2区間音声データのテキストデータにおいてテキスト化の正確度が高いと考えられる部分を文章データに反映することにより、文章データの正確度を高めることができる。
【0066】
第2変形例を説明する。上記実施例では、人が対象音声およびダミー音声を聞いて文字起こししたが、変形例として、コンピュータ(少なくとも一部の作業者装置16)が、文字起こし処理を自動で実行してもよい。この場合、配信部58は、作業者装置16がネットワーク上に公開する文字起こし依頼用APIを呼び出すとともに、1つ以上の区間音声データ(例えば図5の配信データ)を作業者装置16へ送信してもよい。作業結果受付部60は、作業者装置16の文字起こし依頼用APIの返値として、文字起こし結果のテキストデータを受け付けてもよい。
【0067】
第2変形例に関連する第3変形例を説明する。文字起こしは、コンピュータによる文字起こしと人による文字起こしの両方が実行されてもよい。具体的には、管理装置12の配信部58は、まず、文字起こし処理を自動実行する第1の作業者装置へ1つ以上の区間音声データ(例えば図5の配信データ)を送信し、作業結果受付部60は、文字起こし処理の結果を第1の作業者装置から取得してもよい。次に、配信部58は、人手により文字起こしを行う第2の作業者装置へ、第1の作業者装置による文字起こし処理の結果を送信し、作業結果受付部60は、人手による文字起こし(ここでは点検・編集)の結果を第2の作業者装置から取得してもよい。この構成によると、人は、コンピュータによる文字起こしの結果を点検・編集する役目となるため、人件費を抑えつつ、文字起こしの正確度を高めることができる。
【0068】
第4変形例を説明する。上記実施例では言及していないが、割当部56は、評価記憶部44に記憶された評価値が高い作業者ほど優先して、区間音声データの文字起こしを割り当ててもよい。また、配信部58は、評価記憶部44に記憶された評価値が高い作業者ほど優先して、区間音声データを配信してもよい。言い換えれば、評価記憶部44に記憶された評価値が相対的に高い作業者に対して、評価値が相対的に低い作業者より優先して、区間音声データを割り当て、または配信してもよい。これにより、文字起こしの正確度を高めやすくなる。
【0069】
第5変形例を説明する。上記実施例では言及していないが、評価部66による作業者の評価は、文章生成部62による文章データ生成前に実行されてもよい。文章生成部62は、或る作業者の評価値が所定の閾値未満の場合、当該作業者(以下「低評価者」と呼ぶ。)による文字起こし結果(テキストデータ)を用いた文章データの生成を中止してもよい。この場合、割当部56は、低評価者に対して割り当てた区間音声データを、他の作業者(評価値が上記閾値以上の作業者)に割り当て直してもよい。配信部58は、低評価者に対して提供した区間音声データを、上記他の作業者へ提供し、文字起こしを依頼してもよい。これにより、正確度が低い文字起こし結果をユーザに提供してしまうことを回避し、また、文字起こしの正確度を一層高めることができる。
【0070】
第6変形例を説明する。上記実施例では言及していないが、割当部56は、同一の作業者に対する配信データでは、少なくとも所定期間、異なるダミー音声データ(少なくとも区間音声データとしては異なるもの)を提供することが望ましい。例えば、割当部56は、作業者毎に、割り当てたダミー音声データ(その区間音声データ)の識別情報を保存し、依頼の都度、ダミー音声データ(区間音声データ)を変化させてもよい。これにより、作業者がダミー音声を判別することを困難にし、対象音声の内容の秘匿性を高めることができる。
【0071】
第7変形例を説明する。上記実施例の管理装置12は、各作業者用のウェブページを作業者装置16へ提供し、各作業者用のウェブページにて、各作業者に区間音声データを再生させ、また、各作業者に区間音声データの文字起こし結果を入力させた。変形例では、管理装置12の配信部58は、対象音声の区間音声データおよびダミー音声の区間音声暗号データを暗号化した暗号データを作業者装置16へ送信してもよい。管理装置12の作業結果受付部60は、各作業者による文字起こし結果のテキストデータを暗号化した暗号データを作業者装置16から受け付けてもよい。
【0072】
第8変形例を説明する。対象音声の区間音声データの中に、ダミー音声の区間音声データをいくつ挿入するか、または、作業者に割り当てる対象音声の区間音声データとダミー音声の区間音声データとの比率は、ユーザが要求する対象音声の秘匿性強度により決定されてもよい。すなわち、要求される秘匿性強度が強いほど、ダミー音声の区間音声データが配信データに挿入される個数が多くなるよう割当規則が定められてもよい。または、配信データにおける、対象音声の区間音声データに対するダミー音声の区間音声データの比率が高くなるよう割当規則が定められてもよい。なお、上記の挿入数または比率が大きいほど、秘匿性が高まるため、文字起こしサービスの販売価格が高く定められてもよい。
【0073】
第9変形例を説明する。上記実施例に記載の文字起こしシステム10の構成は一例であり、物理的な構成(筐体数等)に制限がないことはもちろんである。例えば、オリジナルの音声データを分割し、区間音声データを作業者装置16へ提供する機能と、作業者による文字起こし結果を収集し、文章データを生成してユーザに提供する機能とは、別の装置により実現されてもよい。
【0074】
上述した実施例および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施例および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施例および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。
【符号の説明】
【0075】
10 文字起こしシステム、 12 管理装置、 14 ユーザ端末、 16 作業者装置、 52 変換部、 54 分割部、 58 配信部、 60 作業結果受付部、 62 文章生成部、 64 文章提供部、 66 評価部。
図1
図2
図3
図4
図5
図6
図7