特許7183316 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特許7183316音声記録検索方法、コンピュータ装置およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-25

(45)【発行日】2022-12-05

(54)【発明の名称】音声記録検索方法、コンピュータ装置およびコンピュータプログラム

(51)【国際特許分類】

G06F 16/638 20190101AFI20221128BHJP

G10L 15/00 20130101ALI20221128BHJP

G06F 16/632 20190101ALI20221128BHJP

【ＦＩ】

G06F16/638

G10L15/00 200Z

G06F16/632

【請求項の数】 20

(21)【出願番号】P 2021018726

(22)【出願日】2021-02-09

(65)【公開番号】P2022056307

(43)【公開日】2022-04-08

【審査請求日】2021-02-09

(31)【優先権主張番号】10-2020-0127519

(32)【優先日】2020-09-29

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(73)【特許権者】

【識別番号】321003371

【氏名又は名称】ＬＩＮＥ株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】シンジウン

(72)【発明者】

【氏名】ファンギルファン

(72)【発明者】

【氏名】チョンイェリム

(72)【発明者】

【氏名】オヒャンナム

(72)【発明者】

【氏名】チョンユジン

(72)【発明者】

【氏名】イムデヒョン

(72)【発明者】

【氏名】イドンヨル

(72)【発明者】

【氏名】チェジョンミン

(72)【発明者】

【氏名】キムヒョンジン

(72)【発明者】

【氏名】ソンデグン

(72)【発明者】

【氏名】ソンヨンス

(72)【発明者】

【氏名】イジンミョン

(72)【発明者】

【氏名】キムドクス

(72)【発明者】

【氏名】キムゴンミン

【審査官】原秀人

(56)【参考文献】

【文献】特開２０１３－０９２９１２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００６８６５７（ＵＳ，Ａ１）

【文献】岡田充弘，結果もスピードも手に入る神速スマホ仕事術，第１版，日本，株式会社すばる舎，2019年08月17日，pp. 88--89

【文献】セルコジョー，プログラマのためのＳＱＬ第４版，第1版，日本，株式会社翔泳社，2013年07月05日，pp. 249--256

【文献】山田井ユウキ，ｉＰｈｏｎｅ１０周年記念企画ＰＡＲＴ２２０１６－２０１７からｉＰｈｏｎｅアプリを厳選！使える！新定番アプリあなたのｉＰｈｏｎｅライフを彩る秀逸作品が勢揃い，ＭａｃＦａｎ，日本，株式会社マイナビ出版，2017年11月01日，第25巻第11号通巻417号，p. 133

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

コンピュータ装置が実行する音声記録検索方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記音声記録検索方法は、
前記少なくとも１つのプロセッサにより、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索し、検索結果を表示する段階
を含み、前記検索する段階は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索し、前記類似単語が前記検索語に修正された検索結果を表示すること
を特徴とする、音声記録検索方法。

【請求項2】

前記検索する段階は、
単語が分離される単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項１に記載の音声記録検索方法。

【請求項3】

前記検索する段階は、
字素単位、語幹単位、ターム単位のうちの少なくとも１つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項１に記載の音声記録検索方法。

【請求項4】

前記音声記録検索方法は、
前記少なくとも１つのプロセッサにより、検索結果に含まれた少なくとも１つの単語を他の単語に修正する段階
をさらに含む、請求項１に記載の音声記録検索方法。

【請求項5】

前記修正する段階は、
前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正すること
を特徴とする、請求項４に記載の音声記録検索方法。

【請求項6】

前記検索する段階は、
検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示する段階
を含む、請求項１に記載の音声記録検索方法。

【請求項7】

前記検索する段階は、
前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングする段階
を含む、請求項１に記載の音声記録検索方法。

【請求項8】

前記音声記録は，前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、
前記検索する段階は、
前記音声記録と前記メモを検索範囲として前記類似単語を検索すること
を特徴とする、請求項１に記載の音声記録検索方法。

【請求項9】

前記音声記録検索方法は、
前記少なくとも１つのプロセッサにより、前記音声記録を前記音声の録音中または再生中に作成されたメモと連係させて提供する段階
をさらに含む、請求項１に記載の音声記録検索方法。

【請求項10】

前記提供する段階は、
デュアルビュー方式によって前記音声記録と前記メモをともに表示する段階
を含む、請求項９に記載の音声記録検索方法。

【請求項11】

請求項１～１０のうちのいずれか一項に記載の音声記録検索方法をコンピュータに実行させるためのコンピュータプログラム。

【請求項12】

コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索し、検索結果を表示する音声記録検索部
を含み、前記音声記録検索部は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索し、前記類似単語が前記検索語に修正された検索結果を表示すること
を特徴とする、コンピュータ装置。

【請求項13】

前記音声記録検索部は、
単語が分離される単位を利用した単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項１２に記載のコンピュータ装置。

【請求項14】

前記音声記録検索部は、
字素単位、語幹単位、ターム単位のうちの少なくとも１つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項１２に記載のコンピュータ装置。

【請求項15】

前記少なくとも１つのプロセッサは、
検索結果に含まれた少なくとも１つの単語を他の単語に修正する音声記録修正部
をさらに含む、請求項１２に記載のコンピュータ装置。

【請求項16】

前記音声記録修正部は、
前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正すること
を特徴とする、請求項１５に記載のコンピュータ装置。

【請求項17】

前記音声記録検索部は、
検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示すること
を特徴とする、請求項１２に記載のコンピュータ装置。

【請求項18】

前記音声記録検索部は、
前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングすること
を特徴とする、請求項１２に記載のコンピュータ装置。

【請求項19】

前記音声記録は、前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、
前記音声記録検索部は、
前記音声記録と前記メモを検索範囲として前記類似単語を検索すること
を特徴とする、請求項１２に記載のコンピュータ装置。

【請求項20】

前記少なくとも１つのプロセッサは、
前記音声記録を前記音声の録音中または再生中に作成されたメモと連係させて提供する音声記録管理部
をさらに含み、
前記音声記録管理部は、
デュアルビュー方式によって前記音声記録と前記メモをともに提供すること
を特徴とする、請求項１２に記載のコンピュータ装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下の説明は、音声をテキストに変換した音声記録から単語を検索する技術に関する。

【背景技術】

【0002】

一般に、モバイル音声変換は、モバイルデバイスで音声を録音し、音声録音の後に、録音された区間の音声をテキストに変換してディスプレイ上に表示することにより行われる。

【0003】

このような音声変換技術の一例として、特許文献１（公開日２０１４年５月２３日）には、音声録音およびテキスト変換を実行する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】韓国公開特許第１０－２０１４－００６２２１７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索する方法とシステムを提供する。

【0006】

発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする方法とシステムを提供する。

【0007】

発音に基づく検索結果に含まれた単語のディスプレイ要素を検索正確度によって異なるように表示する方法とシステムを提供する。

【0008】

発音に基づく検索結果に含まれた単語を他の単語に修正する方法とシステムを提供する。

【課題を解決するための手段】

【0009】

コンピュータ装置が実行する音声記録検索方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記音声記録検索方法は、前記少なくとも１つのプロセッサにより、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索する段階を含み、前記検索する段階は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索することを特徴とする、音声記録検索方法を提供する。

【0010】

一側面によると、前記検索する段階は、単語が分離される単位を利用した単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索してよい。

【0011】

他の側面によると、前記検索する段階は、字素単位、語幹単位、ターム単位のうちの少なくとも１つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索してよい。

【0012】

また他の側面によると、前記音声記録検索方法は、前記少なくとも１つのプロセッサにより、検索結果に含まれた少なくとも１つの単語を他の単語に修正する段階をさらに含んでよい。

【0013】

また他の側面によると、前記修正する段階は、前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正してよい。

【0014】

また他の側面によると、前記検索する段階は、検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示する段階を含んでよい。

【0015】

また他の側面によると、前記検索する段階は、前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングする段階を含んでよい。

【0016】

また他の側面によると、前記音声記録は、前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、前記検索する段階は、前記音声記録と前記メモを検索範囲として前記類似単語を検索してよい。

【0017】

また他の側面によると、前記音声記録検索方法は、前記少なくとも１つのプロセッサにより、前記音声記録と前記音声の録音中または再生中に作成されたメモとを連係させて提供する段階をさらに含んでよい。

【0018】

さらに他の側面によると、前記提供する段階は、デュアルビュー方式によって前記音声記録と前記メモをともに表示する段階を含んでよい。

【0019】

前記音声記録検索方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。

【0020】

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索する音声記録検索部を含み、前記音声記録検索部は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索することを特徴とする、コンピュータ装置を提供する。

【発明の効果】

【0021】

本発明の実施形態によると、音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索することにより、音声記録の単語検索の性能を高めることができる。

【0022】

本発明の実施形態によると、発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする機能、発音に基づく検索結果に含まれた単語を他の単語に修正する機能などを提供することにより、サービスの利用に対するユーザの利便性を高めることができる。

【図面の簡単な説明】

【0023】

【図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。

【図2】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。

【図3】本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。

【図4】本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。

【図5】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図6】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図7】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図8】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図9】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図10】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【図11】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【発明を実施するための形態】

【0024】

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

【0025】

本発明の実施形態に係る音声記録管理システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る音声記録検索方法は、音声記録管理システムに含まれる少なくとも１つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る音声記録検索方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置に結合されて音声記録検索方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

【0026】

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境の一例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

【0027】

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することのできる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

【0028】

通信方式は限定されず、ネットワーク１７０が含むことが可能な通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

【0029】

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、音声記録管理サービス（または、議事録管理サービス）、コンテンツ提供サービス、グループ通話サービス（または、音声会議サービス）、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど）を提供するシステムであってよい。

【0030】

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。

【0031】

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

【0032】

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

【0033】

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

【0034】

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

【0035】

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。

【0036】

以下では、音声をテキストに変換した音声記録から似た発音の単語を含んで検索する方法およびシステムの具体的な実施形態について説明する。

【0037】

最近は、多くの人が、会議などの多様な環境で音声機能を利用して音声を録音している。このとき、録音とは別に、重要な内容や付随する内容などをメモとして記録することが望まれる場合がある。

【0038】

従来技術では、音声録音機能とメモ機能は個別の機能として提供されているので、音声録音ファイルとメモを同時に確認することは必ずしも容易ではなく、メモを見ながら内容を推測するに留まることが多かった。言い換えれば、音声とメモをそれぞれ別に確認せざるをえず、これにより、録音された内容の全体の流れを把握しながらメモを確認することは困難であった。

【0039】

このような問題を解決するために、本実施形態では、録音された音声をテキストに変換した結果（以下、「音声記録」と称する）と、録音された音声と関連して作成されたメモとをマッチングして管理する音声記録管理サービスを提供する。

【0040】

本実施形態は、音声録音およびテキスト変換を含む音声記録機能とメモ機能を統合された１つの機能として提供し、音声記録とメモをマッチングしてともに管理することを目的とする。

【0041】

特に、本実施形態では、音声をテキストに変換するときに、音声認識エラーによって正確でない単語が認識される場合などを勘案した上で、音声記録から似た発音の単語を含む検索機能を提供することを目的とする。

【0042】

図３は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。

【0043】

本実施形態に係るコンピュータ装置２００は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置２００と関連するウェブ／モバイルサイトへの接続により、音声記録管理サービスを提供してよい。コンピュータ装置２００には、コンピュータによって実現された音声記録管理システムが構成されてよい。

【0044】

コンピュータ装置２００のプロセッサ２２０は、図４に係る音声記録検索方法を実行するための構成要素として、図３に示すように、音声記録管理部３１０、音声記録検索部３２０、および音声記録修正部３３０を含んでよい。実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

【0045】

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図３の音声記録検索方法が含む段階４１０～４３０を実行するようにコンピュータ装置２００を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

【0046】

ここで、プロセッサ２２０の構成要素は、コンピュータ装置２００に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、コンピュータ装置２００が音声記録を提供するように上述した命令にしたがってコンピュータ装置２００を制御するプロセッサ２２０の機能的表現として、音声記録管理部３１０が利用されてよい。

【0047】

プロセッサ２２０は、コンピュータ装置２００の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階４１０～４３０をプロセッサ２２０が実行するように制御するための命令を含んでよい。

【0048】

以下で説明する段階４１０～４３０は、図４に示した順とは異なる順で実行されることもあるし、段階４１０～４３０のうちの一部が省略されたり追加の過程が含まれたりすることもある。

【0049】

音声記録管理部３１０は、サービス提供のために音声をテキストに変換した音声記録を管理する役割を担う。音声記録管理部３１０は、クライアントから受信された音声をテキストに変換することによって音声記録を生成してよい。クライアント側のデバイスでは、録音機能を実行させて録音した音声ファイルを伝達してもよいし、デバイス上に記録された音声ファイルを伝達してもよい。音声記録管理部３１０は、周知の音声認識技術を利用して、話者による発声区間に該当する音声データをテキストに変換した結果である音声記録を生成してよい。このとき、音声記録管理部３１０は、音声記録を生成する過程において話者ごとに発声区間を分割する話者ダイアライゼーション技術を適用してよい。音声記録管理部３１０は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で録音された音声ファイルの場合には、発声内容を話者ごとに分割して自動記録してよい。

【0050】

また、音声記録管理部３１０は、クライアントが音声録音中または音声再生中に作成したメモをクライアントから受信し、該当の音声記録とマッチングして管理してよい。音声記録管理部３１０は、クライアントが音声を録音した時間を基準として、音声記録中または録音実行中に作成されたメモをマッチングしてよい。音声記録は、話者発声区間の基点を示すタイムスタンプを含んでよく、音声記録管理部３１０は、音声記録のタイムスタンプを基準として、該当の区間に作成されたメモをともに管理してよい。これと同じように、音声記録管理部３１０は、音声記録が存在する音声ファイルに対し、クライアントが音声を再生する時間を基準として、音声記録中および音声再生中に作成されたメモをマッチングして記録してよい。言い換えれば、音声記録管理部３１０は、特定の時点の発声区間に作成されたメモを該当の時点の音声記録とマッチングして管理してよい。

【0051】

図４を参照すると、段階４１０で、音声記録管理部３１０は、クライアントから特定の音声記録に対する選択命令が受信される場合、該当の音声記録を提供してよい。このとき、音声記録管理部３１０は、タイムスタンプを基準として、音声記録に含まれた話者発声区間ごとにテキストを整列して表示してよい。

【0052】

音声記録管理部３１０は、音声記録を提供するにあたり、該当の音声記録をマッチングされたメモと連係させて提供してよい。音声記録管理部３１０は、音声録音中または音声再生中に作成されたメモを音声記録とともに簡単かつ便利に確認できるように、音声記録とメモをデュアルビュー方式によって並べて表示してよい。デュアルビュー方式とは、音声記録とメモを二列に並べて表示する方式であって、これは、音声をテキストに変換した音声記録と該当の音声の録音時間や再生時間に作成されたメモを並べて表示することで対話記録を簡単に探索できるようにするインタフェースを提供するものである。音声記録管理部３１０は、音声記録とメモをデュアル表示する方式の他にも、クライアントの選択にしたがい、音声記録とメモのうちの１つを単独表示する方式で実現することも可能である。

【0053】

段階４２０で、音声記録検索部３２０は、段階４１０で提供された音声記録に対する検索機能を提供してよい。このとき、音声記録検索部３２０は、音声記録から、検索語に対応する単語と、検索語と似た発音の単語を検索してよい。言い換えれば、音声記録検索部３２０は、音声記録から特定の単語を検索しようとする場合に、発音に基づいて類似する単語をともに探索する機能を提供してよい。

【0054】

一例として、音声記録検索部３２０は、音声記録に含まれた単語のうちで検索語と一致する同義語はもちろん、検索語に対応する英文の同義語や外来語などを検索してよい。特に、音声記録検索部３２０は、検索語と似た発音で発話された単語として、単語分離基準、例えば、字素単位、語幹単位、ターム（ｔｅｒｍ）単位などに基づく単語間の比較により、検索語と一定の割合以上の類似度をもつ類義語を検索してよい。

【0055】

音声記録検索部３２０は、検索過程において、検索語との類似度を示す正確度によるフィルタリング機能を提供してよい。例えば、音声記録検索部３２０は、ユーザの要求にしたがい、検索語との類似度が９０％以上の単語を検索対象に設定して検索結果を提供してよく、検索語との類似度が９０％未満の単語は検索結果から除外してよい。

【0056】

検索範囲としては、音声記録はもちろん、該当の音声記録とマッチングされたメモを含んでよく、音声記録検索部３２０は、音声記録とメモから、検索語に対応する単語と検索語と発音が似た単語を検索してよい。

【0057】

また、音声記録検索部３２０は、検索過程において、単語の結合による検索を許容してよい。言い換えれば、複数の単語を利用した検索を支援してよい。単語単位の検索はもちろん、文章単位の検索の実現も可能である。

【0058】

音声記録検索部３２０は、音声記録に対する検索結果を提供してよく、このとき、音声記録では、検索結果に含まれた単語を他の単語と区分して表示してよい。一例として、音声記録検索部３２０は、正確度により、検索結果に含まれた単語のディスプレイ要素（例えば、ハイライト色など）を異なるように表示してよい。例えば、検索語との類似度が９０％以上である単語は青色で、検索語との類似度が９０％未満～７０％以上の単語は水色で、検索語との類似度が７０％未満～５０％以上の単語は灰色で強調表示してよい。

【0059】

段階４３０で、音声記録修正部３３０は、検索結果に含まれた少なくとも１つの単語を他の単語に修正してよい。一例として、音声記録修正部３３０は、検索結果に含まれた単語を、検索語として入力された単語、あるいはユーザが新たに入力した単語に修正してよい。このとき、音声記録修正部３３０は、ユーザの選択にしたがい、検索結果に含まれた単語全体を一括で修正してもよいし、検索結果に含まれた単語の一部を選択的に修正してもよい。

【0060】

したがって、プロセッサ２２０は、音声がテキストに変換された音声記録から検索語と似た発音で発話された単語を含んで検索する機能を提供することができ、検索された単語を他の単語に修正することができる修正機能もともに提供することができる。

【0061】

図５～１１は、本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。

【0062】

図５～１１は、クライアント上にインストールされた専用アプリケーションやコンピュータ装置２００と関連するウェブ／モバイルサイト上のインタフェース画面であって、音声記録管理画面５００の例を示している。

【0063】

図５～９は、音声記録を生成する過程を説明するための音声記録管理画面５００の例を示している。

【0064】

図５を参照すると、音声記録管理画面５００は、音声記録管理サービスのホーム画面構成であって、サービス提供のための主要メニューリストが含まれてよく、一例として、音声記録をフォルダ単位で管理するためのフォルダリスト５０１が含まれてよい。また、音声記録管理画面５００には、新たな音声記録を生成するための「新規ノート作成」メニュー５０２が含まれてよい。

【0065】

プロセッサ２２０は、音声記録管理画面５００から「新規ノート作成」メニュー５０２が選択される場合、図６に示すように、音声記録生成画面６１０を提供してよい。音声記録生成画面６１０には、音声記録のタイトルを入力するための「タイトル」入力欄６１１、参加者情報を入力するための「参加者」入力欄６１２、音声録音のための「録音開始」メニュー６１３、音声ファイルをアップロードするための「ファイルアップロード」メニュー６１４などが含まれてよい。言い換えれば、プロセッサ２２０は、音声記録を生成するために、録音機能とファイルアップロード機能を提供してよい。

【0066】

プロセッサ２２０は、音声記録生成画面６１０から「録音開始」メニュー６１３が選択される場合、図７に示すように、音声録音画面７２０を提供してよい。音声録音画面７２０は、基本的な録音インタフェースであって、録音が実行された時間情報、録音を一時停止するための一時停止ボタン、録音を終了するための終了ボタンなどが含まれてよい。

【0067】

特に、音声録音画面７２０には、録音中にメモを作成できるようにするメモインタフェース７２１と、録音中にブックマークを記録できるようにするブックマークインタフェース７２２が含まれてよい。このとき、メモインタフェース７２１には、テキストによる入力はもちろん、写真や動画撮影機能、ファイル添付機能などが含まれてよい。ユーザは、メモインタフェース７２１を利用することにより、録音中に該当の音声と関連する重要な内容や添付する内容などをメモとして作成することができ、メモの他にも、ブックマークインタフェース７２２を利用することにより、重要区間の録音時点にブックマークを記録することができる。録音実行時間を基準として録音中に入力されたメモやブックマークが記録されてよく、例えば、メモの作成が始まった時点の録音実行時間がメモ作成時間として記録されてよく、ブックマークが入力された時点の録音実行時間がブックマーク指定時間として記録されてよい。

【0068】

音声記録に対するブックマークとしては、ブックマークインタフェース７２２を利用した手動設定を説明しているが、これに限定されてはならず、自動設定機能による実現も可能である。例えば、事前に定められた主要キーワード（一例として、音声記録のタイトルやタグなど）が発声される区間にブックマークが自動で記録されるようにしてよい。

【0069】

プロセッサ２２０は、音声記録生成画面６１０から「ファイルアップロード」メニュー６１４が選択される場合、クライアントが音声ファイルを探索できるようにするためのファイル探索画面を提供し、ファイル選択画面から特定のファイルが選択されれば、図８に示すように、選択されたファイルをアップロードするファイルアップロード画面８３０を提供してよい。ファイルアップロード画面８３０には、選択されたファイルに関する情報（例えば、ファイル名、ファイルの長さなど）とともに、ファイルアップロードの進行状況を示すプログレスバー８３１が含まれてよい。

【0070】

プロセッサ２２０は、音声録音画面７２０による音声録音が完了するか、ファイルアップロード画面８３０によるファイルアップロードが完了すれば、図９に示すように、音声をテキストに変換する音声記録生成過程の進行状況９１５を音声記録生成画面６１０に表示してよい。録音の場合は、録音と同時進行で音声ファイルがリアルタイムでアップロードされるか、あるいは録音の完了にともなって録音された音声ファイル全体が一括でアップロードされてよい。

【0071】

プロセッサ２２０は、音声記録生成過程が完了した音声ファイルに対し、音声記録とメモ（および、ブックマーク）を時間的にマッチングしてともに提供してよい。

【0072】

図１０～１１は、音声記録を提供する過程を説明するための音声記録管理画面５００の例を示した図である。

【0073】

プロセッサ２２０は、音声記録管理画面５００に提供されたファイルリストから特定の音声記録が選択される場合、図１０に示すように、該当の音声記録に対するビューモードに該当する音声記録詳細画面１０００を提供してよい。

【0074】

プロセッサ２２０は、音声記録詳細画面１０００に音声記録領域１０４０とメモ領域１０５０を表示してよい。音声記録詳細画面１０００には、音声記録生成過程で入力されたタイトル１０４１と参加者情報１０４２がともに提供されてよい。

【0075】

プロセッサ２２０は、音声記録領域１０４０とメモ領域１０５０を、一画面上で区分される個別のタップページとして提供してよい。他の例としては、クライアントデバイスの画面比により、デュアルビュー方式によって音声記録領域１０４０とメモ領域１０５０をともに表示してもよい。

【0076】

音声記録領域１０４０では、発声区間ごとに、該当の区間の音声を変換したテキストが表示されてよく、このとき、音声ファイルでテキストが発声される時点を基準にタイムスタンプが表示されてよい。メモ領域１０５０には、音声ファイルの録音中に作成されたメモが表示されてよく、各メモには、メモ作成が始まった時点の録音実行時間が該当のメモのタイムスタンプとして表示されてよい。

【0077】

音声記録領域１０４０とメモ領域１０５０がデュアルビュー方式によって提供される場合は、音声記録領域１０４０とメモ領域１０５０を二列に並べて表示してよい。このとき、音声記録領域１０４０とメモ領域１０５０は、タイムスタンプを基準にマッチングさせて表示してよい。例えば、話者１が発声した００分０２秒時点に作成されたメモは、該当の発声区間のテキストと同一線上に表示されるようにしてよい。

【0078】

音声記録領域１０４０とメモ領域１０５０が個別のタップページとして提供される場合は、音声記録領域１０４０とメモ領域１０５０を、タイムスタンプを基準とした同一線上に表示するのではなく、単にそれぞれの時間順にしたがって整列することも可能である。

【0079】

音声記録詳細画面１０００には、検索のための「検索」メニュー１００１が含まれてよい。プロセッサ２２０は、音声記録詳細画面１０００から「検索」メニュー１００１が選択される場合、図１１に示すように、該当の音声記録に対する検索画面１１６０を提供してよい。

【0080】

検索画面１１６０には、検索語を入力するための検索語入力欄１１６１が含まれてよく、プロセッサ２２０は、音声記録詳細画面１０００上の音声記録から検索語に対応する単語と検索語と似た発音の単語とを検索し、この検索結果を表示してよい。

【0081】

音声をテキストに変換するときに、発音によって互いに異なる単語として認識される場合があり、このような場合には検索に困難が生じる。例えば、２人が同じ単語として「デモサイト」を発話したとしても、ある人の音声では「デモサイト」が正確に認識される反面、他の人の音声では「対面サイト」（韓国語読み：テミョンサイト）と認識されることがある。プロセッサ２２０は、検索語として「デモサイト」が入力される場合、音声記録から「デモサイト」はもちろん、これと似た発音の単語である「対面サイト」もともに検索結果として提供してよい。

【0082】

プロセッサ２２０は、検索画面１１６０で、検索語に対する検索結果に含まれた単語をハイライト表示してよい。このとき、検索結果に含まれた単語の正確度により、各単語のハイライト色を異なるように表示してよい。検索結果のうち、検索語と正確に一致する単語には第１色（例えば、青色）ハイライト１１６２を、検索語とは一致しないが類似する発音の単語には第１色とは異なる第２色（例えば、水色）ハイライト１１６３を適用して表示してよい。

【0083】

プロセッサ２２０は、検索結果に対するフィルタリング条件が設定されている場合、例えば、検索語との類似度が９０％以上の単語が検索条件として設定された場合、該当の条件を満たす単語だけを検索結果として表示してよい。

【0084】

プロセッサ２２０は、検索語に対して音声記録領域１０４０とメモ領域１０５０をともに検索してもよいし、他の例としては、ユーザの設定にしたがい、音声記録領域１０４０とメモ領域１０５０のうちの１つだけを選択的に検索してもよい。

【0085】

プロセッサ２２０は、検索語に対する検索機能の他にも、検索結果に含まれた単語を検索語に修正する機能をともに提供してよい。検索語「デモサイト」と類似する発音である「対面サイト」を探索した後、「対面サイト」を「デモサイト」に修正してよい。修正機能では、検索された単語を他の単語に修正するときに、検索結果内の単語全体を一度に修正するか、ユーザ選択にしたがって一部の単語だけを選択的に修正するインタフェースを提供してよい。

【0086】

このように、本発明の実施形態によると、音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索することにより、音声記録の単語検索の性能を高めることができる。また、本発明の実施形態によると、発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする機能、発音に基づく検索結果に含まれた単語を他の単語に修正する機能などを提供することにより、サービスの利用に対するユーザの利便性を高めることができる。

【0087】

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

【0088】

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

【0089】

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

【0090】

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

【0091】

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

【符号の説明】

【0092】

２２０：プロセッサ
３１０：音声記録管理部
３２０：音声記録検索部
３３０：音声記録修正部

【図1】