IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧 ▶ LINE株式会社の特許一覧

特許7185712人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム
<>
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図1
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図2
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図3
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図4
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図5
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図6
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図7
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図8
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図9
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図10
  • 特許-人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-29
(45)【発行日】2022-12-07
(54)【発明の名称】人工知能デバイスと連動して音声記録を管理する方法、コンピュータ装置、およびコンピュータプログラム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20221130BHJP
   G10L 15/00 20130101ALI20221130BHJP
   G10L 15/22 20060101ALI20221130BHJP
【FI】
G10L15/28 500
G10L15/00 200B
G10L15/22 460Z
【請求項の数】 20
(21)【出願番号】P 2021021395
(22)【出願日】2021-02-15
(65)【公開番号】P2022065601
(43)【公開日】2022-04-27
【審査請求日】2021-02-15
(31)【優先権主張番号】10-2020-0133224
(32)【優先日】2020-10-15
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】イ スミ
(72)【発明者】
【氏名】シン ジウン
(72)【発明者】
【氏名】チョン イェリム
(72)【発明者】
【氏名】ファン ギルファン
【審査官】大野 弘
(56)【参考文献】
【文献】特開2020-154847(JP,A)
【文献】特開2020-086412(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/00
G10L 15/28
(57)【特許請求の範囲】
【請求項1】
コンピュータ装置が実行する音声記録管理方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記音声記録管理方法は、
前記少なくとも1つのプロセッサにより、音声基盤のインタフェースを提供する人工知能デバイスとユーザアカウントで特定された音声記録管理サービスとを連動させる段階であって、音声を記録するためのユーザ要求に応じて、前記音声記録管理サービスとの連動のために発給された連動キーが、前記ユーザアカウントで特定された音声記録管理サービスに入力される、段階、
前記少なくとも1つのプロセッサにより、前記人工知能デバイスから受信された音声をテキストに変換して音声記録を生成する段階、および
前記少なくとも1つのプロセッサにより、ユザに前記音声記録を提供する段階
前記少なくとも1つのプロセッサにより、マスターアカウントの権限を有するユーザが指定した少なくとも1つの他のユーザと前記音声記録を共有する段階
を含む、音声記録管理方法。
【請求項2】
前記連動させる段階は、
前記ユーザによる現場の音声を記録する要求を踏まえた音声記録管理サービスとの連動の要求にしたがって連動キー(key)を発給する段階、および
前記ユーザアカウントで特定された音声記録管理サービスに前記連動キーが入力されることにより、前記ユーザアカウントと前記人工知能デバイスを連動させる段階
を含む、請求項1に記載の音声記録管理方法。
【請求項3】
前記生成する段階は、
前記人工知能デバイスから前記音声が録音されたファイルを受信し、話者発声区間に該当する音声データをテキストに変換する段階
を含む、請求項1に記載の音声記録管理方法。
【請求項4】
前記音声記録管理方法は、
前記少なくとも1つのプロセッサにより、前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に関する状態情報を提供する段階
をさらに含む、請求項1に記載の音声記録管理方法。
【請求項5】
前記音声記録管理方法は、
前記少なくとも1つのプロセッサにより、前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に対するメモ作成機能を提供する段階
をさらに含む、請求項1に記載の音声記録管理方法。
【請求項6】
前記人工知能デバイスに対して、前記マスターアカウントで特定された音声記録管理サービスが連動することができる、請求項1に記載の音声記録管理方法。
【請求項7】
前記音声記録管理方法は、
前記少なくとも1つのプロセッサにより、前記人工知能デバイスで前記音声の録音中に前記ユーザアカウントで作成されたメモを前記音声記録とマッチングして管理する段階
をさらに含む、請求項1に記載の音声記録管理方法。
【請求項8】
前記管理する段階は、
前記音声記録のタイムスタンプを基準として、前記音声の録音中に作成されたメモをマッチングして管理すること
を特徴とする、請求項7に記載の音声記録管理方法。
【請求項9】
前記提供する段階は、
前記音声記録と前記メモを連係させて提供すること
を特徴とする、請求項7に記載の音声記録管理方法。
【請求項10】
前記提供する段階は、
タイムスタンプを基準として、前記音声記録と前記メモを時間的にマッチングして表示すること
を特徴とする、請求項7に記載の音声記録管理方法。
【請求項11】
請求項1~10のうちのいずれか一項に記載の音声記録管理方法をコンピュータに実行させるコンピュータプログラ
【請求項12】
コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
音声基盤のインタフェースを提供する人工知能デバイスとユーザアカウントで特定された音声記録管理サービスとを連動させるデバイス連動部であって、音声を記録するためのユーザ要求に応じて、前記音声記録管理サービスとの連動のために発給された連動キーが、前記ユーザアカウントで特定された音声記録管理サービスに入力される、デバイス連動部
前記人工知能デバイスから受信された音声をテキストに変換して音声記録を生成する音声記録生成部、および
ザに前記音声記録を提供する音声記録提供部
を含み、前記少なくとも1つのプロセッサは、
マスターアカウントの権限を有するユーザが指定した少なくとも1つの他のユーザと前記音声記録を共有すること
を特徴とするコンピュータ装置。
【請求項13】
前記デバイス連動部は、
前記ユーザによる現場の音声を記録する要求を踏まえた音声記録管理サービスとの連動の要にしたがって連動キーを発給し、前記ユーザアカウントで特定された音声記録管理サービスに前記連動キー入力されることにより、前記ユーザアカウントと前記人工知能デバイスを連動させること
を特徴とする、請求項12に記載のコンピュータ装置。
【請求項14】
前記音声記録生成部は、
前記人工知能デバイスから前記音声が録音されたファイルを受信し、話者発声区間に該当する音声データをテキストに変換すること
を特徴とする、請求項12に記載のコンピュータ装置。
【請求項15】
前記少なくとも1つのプロセッサは、
前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に関する状態情報を提供すること
を特徴とする、請求項12に記載のコンピュータ装置。
【請求項16】
前記少なくとも1つのプロセッサは、
前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に対するメモ作成機能を提供すること
を特徴とする、請求項12に記載のコンピュータ装置。
【請求項17】
前記人工知能デバイスに対して、前記マスターアカウントで特定された音声記録管理サービスが連動することができる、請求項12に記載のコンピュータ装置。
【請求項18】
前記音声記録生成部は、
前記人工知能デバイスで前記音声の録音中に前記ユーザアカウントで作成されたメモを前記音声記録とマッチングして管理すること
を特徴とする、請求項12に記載のコンピュータ装置。
【請求項19】
前記音声記録生成部は、
前記音声記録のタイムスタンプを基準として、前記音声の録音中に作成されたメモをマッチングして管理すること
を特徴とする、請求項18に記載のコンピュータ装置。
【請求項20】
前記音声記録提供部は、
タイムスタンプを基準として、前記音声記録と前記メモを時間的にマッチングして表示すること
を特徴とする、請求項18に記載のコンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、音声をテキストに変換した音声記録を管理する技術に関する。
【背景技術】
【0002】
モバイル音声変換技術の流れとしては、モバイルデバイスで音声を録音し、音声録音が終わると、録音された区間の音声をテキストに変換してディスプレイ上に表示するのが一般的である。
【0003】
このような音声変換技術の一例として、特許文献1(公開日2014年5月23日)には、音声録音およびテキスト変換を実行する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】韓国公開特許第10-2014-0062217号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声基盤のインタフェースを提供する人工知能デバイスと連動して音声記録を自動管理する方法とシステムを提供する。
【0006】
共用デバイスとして使用可能な人工知能デバイスを音声記録管理サービスと連動する方法とシステムを提供する。
【課題を解決するための手段】
【0007】
コンピュータ装置が実行する音声記録管理方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、音声基盤のインタフェースを提供する人工知能デバイスとユーザアカウントを連動する段階、前記少なくとも1つのプロセッサにより、前記人工知能デバイスから受信された音声をテキストに変換して音声記録を生成する段階、および前記少なくとも1つのプロセッサにより、前記ユーザアカウントに前記音声記録を提供する段階を含む、音声記録管理方法を提供する。
【0008】
一側面によると、前記連動する段階は、前記人工知能デバイスの要求にしたがって連動キー(key)を発給(または発行)する段階、および前記ユーザアカウントで前記連動キーが入力されることによって前記ユーザアカウントと前記人工知能デバイスを連動する段階を含んでよい。
【0009】
他の側面によると、前記生成する段階は、前記人工知能デバイスから前記音声が録音されたファイルを受信し、話者発声区間に該当する音声データをテキストに変換する段階を含んでよい。
【0010】
また他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に関する状態情報を提供する段階をさらに含んでよい。
【0011】
また他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記ユーザアカウントに、前記人工知能デバイスで録音中の前記音声に対するメモ作成機能を提供する段階をさらに含んでよい。
【0012】
また他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記ユーザアカウントが指定した少なくとも1つの他のユーザと前記音声記録を共有する段階をさらに含んでよい。
【0013】
また他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記人工知能デバイスで前記音声の録音中に前記ユーザアカウントによって作成されたメモを前記音声記録とマッチングして管理する段階をさらに含んでよい。
【0014】
また他の側面によると、前記管理する段階は、前記音声記録のタイムスタンプを基準として、前記音声の録音中に作成されたメモをマッチングして管理してよい。
【0015】
また他の側面によると、前記提供する段階は、前記音声記録と前記メモを連係させて提供してよい。
【0016】
さらに他の側面によると、前記提供する段階は、タイムスタンプを基準として、前記音声記録と前記メモを時間的にマッチングして表示してよい。
【0017】
前記音声記録管理方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
【0018】
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、音声基盤のインタフェースを提供する人工知能デバイスとユーザアカウントを連動するデバイス連動部、前記人工知能デバイスから受信された音声をテキストに変換して音声記録を生成する音声記録生成部、および前記ユーザアカウントによって前記音声記録を提供する音声記録提供部を含む、コンピュータ装置を提供する。
【発明の効果】
【0019】
本発明の実施形態によると、共用デバイスとして使用可能な人工知能デバイスを音声記録管理サービスと連動し、音声認識技術によって現場の音声をテキストで自動記録することにより、サービスの利用を拡大し、ユーザの利便性を向上させることができる。
【図面の簡単な説明】
【0020】
図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。
図2】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。
図3】本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。
図4】本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。
図5】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図6】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図7】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図8】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図9】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図10】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図11】本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0022】
本発明の実施形態に係る音声記録管理システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る音声記録管理方法は、音声記録管理システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る音声記録管理方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置に結合されて音声記録管理方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
【0023】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境の一例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
【0024】
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
【0025】
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0026】
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、音声記録管理サービス(または、議事録管理サービス)、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
【0027】
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
【0028】
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
【0029】
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0030】
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0031】
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
【0032】
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
【0033】
以下では、人工知能デバイスと連動して音声記録を管理する方法およびシステムの具体的な実施形態について説明する。
【0034】
最近は、会議、インタビュー、取引、裁判などのような多様な環境で現場の音声を録音し、該当の音声をテキストとして自動記録するソリューションが提供されている。
【0035】
しかし、録音音声を管理するためには、モバイルデバイスやPCのような個人用デバイスを利用することから、共用記録管理するのに困難があった。
【0036】
このような問題を解決するために、本実施形態は、共用デバイスとして使用可能な人工知能デバイスと連動し、現場の音声をテキストに変換した結果(以下、「音声記録」と称する)を自動管理する、音声記録管理サービスを提供することを目的とする。
【0037】
本明細書において、人工知能デバイスとは、人工知能スピーカのように共用デバイスとして使用可能であり、かつ音声に基づいて動作するインタフェースを提供する電子機器に該当するものである。このような人工知能デバイスは、図2に示したコンピュータ装置200によって実現されてよい。
【0038】
図3は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。
【0039】
本実施形態に係るコンピュータ装置200は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置200と関連するウェブ/モバイルサイトへの接続により、音声記録管理サービスを提供してよい。コンピュータ装置200には、コンピュータによって実現された音声記録管理システムが構成されてよい。一例として、音声記録管理システムは、独立的に動作するプログラム形態で実現されてもよいし、特定のアプリケーション(例えば、メッセンジャー)のイン-アプリ(in-app)形態で構成され、前記特定のアプリケーション上で動作可能なように実現されてもよい。
【0040】
コンピュータ装置200のプロセッサ220は、図4に係る音声記録管理方法を実行するための構成要素として、図3に示すように、デバイス連動部310、音声記録生成部320、および音声記録提供部330を含んでよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
【0041】
このようなプロセッサ220およびプロセッサ220の構成要素は、図3の音声記録管理方法が含む段階410~430を実行するようにコンピュータ装置200を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
【0042】
ここで、プロセッサ220の構成要素は、コンピュータ装置200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、コンピュータ装置200が人工知能デバイスとの連動を制御するように上述した命令にしたがってコンピュータ装置200を制御するプロセッサ220の機能的表現として、デバイス連動部310が利用されてよい。
【0043】
プロセッサ220は、コンピュータ装置200の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階410~430をプロセッサ220が実行するように制御するための命令を含んでよい。
【0044】
以下で説明する段階410~430は、図4に示した順とは異なる順で実行されることもあるし、段階410~430のうちの一部が省略されたり追加の過程が含まれたりすることもある。
【0045】
図4を参照すると、段階410で、デバイス連動部310は、音声記録管理サービスのために、音声基盤のインタフェースを提供する人工知能デバイスと連動してよい。一例として、デバイス連動部310は、音声記録管理サービスとの連動のために発給されるキー(key)を利用して、人工知能デバイスと音声記録管理サービスのユーザアカウントとを連動してよい。人工知能デバイスは、現場の音声を記録するための音声命令語または指定ボタンをユーザが入力する場合、音声記録管理サービスとの連動を要求してよい。デバイス連動部310は、人工知能デバイスの要求にしたがって臨時キーを発給した後、該当のキーが音声記録管理サービスで入力される場合、キー発給を要求した人工知能デバイスと連動してよい。言い換えれば、デバイス連動部310は、人工知能デバイスの要求にしたがって発給されたキーを利用して、音声記録管理サービスで入力したユーザアカウントと該当のデバイスとを連動してよい。デバイス連動部310は、一度の連動において1台の人工知能デバイスに対して1つのユーザアカウントを連動してよく、人工知能デバイスと連動するユーザアカウントをマスターアカウントに指定してよい。
【0046】
段階420で、音声記録生成部320は、音声記録管理サービスと連動する人工知能デバイスから現場の音声を受信し、受信された音声をテキストに変換することによって音声記録を生成してよい。人工知能デバイスは、音声記録管理サービスとの連動が始まると録音モードに切り換わり、人工知能デバイスが位置する現場で入力される音声を録音してよい。人工知能デバイスは、デバイス上のディスプレイに録音時間を表示してよく、一時停止、再開、終了のように録音と関連するコントローラ機能を提供してよい。音声記録生成部320は、人工知能デバイスから現場の音声として録音された音声ファイルを受信してよい。音声記録生成部320は、連動中に一定の時間単位(例えば、5分)で録音ファイルを受信してもよいし、連動が解除された後に録音ファイル全体を一括受信してもよい。音声記録生成部320は、周知の音声認識技術を利用して、人工知能デバイスから受信された録音ファイルのうちで話者による発声区間に該当する音声データをテキストに変換した結果である音声記録を生成してよい。このとき、音声記録生成部320は、音声記録を生成する過程において話者ごとに発声区間を分割する話者分割技術を適用してよい。音声記録生成部320は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で録音された音声ファイルの場合には、発声内容を話者ごとに分割して自動記録してよい。
【0047】
音声記録生成部320は、人工知能デバイスとの連動が始まれば、人工知能デバイスと連動するマスターアカウントのサービス画面において、録音中の音声ファイルに対し、該当の音声ファイルの状態情報を提供してよい。また、音声記録生成部320は、人工知能デバイスにおいて、録音中の音声ファイルに対し、人工知能デバイスと連動するマスターアカウントにメモ作成機能を提供してよい。言い換えれば、マスターアカウントによって現場の音声の録音中の状態の確認が可能となり、マスターアカウントによって録音中の音声ファイルに対するメモ作成がリアルタイムで可能となる。
【0048】
音声記録生成部320は、人工知能デバイスで現場の音声を録音する過程においてマスターアカウントで作成されたメモを受信し、音声記録とマッチングして管理してよい。音声記録生成部320は、録音が実行される時間を基準として、音声記録中および録音実行中に作成されたメモをマッチングしてよい。音声記録は、話者発声区間の基点を示すタイムスタンプを含んでよく、音声記録生成部320は、音声記録のタイムスタンプを基準として、該当の区間に作成されたメモをともに管理してよい。言い換えれば、音声記録生成部320は、特定の時点の発声区間に作成されたメモを該当の時点の音声記録とマッチングして管理してよい。
【0049】
段階430で、音声記録提供部330は、段階420で生成された音声記録を人工知能デバイスと連動するマスターアカウントに提供してよい。人工知能デバイスは、事前に定められた音声命令語または指定ボタンが入力される場合、音声記録管理サービスとの連動を解除してよい。音声記録提供部330は、人工知能デバイスとの連動が解除された後、マスターアカウントのサービス画面に、音声記録と該当の音声記録とマッチングされたメモとを連係させて提供してよい。音声記録提供部330は、音声録音中に作成されたメモを音声記録とともに簡単かつ便利に確認できるように、音声記録とメモをデュアルビュー方式によって並べて表示してよい。デュアルビュー方式とは、音声記録とメモを二列に並べて表示する方式であって、これは、音声をテキストに変換した音声記録と該当の音声の録音中に作成されたメモとを並べて表示することで対話記録を簡単に探索できるようにするインタフェースを提供するものである。音声記録提供部330は、音声記録とメモをデュアル表示する方式の他にも、ユーザ選択にしたがい、音声記録とメモのうちの1つを単独表示する方式で実現されることも可能である。
【0050】
音声記録提供部330は、マスターアカウントが追加した他のユーザと音声記録を共有してよい。マスターは、友達追加方式などによって音声記録管理サービスでマスターと関係が設定された他のユーザを指定し、指定されたユーザと現場の音声に対する音声記録を共有してよい。マスターによって指定された他のユーザのアカウントにより、マスターが共有した音声記録の確認が可能となる。音声記録共有方式の他の例として、音声記録に対するURLを共有する方式も実現可能である。例えば、音声記録提供部330は、メッセンジャーと連動し、音声記録管理サービスと関連するチャットボットアカウントを経て、マスターが指定した他のユーザとのチャットルームに音声記録を確認するためのURLを提供してよい。
【0051】
図5~11は、本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
【0052】
人工知能デバイス500は、共用デバイスとして使用可能なデバイスであって、音声基盤のインタフェースはもちろん、マイク、スピーカ、ディスプレイのような入力/出力装置とのインタフェースを提供してよい。
【0053】
以下では、会議の状況を仮定しながら音声記録を管理する過程について説明する。
【0054】
図5を参照すると、人工知能デバイス500は、事前に定められたキーワードが含まれた音声命令語501を、会議音声を記録するためのユーザ要求として認識してよい。ユーザからの発話による音声命令語501の他にも、人工知能デバイス500上の指定ボタンを利用して会議音声を記録するためのユーザ要求を入力することも可能である。
【0055】
人工知能デバイス500は、会議音声を記録するためのユーザ要求を認識する場合、音声記録管理サービスとの連動を要求してよく、これにより、プロセッサ220は、人工知能デバイス500の要求にしたがって連動キーを発給してよい。
【0056】
人工知能デバイス500は、連動要求に対する応答として発給されたキーを受信し、ディスプレイ上に表示してよい。
【0057】
会議現場にいるユーザは、モバイルデバイスやPCのような個人用デバイスにインストールされた音声記録管理専用アプリであるノートアプリ(または、音声記録管理サービスのウェブ/モバイルサイト)にログインし、人工知能デバイス500に表示されたキーを入力してよい。
【0058】
図6を参照すると、ユーザが、ノートアプリインタフェース画面600で人工知能デバイス500との連動を始めるためのメニューを選択する場合、キー入力画面610が提供されてよい。このとき、ユーザは、人工知能デバイス500に表示されたキーをキー入力画面610に入力してよい。
【0059】
プロセッサ220は、人工知能デバイス500の要求にしたがって発給されたキーがノートアプリに入力される場合、該当のキーを入力したユーザアカウントと人工知能デバイス500を連動してよい。プロセッサ220は、人工知能デバイス500と連動するユーザアカウントを、該当の会議音声と関連するマスターに指定してよい。
【0060】
図7を参照すると、人工知能デバイス500は、音声記録管理サービスとの連動が始まれば録音モードに切り換わり、人工知能デバイス500が位置する現場で入力される会議音声を録音してよい。人工知能デバイス500は、録音モードが維持される場合、ディスプレイに録音時間を表示してよい。
【0061】
プロセッサ220は、人工知能デバイス500との連動が始まれば、人工知能デバイス500での音声記録と関連する状態情報をマスターアカウントに表示してよい。
【0062】
図8を参照すると、プロセッサ220は、マスターアカウントのノートアプリインタフェース画面600上に、人工知能デバイス500で録音中の音声ファイルが含まれたファイルリスト810を提供してよい。ファイルリスト810には、人工知能デバイス500で録音中の音声ファイルはもちろん、テキスト変換が完了した音声記録などのように、マスターアカウントによってアクセス可能な音声ファイルが含まれてよい。プロセッサ220は、ノートアプリインタフェース画面600のファイルリスト810上に、人工知能デバイス500で録音中の音声ファイルに関する状態情報801、すなわち、人工知能デバイス500での状態値を表示してよい。
【0063】
プロセッサ220は、ファイルリスト810に含まれた音声ファイルを状態によって区分して表示してよく、一例として、リアルタイムでメモ作成が可能な状態の音声ファイルとその他の音声ファイルとに区分してよい。メモ作成が可能な状態の音声ファイルには、人工知能デバイス500で録音実行中の音声ファイルが含まれてよい。図8に示すように、プロセッサ220は、ノートアプリインタフェース画面600のファイルリスト810に含まれた音声ファイルのうち、人工知能デバイス500で録音実行中の音声ファイルに対してメモを作成するための「メモ」メニュー802を提供してよい。
【0064】
プロセッサ220は、ノートアプリインタフェース画面600のファイルリスト810から人工知能デバイス500で録音中の音声ファイルに対する「メモ」メニュー802が選択される場合、図9示すように、メモ作成画面920を提供してよい。メモ作成画面920には、人工知能デバイス500で録音進行中の音声ファイルの状態(録音中)や録音時間などが表示されてよい。また、メモ作成画面920には、メモ作成のためのインタフェース921として、テキストによる入力はもちろん、写真や動画撮影機能、ファイル添付機能などが含まれてよい。また、メモ作成画面920には、人工知能デバイス500で録音進行中の音声ファイルにブックマークを記録できるようにするブックマークインタフェース922などがさらに含まれてもよい。メモ作成画面920でメモが作成される場合、メモそれぞれに対し、人工知能デバイス500で録音進行中の音声ファイルの録音時間に基づくタイムスタンプがともに表示されてよい。
【0065】
メモ作成画面920に進むための「メモ」メニュー802が提供されることを説明しているが、実施形態はこれに限定されない。実施形態によっては、「メモ」メニュー802が個別のメニューとして提供されるのではなく、ファイルリスト810から特定の音声ファイル、例えば、人工知能デバイス500で録音進行中の音声ファイルが選択されることによって切り換わった詳細画面にメモ作成画面920が含まれるようにしてもよい。
【0066】
人工知能デバイス500で録音進行中の音声ファイルに対してメモ作成画面920で作成されたメモは、該当の音声ファイルと連係され、モバイルアプリはもちろん、PCウェブでも確認可能となる。
【0067】
図10を参照すると、人工知能デバイス500は、事前に定められたキーワードが含まれた音声命令語1001を、会議音声記録を終えるためのユーザ要求として認識してよい。ユーザからの発話による音声命令語1001の他にも、人工知能デバイス500上の指定ボタンを利用して会議音声記録を終えるためのユーザ要求を入力することも可能である。
【0068】
人工知能デバイス500は、会議音声記録を終えるためのユーザ要求を認識する場合、音声記録管理サービスとの連動解除を要求してよい。これにより、プロセッサ220は、人工知能デバイス500の要求にしたがい、人工知能デバイス500とマスターアカウントとの連動を解除してよい。
【0069】
人工知能デバイス500は、音声記録管理サービスとの連動が解除されれば、会議音声に対する全体録音時間をディスプレイ上に表示してよい。
【0070】
プロセッサ220は、人工知能デバイス500との連動が解除されれば、人工知能デバイス500で録音された音声をテキストに変換した音声記録を、マスターアカウントのノートアプリインタフェース画面600に提供してよい。プロセッサ220は、特定の音声記録に対する選択命令が受信される場合、該当の音声記録と音声記録とマッチングされたメモとを連係させて提供してよい。
【0071】
例えば、プロセッサ220は、ノートアプリインタフェース画面600で提供される音声ファイルリスト810から特定の音声記録が選択される場合、図11に示すように、該当の音声記録に対するビューモードに該当する音声記録詳細画面1100を提供してよい。
【0072】
プロセッサ220は、音声記録詳細画面1100に、音声記録領域1140とメモ領域1150を表示してよい。プロセッサ220は、音声記録領域1140とメモ領域1150を、一画面上で区分される個別のタブページとして提供してよい。他の例としては、モバイルデバイスの画面比により、デュアルビュー方式によって音声記録領域1140とメモ領域1150をともに表示してもよい。
【0073】
音声記録領域1140では、発声区間ごとに、該当の区間の音声を変換したテキストが表示されてよく、このとき、音声ファイルでテキストが発声される時点を基準にタイムスタンプが表示されてよい。メモ領域1150には、音声ファイルの録音中に作成されたメモが表示されてよく、各メモには、メモ作成が始まった時点の録音実行時間が該当のメモのタイムスタンプとして表示されてよい。
【0074】
音声記録領域1140とメモ領域1150がデュアルビュー方式によって提供される場合は、音声記録領域1140とメモ領域1150を二列に並べて表示してよい。このとき、音声記録領域1140とメモ領域1150は、タイムスタンプを基準に時間的にマッチングさせて表示してよい。例えば、話者1が発声した00分02秒時点に作成されたメモは、該当の発声区間のテキストと同一線上に表示されるようにしてよい。
【0075】
音声記録領域1140とメモ領域1150が個別のタブページとして提供される場合は、音声記録領域1140とメモ領域1150を、タイムスタンプを基準とした同一線上に表示するのではなく、単にそれぞれ時間順にしたがって整列することも可能である。
【0076】
音声記録詳細画面1100には、該当の音声記録に対してマスターが設定したファイル名などが表示されてよく、さらに、該当の音声記録を共有したい対象を追加するための「参加者追加」メニュー1141が含まれてよい。
【0077】
プロセッサ220は、マスターが音声記録詳細画面1100で「参加者追加」メニュー1141を選択する場合、友達リストのようにマスターと関連するユーザリストを提供してよく、ユーザリストから選択された他のユーザのアカウントやメッセンジャーチャットルームで該当の音声記録を共有してよい。音声記録を共有する方式としては、音声記録管理サービスのアカウントを用いて共有してもよいし、メッセンジャーとの連動によって音声記録に対するURLを共有してもよい。
【0078】
このように、本発明の実施形態によると、共用デバイスとして使用可能な人工知能デバイスと音声記録管理サービスを連動し、音声認識技術によって現場の音声をテキストで自動記録することにより、サービスの利用を拡大し、ユーザの利便性を向上させることができる。
【0079】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0080】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0081】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0082】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0083】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0084】
220:プロセッサ
310:デバイス連動部
320:音声記録生成部
330:音声記録提供部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11