(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022127369
(43)【公開日】2022-08-31
(54)【発明の名称】声優検索システム、サーバー、声優検索プログラム、及び声優検索方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20220824BHJP
G10L 15/00 20130101ALI20220824BHJP
G10L 15/30 20130101ALI20220824BHJP
G10L 17/00 20130101ALI20220824BHJP
G06F 16/332 20190101ALI20220824BHJP
【FI】
G10L15/10 500Z
G10L15/00 200T
G10L15/30
G10L17/00 200C
G06F16/332
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021025476
(22)【出願日】2021-02-19
(71)【出願人】
【識別番号】597061941
【氏名又は名称】ディップ株式会社
(74)【代理人】
【識別番号】100097113
【弁理士】
【氏名又は名称】堀 城之
(74)【代理人】
【識別番号】100162363
【弁理士】
【氏名又は名称】前島 幸彦
(74)【代理人】
【識別番号】100194283
【弁理士】
【氏名又は名称】村上 大勇
(72)【発明者】
【氏名】冨田 英揮
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175GA04
(57)【要約】
【課題】声優のコンテンツを活用可能な声優検索システムを提供する。
【解決手段】
声優検索システムXは、ユーザーの端末2と、当該端末に接続されるサーバー1とを備える。音声取得部200は、声優の音声が含まれる音声データ300を取得する。音声送信部210は、音声取得部200により取得された音声データ300をサーバーへ送信する。音声受信部100は、端末2から音声データ300を受信する。音声変換部110は、音声受信部100により受信された音声データ300をテキストデータ310に変換する。声優検索部120は、音声変換部110により変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する。コンテンツ提示部130は、声優検索部120により特定された声優に関するコンテンツを端末へ提示する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ユーザーの端末と、該端末に接続されるサーバーとを備える声優検索システムであって、
前記端末は、
声優の音声が含まれる音声データを取得する音声取得部と、
前記音声取得部により取得された前記音声データを前記サーバーへ送信する音声送信部とを備え、
前記サーバーは、
前記端末から前記音声データを受信する音声受信部と、
前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、
前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、
前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部とを備える
ことを特徴とする声優検索システム。
【請求項2】
前記サーバーは、
ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部を更に備え、
前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定する
ことを特徴とする請求項1に記載の声優検索システム。
【請求項3】
前記音声変換部は、音声データの音声特徴量を取得し、該音声特徴量も前記テキストデータに含める
ことを特徴とする請求項2に記載の声優検索システム。
【請求項4】
前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量も算出し、
前記声優検索部は、前記台詞取得部により算出された前記台詞特徴量に基づいて、前記声優を特定する
ことを特徴とする請求項2又は3に記載の声優検索システム。
【請求項5】
声優検索システムのサーバーであって、
ユーザーの端末から声優の音声が含まれる音声データを受信する音声受信部と、
前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、
前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、
前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部とを備える
ことを特徴とするサーバー。
【請求項6】
声優検索システムのサーバーにより実行される声優検索プログラムであって、
前記サーバーに、
ユーザーの端末から声優の音声が含まれる音声データを受信させ、
受信された前記音声データをテキストデータに変換させ、
変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定させ、
特定された前記声優に関するコンテンツを前記端末へ提示させる
ことを特徴とする声優検索プログラム。
【請求項7】
声優検索システムのサーバーにより実行される声優検索方法であって、
前記サーバーは、
ユーザーの端末から声優の音声が含まれる音声データを受信し、
受信した前記音声データをテキストデータに変換し、
変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定し、
特定された前記声優に関するコンテンツを前記端末へ提示する
ことを特徴とする声優検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特にマルチメディアコンテンツの音声データに基づいて声優を検索する声優検索システム、サーバー、声優検索プログラム、及び声優検索方法に関する。
【背景技術】
【0002】
従来から、オーディオ又はビデオ等の種々のマルチメディアコンテンツの識別システムが存在する。このような従来のシステムとして、特許文献1を参照すると、クライアント装置に格納されたコンテンツパターンに基づいてデータストリームのコンテンツのコンテンツ識別を連続して実行し、データストリームのコンテンツの同一性を判定するためにサーバーをクエリーするようにしている。この際、クライアント装置は、メディアストリーム(ラジオ等)を取り込み、そのメディアストリームを識別するために、一致を見つけるためのメディア記録(メディアトラックとしても知られている。)のデータベースの検索を行うようサーバーに要求することができる。
特許文献1の技術は、音声のストリームデータから、楽曲そのものを識別していた。具体的には、ストリームの「フィンガープリント」、「サブフィンガープリント」、「ウォーターマーク」を検索して、曲名そのものを検索していた。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載のシステムでは、そのコンテンツ内に含まれる登場人物を誰が演じているか、すなわち声優は誰であるかを検索することはできなかった。
【0005】
本発明は、このような状況に鑑みてなされたものであって、上述の問題点を解消する声優検索システムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の声優検索システムは、ユーザーの端末と、該端末に接続されるサーバーとを備える声優検索システムであって、前記端末は、声優の音声が含まれる音声データを取得する音声取得部と、前記音声取得部により取得された前記音声データを前記サーバーへ送信する音声送信部とを備え、前記サーバーは、前記端末から前記音声データを受信する音声受信部と、前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部とを備えることを特徴とする。
本発明の声優検索システムは、前記サーバーは、ネットワーク上から前記声優の台詞を取得してデータベースとして格納する台詞取得部を更に備え、前記声優検索部は、前記データベースに格納された前記声優の台詞に基づいて、前記声優を特定することを特徴とする。
本発明の声優検索システムは、前記音声変換部は、音声データの音声特徴量を取得し、該音声特徴量も前記テキストデータに含めることを特徴とする。
本発明の声優検索システムは、前記台詞取得部は、前記データベースから前記声優の台詞に含まれる台詞特徴量も算出し、前記声優検索部は、前記台詞取得部により算出された前記台詞特徴量に基づいて、前記声優を特定することを特徴とする。
本発明のサーバーは、声優検索システムのサーバーであって、ユーザーの端末から声優の音声が含まれる音声データを受信する音声受信部と、前記音声受信部により受信された前記音声データをテキストデータに変換する音声変換部と、前記音声変換部により変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定する声優検索部と、前記声優検索部により特定された前記声優に関するコンテンツを前記端末へ提示するコンテンツ提示部とを備えることを特徴とする。
本発明の声優検索プログラムは、声優検索システムのサーバーにより実行される声優検索プログラムであって、前記サーバーに、ユーザーの端末から声優の音声が含まれる音声データを受信させ、受信された前記音声データをテキストデータに変換させ、変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定させ、特定された前記声優に関するコンテンツを前記端末へ提示させることを特徴とする。
本発明の声優検索方法は、声優検索システムのサーバーにより実行される声優検索方法であって、前記サーバーは、ユーザーの端末から声優の音声が含まれる音声データを受信し、受信した前記音声データをテキストデータに変換し、変換された前記テキストデータに基づいて、前記声優の台詞を検索して前記声優を特定し、特定された前記声優に関するコンテンツを前記端末へ提示することを特徴とする。
【発明の効果】
【0007】
本発明によれば、端末から受信した音声データをテキストデータに変換し、このテキストデータに基づいて、声優の台詞を検索して前記声優を特定し、特定された声優に関するコンテンツを端末へ提示することで、声優を検索することが可能な声優検索システムを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施の形態に係る声優検索システムのシステム構成図である。
【
図2】
図1に示すサーバーの制御構成を示すブロック図である。
【
図3】本発明の実施の形態に係る声優検索システムの機能構成を示すブロック図である。
【
図4】
図1に示す声優関連DBの詳細構成を示すブロック図である。
【
図5】本発明の実施の形態に係る声優検索処理のフローチャートである。
【
図7】本発明の実施の形態に係る台詞取得処理のフローチャートである。
【発明を実施するための形態】
【0009】
<実施の形態>
〔声優検索システムXのシステム構成〕
まず、
図1を参照して、本発明の実施の形態に係る声優検索システムXのシステム構成について説明する。
声優検索システムXは、サーバー1と、ユーザーの端末2とが、インターネットやイントラネット等のネットワーク5に接続されて構成される。
【0010】
サーバー1は、PC(Personal Computer)サーバーや汎用機等である。サーバー1は、各端末2からのクエリーとなるアニメ(Animation)や映画等のマルチメディアコンテンツ(以下、単に「コンテンツ」という。)の音声データ300(
図3)を受信して、この音声データ300から声優を検索し、関連するコンテンツを提示する。サーバー1は、いわゆる「クラウド」上のサーバーであってもよい。なお、サーバー1は、イントラネット内のサーバーであってもよい。
【0011】
端末2は、声優を検索したいユーザーが用いる携帯電話、スマートフォン、タブレット端末、携帯用PC、据え置き型PC、ゲーム機器、家電製品等のコンピューターである。
【0012】
次に、
図2を参照して、サーバー1の制御構成について説明する。
サーバー1は、制御部10、記憶部11、及びネットワーク送受信部15等を含む。各部は、制御部10に接続され、制御部10によって動作制御される。
【0013】
制御部10は、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit、特定用途向けプロセッサー)等の情報処理部である。
制御部10は、記憶部11のROMやHDDに記憶されている制御プログラムを読み出して、この制御プログラムをRAMに展開させて実行することで、後述する機能ブロックの各部として動作させられる。また、制御部10は、図示しない外部の管理端末やコンソールから入力された所定の指示情報に応じて、装置全体の設定や制御を行うことも可能である。
【0014】
ネットワーク送受信部15は、外部のネットワーク5に接続するためのLANボードや無線送受信機等を含むネットワーク接続部である。本実施形態のネットワーク5には、例えば、LAN、無線LAN、WAN、携帯電話網、音声電話網等で接続される。
ネットワーク送受信部15は、データ通信用の回線ではデータを送受信し、音声電話回線では音声信号を送受信することが可能であってもよい。
【0015】
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリーやHDD(Hard Disk Drive)等の一時的でない記録媒体である。
記憶部11のROMやHDDには声優検索システムXの動作制御を行うための制御プログラム、各種データベース、コンテンツのデータ等が格納されている。この制御プログラムは、ファームウェア(Firmware)、OS(Operating System)、OS上で動作するサービス(Service)やデーモン(Daemon)、デバイスドライバーやミドルウェア、サーバーソフトウェア、アプリケーションソフトウェア(Application Software、以下、単に「アプリ」という。)等を含む。このサービス(デーモン)は、WWW(World Wide Web)サーバー、CGI(Common Gateway Interface)、ASP、サーバーサイドプログラム等を含んでいてもよい。これに加えて、記憶部11は、ユーザーのアカウント設定も記憶していてもよい。
【0016】
なお、声優検索システムXにおいて、制御部10は、GPU内蔵CPU、チップ・オン・モジュールパッケージ、SOC(System On a Chip)等のように、一体的に形成されていてもよい。また、制御部10は、RAMやROMやフラッシュメモリー等を内蔵していてもよい。
【0017】
また、端末2は、マイクロフォン及びA/D(Analog to digital)コンバーター等を含む音声入力部、音声入力部で入力された音声をネットワーク5へ送信するためのネットワーク接続部、全体を制御するCPU等の制御部、及び制御プログラムを格納する記憶部を備えている。
【0018】
〔声優検索システムXの機能構成〕
ここで、
図3及び
図4を参照し、声優検索システムXの機能構成について説明する。
サーバー1の制御部10は、音声受信部100、音声変換部110、声優検索部120、コンテンツ提示部130、及び台詞取得部140を備えている。
記憶部11は、音声データ300、テキストデータ310、及び声優関連DB320を格納する。
端末2は、音声取得部200及び音声送信部210を備えている。
【0019】
音声受信部100は、端末2から音声データ300を受信する。音声受信部100は、ネットワーク送受信部15を介して、端末2により送信された音声データ300を取得し、記憶部に格納する。この際、音声受信部100は、音声データ300が符号化されていた場合、復号してもよい。
【0020】
音声変換部110は、音声受信部100により受信された音声データ300をテキストデータ310に変換する。音声変換部110は、取得された音声データ300にFFT(Fast Fourier Transform)等により周波数分析、各種フィルタリング等を行ってヒトの音声のデータを抽出する。この上で、音声変換部110は、畳み込みNN(Neural Network)等の各種AI(Artificial Intelligence)、隠れマルコフモデル、その他の各種音声認識手法を用いて、音声認識を行う。
【0021】
この音声認識の際、音声変換部110は、音声データ300の音声特徴量を取得し、当該音声特徴量もテキストデータ310に含めることが可能である。この音声特徴量は、例えば、声紋認識に用いられる各種の特徴、発声上の特徴、声質、台詞の抑揚、方言や訛りによる発音の特徴等も含む。このうち、声質としては、例えば、声優の性別、推定年齢、抑揚が大きくテンションが高いハキハキした『元気系』音声か、抑揚が少ない『癒やし系』音声か、といった特徴を検出可能であってもよい。この際、音声変換部110は、音声データ300の音声特徴量についても、テキストデータ310に含めることが可能であってもよい。
【0022】
声優検索部120は、音声変換部110により変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する。具体的には、声優検索部120は、声優関連DB320に格納された声優の台詞に基づいて、声優を特定することが可能である。この際、声優検索部120は、音声特徴量も用いて、声優の特定を行うことも可能であってもよい。さらに、声優検索部120は、下記で説明する台詞取得部140により算出された台詞特徴量に基づいて、声優を特定することも可能であってもよい。
【0023】
コンテンツ提示部130は、声優検索部120により特定された声優に関するコンテンツを端末2へ提示する。コンテンツ提示部130は、例えば、声優関連DB320を参照し、声優についての検索結果として特定された声優の情報、この声優に関連した、ユーザーが有効的に活用可能な情報を端末2に提示可能である。
【0024】
台詞取得部140は、ネットワーク5から声優の台詞を取得して声優関連DB320に格納する。台詞取得部140は、例えば、専用のウェブサイトにて、ユーザーに入力された印象的な声優の台詞を声優関連DB320の台詞データ400(
図4)に格納する。または、台詞取得部140は、声優のウェブサイトに掲載された台詞を、ネットワーク5を介して、自動的、周期的に取得し、声優関連DB320に格納してもよい。台詞取得部140は、例えば、HTTPプロトコルでwget等でWWWサイトからHTML(Hyper Text Markup Language)やコンテンツを含むデータを取得する、いわゆるクロウラー(Crawler)等のプログラムを用いて、この自動的、周期的な取得を実行してもよい。さらに、台詞取得部140は、取得されたコンテンツの音声データから音声認識を行って、台詞データ400に格納してもよい。
この上で、台詞取得部140は、声優関連DB320に格納された声優の台詞に含まれる台詞特徴量を算出してもよい。この場合、台詞取得部140は、例えば、自然言語処理AIにより台詞の特徴を算出し、声優毎の特徴を算出可能であってもよい。
【0025】
音声取得部200は、声優の音声が含まれる音声データ300を取得する。本実施形態においては、ユーザーがコンテンツを閲覧中に、端末2のウェブブラウザーや専用アプリ等により指示を行う。すると、音声入力部から音声による信号が音声データ300として入力され、これを音声取得部200が取得する。
【0026】
音声送信部210は、音声取得部200により取得された音声データ300をサーバー1へ送信する。音声送信部210は、ネットワーク接続部を介して、ネットワーク5経由で音声データ300をサーバー1へ送信する。この際、音声送信部210は、音声データ300を各種コーデックで符号化して送信することが可能である。音声送信部210は、この符号化の際に、音声データ300を暗号化してもよい。
【0027】
音声データ300は、端末2から取得した音声のデータである。この音声データ300は、取得時には、各種コーデックで符号化されていても、暗号化されていてもよい。さらに、音声データ300は、音声認識に必要なヒトの音声の周波数帯の信号のみを含んでいてもよい。
【0028】
テキストデータ310は、音声データ300から音声認識されたテキスト(文字)のデータである。本実施形態においては、テキストデータ310は、主に声優の台詞のテキストを含んでいる。さらに、テキストデータ310は、音声変換部110により音声変換された際の音声データ300の音声特徴量についても、テキストのデータとして含んでいてもよい。
【0029】
声優関連DB320は、テキストデータ310から声優を特定する際に参照される声優の台詞及び関連コンテンツのデータベースである。
声優関連DB320の詳細な構成については後述する。
【0030】
次に、
図4を参照し、声優関連DB320の詳細について説明する。
声優関連DB320は、台詞データ400、音声特徴量データ410、台詞特徴量データ420、及び関連コンテンツデータ430を含む。
【0031】
台詞データ400は、声優の台詞のテキストデータを含むデータベースである。この台詞データ400は、コンテンツの種類、名称、番組の回数等の台詞に付随する各種データも含んだテーブルとして構成されてもよい。
【0032】
音声特徴量データ410は、声優毎の音声特徴量を示すデータである。この音声特徴量データ410は、端末2から送信された音声データ300が分析された音声特徴量が蓄積されたものであってもよい。または、音声特徴量データ410は、クロウラーにより取得された音声データ300に基づいた音声特徴量のデータであってもよい。この音声特徴量データ410も、テキスト形式で格納されていてもよい。
【0033】
台詞特徴量データ420は、自然言語処理により算出された台詞特徴量を格納するデータベースである。この台詞特徴量データ420は、例えば、声優の特徴を示すように作品が異なっても脚本として記載されたものであっても、声優毎のアドリブ上のクセに基づいた特徴であってもよい。
【0034】
関連コンテンツデータ430は、例えば、声優のウェブサイト、ホームページ(Home page)、SNS(Social Network Service)等のアカウント、関連するコンテンツの紹介や販売サイト等のデータを含む。加えて、関連コンテンツデータ430は、コンテンツそのもののファイル、声優の音声データのファイル等も含んでいてもよい。
【0035】
この他にも、声優関連DB320は、各声優のコンテンツのデータを格納することが可能であってもよい。
【0036】
ここで、声優検索システムXのサーバー1の制御部10は、記憶部11に記憶された制御プログラムを実行することで、音声受信部100、音声変換部110、声優検索部120、コンテンツ提示部130、及び台詞取得部140として機能させられる。これらは、サービス(デーモン)として提供されてもよい。
また、端末2の制御部は、記憶部に格納された制御プログラムを実行することで、音声取得部200、及び音声送信部210として機能させられる。
また、上述の声優検索システムXのサーバー1及び端末2の各部は、本発明の声優検索方法を実行するハードウェア資源となる。
なお、上述の機能構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
【0037】
〔声優検索システムXによる声優検索処理〕
次に、
図5~
図6を参照して、本発明の実施の形態に係る声優検索システムXによる声優検索処理の説明を行う。
本実施形態に係る声優検索処理では、端末2により、声優の音声が含まれる音声データ300を取得する。この上で、音声取得部200により取得された音声データ300を、サーバー1へ送信する。サーバー1においては、ユーザーの端末から声優の音声が含まれる音声データ300を受信する。次に、受信した音声データ300をテキストデータ310に変換する。そして、変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する。この上で、特定された声優に関するコンテンツを端末2へ提示する。
【0038】
本実施形態の声優検索処理は、サーバー1では制御部10が記憶部11に記憶された制御プログラムを、端末2では制御部が記憶部に記憶された制御プログラムを、それぞれ各部と協働し、ハードウェア資源を用いて実行する。
以下で、
図5のフローチャートを参照して、声優検索処理の詳細をステップ毎に説明する。
【0039】
(ステップS201)
まず、端末2の音声取得部200が、音声データ取得処理を行う。
たとえば、ユーザーが、テレビジョン放送やビデオ・オン・デマンド等でコンテンツをテレビ画面や端末2のディスプレイ等(以下、「テレビ等」という。)に表示、スピーカー等から音声再生してコンテンツを鑑賞しているとする。この際、ユーザーは、そこに登場する声優が誰であるか、他にどのような作品に出演しているのか等を知りたいと考え、図示しない検索サイト等で、サーバー1の提供する声優検索のサービスを知ることが可能である。この上で、ユーザーは、サーバー1のサービスのウェブサイトに、ウェブブラウザーや専用アプリ等(以下、単に「アプリ等」という。)によりアクセスする。すると、サーバー1は、コンテンツから音声を送信するよう指示する。
【0040】
ここで、ユーザーは、例えば、テレビ等でコンテンツの声優のセリフが再生されている場面で、アプリ等で「録音」を指示する。または、端末2で再生されているコンテンツについて、ユーザーがアプリ等で「録音」を指示する。
これらの指示を取得すると、音声取得部200は、音声入力部からテレビ等で再生された音声を音声データ300として録音したり、コンテンツのデータから一部を音声データ300としてキャプチャーしたりする。これにより、音声取得部200は、声優の音声が含まれる音声データ300を取得することが可能である。
【0041】
(ステップS202)
次に、音声送信部210が、音声データ送信処理を行う。
音声送信部210は、音声取得部200により取得された音声データ300をサーバー1へ送信する。音声送信部210は、この際に、音声送信部210は、音声データ300を音声認識に必要なヒトの音声の周波数帯の信号のみにフィルタリング、圧縮、符号化、及び暗号化等して送信することが可能である。
【0042】
(ステップS101)
ここで、サーバー1の音声受信部100が、音声データ受信処理を行う。
音声受信部100は、端末2から音声データ300を受信して、記憶部11へ一時的に格納する。この際に、音声受信部100は、復号等も行ってもよい。
【0043】
(ステップS102)
次に、音声変換部110が、音声テキスト変換処理を行う。
音声変換部110は、受信した音声データ300をテキストデータ310に変換する。音声変換部110は、各種音声認識手法を用いて、音声認識を行うことが可能である。
ここで、音声変換部110は、台詞として意味のある言葉が認識できなかったり、認識の尤度や確度が低かったりした場合は、できるだけ近い言葉を補ったり文脈上の補完をしたりして、適切な文章となるように変換してもよい。
【0044】
(ステップS103)
次に、音声変換部110が、特徴量付加処理を行う。
音声変換部110は、音声データ300の音声特徴量も算出することが可能である。この上で、音声変換部110は、算出された音声特徴量もテキストデータ310に含める。たとえば、音声変換部110は、音声特徴量として、声紋認識のデータの他に、『イントネーション:関西、北陸』『特徴量:女性、二十~三十代、癒やし系音声』等の特徴情報を付加可能である。
【0045】
(ステップS104)
次に、声優検索部120が、台詞テキスト声優特定処理を行う。
声優検索部120は、音声変換部110により変換されたテキストデータ310に基づいて、声優関連DB320から台詞を検索し、この台詞に基づいて声優を特定する。
【0046】
具体的には、まず、声優検索部120は、声優関連DB320に格納された台詞データ400に基づいて、テキストデータ310に含まれる台詞を検索する。この際に、声優検索部120は、台詞そのままではなく、変換の誤差やデータベース内のデータの差異も考慮して、類似する台詞を検索することが可能であってもよい。より具体的には、声優検索部120は、例えば、DP(Dynamic Programming)等により台詞をアラインメントして、類似度スコアを算出してもよい。または、声優検索部120は、例えば、自然言語解析の形態素解析等による類似度スコアを算出し、類似する台詞を検索してもよい。さらに、声優検索部120は、例えば、台詞における言語の並び自体の特徴モデルによる類似度スコアを算出することも可能である。この上で、声優検索部120は、算出された類似度スコアの最も高いいくつかの台詞を、検索結果として出力可能である。より具体的には、例えば、声優検索部120は、「多分、こんなこともあろうと思って」というテキストデータ310内の台詞から、台詞データ400に格納された「こんなこともあろうかと」という類似する台詞を検索することが可能であってもよい。
【0047】
さらに、声優検索部120は、テキストデータ310に含まれた音声特徴量の特徴情報に基づいて、音声特徴量データ410も考慮した上で、台詞データ400を検索可能であってもよい。より具体的には、音声検索部は、上述の例でいえば、『イントネーション:関西、北陸』『特徴量:女性、二十~三十代、癒やし系音声』に当てはまる声優について検索空間を限定して検索することも可能である。この場合、台詞データ400から類似度スコアが所定閾値より高いようなものが検出されなかった場合、その特徴情報に合致する声優の代表的な台詞を台詞データ400から検索してもよい。
【0048】
さらに加えて、声優検索部120は、テキストデータ310に含まれる台詞について、台詞特徴量データ420に基づいた検索空間の限定を行ってもよい。または、声優検索部120は、この台詞特徴量データ420に基づいた検索を行うことも可能であってもよい。この場合も、台詞データ400で合致する台詞が検出されなかった場合には、台詞特徴量データ420に合致する声優の代表的な台詞を台詞データ400から検索してもよい。
【0049】
声優検索部120は、これらの検索された台詞から、その台詞を話した声優を特定する。この際に、声優検索部120は、匿名(別名)で出演している声優等については特定結果に含めなくてもよい。
声優検索部120は、この検索結果について、声優関連DB320に格納することも可能である。
【0050】
(ステップS105)
次に、コンテンツ提示部130が、関連コンテンツ提示処理を行う。
コンテンツ提示部130は、声優検索部120により特定された声優について、関連コンテンツデータ430から端末2へ提示するデータ(以下、「検索結果データ」という。)を取得して、端末2へ送信する。具体的には、例えば、コンテンツ提示部130は、関連コンテンツデータ430内の当該声優のデータに基づいたHTML等を含む検索結果データを端末2へ送信することが可能である。この際、コンテンツ提示部130は、関連するハイパーリンク(以下、「リンク」という。)やコンテンツの映像、画像、写真、音声データやこれらのリンク等も付加可能である。
【0051】
(ステップS203)
次に、端末2の制御部及び表示部が、結果表示処理を行う。
端末2は、検索結果データをサーバー1から取得して提示する。具体的には、例えば、特定された声優に関する関連コンテンツのデータが、アプリ等の画面として表示部等に表示される。
【0052】
図6の画面例500は、この検索結果データが描画された一例を示す。この例では、テキストデータ310に含まれる台詞及び音声特徴量データ410に当てはまる声優から、二人の候補声優が検索された例を示す。画面例500では、声優の写真、声優名、所属するエージェント(事務所)とそのウェブサイト(HP)、出演作品の一覧とそのリンク、関連商品のリンク等が提示された例を示す。このうち出演作品の一覧とそのリンクは、クリックすると、その作品のコンテンツをVOD(Video On Demand)で再生可能であってもよい。または、そのリンクは、声優のサンプル音声やユーザーへの特別の台詞等を再生するものであってもよい。さらに、この再生は、動画再生サイトへのリンクであっても、サーバー1に格納されたコンテンツをストリーミングで提供するためのリンクであってもよい。さらに、再生は、コンテンツの電子書籍、音声データ300等の再生を行うことが可能であってもよい。
【0053】
また、関連商品は、声優として役を演じるコンテンツそのものではなく、当該声優が声優の名前(ユニット)で活動する作品のリンクを提示してもよい。または、その声優の出演作品の販売サイト、出版社、製作委員会のリンク等を提示することも可能である。
以上により、本発明の実施の形態に係る声優検索処理を終了する。
【0054】
〔声優検索システムXによる台詞取得処理〕
次に、
図7~
図8を参照して、本発明の実施の形態に係る声優検索システムXによる台詞取得処理の説明を行う。
本実施形態に係る声優検索処理では、ネットワーク上で台詞を取得して声優関連DB320の台詞データ400として格納する。この上で、声優関連DB320から声優の台詞に含まれる台詞特徴量を算出する。
【0055】
本実施形態の台詞取得処理は、サーバー1の制御部10が記憶部11に記憶された制御プログラムを各部と協働し、ハードウェア資源を用いて実行する。
以下で、
図7のフローチャートを参照して、台詞取得処理の詳細をステップ毎に説明する。
【0056】
(ステップS111)
サーバー1の台詞取得部140は、台詞取得処理を行う。
この処理では、台詞取得部140は、声優の台詞を取得して声優関連DB320に台詞データ400として格納する。
【0057】
たとえば、台詞取得部140は、ネットワーク5に接続された端末2等により、ユーザーに台詞を入力させて、これを取得することが可能である。
具体的には、ユーザーは、サーバー1の台詞を入力させる『みんなの台詞』のようなウェブサイトに、アプリ等によりアクセスする。
すると、サーバー1の台詞取得部140は、ユーザーに台詞を送信するよう指示する。
【0058】
図8の画面例510を参照して、ユーザーに台詞を入力させるフォームの例について説明する。台詞取得部140は、例えば、当該フォームにて、声優名、作品名、キャラクター(登場人物)名、台詞、台詞の特徴(説明、コメント)等を入力させる。さらに、作品の登場回等の付属情報についても入力させることが可能であってもよい。
このフォーム等により入力された情報は、ネットワーク送受信部15を介して台詞取得部140が取得して、声優関連DB320の台詞データ400に格納する。
【0059】
または、台詞取得部140は、声優のウェブサイトに掲載された台詞を、クロウラー等によりネットワーク5を介して周期的に取得し、台詞データ400に格納することが可能であってもよい。これは、声優のウェブサイトには、自らが出演したコンテンツの台詞について提示していることがあるからである。
【0060】
さらに、台詞取得部140は、ネット上の百科事典、コンテンツの説明等のウェブサイトからコンテンツの登場人物と演じている声優とを特定してもよい。この場合、台詞取得部140は、この登場人物の印象的な台詞を、当該コンテンツの評論、SNS等のウェブサイト等から取得して台詞データ400に格納してもよい。たとえば、具体例でいえば、クロウラーにて、作品名『ヒーローテール・オヴ・ギャラクシー』の悪役『ロイ』の声優を特定し、この作品の『名言、台詞まとめサイト』等から台詞を取得して、これを出典とともに台詞データ400に格納してもよい。
【0061】
これらの際に、声優のウェブサイト、SNS、評論のウェブサイト等から各声優についての音声の特徴についてのキーワードを取得して、音声特徴量データ410に格納することも可能であってもよい。具体的には、上述の例でいえば、声優の性別、年齢、『癒やし系』等であるとの特徴を音声特徴量データ410に格納することが可能である。
【0062】
または、台詞取得部140は、コンテンツの台本のデータを読み込み、各声優の台詞を取得して台詞データ400に格納することも可能である。
さらに、台詞取得部140は、コンテンツそのものから音声のデータを取得し、この音声のデータの音声認識を行い、台詞を認識して、台詞データ400に格納することも可能である。このコンテンツの読み込みも、クロウラーにより検索して半自動的に実行するようにしてもよい。さらに、台詞取得部140は、読み込ませた音声のデータから音声特徴量のデータを算出して、音声特徴量データ410に格納してもよい。
【0063】
(ステップS112)
台詞取得部140は、台詞特徴量算出処理を行う。
台詞取得部140は、格納された台詞データ400に基づいて、台詞特徴量を算出する。これは、声優が有名になると、役柄についての『お約束』『要請された台詞』が存在することがあるためである。すなわち、台詞取得部140は、コンテンツが異なっても、声優の特徴を示すような台詞上の特徴である台詞特徴量を抽出可能である。具体的には、台詞取得部140は、自然言語解析のAI等により、声優の台詞の言い回し、語尾、口調等の声優の台詞の「クセ」を、台詞特徴量として算出する。これは、上述の台本上の台詞でも、声優毎のアドリブによる台詞であってもよい。具体的には、例えば、声優が『気取った悪役』を演じることが多く、『~であーるな』等と話すことが多いといった台詞特徴量を算出可能であってもよい。
このように、台詞特徴量データ420を用いて、上述のように検索空間を限定したり、その台詞特徴量による検索をしたりすることも可能である。
以上により、本発明の実施の形態に係る台詞取得処理を終了する。
【0064】
以上のように構成することで、以下のような効果を得ることができる。
従来から、アニメや洋画等のコンテンツを閲覧した際に、その出演者に興味を持つことがあった。しかしながら、実写の俳優ではなく、声優が演じていたり、吹き替えを行っていたりすると、その声優自体に興味を持っても、エンドクレジット等で名前を確認し、自ら関連コンテンツを探さなければならないという煩わしさがあった。
しかしながら、特許文献1に記載されたような従来の楽曲の検索システムでは、声優を検索することはできなかった。
【0065】
これに対して、本発明の実施の形態に係る声優検索システムXは、ユーザーの端末2と、当該端末2に接続されるサーバー1とを備える声優検索システムであって、端末2は、声優の音声が含まれる音声データ300を取得する音声取得部200と、音声取得部200により取得された音声データ300をサーバー1へ送信する音声送信部210とを備え、サーバー1は、端末2から音声データ300を受信する音声受信部100と、音声受信部100により受信された音声データ300をテキストデータ310に変換する音声変換部110と、音声変換部110により変換されたテキストデータ310に基づいて、声優の台詞を検索して声優を特定する声優検索部120と、声優検索部120により特定された声優に関するコンテンツを端末2へ提示するコンテンツ提示部130とを備えることを特徴とする。
このように構成することで、コンテンツに出演する声優を検索可能な声優検索システムを提供することができる。また、声優という観点からコンテンツを更に活用することが可能となる。さらに、声優のファンを増やす効果も期待できる。加えて、ユーザーが興味を持った声優に関連するコンテンツを閲覧することが可能となり、コンテンツ自体もより活用することが可能となる。結果として、コンテンツの市場自体を盛り上げることが可能となる。
【0066】
本発明の実施の形態に係る声優検索システムXでは、サーバー1は、ネットワーク上から声優の台詞を取得して声優関連DB320に台詞データ400として格納する台詞取得部140を更に備え、声優検索部120は、声優関連DB320に格納された台詞データ400に基づいて、声優を特定することを特徴とする。
このように構成することで、ユーザーやクロウラー等で台詞を取得して、これをデータベース化することができる。これにより、声優検索システムXの管理者等がデータベースを全て用意しなくても、声優を検索することができる。よって、コストを削減できる。また、ユーザーが台詞を入力することで、声優検索のサイトを盛り上げることができ、広告収入等も期待できる。さらに、ユーザーにより、印象的な台詞を収集することができ、データベースを拡充することができる。加えて、声優やコンテンツ自体の人気等も把握可能となる。
【0067】
本発明の実施の形態に係る声優検索システムXでは、音声変換部110は、音声データ300の音声特徴量を取得し、当該音声特徴量もテキストデータ310に含めることを特徴とする。
このように構成することで、音声認識による情報に加えて、音声特徴量により声優検索を行うことができる。これにより、声優を特定する精度を高めることができる。または、声優関連DB320にまだ登録されていない声優についても特定可能となる。さらに、特徴量に合った声優を検索結果として提供することで、たとえ特定された声優が実際とは異なっていても、ユーザーの意図に沿った声優を提示できる。これにより、ユーザーの声優に対する関心を高めることができる。
【0068】
本発明の実施の形態に係る声優検索システムXでは、台詞取得部140は、声優関連DB320から声優の台詞に含まれる台詞特徴量も算出し、声優検索部120は、台詞取得部140により算出された台詞特徴量に基づいて、声優を特定することを特徴とする。
このように構成することで、台詞自体の特徴から声優を検索して特定することが可能となる。これにより、検査空間を限定して検索を効率化し、より適切な声優を検索できる。または、声優の台詞のクセ、役柄についての『お約束』『要請された台詞』等からも声優を検索することができる。
【0069】
〔他の実施の形態〕
なお、上述の実施形態においては、サーバー1にて音声認識してテキスト化して検索を行う例について記載した。
しかしながら、端末2のアプリ等において台詞をテキストデータ310に変換したり、別のいわゆるクラウド上のサービスにてテキストデータ310に変換したりしてもよい。さらに、サーバー1にて声優関連DB320を提供し、検索は端末2のアプリ等により行うように構成してもよい。または、端末2のアプリ等のデータとして声優関連DB320を提供し、端末2だけで声優を検索できるように構成してもよい。さらに、アプリ等としては、通常のインストール可能なアプリ、ウェブアプリ、又はサーバー1のウェブサイトへウェブブラウザーからアクセスする一時的なアプリのような構成であってもよい。
このように構成することで、様々な構成に柔軟に対応することができる。
【0070】
また、上述の実施形態においては、音声データ300をサーバー1へ送信する構成について記載した。
しかしながら、台詞のテキストデータ310を、直接、ユーザーから入力し、これをサーバー1へ送信して、声優の検索が可能であってもよい。
このように構成することで、ネットワーク5上で流行した台詞やスラング等から、直接、声優を検索することも可能となる。
【0071】
また、上述の実施形態においては、音声変換部110により音声変換された際の音声データ300の音声特徴量についても、テキストデータ310にテキストとして付加する例について記載した。
しかしながら、この音声特徴量については、数値データのまま検索に用いることが可能であってもよい。この場合、音声特徴量データ410にも、数値データが格納されていてもよい。
このように構成することで、音声特徴量を用いた検索を効率化可能となる。さらに、テキストに変換できないような特徴についても声優を特定するために用いることができる。
【0072】
また、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
【符号の説明】
【0073】
1 サーバー
2 端末
5 ネットワーク
10 制御部
11 記憶部
15 ネットワーク送受信部
100 音声受信部
110 音声変換部
120 声優検索部
130 コンテンツ提示部
140 台詞取得部
200 音声取得部
210 音声送信部
300 音声データ
310 テキストデータ
320 声優関連DB
400 台詞データ
410 音声特徴量データ
420 台詞特徴量データ
430 関連コンテンツデータ
500、510 画面例
X 声優検索システム