IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人電気通信大学の特許一覧

特許7198492パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム
<>
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図1
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図2
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図3
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図4
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図5
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図6
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図7
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図8
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図9
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図10
  • 特許-パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-21
(45)【発行日】2023-01-04
(54)【発明の名称】パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20221222BHJP
   G06F 16/383 20190101ALI20221222BHJP
【FI】
G06F16/335
G06F16/383
【請求項の数】 9
(21)【出願番号】P 2019018849
(22)【出願日】2019-02-05
(65)【公開番号】P2020126472
(43)【公開日】2020-08-20
【審査請求日】2022-02-01
(73)【特許権者】
【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(72)【発明者】
【氏名】坂本 真樹
(72)【発明者】
【氏名】多田 佳歩
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2018-022331(JP,A)
【文献】特開2018-073019(JP,A)
【文献】特開2014-071541(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ユーザが入力したテキストデータから、前記ユーザのパーソナリティを出力するパーソナリティ出力装置であって、
音象徴語と、前記音象徴語の印象評価値を対応づけた音象徴語評価値データと、
単語と、前記単語の印象評価値を対応づけた単語評価値データとを記憶する記憶装置と、
テキストデータに含まれる各単語から特定されるユーザのパーソナリティの印象評価値と前記音象徴語評価値データの印象評価値との類似度に基づいて、音象徴語を出力する出力部
を備えることを特徴とするパーソナリティ出力装置。
【請求項2】
前記出力部は、所定期間毎に、前記所定期間に入力されたテキストデータについて音象徴語を出力する
ことを特徴とする請求項1に記載のパーソナリティ出力装置。
【請求項3】
前記単語評価値データは、
テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、前記テキストデータに含まれる単語のうち前記音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを参照して、
前記プリミティブワードに対応する前記音象徴語の印象評価値を、前記プリミティブワードの印象評価値として設定し、
プリミティブワード以外の未知語について、前記プリミティブワードの印象評価値と、前記プリミティブワードと前記未知語との類似度の乗算から、前記未知語の評価値を算出し、
前記プリミティブワードと前記プリミティブワードの印象評価値を対応づけるとともに、前記未知語と前記未知語の印象評価値を対応づけて、生成される
ことを特徴とする請求項1または2に記載のパーソナリティ出力装置。
【請求項4】
ユーザが入力したテキストデータから、前記ユーザのパーソナリティを出力するパーソナリティ出力方法であって、
コンピュータが、音象徴語と、前記音象徴語の印象評価値を対応づけた音象徴語評価値データと、単語と、前記単語の印象評価値を対応づけた単語評価値データとを、記憶装置に記憶するステップと、
前記コンピュータが、テキストデータに含まれる各単語から特定されるユーザのパーソナリティの印象評価値と前記音象徴語評価値データの印象評価値との類似度に基づいて、音象徴語を出力するステップ
を備えることを特徴とするパーソナリティ出力方法。
【請求項5】
コンピュータに、請求項1ないし請求項3のいずれか1項に記載のパーソナリティ出力装置として機能させるためのパーソナリティ出力プログラム。
【請求項6】
単語と、前記単語の印象評価値を対応づけた単語評価値データを生成する単語評価値生成装置であって、
テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、前記テキストデータに含まれる単語のうち前記音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを記憶する記憶装置と、
前記プリミティブワードに対応する前記音象徴語の印象評価値を、前記プリミティブワードの印象評価値として設定するプリミティブワード評価値設定部と、
プリミティブワード以外の未知語について、前記プリミティブワードの印象評価値と、前記プリミティブワードと前記未知語との類似度の乗算から、前記未知語の評価値を算出する未知語評価値算出部と、
前記プリミティブワードと前記プリミティブワードの印象評価値を対応づけるとともに、前記未知語と前記未知語の印象評価値を対応づけて、単語評価値データを生成する単語評価値データ生成部
を備えることを特徴とする単語評価値生成装置。
【請求項7】
前記未知語評価値算出部は、プリミティブワードを含むテキストデータと未知語を含むテキストデータの比較に基づいて、前記プリミティブワードと前記未知語との類似度を算出する
ことを特徴とする請求項6に記載の単語評価値生成装置。
【請求項8】
単語と、前記単語の印象評価値を対応づけた単語評価値データを生成する単語評価値生成方法であって、
コンピュータが、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、前記テキストデータに含まれる単語のうち前記音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを、記憶装置に記憶するステップと、
前記コンピュータが、前記プリミティブワードに対応する前記音象徴語の印象評価値を、前記プリミティブワードの印象評価値として設定するステップと、
前記コンピュータが、プリミティブワード以外の未知語について、前記プリミティブワードの印象評価値と、前記プリミティブワードと前記未知語との類似度の乗算から、前記未知語の評価値を算出するステップと、
前記コンピュータが、前記プリミティブワードと前記プリミティブワードの印象評価値を対応づけるとともに、前記未知語と前記未知語の印象評価値を対応づけて、単語評価値データを生成するステップ
を備えることを特徴とする単語評価値生成方法。
【請求項9】
コンピュータに、請求項6または請求項7に記載の単語評価値生成装置として機能させるための単語評価値生成プログラム。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが入力したテキストデータから、ユーザのパーソナリティを出力するパーソナリティ出力装置、パーソナリティ出力方法およびパーソナリティ出力プログラム、パーソナリティ出力装置に用いられる単語評価値データを生成する単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラムに関する。
【背景技術】
【0002】
近年、日々の所感を投稿するマイクロブログ等が普及している。またマイクロブログの投稿内容から、投稿者のパーソナリティを推定する技術もある。
【0003】
またオノマトペ等の音象徴語を用いて、パーソナリティを評価する方法がある(特許文献1)。特許文献1は、音象徴語に含まれる音韻の要素に対して、人のパーソナリティに関する複数の評価尺度に基づいて音象徴語を評価する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-22331号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、投稿者のパーソナリティの推定結果は、ダイアグラムでの表示、文章での表示などが多く、パーソナリティを直感的に把握することが困難な場合がある。また特許文献1に記載の方法では、マイクロブログ等のテキストデータからパーソナリティを推定するものではない。
【0006】
従って本発明の目的は、テキストデータから、直感的に把握可能なパーソナリティを出力するパーソナリティ出力装置パーソナリティ出力方法およびパーソナリティ出力プログラム、パーソナリティ出力装置に用いられる単語評価値データを生成する単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラムを提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の第1の特徴は、ユーザが入力したテキストデータから、パーソナリティ出力装置ユーザのパーソナリティを出力するパーソナリティ出力装置に関する。本発明の第1の特徴に係る音象徴語と、パーソナリティ出力装置音象徴語の印象評価値を対応づけた音象徴語評価値データと、単語と、パーソナリティ出力装置単語の印象評価値を対応づけた単語評価値データとを記憶する記憶装置と、テキストデータに含まれる各単語から特定されるユーザのパーソナリティの印象評価値とパーソナリティ出力装置音象徴語評価値データの印象評価値との類似度に基づいて、音象徴語を出力する出力部を備える。
【0008】
出力部は、所定期間毎に、パーソナリティ出力装置所定期間に入力されたテキストデータについて音象徴語を出力しても良い。
【0009】
単語評価値データは、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、パーソナリティ出力装置テキストデータに含まれる単語のうちパーソナリティ出力装置音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを参照して、プリミティブワードに対応するパーソナリティ出力装置音象徴語の印象評価値を、パーソナリティ出力装置プリミティブワードの印象評価値として設定し、プリミティブワード以外の未知語について、パーソナリティ出力装置プリミティブワードの印象評価値と、パーソナリティ出力装置プリミティブワードとパーソナリティ出力装置未知語との類似度の乗算から、パーソナリティ出力装置未知語の評価値を算出し、プリミティブワードとパーソナリティ出力装置プリミティブワードの印象評価値を対応づけるとともに、パーソナリティ出力装置未知語とパーソナリティ出力装置未知語の印象評価値を対応づけて、生成されても良い。
【0010】
本発明の第2の特徴は、ユーザが入力したテキストデータから、パーソナリティ出力装置ユーザのパーソナリティを出力するパーソナリティ出力方法に関する。本発明の第2の特徴に係るパーソナリティ出力方法は、コンピュータが、音象徴語と、パーソナリティ出力装置音象徴語の印象評価値を対応づけた音象徴語評価値データと、単語と、パーソナリティ出力装置単語の印象評価値を対応づけた単語評価値データとを、記憶装置に記憶するステップと、コンピュータが、テキストデータに含まれる各単語から特定されるユーザのパーソナリティの印象評価値とパーソナリティ出力装置音象徴語評価値データの印象評価値との類似度に基づいて、音象徴語を出力するステップを備える。
【0011】
本発明の第3の特徴は、コンピュータに、本発明の第1の特徴に記載のパーソナリティ出力装置として機能させるためのパーソナリティ出力プログラムに関する。
【0012】
本発明の第4の特徴は、単語と、パーソナリティ出力装置単語の印象評価値を対応づけた単語評価値データを生成する単語評価値生成装置に関する。本発明の第4の特徴に係る単語評価値生成装置は、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、パーソナリティ出力装置テキストデータに含まれる単語のうちパーソナリティ出力装置音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを記憶する記憶装置と、プリミティブワードに対応するパーソナリティ出力装置音象徴語の印象評価値を、パーソナリティ出力装置プリミティブワードの印象評価値として設定するプリミティブワード評価値設定部と、プリミティブワード以外の未知語について、パーソナリティ出力装置プリミティブワードの印象評価値と、パーソナリティ出力装置プリミティブワードとパーソナリティ出力装置未知語との類似度の乗算から、パーソナリティ出力装置未知語の評価値を算出する未知語評価値算出部と、プリミティブワードとパーソナリティ出力装置プリミティブワードの印象評価値を対応づけるとともに、パーソナリティ出力装置未知語とパーソナリティ出力装置未知語の印象評価値を対応づけて、単語評価値データを生成する単語評価値データ生成部を備える。
【0013】
未知語評価値算出部は、プリミティブワードを含むテキストデータと未知語を含むテキストデータの比較に基づいて、パーソナリティ出力装置プリミティブワードとパーソナリティ出力装置未知語との類似度を算出しても良い。
【0014】
本発明の第5の特徴は、単語と、パーソナリティ出力装置単語の印象評価値を対応づけた単語評価値データを生成する単語評価値生成方法に関する。本発明の第5の特徴に係る単語評価値生成方法は、コンピュータが、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、パーソナリティ出力装置テキストデータに含まれる単語のうちパーソナリティ出力装置音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを、記憶装置に記憶するステップと、コンピュータが、パーソナリティ出力装置プリミティブワードに対応するパーソナリティ出力装置音象徴語の印象評価値を、パーソナリティ出力装置プリミティブワードの印象評価値として設定するステップと、コンピュータが、プリミティブワード以外の未知語について、パーソナリティ出力装置プリミティブワードの印象評価値と、パーソナリティ出力装置プリミティブワードとパーソナリティ出力装置未知語との類似度の乗算から、パーソナリティ出力装置未知語の評価値を算出するステップと、コンピュータが、パーソナリティ出力装置プリミティブワードとパーソナリティ出力装置プリミティブワードの印象評価値を対応づけるとともに、パーソナリティ出力装置未知語とパーソナリティ出力装置未知語の印象評価値を対応づけて、単語評価値データを生成するステップを備える。
【0015】
本発明の第6の特徴は、コンピュータに、本発明の第4の特徴に記載の単語評価値生成装置として機能させるための単語評価値生成プログラムに関する。
【発明の効果】
【0016】
本発明によれば、テキストデータから、直感的に把握可能なパーソナリティを出力するパーソナリティ出力装置パーソナリティ出力方法およびパーソナリティ出力プログラム、パーソナリティ出力装置に用いられる単語評価値データを生成する単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラムを提供することができる。
【図面の簡単な説明】
【0017】
図1】本発明の実施の形態に係るパーソナリティ出力装置のハードウエア構成と機能ブロックを説明する図である。
図2】本発明の実施の形態に係るパーソナリティ出力装置が出力する結果表示画面の一例である。
図3】単語評価値データのデータ構造の一例を説明する図である。
図4】印象評価値を説明する図である。
図5】音象徴語評価値データのデータ構造の一例を説明する図である。
図6】本発明の実施の形態に係るパーソナリティ出力装置の出力部の処理を説明するフローチャートである。
図7】本発明の実施の形態に係る単語評価値生成装置のハードウエア構成と機能ブロックを説明する図である。
図8】プリミティブワードデータのデータ構造とデータの一例を説明する図である。
図9】類似度データのデータ構造の一例を説明する図である。
図10】本発明の実施の形態に係る単語評価値生成装置の未知語評価値算出部において類似度を算出する処理を説明するフローチャートである。
図11】類似度を算出する処理で参照される単語文章行列のデータ構造とデータの一例を説明する図である。
【発明を実施するための形態】
【0018】
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
【0019】
(パーソナリティ出力装置)
図1に示すパーソナリティ出力装置1は、ミニブログ、マイクロブログ等のユーザが入力したテキストデータから、ユーザのパーソナリティを出力する。パーソナリティ出力装置1は、そのテキストデータを入力した際のユーザの感情の詳細を分析し、オノマトペに代表される音象徴語で表現する。本発明の実施の形態において音象徴語は、語音そのものが、ある特定のイメージを喚起する語であって、「おろおろ」、「ほんわか」等のオノマトペに代表される。パーソナリティ出力装置1は、ダイアグラムまたは文章等の煩雑な表現ではなく、1単語の音象徴語でユーザの感情を表現することにより、簡潔かつわかりやすく、ユーザの心情を伝えることができる。
【0020】
パーソナリティ出力装置1は、例えば図2に示す結果表示画面P1を出力する。マイクロブログのユーザアカウント等のテキストデータを特定するためのテキスト特定情報が入力され、入力ボタンB1が選択されると、パーソナリティ出力装置1は、テキスト特定情報から、パーソナリティ出力対象のテキストデータを取得する。テキスト特定情報には、例えば、ログインIDなど、マイクロブログの管理サイトにおいて、対象となるユーザの投稿を特定する情報が設定される。
【0021】
パーソナリティ出力装置1は、取得したテキストデータにおいてユーザが用いた単語からユーザのパーソナリティを分析し、パーソナリティ表示部D1に示すように、音象徴語でユーザのパーソナリティを出力する。図2に示す例では、1ヶ月単位に「おろおろ」、「ほんわか」および「にこにこ」とパーソナリティを出力しており、パーソナリティの遷移も示す。処理数表示部D2に示すように、各月においてパーソナリティを算出するために用いられたテキストデータ数(マイクロブログの投稿数)が表示されても良い。
【0022】
図1を参照して、本発明の実施の形態に係るパーソナリティ出力装置1を説明する。パーソナリティ出力装置1は、記憶装置10、処理装置20、入出力インタフェース30を備える一般的なコンピュータである。一般的なコンピュータがパーソナリティ出力プログラムを実行することにより、図1に示す機能を実現する。
【0023】
記憶装置10は、ROM(Read Only Memory)、RAM(Random access memory)、ハードディスク等であって、処理装置20が処理を実行するための入力データ、出力データおよび中間データなどの各種データを記憶する。処理装置20は、CPU(Central Processing Unit)であって、記憶装置10に記憶されたデータを読み書きしたり、入出力インタフェース30とデータをやりとりしたりして、パーソナリティ出力装置1における処理を実行する。入出力インタフェース30は、マウス、キーボード等の入力装置、ディスプレイ、プリンタ等の出力装置、通信ネットワークに接続するための通信制御装置等と、処理装置20を接続する。入出力インタフェース30は、入力装置または通信ネットワークから入力された指示等を処理装置20に入力し、処理装置20の出力結果等を出力装置または通信ネットワークに出力する。
【0024】
記憶装置10は、パーソナリティ出力プログラムを記憶するとともに、対象テキストデータ11、単語評価値データEおよび音象徴語評価値データNを記憶する。
【0025】
対象テキストデータ11は、パーソナリティ出力装置1がユーザのパーソナリティを出力する対象のテキストデータである。対象テキストデータ11は、特定の事実に対する解説など投稿するユーザによって差異が出にくい内容よりも、単一のユーザによる日々の所感など、ユーザの個性が出やすく、パーソナリティが現れやすい内容であることが好ましい。
【0026】
また対象テキストデータ11は、マイクロブログなどの1つの投稿または一文であっても良いし、数ヶ月などの長期に亘って入力されたテキストデータの集合であっても良い。パーソナリティ出力装置1は、数ヶ月間におけるパーソナリティを出力することも可能であるし、1ヶ月等の期間毎のパーソナリティを出力し、パーソナリティの遷移を出力することも可能である。
【0027】
単語評価値データEは、図3に示すように、単語と、単語の印象評価値を対応づけたデータである。本発明の実施の形態において印象評価値は、図4に示すように「無口な-話好きな」、「臆病な-果敢な」などの性格を表す形容詞対毎の評価値を含む。音象徴語の印象評価値は、音韻の語中の位置によって、音象徴語の印象が異なる可能性がある。従って音象徴語は第1モーラと第2モーラに分解され、各モーラについて、子音行、濁音、拗音、小母音、母音、語尾の要素と反復の有無等を特定した結果に基づいて、音象徴語の印象評価値が算出される。単語評価値データEに登録される単語は、単語評価値データEを生成する際に最初に登録されたプリミティブワードと、プリミティブワードに対してさらに追加された未知語に区分されても良い。
【0028】
単語評価値データEは、後述の単語評価値生成装置6によって生成される。単語評価値生成装置6は、単語評価値データEを生成する際、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、テキストデータに含まれる単語のうち音象徴語に対応するプリミティブワードを対応づけたプリミティブワードデータを参照して、プリミティブワードに対応する音象徴語の印象評価値を、プリミティブワードの印象評価値として設定する。次に単語評価値生成装置6は、プリミティブワード以外の未知語について、プリミティブワードの印象評価値と、プリミティブワードと未知語との類似度の乗算から、未知語の評価値を算出する。単語評価値生成装置6は、プリミティブワードとプリミティブワードの印象評価値を対応づけるとともに、未知語と未知語の印象評価値を対応づけて、単語評価値データEを生成する。
【0029】
音象徴語評価値データNは、図5に示すように、音象徴語と、音象徴語の印象評価値を対応づけたデータである。音象徴語の印象評価値は、図4に示すように形容詞対毎の評価値を含む。音象徴語評価値データNの音象徴語と単語評価値データEの単語の各印象評価値は、互いに対応する形式で表現される。
【0030】
処理装置20は、対象テキスト取得部21および出力部22を備える。
【0031】
対象テキスト取得部21は、パーソナリティ出力装置1がパーソナリティを出力する元となるテキストデータを取得し、対象テキストデータ11として記憶装置10に記憶する。
【0032】
出力部22は、対象テキストデータ11のテキストデータに含まれる各単語から特定されるユーザのパーソナリティの印象評価値と音象徴語評価値データNの印象評価値との類似度に基づいて、音象徴語を出力する。出力部22は、対象テキストデータ11から、処理対象のテキストデータを抽出し、抽出したテキストデータに含まれる単語と、単語評価値データEにおける単語の印象評価値とに基づいて、ユーザのパーソナリティを示す印象評価値を算出する。さらに出力部22は、音象徴語評価値データNを参照して、算出した印象評価値に近い印象評価値を有する音象徴語を出力する。
【0033】
出力部22は、音象徴語を出力する際、その音象徴語を出力する際に参照したテキストデータの数(マイクロブログの投稿数)を、併せて出力しても良い。
【0034】
出力部22は、一つの文またはマイクロブログへの1つの投稿など、データ量が比較的小さいテキストデータの単位で音象徴語を算出しても良いし、複数の文または複数の投稿など、データ量が比較的大きいテキストデータの単位で音象徴語を算出しても良い。例えば出力部22は、所定期間毎に、所定期間に入力されたテキストデータについて音象徴語を出力して、図2に示すように、音象徴語の遷移を出力しても良い。
【0035】
図6を参照して、出力部22による出力処理を説明する。
【0036】
まずステップS101において出力部22は、処理対象のテキストデータに含まれる単語のうち、単語評価値データEで定義される単語を抽出する。ステップS102において出力部22は、単語評価値データEから、ステップS101で抽出した各単語の印象評価値を抽出し、各単語の印象評価値の平均値を算出する。ここで出力部22は、図4に示す形容詞対毎に各単語の評価値を特定し、各形容詞対の評価値の和を単語の数(のべ数)で割った値から、各単語の印象評価値の平均を算出する。ここで算出された各単語の印象評価値の平均は、ユーザが入力したテキストデータの各単語から特定される、ユーザのパーソナリティの印象評価値である。
【0037】
ステップS103において出力部22は、音象徴語評価値データNを参照して、ステップS102で算出した平均に近い音象徴語を出力する。出力部22は、音象徴語評価値データNから、ステップS102で算出された各単語の印象評価値の平均とコサイン類似度が高い印象評価値を持つ音象徴語を取得する。出力部22は、形容詞対毎に、音象徴語評価値データNの評価値とステップS102で算出した平均とを比較して、コサイン類似度が最も高い音象徴語を特定する。出力部22は、ステップS103において、処理対象のテキストデータが表現するユーザのパーソナリティとして、特定された音象徴語を出力する。
【0038】
ここで出力部22は、複数の投稿を統合した一つのテキストデータからユーザのパーソナリティの印象評価値を算出しても良いし、個々の投稿から印象評価値を算出して、その印象評価値からユーザの印象評価値を算出しても良い。また単語評価値データEの単語が、プリミティブワードと未知語に区分される場合、出力部22は、単語評価値データEのプリミティブワードと未知語をそれぞれ特定し、式(1)によって、処理対象の印象評価値を算出しても良い。出力部22は、式(1)において、プリミティブワードと未知語に異なる係数をつけて重み付けするなどにより、処理対象のテキストデータの印象評価値を算出しても良い。
【0039】
【数1】
【0040】
各投稿についてユーザの印象評価値を算出したのち、複数の投稿についてのユーザの印象評価値を算出する場合、出力部22は、式(2)によりユーザの印象評価値として算出する。
【0041】
【数2】
【0042】
このように、パーソナリティ出力装置1は、ユーザが入力したテキストデータに含まれる単語に基づいて、そのユーザのパーソナリティを音象徴語で表すことができる。音象徴語は、1単語の音象徴語でユーザの感情を表現することにより、簡潔かつ判りやすくユーザのパーソナリティを伝えることができる。
【0043】
(単語評価値生成装置)
図7を参照して、本発明の実施の形態に係る単語評価値生成装置6を説明する。単語評価値生成装置6は、図1を参照して説明したパーソナリティ出力装置1で参照される単語評価値データEを生成する。
【0044】
単語評価値生成装置6は、記憶装置60、処理装置70および入出力インタフェース80を備える一般的なコンピュータである。一般的なコンピュータが単語評価生成プログラムを実行することにより、図7に示す機能を実現する。記憶装置60、処理装置70および入出力インタフェース80は、図1を参照して説明したパーソナリティ出力装置1の記憶装置10、処理装置20および入出力インタフェース30と、それぞれ同様である。
【0045】
記憶装置60は、単語評価値生成プログラムを記憶するとともに、プリミティブワードデータ61、類似度データ62、単語評価値データEおよび音象徴語評価値データNを記憶する。
【0046】
プリミティブワードデータ61は、テキストデータを入力した際のユーザのパーソナリティを表す音象徴語と、テキストデータに含まれる単語のうち音象徴語に対応するプリミティブワードを対応づけたデータである。プリミティブワードデータ61は、図8に示すように、テキストデータと、そのテキストデータにおけるユーザのパーソナリティを示す音象徴語と、テキストデータに含まれる単語のうち、その音象徴語に関連する単語(プリミティブワード)とを対応づけたデータである。プリミティブワードデータ61について、一つのテキストデータについて、一つの音象徴語と、その音象徴語に関連する複数の単語が対応づけられる。
【0047】
本発明の実施の形態においてプリミティブワードデータ61は、テキストデータを入力したユーザによって、音象徴語とその音象徴語に関連する単語が入力されることにより生成される。この際、ユーザは、音象徴語評価値データNに登録される音象徴語から、テキストデータにおけるユーザのパーソナリティを示す音象徴語が選択されても良い。
【0048】
プリミティブワードデータ61に登録されるテキストデータは、ユーザのパーソナリティを表すものが好ましい。事実のみを記載しているなど、ユーザのパーソナリティが現れていないテキストデータは、プリミティブワードデータ61に登録されないのが好ましい。またプリミティブワードデータ61に設定される単語は、ユーザのパーソナリティに関連するネットスラング、顔文字等であっても良い。
【0049】
ユーザは、テキストデータに対する音象徴語を選択した後、その音象徴語に関連する単語を入力して、プリミティブワードデータを生成するのが好ましい。テキストデータから、単語を入力した後に音象徴語を入力する場合、単語の持つ意味から音象徴語を選択する可能性を排除できず、テキストデータから想起される音象徴語と単語の関係に影響が生じる場合があるからである。
【0050】
類似度データ62は、後述の未知語評価値算出部72が出力するデータであって、図9に示すように、プリミティブワードと未知語との類似度を含む。類似度データ62は、プリミティブワードの印象評価値から、未知語の印象評価値を算出するために用いられる。プリミティブワードは、テキストデータに対してユーザが選択した音象徴語を表す単語として、ユーザがテキストデータから選択した単語である。一方未知語は、マイクロブログで用いられるテキストデータ等に含まれる単語であって、プリミティブワード以外の単語である。未知語は、後述の未知語評価値算出部72によって抽出される。
【0051】
単語評価値データEは、図1等を参照して説明したように、単語と、単語の印象評価値を対応づけたデータである。
【0052】
音象徴語評価値データNは、図5を参照して説明したように、音象徴語と、音象徴語の印象評価値を対応づけたデータである。
【0053】
処理装置70は、プリミティブワード評価値設定部71、未知語評価値算出部72および単語評価値データ生成部73を備える。
【0054】
プリミティブワード評価値設定部71は、プリミティブワードに対応する音象徴語の印象評価値を、プリミティブワードの印象評価値として設定する。プリミティブワードとその印象評価値は、単語評価値データEに設定される。
【0055】
プリミティブワード評価値設定部71は、プリミティブワードデータ61に含まれる各プリミティブワードについて、このプリミティブワードに対応づけられた音象徴語の印象評価値を、このプリミティブワードの印象評価値として設定する。音象徴語の印象評価値は、音象徴語評価値データNから取得される。図8に示す例において、プリミティブワード「花火」の印象評価値は、音象徴語「うきうき」の印象評価値となる。
【0056】
プリミティブワード評価値設定部71は、プリミティブワードデータ61におけるプリミティブワードと音象評価値の組み合わせのうち、単語評価値データEに設定する組み合わせを取捨選択しても良い。
【0057】
例えばプリミティブワードデータ61においてユーザが設定した単語のうち、マイクロブログにおける高頻出の単語については除外して、単語評価値データEに設定されても良い。マイクロブログにおける高頻出の単語は、例えば、「する」、「です」などの語尾に多用する単語、「だけど」、「だから」など接続詞として多用する単語などである。プリミティブワード評価値設定部71は、プリミティブワードデータ61において設定された各単語の頻出回数を算出して、所定の頻出回数以上出現する単語については、単語評価値データEに設定されないようにしても良い。また他の方法として、マイクロブログに出現する単語のうち、名詞のみを単語評価値データEに設定するなど、所定のルールで取捨選択しても良い。
【0058】
またプリミティブワードに複数の音象徴語が対応づけられる場合、プリミティブワード評価値設定部71は、複数の音象徴語のうち単一の音象徴語の印象評価値を、そのプリミティブワードの印象評価値として設定する。プリミティブワード評価値設定部71は、複数の音象徴語のうち、ランダムに単一の音象徴語を選択しても良いし、一つのプリミティブワードに対して最初に登場した音象徴語など所定のロジックで選択しても良い。
【0059】
また一つの音象徴語に複数のプリミティブワードが対応づけられる場合、プリミティブワード評価値設定部71は、一つの音象徴語に所定数のプリミティブワードが対応づけられるように、プリミティブワードを選定しても良い。
【0060】
未知語評価値算出部72は、プリミティブワード以外の未知語について、プリミティブワードの印象評価値と、プリミティブワードと未知語との類似度の乗算から、未知語の評価値を算出する。
【0061】
プリミティブワード評価値設定部71により、プリミティブワードについて印象評価値が設定されたが、多種多様な単語が用いられるマイクロブログから、プリミティブワードに基づいてユーザのパーソナリティを判断することが困難な場合がある。そこで、プリミティブワード以外の未知語についても、印象評価値を設定し、より多くの単語に基づいてユーザのパーソナリティを判断できることが好ましい。そこで未知語評価値算出部72は、テキストデータ等からプリミティブワード以外の未知語を抽出し、未知語とプリミティブワードとの類似度から、未知語の印象評価値を算出する。
【0062】
未知語評価値算出部72は、マイクロブログから抽出した多数のテキストデータに対して形態素解析を行い、所定条件によって、未知語を抽出する。ここで参照される多数のテキストデータは、プリミティブワードデータ61において設定されたテキストデータ以外のテキストデータであることが好ましい。未知語を抽出する所定条件は例えば、プリミティブワード以外の単語であって、複数のテキストデータにおいて出現する語である。
【0063】
未知語評価値算出部72は、プリミティブワードと未知語との類似度を算出し、式(3)によりプリミティブワードの印象評価値と類似度を乗算して、未知語の印象評価値を算出する。
【0064】
【数3】
【0065】
式(3)は、複数のプリミティブワードのそれぞれついて、プリミティブワードの印象評価値とそのプリミティブワードと未知語wとの類似度を乗算した値を算出し、その値を加算して正規化することにより、未知語wの印象評価値を算出することを示す。また式(3)で用いるプリミティブワードを、未知語wと所定値以上の類似度を有するプリミティブワードに限定することにより、印象評価値の処理負担を軽減する。
【0066】
本発明の実施の形態において未知語評価値算出部72は、プリミティブワードを含むテキストデータと未知語を含むテキストデータの比較に基づいて、プリミティブワードと未知語との類似度を算出する。未知語評価値算出部72は、プリミティブワードが含まれるテキストデータと、未知語を含むテキストデータが類似する場合、プリミティブワードと未知語との類似度が高くなり、類似しない場合、プリミティブワードと未知語との類似度が低くなるように、類似度を算出する。
【0067】
図10および図11を参照して、プリミティブワードと未知語の類似度を算出する処理を説明する。
【0068】
未知語評価値算出部72は、類似度を算出する際、ステップS201において、単語文章行列を生成する。単語文章行列は、図11に示すように、プリミティブワードと未知語を行に設定し、列に複数のテキストデータを設定する。単語文章行列の列に設定されるテキストデータは、図1で説明した対象テキストデータ11と同様に、特定の事実に対する解説など投稿するユーザによって差異が出にくい内容よりも、単一のユーザによる日々の所感など、ユーザの個性が出やすく、パーソナリティが現れやすい内容であることが好ましい。単語文章行列の列に設定されるテキストデータは、プリミティブワードデータ61に含まれるテキストデータが含まれても良いし、含まれなくても良い。
【0069】
行列の各値には、テキストデータにおいて含まれる未知語またはプリミティブワードの数が設定される。図11に示す例において、テキストデータ1において、未知語u2が1回、プリミティブワードw1が1回等の各単語が、それぞれ出現することを示す。テキストデータ2において、未知語u1が2回、プリミティブワードw2が1回等の各単語が、それぞれ出現することを示す。テキストデータ3において、未知語u2が3回、プリミティブワードw1が2回、プリミティブワードw2が2回等の各単語が、それぞれ出現することを示す。
【0070】
次に未知語評価値算出部72は、未知語とプリミティブワードの各組み合わせについて、ステップS202の処理を行う。未知語評価値算出部72は、処理対象の未知語の行ベクトルと処理対象のプリミティブワードの行ベクトルとの、コサイン類似度を算出する。例えば未知語u1とプリミティブワードw1のコサイン類似度を算出する際、図11に示す行列の未知語u1の行ベクトル(0,2,0,...)と、プリミティブワードw1の行ベクトル(1,0,2,...)のコサイン類似度を算出する。ここで未知語評価値算出部72は、図11に示した単語文章行列を、tf-idf法を用いて重み付けしたり、特異値分解により次元を圧縮した近似行列に変換したりして、コサイン類似度を算出しても良い。
【0071】
未知語とプリミティブワードの各組み合わせについて、ステップS202の処理を行うと、未知語評価値算出部72は、ステップS203においてステップS202で算出した類似度を含む類似度データ62を出力する。
【0072】
未知語評価値算出部72は、図10および図11で示す処理により算出された類似度を用いて、式(3)により、未知語の印象評価値を算出することができる。
【0073】
単語評価値データ生成部73は、単語と、その単語の印象評価値を対応づけて単語評価値データEを生成する。単語評価値データEは、プリミティブワードとプリミティブワードの印象評価値を対応づけるとともに、未知語と未知語の印象評価値を対応づける。単語評価値データ生成部73は、プリミティブワード評価値設定部71が設定したプリミティブワードの印象評価値と、未知語評価値算出部72が算出した未知語の印象評価値をマージして、単語評価値データEを生成する。
【0074】
このように本発明の実施の形態に係る単語評価値生成装置6は、印象評価値が付与されていない未知語についても印象評価値を付与し、多くの単語を単語評価値データEに設定することができる。これによりパーソナリティ出力装置1は、ユーザが入力したテキストデータから、ユーザのパーソナリティを示す音象徴語を適切に出力することができる。
【0075】
また本発明の実施の形態に係る単語評価値生成装置6は、ネットスラング、顔文字等の未知語についても、印象評価値を算出することができる。マイクロブログは、ネットスラング等の通信ネットワーク固有の用語で表現されたり、砕けた表現が多用されたりするところ、これらの未知語も考慮して、ユーザのパーソナリティを示す音象徴語を、精度良く出力することができる。
【0076】
(その他の実施の形態)
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
【0077】
例えば、本発明の実施の形態に記載したパーソナリティ出力装置および単語評価値生成装置は、図1および図7に示すように、それぞれ一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、パーソナリティ出力装置および単語評価値生成装置の各機能は、一つのハードウエア上に構成されても良い。
【0078】
また本発明の実施の形態に示した処理順序は一例であって、この順序に限定されるものではない。
【0079】
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
【符号の説明】
【0080】
1 パーソナリティ出力装置
6 単語評価値生成装置
10、60 記憶装置
11 対象テキストデータ
20、70 処理装置
21 対象テキスト取得部
22 出力部
61 プリミティブワードデータ
62 類似度データ
71 プリミティブワード評価値設定部
72 未知語評価値算出部
73 単語評価値データ生成部
E 単語評価値データ
N 音象徴語評価値データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11