Last modified: 2006.08.07 23:11:01 JST
評価値表現辞書 (評価表現辞書)
はじめに
近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知
されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています.
実際に,ここ数年で意見を扱った多くの研究が発表されています
(関連研究についてはこちらをご参照ください).
意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます.
我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました.
この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです.
評価値表現辞書とは
評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です.
我々は評価を以下のように定義しています.
評価の主体が評価対象のクラスに対して期待している標準値から実際の評価対象がどれくらい偏位しているか,
そしてそれが「望ましい」偏位であるか「望ましくない」偏位であるかに関する評価主体の認識で,その言明
この定義に基づき,主に以下の二つに属する表現を評価値表現として収集しています.
収集した表現はあくまで「評価値になり得る可能性のある表現」であり,必ず評価値になる表現ではないことにご注意ください.
なお,これらの表現には評価極性は付与されておりません.
e.g. 高い,安い,硬い,軽い,...
特定の評価対象に対する評価者(書き手もしくは第三者)の感情や心的な態度を表す表現
e.g. 好き,嫌い,腹立つ,嬉しい, むかつく...
英語ではsemantic orientation, sentiment polarityと呼ばれるもので,主に肯定(positive)と否定(negative)の2値で考えられています.
これらの用語は統一して使用されていないのが現状ですが,ここでは乾らの呼び方に従い評価極性と記述します.
乾孝司, 奥村学.テキストを対象とした評価情報の分析に関する研究動向.自然言語処理 Vol.13, No.3, pp.201-241.2006.
辞書のフォーマット
2006年7月現在,辞書の規模は約5,200表現です.
Ver.1.0.1から,品詞付きと品詞なしの二つのファイルを公開するようにしました.
品詞付きと品詞なしでは登録されている表現の数が違いますが,これは一つの表現に対して複数の品詞を許していることに
起因しています.
品詞付き辞書
辞書の表現は形態素ごとにスペースで区切られており,すべて原型になっています.
また,各形態素は'+'で品詞が付与されています.
形態素解析は茶筌で行なっています.品詞体系はIPADICをご参照ください.
以下,いくつか例を示します.
あきれる+動詞-自立, いい+形容詞-自立, ありがた迷惑+名詞-形容動詞語幹
いい+形容詞-自立 気持ち+名詞-一般, いただける+動詞-自立 ない+助動詞
品詞なし辞書
品詞付きと違い,形態素ごとの区切りはありません.
上の例の表現は,この辞書では以下のようになっています.
あきれる, いい, ありがた迷惑
いい気持ち, いただけない
辞書のダウンロード
こちらからお願いいたします
新着情報
- 2006-07-29: EVALDIC_ver.1.0.1
- いくつかの表現を削除
- 品詞付きと品詞なしの二つの辞書を公開
2006-04-12: EVALDIC_ver.1.0
辞書に関する参考文献
小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.2, pp.203-222, 2005.07
小林のぞみ, 乾健太郎, 松本裕治. 意見情報の抽出/構造化のタスク仕様に関する考察. 情報処理学会研究報告 NL171-18, pp.111-118, 2006.01.
間違い,質問,コメントなどは nozomi-k _AT_ syncha.org までお願いいたします.