twitterで自然言語処理

海野 裕也
リサーチャー

2011-08-20 10:32:12

勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。

どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。
数えてみたら、重要国際会議であるACLで6件、EMNLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。

Cooooooooooooooollllllllllllll!!!!!!!!!!!!!!
UsingWord Lengthening to Detect Sentiment in Microblogs

Samuel Brody, Nicholas Diakopoulos.
EMNLP 2011. pdf

まず目を引くのが、この面白いタイトル。ふざけた研究の様に見えますが、EMNLPは自然言語処理の中でもトップの会議の一つです。twitterを始めとするmicro blogなどのCGM (Consumer Generated Media) データ、つまり一般消費者が書くようなメディアには、Coooooolの様な繰り返し表現が出やすいということに着目しています。テーマの一つはこうした崩れたスペルをもとの正規形、つまりcoolに戻すこと、もうひとつはこうしたスペルを長くする現象が、意見や評価を述べる書き込みに出現しやすいということです。前者の問題は、cool, cooool, coooooolなどの繰り返し部分を無視して単語を集めて、最も頻度の高い表記に正規化することで実現できるよ、という割と簡単なものです。2番目のテーマは実際に意見を示すような語彙集合との相関を実験的に測って、実際にこうした現象が発生しやすい単語は意見を示す語彙である可能性が高いことを示します。特に、バリエーションの多い語ほど、意見を言う語の可能性が高いことがわかりました。最後に、こうして得た語彙の極性(ポジティブかネガティブか)を、既存のラベル伝搬アルゴリズムを使って判定する実験を行っています。
この研究の面白いところは、スペルのバリエーションという機械的に取得できる特徴だけで、分野に依存した評価表現を自動的に取得しようとしたことだと思います。私は企業で働くようになってから、お客様ごとの分野依存性というものを強く感じるようになりました。一方でお客様ごとに言語リソースを整備するのは極めてコストが掛かります。この研究のように何かしらの汎用的な現象を種にして基礎的な辞書を自動的に構築できるというのは、応用上極めて重要だと考えています。
また、CGMデータのようなデータは文体が崩れやすい、という話も流行っていて、言語処理学会の年次大会でも、「不自然言語処理」というテーマでテーマセッションがありました。CGMデータに対する言語処理的な興味と、評判情報などの実務的な興味があって、しばらくこうした流行は続きそうです。

Target-dependent Twitter Sentiment Classification
Long Jiang, Mo Yu, Ming Zhou, Xiaohua Liu, Tiejun Zhao.
ACL 2011. pdf

twitterから製品などの評判を分析するというのが、この論文のテーマです。処理は3段階に行います。まず、つぶやきが主観的か客観的かの分類を行います。評判情報が入っているのは、主観的なつぶやきの方です。次に、主観的なつぶやきがポジティブなことを言っているかネガティブなことを言っているか分類します。最後に、関連するつぶやきに対してもグラフアルゴリズムによって評価を伝搬させます。
主な工夫は2つあります。ひとつは評価対象の拡張です。Microsoftの評価を書くときに、「Microsoftの技術」の様に、対象そのものではなくて、対象のもつ何かしらの要素に言及することが多いことを利用して、この要素を取り出します。これには評価対象の語(ここではMicrosoft)と十分高いPMI(Point-wise Mutual Information; 自己相互情報量)を持っている語(ここでは技術)を選択します。また、これらの評価対象の語と、それを目的語とする動詞にも着目します。例えば、I love iPhoneと書かれているとき、”love_iPhone”を特徴量とするということです。評価の伝搬は、twitter特有のつぶやき間の関係、つまりRT関係やreply関係を利用します。例えば、RTは同じ評価になりやすいなどの制約を持たせて、全体で一貫性のある評価になるように最適化します。
twitterデータを評判分析に使いたいというのは、極めて自然な要望で、ストレートにそれに取り組んだ研究です。著者はMicrosoftの研究者ですから、企業側からもこうした需要が高まっていることを匂わせています。

Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments
Kevin Gimpel, Nathan Schneider, Brendan O’Connor, Dipanjan Das, Daniel Mills,Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey Flanigan, Noah A. Smith.
ACL2011. pdf

代わって、より基礎的な研究を紹介します。品詞タグ付けというタスクは、各単語の品詞(名詞とか動詞とか)を当てるという自然言語処理で最も基礎的なタスクの一つです。新聞などのデータに対して極めて高い精度で達成できることが知られていますが、一方で異なる分野のデータに対しては精度が著しく落ちることが知られています。この研究は、twitterのデータに対して品詞タグ付けを行ったというものです。主な貢献として、twitterに対する品詞タグ付きコーパスを作ったこと、それを使った品詞タガーを作ったこと、twitterに特化した特徴量を使ったことが挙げられます。twitter特有の処理としては、例えばRTや@などのtwitter特有の表記、thanksに対するthanxなどのような同じ発音の別表記などを特徴に入れています。結果的に1000文の小さな正解セットから90%近い精度を達成しています。
内容としては目新しさはないものの、コーパスづくりから品詞セットを決めて、実際に実験するところまでをかなり短期間で行っています。また、地味な研究ですがこうした基礎的な部分の成果は、結果的に将来に渡って大きな貢献となることが多いので紹介しました。

単純にtwitterの研究といっても、下のレイヤーから上のレイヤーまで様々です。twitterの様な断片的、時系列的、口語的といった新しいタイプのデータであることが研究者の興味を、一般人の声、大量のデータ、様々な分野といった特徴が、それを利用する企業の興味を引いているような気がしています。弊社でも5月のクラウドEXPOでデモを行ったように、twitterからの情報抽出や分析といった課題に、試験的に取り組んでいます。今後こうしたメディアがどれくらい長く使われていくかの判断は難しいところですが、データの特性をうまく利用しつつも、様々な応用につながるような研究に取り組んでいきたいところです。

Leave a Reply