人工無能onTwitterの制作01 データ取得 文字化け

twitter上の人工無能が作りたくなったので今日から作っていきます。


名前
何にしよう・・・


モチベーション
http://www.ycf.nanet.co.jp/~skato/muno/1intro/index.html


仕様
・機能1:リプライ(@付きメッセージ)に対しリプライ(返信)する
・機能2:フォロワーの発言に対して自信度の高いツッコミをする


基本的な手法
統計的に尤もらしいツイートを探して返すという感じで。
これでリプライに対応できる。


ということでまずはデータ取得。
ツイートのソースは
http://search.twitter.com/advanced
が一番いい気がする。
日本語のみとれるし、疑問文抽出、RSSもある。


perlXML::FeedPPモジュールを使ってRSSを取得する。
そうすると

#12373;ん;

みたいな感じに。。。

JcodeやEncodeの関数を使っても解消されなかった。
いろいろ調べて、
http://d.hatena.ne.jp/irasya/20100218/1266505760
にあるHTML::Entities::decode($str)を使うことでデコード(?)された。