« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

2014年8月29日 (金)

MeCabとScikit-learnで日本語の文章解析楽しそう。

クリスマスに機械学習で彼女ができました。という記事が面白かった。映画の感想のデータベースからウェブスクレイピングして、好きな作品がかぶっている女性ユーザーを見つけようという企画です。

ちょっとBeautifulSoupとか使ってウェブスクレイピングして、機械学習させてごにょごにょやったら面白そうだなぁと思っていたので、非常に参考になった。

MeCabというのはウィキペディアによると:

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。

だそうで、Pythonのバインディングがあるそうです。

英語だとNatural Language Toolkitが有名ですが、日本語にどれだけ使えるのかは疑問だったので、MeCabは頼もしいです。

Scikit-learnは有名ですね。Pythonで機械学習なら一番人気でしょう。ドキュメンテーション・チュートリアルが充実していて、初心者にやさしいです。

これで、ちょっととっかかりがついたのでなんかやってみよっと。

« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

Python」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: MeCabとScikit-learnで日本語の文章解析楽しそう。:

« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

やっつけタイムライン

オススメたち

  • Librem One

    LibremOneでプライバシーを取り戻せ!VPN、eメール、チャット、ソーシャルメディア詰め合わせサービス

    follow us in feedly

    かなり更新が不定期なため、RSSリーダーをオススメします。RSSを表示

    超安定なLinux Mintを応援中



    超かっこいいジャズピアノ岩瀬章光

    Jenny Mayhem超おすすめ

    今読んでいる

2019年9月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

はてブ

無料ブログはココログ