« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

2014年8月29日 (金)

MeCabとScikit-learnで日本語の文章解析楽しそう。

クリスマスに機械学習で彼女ができました。という記事が面白かった。映画の感想のデータベースからウェブスクレイピングして、好きな作品がかぶっている女性ユーザーを見つけようという企画です。

ちょっとBeautifulSoupとか使ってウェブスクレイピングして、機械学習させてごにょごにょやったら面白そうだなぁと思っていたので、非常に参考になった。

MeCabというのはウィキペディアによると:

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。

だそうで、Pythonのバインディングがあるそうです。

英語だとNatural Language Toolkitが有名ですが、日本語にどれだけ使えるのかは疑問だったので、MeCabは頼もしいです。

Scikit-learnは有名ですね。Pythonで機械学習なら一番人気でしょう。ドキュメンテーション・チュートリアルが充実していて、初心者にやさしいです。

これで、ちょっととっかかりがついたのでなんかやってみよっと。

« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

Python」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1169291/57222071

この記事へのトラックバック一覧です: MeCabとScikit-learnで日本語の文章解析楽しそう。:

« 岩瀬章光トリオ、ファーストアルバム「36 Hearts」のおすすめ。 | トップページ | Feedlyの新しいSliderが使いにくいので無効にした件。 »

広告欄


やっつけタイムライン

広告欄

はてブ

人目の訪問です。

  • follow us in feedly

    かなり更新が不定期なため、RSSリーダーをオススメします。現在Feedlyに122人登録頂いています。多謝!RSSを表示

    ブログランキング用 にほんブログ村 IT技術ブログ Pythonへ ブログランキングならblogram






    Jenny Mayhem
2017年2月
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28        

Amazon

IT技術注目記事

無料ブログはココログ