深層ニューラルネットで画像からテキストキャプション生成のデモをトロント大が公開
Nitish Srivastavaさんというトロント大の博士課程の学生さんが深層ニューラルネットをつかった機械学習で画像から自動で説明書きのテキストを生成するというデモを公開しています。
画像を適当にクリックするとトレーニングセットのテキストから一番近い文章、いくつかの自動生成されたキャプションのテキストがでてきます。
説明書きと写真の大量のセットがあればこれくらい可能なのはわりと今では普通かもしれませんが、わりとまともな英語の文章でキャプションが生成されるのがすごいですね。俺の英語よりうまい(;ω;)。
画像を検索するときとか、こういうアルゴリズムで自動でタグをつけたりできるととてもいいですね。グロ系とかを効果的に除外するフィルターとか作れそうです。
おそらくdeepnetという彼が作ったPythonベースでGPUを使用した機械学習のライブラリーをつかったデモなんだと思います。実際のコードを全部公開してくれるといいんだけど、こういうのってIEEEとかで論文にしてアルゴリズムを数式で書いて、図にちょこっと結果を載せて終りなんだよなぁ。
とはいえ、CaffeとかTheanoとかTorchとか、有名なライブラリが出揃っているなか、こういう独自ライブラリはユーザー獲得は難しそう。
自分で似たようなことをしてみたいと思ったらば、PythonならTheanoというGPUもサポートしているライブラリーがオススメ。Deep Learning TutorialsというTheanoのデベロッパーの人たちが書いたチュートリアルがすごくよさそうです。
いつかTheanoで遊んでみたい。
追記。けっこう真面目に始めましたよ。
ウィンドウズでLasagne/nolearn/Theanoで深層畳み込みニューラルネットワークしてみる Theano用にCUDAができるお手ごろGPUを物色中。GTX-960が良さげ
« ガラス化法により低温保存してから生き返らせた線虫は過去の記憶をもっている。 | トップページ | waifu2xを手軽に使えるユーザーインターフェイスが登場 »
「HackerNewsうぉっち」カテゴリの記事
- クマムシの全遺伝情報が解読されたら17.5%がバクテリア・菌類由来。(2015.11.28)
- 有料ゲーム・アプリが「実質タダ」に!Amazon undergroundを試してみた(2015.08.28)
- Windows 10はプライバシーがどうのこうの(2015.08.27)
- チートがバレたバイドゥの画像認識研究チームのリーダーが解雇される。(2015.06.12)
- アセンブリで実装された高級言語Amber(2015.06.12)
「ディープラーニング」カテゴリの記事
- CaffeをWindows 7でcuDNN付きでビルド。(2016.07.14)
- Theano用にCUDAができるお手ごろGPUを物色中。GTX-960が良さげ(2016.03.05)
- ウィンドウズでLasagne/nolearn/Theanoで深層畳み込みニューラルネットワークしてみる(2016.02.27)
- ウィンドウズでCUDA付きでTheanoインストール!Python3.5でもできた。(2016.02.18)
- チートがバレたバイドゥの画像認識研究チームのリーダーが解雇される。(2015.06.12)
« ガラス化法により低温保存してから生き返らせた線虫は過去の記憶をもっている。 | トップページ | waifu2xを手軽に使えるユーザーインターフェイスが登場 »
コメント