Hierarchical Topic Models and the Nested Chinese Restaurant Process のメモ
Tehさんの NIPS2011のチュートリアル
Modern Bayesian Nonparametrics.
http://www.gatsby.ucl.ac.uk/~ywteh/teaching/npbayes.html
で,Tree構造関係のノンパラベイズの方法で引用されていたので,
以前から読みたかったので読んでみた.
文章クラスタリングの手法であるLDAを階層化するという話.
http://books.nips.cc/papers/files/nips16/NIPS2003_AA03.pdf
最初,なんかよくわからなかったのですが,
僕が勝手にイメージしていた,階層のイメージと本論文の階層のイメージが 合わなかったで,
はじめ理解に苦労しました.
LDAはざくっといえば,文章はトピックの多項分布で,トピックは単語の多項分布ってことで
文章がbag-of-wordsとして出力されているという,さっぱりしたベイズの生成モデルのイイ例なのですが.
トピックの間に階層関係などはない.
hLDAはトピックにツリー構造を入れようとしている.
2003年だから,もう10年ほど前の話なんですね.
はい,不勉強ですみません・・・.
グラフィカルモデルはこんな感じ.
左のc_n がツリーのノードに対応している.
ちなみに,左からの矢印が繋がっていたり,つながってなかったりで,うん? と思うし,
c1 –> cLの path とかがよくわかんなくて,Bleiさんのこのグラフィカルモデル,これで間違いないのか
僕には自信がないです.(僕に自身がなくてもnips acceoptされてんだから,これでいいんだろうけど・・・)
でもって,c に対応する,トピックのノードが
Lレベルのツリー構造もっているんですね.
もちろん,ツリー構造も推定されます.
どういうモデルかというと,
まず,トピックにはtree構造があります.
で,文章は複数のトピックを持つのですが,
その複数の持ち方というのがトピックツリーのルートノードから,リーフへのpathとして表現されます.
つまり,
上の 2 なら beta1,beta2,beta5 をトピックのパラメータとしてもつ.
これらのmixtureから文章(単語の集合)が生成される と考える模様.
階層というか,
mixture っぽいんですよね.mixture component の選び方に,ツリー構造的な制約を入れた
という理解が正解な気がします.
Experimentでのsynthetic data での実験例が,それを端的に表しているように思う.
共通項~個別項という分け方での分解という感じなんでしょうね.
感覚的には,どれにでも出てくる, document frequency の高いワードがroot ノードに行くようで,
tf-idfみたいな文脈とかで使えたりするのかなぁ.と思ったりもしました.
前後してPitman-Yor diffusion tree とか読んだけど,木の生成モデルとしても大分違いますね.
はい.
ちなみに,上記は僕の勝手な解釈なので,絶賛間違い指摘募集中.
.@gavangavan @super_reader ルートノードのトピックは全文書上で共有されるので SN比を良くする用途にも使えそうな気がします.> nested CRP = hLDA
2:22 PM - 18 Apr 12 via TweetDeck · Details
nested CRPのグラフィカルモデルは なんか,これでホントにいいのかなぁ?http://bit.ly/IM7s9U ちょっとよくわからないや.
1:14 PM - 18 Apr 12 via TweetDeck · Details
「階層」という言葉にもいろいろあるものよのう. Dirichlet/Pitman-yor diffusion tree とか Kingman’s coalescent とかも,同じような意味での買いそうなのだろうか?それとも違うのだろうか?不勉強だから勉強しないとだめね.
1:11 PM - 18 Apr 12 via TweetDeck · Details
nested とかいっておられるが,寧ろ親子関係が 並列になっていて,そやつらが,mixtureを構成する用な感じか... 確かに,木構造の制約をいれたら,root nodeは 全ドキュメントに共有されるトピックになるわけで, たしかに,hierarchical っぽくはなる.
1:09 PM - 18 Apr 12 via TweetDeck · Details
nested CRP って木のノード毎にトピックがあって,その混合でドキュメントを表すってことか????