たにちゅーの思惑|谷口忠大Home Page(たにちゅー・どっと・こむ)

2023 年 12 月
« 1 月    
 123
45678910
11121314151617
18192021222324
25262728293031

新着記事

最近のコメント

HOME > たにちゅーの思惑 >  研究 > Hierarchical Topic Models and the Nested Chinese Restaurant Process のメモ

Hierarchical Topic Models and the Nested Chinese Restaurant Process のメモ

2012-04-19 (thu)|カテゴリー:

Tehさんの NIPS2011のチュートリアル

Modern Bayesian Nonparametrics.

http://www.gatsby.ucl.ac.uk/~ywteh/teaching/npbayes.html

で,Tree構造関係のノンパラベイズの方法で引用されていたので,

以前から読みたかったので読んでみた.

 

文章クラスタリングの手法であるLDAを階層化するという話.

http://books.nips.cc/papers/files/nips16/NIPS2003_AA03.pdf

 

最初,なんかよくわからなかったのですが,

僕が勝手にイメージしていた,階層のイメージと本論文の階層のイメージが 合わなかったで,

はじめ理解に苦労しました.

 

LDAはざくっといえば,文章はトピックの多項分布で,トピックは単語の多項分布ってことで

文章がbag-of-wordsとして出力されているという,さっぱりしたベイズの生成モデルのイイ例なのですが.

トピックの間に階層関係などはない.

 

hLDAはトピックにツリー構造を入れようとしている.

 

2003年だから,もう10年ほど前の話なんですね.

はい,不勉強ですみません・・・.

 

image

グラフィカルモデルはこんな感じ.

左のc_n がツリーのノードに対応している.

ちなみに,左からの矢印が繋がっていたり,つながってなかったりで,うん? と思うし,

c1 –> cLの path とかがよくわかんなくて,Bleiさんのこのグラフィカルモデル,これで間違いないのか

僕には自信がないです.(僕に自身がなくてもnips acceoptされてんだから,これでいいんだろうけど・・・)

 

でもって,c に対応する,トピックのノードが

image

Lレベルのツリー構造もっているんですね.

 

もちろん,ツリー構造も推定されます.

 

どういうモデルかというと,

まず,トピックにはtree構造があります.

で,文章は複数のトピックを持つのですが,

その複数の持ち方というのがトピックツリーのルートノードから,リーフへのpathとして表現されます.

つまり,

上の 2 なら beta1,beta2,beta5 をトピックのパラメータとしてもつ.

 

これらのmixtureから文章(単語の集合)が生成される と考える模様.

 

階層というか,

mixture っぽいんですよね.mixture component の選び方に,ツリー構造的な制約を入れた

という理解が正解な気がします.

Experimentでのsynthetic data での実験例が,それを端的に表しているように思う.

 

image

 

共通項~個別項という分け方での分解という感じなんでしょうね.

感覚的には,どれにでも出てくる, document frequency の高いワードがroot ノードに行くようで,

tf-idfみたいな文脈とかで使えたりするのかなぁ.と思ったりもしました.

 

前後してPitman-Yor diffusion tree とか読んだけど,木の生成モデルとしても大分違いますね.

はい.

 

 

ちなみに,上記は僕の勝手な解釈なので,絶賛間違い指摘募集中.

 

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大)@tanichu

.@gavangavan @super_reader ルートノードのトピックは全文書上で共有されるので SN比を良くする用途にも使えそうな気がします.> nested CRP = hLDA

2:22 PM - 18 Apr 12 via TweetDeck · Details

 

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大)@tanichu

nested CRPのグラフィカルモデルは なんか,これでホントにいいのかなぁ?http://bit.ly/IM7s9U ちょっとよくわからないや.

1:14 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大)@tanichu

「階層」という言葉にもいろいろあるものよのう. Dirichlet/Pitman-yor diffusion tree とか Kingman’s coalescent とかも,同じような意味での買いそうなのだろうか?それとも違うのだろうか?不勉強だから勉強しないとだめね.

1:11 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大)@tanichu

nested とかいっておられるが,寧ろ親子関係が 並列になっていて,そやつらが,mixtureを構成する用な感じか... 確かに,木構造の制約をいれたら,root nodeは 全ドキュメントに共有されるトピックになるわけで, たしかに,hierarchical っぽくはなる.

1:09 PM - 18 Apr 12 via TweetDeck · Details

たにちゅー+Rやで(谷口忠大)たにちゅー+Rやで(谷口忠大)@tanichu

nested CRP って木のノード毎にトピックがあって,その混合でドキュメントを表すってことか????

1:06 PM - 18 Apr 12 via TweetDeck · Details

コメントの投稿




*


下記のタグが使用できます。
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt=""> <pre lang="" line="" escaped="">

インフォメーション



tanichuの著作

copyright © Tadahiro Taniguchi All Right Reserved.