书签分享收藏举报版权申诉 / 9

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 环境科学食品科学 > LDA using Gibbs SamplingWord文档格式.docx

LDA using Gibbs SamplingWord文档格式.docx

文档编号：19422036
上传时间：2023-01-06
格式：DOCX
页数：9
大小：139.45KB

《LDA using Gibbs SamplingWord文档格式.docx》由会员分享，可在线阅读，更多相关《LDA using Gibbs SamplingWord文档格式.docx（9页珍藏版）》请在冰豆网上搜索。

LDA using Gibbs SamplingWord文档格式.docx

ϕk,t=（n（t）k+βt）/（nk+βt）

θm,k=（n（k）m+αk）/（nm+αk）

来源：

隐含狄利克雷分布维基百科

Gibbs抽样解LDA

[csy]LDA参数推理采用的是Gibbs抽样

1、Gibbs抽样：

对P（z），z是向量，按照Gibbs描述的步骤，可以抽取z

（1）,z

（2）,...z（n）这n个样本，Gibbs保证这n个样本的分布服从P（z）。

z（0）=（z1,z2,...,zn）

Repeat

for

i

=

1

to

n

从p（zi|z1,z2,...,zi,zi+1,...,zn）中抽取zi

得到z（t）=（z1,z2,...,zn）

2、上面描述了一个一般的Gibbs抽样过程，假设重复N次，将得到z

（1）,z

（2）,...,z（N）个样本。

抽样有一个收敛到目标分布的过程（burn-in），假设需要a次，那么可以认为z（a）,z（a+1）,...,z（N）都是从P（z）中抽取出来的。

Gibbs抽样中相邻两次得到的样本是相关的，因此通常每隔b次才抽样一次，来消除这种相关性。

在实际中a和b通常采取预设置的方法比如几千设为a，几十或者几百设为b，因为二者没有很好的理论设置方法。

3、假设通过Gibbs抽样我们得到了M个服从P（z）分布的样本，可以用来做什么？

1）可以求期望：

直接求样本平均即可

2）可以求函数期望：

将样本做相关的函数变换得到新的样本集，求平均即可

3）直接利用样本本身，求相关的统计量

这三种操作在P（z）本身比较复杂但是p（zi|z1,z2,...,zi,zi+1,...,zn）容易求解的时候十分有用。

4、在LDA中我们关注三个参数z，theta和phi。

其中z是语料中每一个word对应的隐变量（主题），theta是语料中每一个文档的主题分布，phi是每一个主题的term分布。

其实只要求得z，其他两个可以通过简单的似然估计得到。

于是需要将LDA的概率公式P（w,z,theta,phi

|

alpha,beta）通过积分的方法把theta和phi积掉，剩下P（w,z

alpha,beta）。

然后求解P（z|w,alpha,beta）

P（w,z

alpha,beta）

/

P（w

alpha,beta），由于分母要对K的n次方个项求和因此直接求不可行（其中K是主题数，n是词汇表的长度）。

Gibbs抽样就是要完成对P（z|w,alpha,beta）的抽样，利用抽样结果通过简单的似然估计求得theta和phi。

Gibbs抽样解LDA_superbear_新浪博客

用GibbsSampling学习LDA

GibbsSampling是Markov-ChainMonteCarlo算法的一个特例。

这个算法的运行方式是每次选取概率向量的一个维度，给定其他维度的变量值Sample当前维度的值。

不断迭代，直到收敛输出待估计的参数。

可以图示如下：

初始时随机给文本中的每个单词分配主题

然后统计每个主题z下出现termt的数量以及每个文档m下出现主题z中的词的数量，每一轮计算

，即排除当前词的主题分配，根据其他所有词的主题分配估计当前词分配各个主题的概率。

当得到当前词属于所有主题z的概率分布后，根据这个概率分布为该词sample一个新的主题

。

然后用同样的方法不断更新下一个词的主题，直到发现每个文档下Topic分布

和每个Topic下词的分布

收敛，算法停止，输出待估计的参数

和

，最终每个单词的主题

也同时得出。

实际应用中会设置最大迭代次数。

每一次计算

的公式称为Gibbsupdatingrule

注：

是先拿出当前词,计算文档m中第n个词的新主题（因为初始随机分配一个主题）的公式。

LDA建模

LDA是一种生成式的主题模型，能够对文本集合进行建模，从而得到文本与特征之间隐含的关系，它可以随机生成一篇由所有的隐含主题组成的文章。

[有人做过模拟实验，使用12个topic按照LDA生成模型随机生成几百万篇文档，然后使用LDA训练模型，几十个迭代之后，模型几乎完美收敛到原始的12个topic.]

LDA模型采用词袋（bagofword,BOW）的方法，认为文本就是一个词语构成的集合，从而将每个文本看作一个向量的形式，将非结构化的文本信息转化为易于建模的结构化信息。

LDA模型是三层贝叶斯模型，由词（word）、文本（document）、主题（topic）组成。

词是描述非结构化数据的基本单位；

文本可以看作N个词的序列，记为d=（w1,w2...wN）,其中wi表示第i个词；

主题的数为K，且主题之间相互独立；

整个语料库是M个文本的集合，记为D=（d1,d2...dM）。

对于语料库中的每篇文档，LDA定义了如下生成过程（generativeprocess）：

1.对每一篇文档，从主题分布中抽取一个主题；

2.从上述被抽到的主题所对应的单词分布中抽取一个单词；

3.重复上述过程直至遍历文档中的每一个单词。

1、数据预处理

将初始的文本集处理成词的集合，即d=（w1,w2...wN）,其中N为文本d中词的个数。

对数据集进行分词，即可将文本集在形式上变为如上格式。

进一步去除停用词，再根据建模的目的，去除可能会造成干扰的词，比如基于主题的，希望选出的特征能够很好的反应文本描述的对象，容易想到，除名词之外，其他的词起不到这样的作用；

比如基于观点的，只有观点词才能够对作者观点起到描述作用，介词、代词没有识别作用；

2、建模过程

LDA建模是将每篇文本看作K个主题的一个混合，更形式化的说，对于文本集中的每篇文本，与K（假设为已知的）个主题的一个这样的多项分布相对应，将该分布记为ϑ（即thetaθit西塔），每个主题又与词表中V个词的一个多项分布对应，该分布记为ϕ（即phifai佛爱）。

ϑ是一个带有超参数α（即alphaa:

lf阿尔法）的Dirichlet先验分布，ϕ是带有β（即betabet贝塔）的Dirichlet先验分布。

3、实现工具

见“GibbsLDA++”，是一个c++版本的使用Gibbssampling的LDA实现。

应用领域见章节”applicationareas”的介绍。

GibbsSampling学习LDA参数的算法伪代码如下:

Gibbsupdatingrule:

Multinomial分布的参数

和

的计算公式如下:

解释：

ϕk,t表示的是：

topic-worddistributions（phifai佛爱）

ϑm,k表示的是：

document-topicdistributions（thetaθit西塔）

ϕk,t

主题-词分布

ϑm,k

文档-主题分布

超参数

nk（t）

分配给主题k的词t的词数

nk

分配给主题k的词数

nm（k）

文本m中分配给主题k的词数

nm

文本m中所有的词数

V

词的总数

K

主题的总数

3.1输入：

数据输入格式统一如下，

[M]

[document1]

[document2]

...

[documentM]

第一行的M表示文本集中文本的总数.下面的每一行记录就是一个文本（这里的文本不是初始的文本）.文本格式如下：

[documenti]=[wordi1][wordi2]...[wordiNi]

其中[documenti]是第i个文本，包含可Ni个词/术语的数据集。

即每篇文章占一行，对于英文来说，每个词之间已经用空格分开了，但是中文不行，所以你要先对文章进行分词。

3.2输出：

模型建立以后，会输出5个分别以others,phi,theta,tassign,twords为后缀名的文件，每个文件的含义如下（按照pdf手册）：

1）others:

文件保存的是与LDA模型有关的参数

alpha=?

#α

beta=?

#β

ntopics=?

#numberoftopics

ndocs=?

#numberofdocuments

nwords=?

#thevocabularysize

liter=?

#theGibbssamplingiterationatwhichthemodelwassaved

2）phi：

文件存储的是”词-主题”的概率分布（即主题数×

词数量的矩阵），每一行是主题，每一列是词，元素值为p（wordw|topict）即分配给主题t的词w的概率（即某一主题选择词的概率）。

注-csy：

源码中计算phi，从源码注释中得知是”主题-词”的概率分布；

但看phi文件的行数确实是主题的总数（ntopics）；

所以是按照pdf而不是代码注释的，应是”词-主题”

3）theta:

文件存储的是”主题-文本”的概率分布（即文档数×

主题数的矩阵），每一行是文本，每一列是主题，元素值为p（topict|documentm）即文档m中分配到主题t的概率（即每一个值都表示该文档选择了对应主题的概率）。

源码中计算theta，从源码注释中得知是”文本-主题”的概率分布；

但看theta文件的行数确实是文本的总数（ndocs）；

所以是按照pdf而不是代码注释的，应是”主题-文本”

4）tassign:

文件保存的是训练样本数据的词对应的主题映射，每一行是一个文本，存储一个集合<

wordij>

:

<

topicofwordij>

即文本i中第j个词（其实是id，见wordmap.txt）：

该词对应的主题，表示的是记录词项指派了其最大可能的所属类簇（csy-类簇是指主题吗？

topic的范围是[0,K-1],K为主题数）。

出现过0:

0（词的id为0）；

6:

0（词的id为6，但对应的主题为0）；

3:

27,3:

89（相同词可对应多个主题--不同主题下的相同词）；

4:

384:

38（相同词可相同主题--相同主题下的相同词）;

38,5:

38（不同的词对应同一个主题--同一主题下不同的词）；

从本文件的数据中，可得到：

文本m中分配给主题k的词数即nm（k），文本m中所有的词数即nm，分配给主题k的词t的词数即nk（t），分配给主题k的词数nk。

利用nk（t）和nk可求出ϕk,t即phi文件数据，利用nm（k）和nm可求出ϑm,k即theta文件数据。

5）twords:

文件为”词-主题推断”，推断出每个隐含主题最相关的前twords个词及其概率。

-ntopics（命令行设定），-twords（命令行设定）

另：

也输出了一个名为wordmap.txt的文件（即训练文本的词频统计），保存的是词的总数，及词与词的id（整数，从0开始）之间的映射。

这是因为GibbsLDA直接作用于词/术语的ids，来代替作用于文本字符串。

[csy:

这样的结果和SVD分解的过程比较象，一个是从矩阵分解的角度去寻找语义，一个是从概率的角度去抽样寻找语义。

]

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: LDA using Gibbs Sampling

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：LDA using Gibbs SamplingWord文档格式.docx
链接地址：https://www.bdocx.com/doc/19422036.html

LDA using Gibbs SamplingWord文档格式.docx

热门标签