京公网安备 11010802034615号
经营许可证编号:京B2-20210330
广点通背后的大数据技术秘密_大规模主题模型建模及其在腾讯业务中的应用(附PPT)二
我们看下一个例子,我们如果把”苹果”输入Peacock,我们打印出来几行,第一行 ” 苹果、收集、iphone、电脑…” 基本上讲苹果手机,第二行”范冰冰、苹果、电影、佟大为…”,这一行就是讲范冰冰和佟大为拍的《苹果》电影。第三行还是讲手机,第四行” 千克、大米、苹果…”,这个是讲水果。 所以系统对”苹果” 给出了多义词的解释。我们改一下输入,比如说输入”苹果大尺度”,我们会发现这时候排在第一位不再是苹果手机,排在第一位是范冰冰《苹果》电影。从语义排序来说,传统的排序处理方式很难发现这个语义是跟电影相关的。如果把输入修改为”苹果价格”,我们发现,这个系统排在第一位就是苹果手机。
最后一个例子”莫代尔”,Peacock 输出的第一个语义是什么?”内衣、饱暖、性感…”, 之前我并懂这个词,这个词我们在网络上搜一下才发现,莫代尔是一种内衣的材料,一般男性都不太清楚,女性可能知道。所以对于一些长尾语义,系统也能挖掘出来。
总体上这是我们系统做的事,我们把系统命名为Peacock,孔雀,原因我们是觉得互联网需要挖掘长尾的语义,主题模型能够突破传统处理的一些限制,挖掘数据里面深层的隐含语义。这个系统是由王益博士主导设计的,我们团队从2010年开始陆续折腾了四年,在这个方向有很大投入。

接下来我们讲一下主题模型一些背景。在座的来自各行各业,有可能有人不太清楚什么是隐含主题模型,我用几张幻灯片介绍一下主题模型背后的含义。传统的文本建模,譬如语言模型建模,基本假设是一个词按照概率跳跃到下一个词再跳跃到下一个词,这种 NGram模型解决语音识别、机器翻译的时候非常有效。另外一种文本建模的方式就是隐含主题模型,这个假设是怎么样的?是说人写文章的时候其实先设定主题,然后由主题生成词的,而不是第一个词生成下一个词。举一个例子,假设一个记者想写一篇文章报道我们技术大会,文章可能有不同的几个主题,我们把不同的主题理解为用词的不同,讲到计算机这个主题,可能会用到”内存、硬盘、CPU、编程语言、C++ …”等这些词,讲到晚宴这个主题的时候,可能会用到 “晚宴、酒…” 这些词。 在建模的时候,主体模型认为,不同的主题是用词的概率分布来描述的。
基于上面的假设,我们实际上是使用一个三层结构(幻灯片上的)在写文章的:黑节点代表文档,中间的不同颜色节点是不同的主题, 蓝色节点代表词。每个词在文档中的生成过程是:文档先选定一个主题,然后由主题选定一个词,这就是最传统的主题模型。这里面问题是这样的:我们做了这个模型假设以后,其实我们观察到是文档和词,左边和右边的节点是我们观察到的,中间这一层节点是隐含层我们观察不到。文档和主题之间的边上有概率分布,主题和词之间的边上也有概率分布,每一条边粗细的区分意思是说概率不一样。
这个模型中我们假设每一条边表示一个概率值,对应一个模型参数。 这个是传统频率派的模型,叫 PLSA 模型,在贝叶斯统计理论框架下,任何一个参数都是随机变量,每一个概率边对应的模型参数都有一个先验分布,引入这个先验后PLSA模型就被改造成了LDA 模型。在主题模型中,整个文档生成过程就是走概率路径选词的过程。譬如,这个词可以从红色这条路径生成,也可以从绿色、蓝色这条路径走。如果说文档生成的时候,中间的隐含主题层能够被观察到,模型训练实际上就变得特别简单:参数预估的时候统计数数就行了,把数数出来频率计数放在每条边上,最后做一个 Normalization 就变成一个参数概率预估值。


问题是中间的隐含层是观察不到的,观察不到的时候应该怎么做?这个模型怎么训练?数学家给我们提供了一种漂亮的方式:分三步就可以把模型训练出来。
第一步,中间的隐含主题我们不知道,那首先每个词的主题随机给。譬如第一篇文章,我们让第一个词走红色这条路径生成出来,第二个词也走红色路径,第三个词走蓝色路径,每一个词走哪个路径先随机给。随机给完以后我们可以数数了。左边的边上数出文档到主题的计数,右边的边上数出主题到词的计数,有了这些计数就可以估计模型的两类参数:文档到主题的概率值和主题到词的概率值。于是每一条边上都有模型参数的概率估计值。
第二步,就是重新的采样每个词对应的主题,物理含义就是按照概率分布重新走路径。对每一个词我重新选一条路径,第一个词刚开始走红色这条路径,现在评估一下走红色这个路径好不好,这个词有三条路径走到这里,走红色、绿色、蓝色,我们把三条路径概率都算出来,原来走红色的路径我重新采样之后变成走蓝色的这条路径。整个模型训练里面就是对每一个词重新走一下路径,如果原来走红色现在走蓝色了,红色路径的频率计数减1,蓝色路径变成加1。第三步,重复上面的采样过程,这直到模型收敛。 只要不断简单迭代每一个词,确定一下应该走哪个路径,然后整个语料大约迭代200遍,这个模型就能收敛,非常简单。所以这个模型训练我们其实做什么事情?每一个词我们只要随机给完以后,我们对每一个词的主题做重新的采样,确定一下原来路径好不好,不好我就调整一下,唯一做的事情就是在所对应的路径的边的上做统计计数,这个就是LDA 主题模型的直观解释。

就是这么一个简单的模型要把它做大规模并不容易。去年之前没有人把这个模型中间层做大,做到100万的主题,我们实际的工业应用中遇到了很多问题,我们团队遇到很多的问题,有三个问题我们列在这里。
第一个问题就是如何提升采样的速度,也就是说你从一条路径换到另外一条路径的时候,换的速度太慢了,我们需要有一个更好的算法,把这条路径切换到另一条路径。传统的算法里面,我要算每一条路径的概率值,然后从中挑一个路径,如果有100万个主题就需要一百万次计算,这个太慢了,工程上受不了。
第二个如何支持大数据大模型,我们互联网都是以亿、百亿论,左边文档是亿级,右边词汇是百万级,中间我们希望是百万级,两年前学术界最多做到一万,当时我们团队开发Peacock 的时候,定位就是说我们做到一百万主题。
第三个问题就是说如何提升模型的质量,我们做工业的应用一定把这个模型质量提升,超参数 α和β在模型质量提升中有重要影响。
整个Peacock对这三个问题的解答。第一个对于速度,我们用了一个新的算法叫做SparseLDA,速度可以比标准算法快30倍;第二个怎么支持大数据大模块,我们说矩阵分块并行计算。我们支持中间的隐层达到100万个; 第三个问题是模型质量问题,每一个迭代中我们对α和β做一些优化,后期我们做细节讨论会对模型质量有很大提升。

第一个问题我展开讲一下,标准LDA采样,如果有100万个主题我要做100万次计算,但是一个文档通常是10 个词左右,你去随机化的时候每一个词打一个颜色也就是你这个文档有十几个颜色,这是sparse的结构,利用这个 sparse 的结构就可以大大提升计算速度,于是工程应用上就不是问题了。 当然现在 SparseLDA 已经不是最快的算法了,今年研究界又一次把采样算法提升了。
第二个问题是我们有十亿篇文档、百万的词汇,百万的主题,我们怎么做模型的并行和数据的并行。我们把整个的数据用一个矩阵来表示,我们希望去做数据并行和模型并行,数据并行上在机器学习界早就解决了问题,简单的做法是,整个数据并行的过程当中,数据分块以后每一个数据生成局部模型,然后归并为一个全局模型,最后把全局模型回传回来更新每一个局部模型。这里面有一个问题有可能我们模型太大了,无法存在单机的内存里。所以我们要考虑对模型也并行化。 我们做一个更好的设计就是把模型和数据同时做,切片成 3*3 九宫格的格式,然后我们按照网格对角线的方式进行并行,所以这时候我们发现至少三个worke可以并行工作不相互干扰,没有任何加锁的困扰。我们现在在这边实际上画了三个,在实际的过程当中把数据和模型都切成N份。这条对角线上的三个可以并行工作,同样第二条对角线和第三条对角线上的worker 也是可以并行工作的。所以这就大大提高了计算的并行性,提升了计算效率。
第三个问题我们讲模型质量的优化,标准LDA训练过程中,对于α和β的数参是人工指定的,譬如α= 0.01。 这个代表什么含义?我们做模型训练的时候实际上对每条边做频率计数,数完以后,如果说一条边没有计数那么这个概率就是零。不过在贝叶斯学派认为这个不应该是零,应该填一个很小的值做一个概率平滑,我们可以填一个0.01很小的数值,这样这个路径还是走得通的,这个走得通代表模型具有探索能力。α和β在模型中就是起了这样的作用。给一个α= 0.01使得模型有探索的能力,会探索这个路径好不好,下次更新模型,这个路径好就把老的丢掉了,未来可以重新不断的走这个更好的路径,好的路径概率质量越来越高,差的路径概率越来越低,于是模型质量有自我提升的能力。每个训练迭代中我们对α做一个优化做一个最大似然估计,然后可以观察到整个模型质量非常大的提升。

我最后一部分讲一下Peacock在腾讯业务中的应用,我们把隐含主题模型应用到了腾讯的多个业务中。 腾讯有大量的用户数据,我们在广点通做用户行为的挖掘,从两个角度看用户行为数据,第一个传统的NLP的角度,文本处理的角度;第二个从推荐系统的角度。从文本的角度,我们把Peacock输出放到每个文本里面,使得每个文本可以表示出更好的语义特征,用新的语义特征处理文本的相似度计算,效果会好得多。在腾讯里面我们有NLP的工具,我们开发分词,我们同时要做分类,topic可以认为是一种聚类,把 topic 加到模型中作为特征,提升整个语义处理的能力。在实际业务中的应用,我们曾经优化过广告相关性,把 topic 加到整个相关性计算中,搜索的相关性准确度提升很显著。
另外一点从推荐系统角度理解语义挖掘。腾讯业务中的一个更大的矩阵就是QQ到QQ群矩阵,预处理之后的规模大约是 7亿X2亿。我们用 Peacock 分解这个大矩阵。 可以发现分解出来的很多主题是有意义的。 在这里我们没有做任何文本的处理,我们按照用户加入QQ群的拓扑结构链接关系来做挖掘的。 我们看这3个挖掘到的主题的含义, 这是关于股票的,这是关于游戏的,这些是关于妈妈群的,语义都非常明确。
最后我们再谈一些QQ群的应用。我们把 Peacock分解出来的一些主题作为特征,加入分类器中进行训练,显著提升分类效果。 Peacock 在QQ群的应用中,最后讲一点是 QQ 群推荐。 最早QQ群推荐是基于朋友关系链的方式做的,即把你的朋友喜欢的 QQ 群推荐给你。现在我们用推荐系统的思路,基于Peacock做 QQ-QQ群矩阵分解,然后利用分解后的矩阵做推荐计算。 线上实验效果非常好,原来点击率本来不低可以到20%,我们优化以后提高了接近3 倍。
最后简单总结一下,LDA 是简单、优雅、实用的模型,我们实现Peacock 就是希望这个模型能够应对当今互联网的大数据。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22