中文|ENG
更多

自然语言处理序列模型——CRF条件随机场

2022年6月21日

在之前对序列模型中的HMM(隐马尔可夫模型)进行掌握以后,有须要对另外一个序列模型CRF进行掌握,因为这两个模型都是自然语言处理序列模型中的焦点模型。在之前介绍的概率有向图模型,如HMM,即贝叶斯网络,相对应的概率无向图模型就称为马尔可夫网络或者马尔可夫随机场(MRF),本篇文章所介绍的CRF就是马尔可夫随机场的一种。


1.马尔可夫随机场


马尔可夫随机场也叫马尔可夫网络,同时也是一种无向图模型。在概率图模型的基础上,针对无向图模型,首先需要对无向图模型的基础看法进行一定水平上的掌握。


1.1. MRF相关看法


无向图模型MRF所特有的一些看法如下:


· 团:图中的节点子集,并且其中任意两个节点之间都有边连接;


· 极大团:为一个团,并且加入任何一个其他的节点都不可再形成团,例如下图中,该图中的团一共有{1,2},{1,3},{2,3},{2,4},{3,4},{3,5},{3,6},{1,3},{1,2,3},{2,3,4};其中极大团为{1,2,3},{2,3,4},{3,5},{3,6};


image.png


· 势函数(也称因子Factor):界说在变量子集上的非负实函数,用于界说概率漫衍函数。在马尔可夫随机场中,多个变量之间的联合概率漫衍可以基于团剖析为多个势函数的乘积,每个势函数仅仅与一个团相关。


· 特征函数:通常情况下都是一些实数值函数,它是用来刻画数据的一些可能建立的经验特性。例如下式就是一个特征函数:


image.png


1.2. Hammersley-Clifford定理


在关于势函数与团相关理论掌握的基础上,由此引申出随机场的基础定理,即Hammersley-Clifford定理。该定理的具体界说为:关于具有N个变量的马尔可夫随机场,已知变量为 ),这些变量中所有团所组成的荟萃为T,同时与团 对应的变量荟萃记作 ,则其对应的联合概率为:


image.png

上式中, 就是与团S所对应的势函数,其作用为对团 中的变量关系进行建模。 为规范化因子,其难以盘算,在普遍情况下,无需盘算出 的精确值。在针关于团 不是极大团的情况时,由于非极大团肯定属于某个极大团的性质,所以照旧可以用极大团进行盘算来替代非极大团的联合概率,即:


image.png

上式中的 就是所有极大团的荟萃。Hammersley-Clifford定理是随机场的基础定理,其为马尔可夫随机场被表达为正概率漫衍的充分须要条件。针关于1.1中的示例图,其联合概率就为:

image.png

1.3. 疏散集与马尔科夫性


在对种种马尔可夫性进行掌握前,首先需要理解疏散集的看法。疏散集的界说为:设A、B、C都是马尔可夫随机场中的节点荟萃,如果从荟萃A中的节点到荟萃C中的节点都必须要经过荟萃B中的节点,那么就可以称荟萃A和荟萃C被荟萃B给疏散,其球王汇合B就为疏散集。如下图所示:


image.png


有了疏散荟萃的看法,对下面几种马尔可夫性的理解就相对简单了,马尔可夫性的界说为:当一个随机历程在给定目今状态及所有已往状态情况下,其未来状态的条件概率漫衍仅依赖于目今状态,即只要给定了目今状态,未来状态是与已往状态无关的,也是条件独立的,该随机历程也就具有了马尔可夫性。同理,在马尔可夫随机场中,马尔可夫性可解释为目今状态看作为无向图中的一个节点,已往状态就是与目今状态节点有边连接的其他节点。针关于马尔可夫性和下图,又有:


image.png


· 全局马尔可夫性:节点荟萃A,C是无向图中被节点荟萃B离开的任意结点荟萃,则在给定随机变量YB的条件下,随机变量YA和YC条件独立。如上图中节点1,2就与节点6,7条件独立。


· 局部马尔可夫性:设X是无向图中任意一个结点,T是与X有边相连的所有结点,无向图中其他剩余结点为S,则给定随机变量YT的条件下,随机变量YX和YS条件独立。如上图的节点2,与2连接的节点为1和5,即给定节点1和5的情况下,那么节点2就与剩下的节点3,4,6,7条件独立。


· 成对马尔可夫性:设无向图中V和C是任意两个没有边直接连接的结点,图中其他结点的荟萃记做S,则给定随机变量YS的条件下,随机变量YV和YC条件独立。如上图中2和6两个节点之间没有边直接连接,那么剩余其他节点为1,3,4,5,7,给定这些节点的情况下,节点2和节点6条件独立。


综上可知,这三种马尔可夫性相互之间是关联等价的,通过全局马尔可夫性可以获得局部马尔可夫性,通过局部马尔可夫性也可获得成对马尔可夫性,通过成对马尔科夫性又可以推出全局马尔可夫性。因此只要满足三种性质的一种的无向图就称为马尔可夫随机场(MRF)。


2.条件随机场——CRF


通过上述论述,读者们可以对马尔可夫随机场,即马尔可夫无向图有了基本的掌握与理解。在此基础上,本文就引出条件随机场CRF。


2.1.CRF


由上述可知,CRF模型是无向图模型的一种,可是其与马尔可夫随机场(MRF)有所差别,主要区别在于MRF模型是生成模型,而CRF模型是判别式模型,其是对条件漫衍进行建模。两者之间也保存关联,即CRF是有条件的马尔可夫随机场,也就是在给定随机变量的条件下的马尔可夫随机场。


CRF的基本界说为:设X和Y是随机变量, 是给定X条件下Y的条件概率漫衍。若随机变量Y组成一个无向图的马尔可夫随机场,则称条件概率漫衍 为CRF。对应于马尔可夫性可理解为,如果随机变量Y组成一个无向图,且图中每一个变量Y,都满足马尔可夫性(至少满足全局马尔可夫性、局部马尔可夫性、成对马尔可夫性中一种),则称 为CRF。其中X为输入变量,即需要标注的视察序列,Y为输出变量,体现状态或标记序列。在自然语言处理领域中,普遍的输入变量X和输出变量Y具有相同图结构。


2.2.CRF线性链


在实际应用中,关于CRF的使用最多的情况是线性链CRF,线性链的结构如下所示:


image.png


一般地,当X和Y具有相同图结构时,线性链结构就变为如下所示:


image.png


在上图中,X就为视察序列,Y就为状态序列。同时在给定随机变量序列X的条件下,如果随机变量序列Y相关于序列X的条件概率漫衍P(YIX)组成条件随机场,那么可得随机变量Y也满足马尔可夫性。公式表达为:


image.png


即Y目今状态只与相连接的前后两个状态有关,而与其他状态相互独立,为线性连接的关系。此时称P(YIX)为条件随机场,相应的,X为输入或者视察序列,Y为输出或者状态序列。


2.3. CRF相关盘算


中选定好势函数后,这里选取指数函数,通过引入特征函数,可以获得条件概率为:


image.png


其中,tk和 sk划分为特征函数,tk界说为边上的特征函数,也叫转移特征,它依赖于目今节点和前一个节点; sk界说为结点上的特征函数,也叫状态特征,只依赖于目今结点。一般情况下,tk和sk的取值为1或者0,即满足特征条件时为1,不满足则为0。λk和μk划分为tk和sk所对应的权值。Z(x)为规范化因子,来包管P(YIX)为概率漫衍。


关于上述公式的理解,通过一个简单例子可以更好地去掌握。例如设输入视察序列X X3为(X1,X2,X3)对应的状态序列Y为(Y1,Y2,Y3),其中Y1,Y2,Y3 的取值为1或者2。关于球王会条连接边,设特征和权值为:


image.png


对应的特征函数为:

image.png

凭据上式,同时给定相对应的权重 可写出:

image.png

由此可盘算状态为 的非规范化条件概率为(不需要除以规范化因子Z) 。


3.CRF模型解决的三种问题类型


相较于之前的HMM模型,CRF模型同样需要解决三种问题,划分为概率盘算问题、预测问题和学习问题。


· 概率盘算问题:针关于概率盘算问题,通常情况给定的已知信息是CRF模型的条件概率漫衍P(YIX)、视察序列X和状态序列Y,求解目标为某一条件概率以及相对应的数学期望。求解的要领基本就是前向后向盘算要领。


· 预测问题:针关于预测问题,通常情况给定的已知信息是CRF模型的条件概率漫衍P(YIX)、视察序列X,求解目标为使得条件概率最大的状态序列Y,即求解视察序列所对应的状态。求解要领基本是函数盘算。


· 学习问题:学习问题也叫模型训练求解参数问题,通过给定的数据集(视察序列和状态序列等)来求解CRF模型所需要的参数,通常用到的要领就是模型训练常用的标准迭代要领(如梯度下降算法等)。


4.总结


相较于HMM模型,CRF模型盘算的历程更为庞大,可是关于整体掌握CRF模型的影响并不大,只需要在思路上明白CRF模型和HMM模型在实际应用中所需要解决的三种问题即可,针关于特定问题中给定的已知条件来实现求解目标。


在自然语言处理领域,关于概率统计模型的掌握其实也就是关于HMM模型和CRF模型的掌握。虽然,HMM和CRF模型流行于在自然语言处理领域使用深度学习技术之前,可是照旧那句话,目前针关于自然语言处理领域深度学习技术的瓶颈问题,无妨换个思维,考虑下概率统计模型来处理,也许能取得不错的效果。



▲文章来源于:Of Week维科号  51CTO

作者介绍

稀饭,51CTO社区编辑,曾任职某电商人工智能研发中心大数据技术部分,做推荐算法。目前攻读智能网络与大数据偏向的研究生,主要擅长领域有推荐算法、NLP、CV,使用代码语言有Java、Python、Scala。

原文链接:https://www.ofweek.com/ai/2022-04/ART-201718-8420-30559029.html

返回
关于球王会|联系球王会|投资者关系 |加入我们

执法声明

接待登岸球王会官网!

? 球王会("球王会")在此特别提醒会见本网站的用户或浏览者认真阅读、充分理解下列条款。您的登岸和使用行为视为您接受下列条款并受其约束,包括球王会后续对其修改。如您差别意,请停止使用。 

? 更多详细信息,请点击此处进行浏览,谢谢。

以上规则的解释权归球王会所有,并保存随时对本网站上的内容和规则进行更新和增补的权利,请你随时会见以便获取最新消息。


★  ?2023 球王会 | 粤ICP备16116213号-6   粤公网安备 44049102496526号   ★

搜索

sitemap网站舆图