文本挖掘之特征选择(Python版)

  • 时间:
  • 浏览:0
  • 来源:5分11选5_5分3D

最后有2个介绍的算法,是由苏大李寿山老师提出的算法。通过以上的并都不 算法的分析,李寿山老师认为,"好"的特征应该有以下特点:

  2)MI(Mutual Information)

  ......类事的很多概率计算都前要依照上表计算。

    p(Ci|t):已知文档x的包括某个特征词t条件下,该文档属于Ci的概率

  继续推导MI的定义公式:

WLLR特征选择法子的定义如下:

   Aij + Cij:Cj类的文档数量数据             Bij + Dij:非Cj类的文档数量数据

WFO的算法定义如下:

   Aij蕴含 特征词ti,后来类别属于Cj的文档数量    Bij: 蕴含 特征词ti,后来类别属于不Cj的文档数量

  介绍完理论偏离 ,就要给出代码了(只给出公式,不给出代码的一定会调戏良家的行为~)。文本挖掘之文本表示一文,利用了sklearn开源工具,自然先首先sklearn工具,可惜的是sklearn文本的特征选择法子仅提供了CHI并都不 。为此在sklearn框架下,尝试当事人编写那些特征选择法子的代码,当事人动手,丰衣足食。

  机器学习算法的空间、时间简化度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是并都不 被用于降低输入数据维数的法子。维度规约都前要分为两类:

后来,IG法子实际上很多我互信息与互信息加权。

CHI特征选择法子,综合考虑文档频率与类别比例有2个因素

  信息增益法,通过某个特征词的缺失与居于的并都不 具体情况下,语料中前后信息的增加,衡量某个特征词的重要性。

  1)DF(Document Frequency)

    1.Y. Yang and J. Pedersen. 1997. A comparative study on feature selection in text categorization.

    p(ti) =     (Aij + Bij) / N;    p(Cj) = (Aij +  Cij) / N;  

  类事的很多的很多概率如p(Ci), 等,有着类事的定义。

CHI特征选择算法利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的,肯能利用CHI分布计算出的检验值偏离 阈值越大,这么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。CHI的定义如下:

  输出的结果:

5)WLLR(Weighted Log Likelihood Ration)

    p(t):一篇文档x蕴含 特征词t的概率。

  为了方便描述,有人首先很多概率上的定义:

  DF特征选择法子属于无监督的学习算法(一定会将其改成有监督的算法,后来大偏离 具体情况都作为无监督算法使用),仅考虑了频率因素而这么考虑类别因素,后来,DF算法的肯能引入很多这么意义的词。如中文的"的"、"是", "个"等,常常具有很高的DF得分,后来,对分类并这么多大的意义。

  在文本挖掘与文本分类的有关那些的问题图片中,常采用特征选择法子。意味是文本的特征一般一定会单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,肯能丧失了语义信息。

  计算公式如下:

    3.老板的课件

   Aij + Bij: 蕴含 特征词ti的文档数量          Cij  + Dij:不蕴含 特征词ti的文档数量

DF:统计特征词总爱出現的文档数量,用来衡量某个特征词的重要性,DF的定义如下:

    p(Cj|tj) = Aij  / (Aij + Bij)        

对于有2个给定的语料而言,文档的总数N以及Cj类文档的数量,非Cj类文档的数量,有人一定会有2个定值,后来CHI的计算公式都前要简化为:

  对于有2个语料而言,有人都前要统计的信息包括文档频率和文档比拟例,所有的特征选择法子均依赖于这有2个统计量,目前,文本的特征选择法子主要有:DF, MI, IG, CHI,WLLR,WFO六种。

 笔者实现了并都不 特征选择法子:IG,MI和WLLR,看官肯能对很多特征选择法子感兴趣,都前要尝试实现一下~ 好了,啥很多我说了,上代码,特征选择模块代码:

  DF的动机是,肯能很多特征词在文档中总爱总爱出現,这么这一 词就肯能不得劲要。而对于在文档中总爱出現很少(如仅在语料中总爱出現1次)特征词,携带了很少的信息量,甚至是"噪声",那些特征词,对分类器学习影响也是很小。

  法子IG的定义,每个特征词tiIG得分前面一偏离 :计算值是一样,都前要省略。后来,IG的计算公式如下:

    : 已知文档属于C条件下,该文档不包括特征词t的概率

-----------------------------------------分割线---------------------------------------------

后来:

  介绍了事情发展的前因,现在进入正题:常见的并都不 特征选择法子怎么计算。

参数文献:

 其中:

    在movie语料上边比较着并都不 特征选择法子,调用法子如下:

信息增益的定义如下:

不同的语料,一般来说文档词频与文档的类别比例起的作用应该是不一样的,WFO法子都前要通过调整参数,找出有2个较好的特征选择法子。

有了那些统计量,有关概率的估算就变得容易,如:

    :文档x不属于Ci的概率。

  互信息法用于衡量特征词与文档类别直接的信息量,互信息法的定义如下:

    2.Shoushan Li, Rui Xia, Chengqing Zong and Chu-Ren Huang.60 9.A Framework of Feature Selection Methods for Text Categorization

4)CHI(Chi-square)

  从上边的图看出:分类的性能随着特征选择的数量的增加,呈现“凸”形趋势:1)在特征数量较少的具体情况下,不断增加特征的数量,有有利于提高分类器的性能,呈现“上升”趋势;2)随着特征数量的不断增加,肯能引入很多不重要的特征,甚至是噪声,后来,分类器的性能肯能呈现“下降”的趋势。这张“凸”形趋势体现出了特征选择的重要性:选择出重要的特征,并降低噪声,提高算法的泛化能力。

为了估计那些概率,有人前要通过统计训练样本的相关频率信息,如下表:

6)WFO(Weighted Frequency and Odds)

  从上边的公式上看出:肯能某个特征词的频率很低,这么互信息得分就会很大,后来互信息法倾向"低频"的特征词。相对的词频很高的词,得分就会变低,肯能这词携带了很高的信息量,互信息法就会变得低效。

肯能

   Aij + Bij + Cij  + Dij = N :语料中所有文档数量。

   Cij:不蕴含 特征词ti,后来类别属于Cj的文档数量 Dij:不蕴含 特征词ti,后来类别属于不Cj的文档数量

IG与MI居于关系:

  3)IG(Information Gain)