加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-01-24 17:23:45 所属栏目:大数据 来源:网络整理
导读:副标题#e# 转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究

为了具有更一致TDM为进一步的分析,这些原始索引应被归一化。在统计分析中,归一化包括以消除数据元素之间的不同尺度的不同效果分割多组数据由一个共同的值来进行比较的。原始频率值可以使用的一些可供选择的方法进行归一化。下面是一些最常用的标准化方法(StatSoft推出,2010):

对数的词频。原始词频通过对数函数变换。这种变换将“抑制”的原始词频,以及如何影响后续分析的结果。

f(wf)=1+log(wf)

在该式中, wf 是原始词频,而 f(wf) 是对数变换的结果。这个变换被应用到TDM中所有的原始词频,这里词频是大于零的。
二元频率。同样的,一个更简单的变换可以用于枚举词,如果词条被用于一份文件中。

f(wf)=1,for:wf>0

这导致的TDM矩阵将只包含0和1,它们指示了各词条是否存在。同样,这种转换将抑制的原始词频的效果,在后续的计算和分析中进行计数。

逆文档频率。除了词条的归一化频率,对于给定词频的每个文档(相对文件频率或 df )也是分析中的一个重要方面。例如,可能会经常出现在所有的文件中,如”guess”,而另一个词条,如”software”,可能只会出现几次。其原因是,人们可能在各种情况下都会”make guess”,而不管特定主题的,而”software”是一种在语义上更聚焦的词条,它仅发生在有关计算机软件的文件中。一个常见的和非常有用的变换被称为逆文档词频(Manning和Schutze,1999),它反映了词条的特异性(相对于文档频率)以及它们出现(转化的词频率)的总体频率。这个变换对于第 i 词和第 j 个文件可写为:

idf(i,j)=?????0(1+log(wfi,j)logNdfi当wfi,j=0当wfi,j≥0

这里 wfij 是被第 j 个文档中第 i 个词条归一化后的词频(包含此词条的文档数量),并且 n 是文档的总数。你能看到这个公式既包含了对数函数的简单词频阻尼(之前描述的)也包含了权重因子,如果词条在所有文档中出现,则计为0,[ i.e.,log(N/N=1)=0 ]。当一个词条仅出现在单独的文本中这个值就是最大值,[ i.e.,log(N/1)=log(N) ]。如何这个转换将创建索引能被很容易的观察到。它反映了出现词条词频以及它们在文档中频率的相关性,它代表了给出文档的语义特异性。它最常用于字段转换。

接下来还给出我们如何降低TDM的维度的问题(问题 #2)。因为,TDM经常是很大的,并且相当稀疏(绝大多数单元都是0)。这个答案更易处理。有几个选择可以降低矩阵到可管理的规模:

* 领域专家遍历词条列表,并消除那些没有多大意义的研究的内容(这需要手工,是一个密集劳动的过程)。
* 消除与极少数发生在极少数的文件词条。
* 变换使用奇异值分解矩阵。

奇异值分解

奇异值分解(SVD)为代表的矩阵为一系列线性近似值的方法,即揭示矩阵的潜在意义的结构。 SVD的目标是找到最能预测结果因子的最优集合。在之前的文本挖掘业务数据预处理,SVD被用于潜层语义分析(LSA)来查找各种文件词条的基本含义。

在更多的技术术语中,SVD与主成分分析密切相关,因为它将输入矩阵降低(通过提取词条的数量的输入文件的数量)到较低维空间中(在规模上小得多的矩阵),其中每个连续的维代表了变量的最大概率的程度(在词条及文档之间)(Manning和Schutze,1999年)。理想的情况,分析师可能会找出两个或三个最显著的维度,占据了大部分的变量空间(差异),从而识别出潜在的语义空间(这个词与低维空间相同?),并组织词条和文档进行分析。当这些维度被确定,它们代表了包含在文档中的潜在意义(讨论或说明)。例如,假设矩阵A代表了m×n个词出现的矩阵,其中m是输入文件的数目,n是所分析的词条。 SVD计算了 m×r 的正交矩阵 U n×r 正交矩阵 V ,以及 r×r 矩阵 D ,所以 A=UDV ’,并 r 就是 A′A 的特征数。

第3阶段,第3不:提取知识

抽取出已上下文中已解决的特定问题的新模式,使用良好的结构化TDM,并可能增加其他结构化的数据元素(如数字和/或标量,其中可能包含的文件的时间和地点的规格)。在文本挖掘研究中,这些知识的提取方法的主要类别:

  • 预测(例如,分类,回归和时间序列分析)
  • 聚类(如分割和孤立点分析)
  • 关联(例如,亲和分析,链接分析和序列分析)
  • 趋势分析

分类

可以说在分析复杂数据源中最常见的知识发现主题是把某些对象或事件转换为预定的类别。分类的目的是将数据实例分配到预定的一组类别。因为它适用于文本挖掘的领域,此任务被称为文本分类,这里需要给出一组类别和文本文档的集合,所面临的挑战是要为每个文档找到正确的主题(主题或概念)。这种挑战通过训练数据集可以实现,训练集既包括文件也包括实际文档的分类。今天,在不同的背景下自动化的文本分类,包括迭代(自动或半自动)索引的文本,垃圾邮件过滤,网页分类下的分层目录,自动生成元数据,题材检测,以及许多其他的应用。

有两种主要的文本分类方法,一是专家系统(通过运用知识工程技术),二是分类模型(通过使用统计和/或机器学习技术)。专家系统的方法是将专家的知识以规则表达式的形式编码成分类系统。机器学习的方法是一个广义归纳过程,采用由一组预分类的例子,通过“学习”建立分类。由于文件数量的增加以指数速度和知识专家的可用性变得越来越小,潮流趋势正在转向机器学习 - 基于自动分类技术。

聚类

聚类是一种无监督的学习过程,这里对象或事件被置于“自然”的分组称为集群。无监督的学习过程是不使用模式或先验知识来指导聚类的过程。文本分类是一个监督的过程,其中预分类的训练样本集被用于开发基于类别的描述性特征的模式,以区分新的未标记的样本。在无监督的聚类方法中,问题是把未标记的对象集合(例如,文档,客户评论,网页)分组为成有意义的集群,而没有任何先验知识。

集群应用广泛,从文献检索到实现更好的网络内容搜索上。事实上,聚类的突出应用之一是分析和导航非常大的文字集合,例如网页。基本的基本假设是,相关的文件比彼此之间毫不相关的文件往往更相似。如果这个假设是成立的,基于内容相似性的文档聚类可以提高搜索的效率(Feldman和Sanger,2007)。

两种最流行的聚类方法是分散/聚集集群和特定查询集群。当特定的搜索查询不能被形式化时,分散/聚集的方法使用集群来提高人们对文件的浏览效率。在某种意义上,该方法动态地生成一个内容表,通过收集和适应以及修改它来响应用户的选择。在另一方面,特定查询的聚类方法采用分层聚类方法,即最相关的文件位于集群的中心,而相关度较低的则在外延,根据文档相关性的水平创建出一种频谱。对于较大尺度的文档集合此方法执行得一直比较好。

关联

关联是查找不同的数据元素(对象或事件)相关度的过程。在零售行业,关联分析通常被称为市场购物篮分析。产生关联规则的主要思想是识别出在特定上下文中的频繁集。零售行业一个著名的例子是在同一个购物车中啤酒和尿布的关联(关系到周一晚上的足球比赛的电视转播)。

在文本挖掘中,关联特别是指概念(或词语)或一组概念之间的直接关系。X => Y的关联规则,是两个频繁概念集X和Y的相关性,可量化(或证实)为两个基本测度,支持度和置信度。置信度是个文档的百分比值,这些文档包含了Y的所有概念,其中也包含了X的所有概念的子集。支持度也是个文档的百分比值,它包含了X,Y的所有概念。例如,一个包含“项目失败”的文档集合,可能最经常出现的关键词“企业资源规划”和“客户关系管理”的支持度为4%,而置信度为55%,也就是说,4%的含义是在语料库中一篇文档同时出现所有三个概念的概率是4%,其中同时包括“项目失败”,“企业资源规划”和“客户关系管理”的文档占55%。

在一项令人感趣的文本挖掘研究中,关联分析是用来研究已发表的文献(新闻,学术刊物和网上的帖子),绘制出禽流感的爆发和进展(Mahgoub等,2008)。此研究的主要目的是为了自动识别出地理区域,种群传播,物种间传播之间的关联,并提出应对措施。
关联分析的一个特殊情况是,一些概念都以一种有序的方式关联另外的概念(例如,一个序列的概念往往会出现一种趋势),或者在一个特定的时间段有关。这种类型的关联分析被称为趋势分析,其简要地在下面的部分说明。

趋势分析

趋势分析的主要目的是找到对象或事件根据时间的变化规律。通常,文本挖掘中的趋势分析是基于时间间隔的各种类型的概念分布;也就是说,相同主题的不同集合在不同的时间间隔可能会导致不同的概念分布。因此,比较两种概念的时间变化是有可能的,除非它们来自相同的文档子集。这种类型分析的一个显著方向是具有相同的源的两个集合(如由一组相同的学术期刊),但是时间点不同。 Delen和Crossland (2008) 对大量的学术文章应用趋势分析,(发表在三种高度关注的学术期刊),以识别信息系统领域的关键概念的演变。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读