加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

怎样将呆板进修技能应用到文本发掘中

发布时间:2021-02-25 12:32:12 所属栏目:大数据 来源:网络整理
导读:本发掘典范地运用了呆板进修技能,譬喻聚类,分类,关联法则,和猜测建模。这些技能显现隐藏内容中的意义和相关。文本掘客应用于诸如竞争谍报,生命科学,客户呼声,媒体和出书,法令和税收,法令实验,情绪说明和趋势辨认。 在本篇博客帖中,你将会进修到如

怎样将呆板进修技能应用到文本发掘中

本发掘典范地运用了呆板进修技能,譬喻聚类,分类,关联法则,和猜测建模。这些技能显现隐藏内容中的意义和相关。文本掘客应用于诸如竞争谍报,生命科学,客户呼声,媒体和出书,法令和税收,法令实验,情绪说明和趋势辨认。

在本篇博客帖中,你将会进修到怎样将呆板进修技能应用到文本发掘中。我将会向你展示怎样行使RapidMiner(一款风行的猜测说明开源器材)和亚马逊S3营业来建设一个文件发掘应用。亚马逊S3营业是一项易用的存储处事,可使组织在网页上的任那里所存储和检索恣意数目的数据。

掘模子发生的功效可以获得一连的推导并应用于办理特定题目

为什么行使文本发掘技能?

文本发掘技能辅佐你在大量的肉眼不行见的文本内容中潜匿的文本模式和相关,带来了新的商机和历程的改造。行使文本发掘技能可以节减你的时刻和资源,由于文本发掘历程可以实现自动化,文本发掘模子发生的功效可以获得一连的推导并应用于办理特定题目。

这些技能可以辅佐你:

  • 从大量的文本内容中提取要害观念,文本模式和相关。

  • 以主题(譬喻观光和娱乐)为依据,在文本内容中辨认各类趋势,以便领略用户情绪。

  • 从文档中归纳综合内容,从语义上领略隐藏内容。

  • 索引和搜刮文本以便在猜测说明中行使。

正如你所看到的,除了事宜性内容外,假如你不说明文本内容,你也许错失重大的机会.

早年文本发掘所面对的障碍

在已往,从大量的文本中提取有代价的透彻说明凡是很难。提取有代价的透彻说明必要武艺精深的IT人才来执行伟大的编程和建模使命。其它,在维持机能和创新周期所要求的速率和迅速度的前提下,所具有的基本办法的确无法满意处理赏罚大量非布局化文本的要求。器材与隐藏基本办法的集成则是面对的另一个挑衅。这凡是导致数据和器材从一个情形迁徙到另一个情形。另外,贸易用户发明很难明读这些功效。易于发掘和说明的布局化数据酿成大大都数据说明使命的首要数据源。功效是大量的文本内容现实上未被行使。

文天职析的新近成长

数据和云基本办法已经取得了庞大的前进。这包罗呆板进修和文本发掘规模可用的各类器材和技能。陪伴着这些成长,速率,创新和可扩展性此刻酿成了也许。在组织行使说明学方面也已经呈现了根天性的转变:不是应对已往的趋势,组织通过按照当前变乱猜测将来趋势而变得主动。多亏了AWS提供的各类云基本办法处事和诸如RapidMiner,组织不再必要先辈的编程技能就可以在可扩展和耐久的情形中快速地说明文本内容了。RapidMiner器材综合了呆板进修,文本发掘和可视化手段。

文本发掘流程

大大都文本发掘遵循以下的典范流程:

1.辨认和提取待说明的文档。应用布局化的,统计的和说话技能(凡是是配合应用)来辨认,标识和提取各类因素,譬喻实体,观念和相关。

2.应用统计学的模式匹配和相似性技能来将文档分类并按照特定的分组或分类组织提取出的特性。隐藏的非布局化数据转化为易于说明的布局化数据。分类进程辅佐辨认寄义和各类相关。

3.评估模子的机能。

4.向最终用户泛起说明功效。

下面的流程图声名白这一流程。

怎样将呆板进修技能应用到文本发掘中

?

典范的文本发掘流程图

第一行:辨认/提取待说明的文本/文档 应用统计的/说话的/布局化技能来说明 揣度寄义/辨认内容/应用词类说明法

第二行:提取观念和模式 应用统计的/呆板进修/模式匹配技能 将文档分类,按照分类学组织文档

第三行:辨认文本寄义和大量文本中各类相关 评估模子机能,搜查查准率/查全率/精确性/相干性

向最终用户泛起说明功效

呆板进修在文本发掘中的浸染

典范地,文本发掘技能按照因子(譬喻术语频率和漫衍)的统计说明成立一组重要的单词和句子。按照重要性,得分最高的单词和句子典范地表白隐藏的概念,感情或一样平常主题。

作为进程的一部门,当代器材典范地构建一个文档术语矩阵(DTM),行使加官僚领,如词频-逆文档频率法(TF-IDF)。这些器材提取并将隐藏信息,如尺度特性,要害词频率,文档和文本列表特性,以表格的情势存储在数据库中。可以查询这些表格举办系数说明和处理赏罚。这些步调是将呆板进修技能应用到文本内容的前导。

文天职析学典范地运用呆板进修技能,如聚类,分类,关联法则和猜测建模来辨认隐藏内容中的寄义和各类相关。然后行使各类要领处理赏罚非机构化数据源中包括的隐藏文本。非布局化数据源包罗天然说话处理赏罚(NLP),语法说明,标志化(明明因素的辨认,如单词和N个字尾),词干提取(将单词变体缩减为词干),术语归约(行使同义词和相似怀抱的小组类术语)和词类标志。这些数据源辅佐辨认究竟和相关。

文天职析另一个要害的方面涉及组织和构建隐藏的文本内容。典范的技能包罗聚类,编目,分类和归类。许多器材行使的典范的分类要领包罗朴实贝叶斯,支持向量机和K最近邻分类算法。

下面的表格包括了常用的文本发掘技能,包罗呆板进修和每一种技能的思量身分。

一旦行使以上的技能对文本举办了处理赏罚,分组和说明,评价功效就变得很重要。评估的目标是确定你是否已经找到了最相干的原料或是否你丢失了一些重要术语。你将会行使查准率和查全率和评估功效。

行使AWS处事和RapidMiner举办情绪说明

此刻让我们看一下你怎样行使AWS处事和RapidMiner举办情绪说明,这是文本发掘一个很广泛的应用案例。在情绪说明中,你辨认起劲和悲观的概念,情感和评价,常常行使呆板进修技能说明文本内容。行使AWS和RapidMiner,你不消将非布局化数据迁徙到另一个情形中就可以行使情绪说明这样的技能对存储在S3中的数据直接举办说明。

如下所示,你可以行使RapidMiner建设文本发掘流程与S3举办集成。S3上的一个工具也许是任何一种文件,也也许是任何一种名目,如文本文件,雇用,或视频。这使得S3在存储文本发掘和先辈的说明学所需的非布局化数据方面变得很是有效。

怎样将呆板进修技能应用到文本发掘中

亚马逊S3处事与其他的亚马逊大数据处事,如Amazon Redshift,Amazon RDS,AmazonDynamoDB, Amazon Kinesis和Amazon EMR,是集成的。这就发生了在AWS中行使RapidMiner开拓文本发掘模子的风趣场景。譬喻,你可以行使S3处事来存储从这些亚马逊营业中提取的数据,然后行使RapidMiner对这些数据快速构建一个文本发掘模子。你可以将模子输出的功效存储到你选择的S3桶和地区中并将这些功效和更普及的最终用户社区分享。

下面的举例行使加利福尼亚大学尔湾分校主办的SMS Spam collection(垃圾短信网络)数据组。SMS Spam collection是由一组为手机垃圾的研究而网络的标签动静构成的。这个数据组综合了垃圾和非垃圾短信(标志为ham)。这一数据组每行一条短信,行使UTF-8编码,以制表符为脱离,组成一个文本文件。

视频演示

下面的视频样本将会向你展示怎样行使RapidMiner和S3举办文本发掘。留意:视频样本没有声音。

开始前,请:

1.下载并安装RapidMiner软件和可从RapidMiner Marketplace获取的RapidMiner Text Processing Extension。你可以将RapidMiner安装在你的当地电脑上。假如你当前的电脑设置不能提供足够的容量,也可以将RapidMiner安装在亚马逊EC2实例上。

2.行使你的AWS证书在RapidMiner设置S3毗连信息。要行使S3处事,你必要有一个AWS账户。

3.将文本发掘案例研究所需输入数据组上传到S3桶中。

从S3中导入和读取数据到RapidMiner

下面的视频将会向你展示怎样行使你上传到S3桶中的数据,S3处事和RapidMiner建设一个文本发掘应用。记着:你必需导入行使UTF-8编码的文件,确定制表符为脱离符以便以正确的名目来处理赏罚文件。

视频:从S3中导入和读取数据到RapidMiner

https://s3.amazonaws.com/awsbigdatablog/1-AmazonS3-RapidMiner-Text-Mining-Video.mp4

行使RapidMiner’s Validation运算符

当对不行见的数据运行模子时,你看到的精确性也许低于预期。这是也许的,由于我们行使的要领也许已经进修了它所看到的数据,可是从未针对不行见的数据对该要领举办测试。为了办理这一题目,你可以行使下面的视频中所示的RapidMiner Validation运算符。

视频:行使RapidMiner’s Validation运算符

http://s3.amazonaws.com/awsbigdatablog/2-AmazonS3-RapidMiner-Text-Mining-Video.mp4

在RapidMiner中应用Store运算符

为了将已经进修到的模子应用到新数据,你必需将模子和单词表存储到RapidMiner客栈。你必需存储单词表是由于当你猜测一个新动静是垃圾短信还长短垃圾短信的概率时,你不得不行使原本的进程中行使的沟通的属性或单词。因此,你必要沟通的单词表和模子,必要以你处理赏罚正在进修的数据时行使的方法来处理赏罚新数据。下面的视泼魅展示了这是怎样做到的。

视频:在RapidMiner中应用Store运算符

https://s3.amazonaws.com/awsbigdatablog/3-AmazonS3-RapidMiner-Text-Mining-Video.mp4

将不行见的数据应用到RapidMiner模子

下面的视泼魅展示了怎样应用你行使Retrieve运算符为新的不行见数据构建的模子来猜测新动静长短垃圾短信照旧垃圾短信。

视频:将不行见的数据应用到RapidMiner模子

https://s3.amazonaws.com/awsbigdatablog/4-AmazonS3-RapidMiner-Text-Mining-Video.mp4

行使Write S3运算符存储功效

下面的视泼魅展示了如安在RapidMiner中行使Write S3运算符将输出功效存储到S3桶中,该桶已经在前面的概述中被配置为RapidMiner的一个毗连。你可以从特定的S3桶中将输出功效下载到当地,行使文本编辑器查察这些功效。

视频:行使Write S3运算符存储功效

https://s3.amazonaws.com/awsbigdatablog/5-AmazonS3-RapidMiner-Text-Mining-Video.mp4

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读