人工智能AI培训_中文文本分词

发布时间： 2019-08-29 13:43:18

　　人工智能AI培训_中文文本分词

　　1.实验简介
　　中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。
　　在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础，比如搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等，都需要用到分词。
　　2.实验目的
　　本章的主要内容就是基于Python3.6和中文分词框架jieba进行简单的分词操作演练，并对比多种分词模式的分词效果；本章总共4个小实验，前三个是对3种分词模式的简单演示，第4个案例主要是基于txt文本数据进行全文的分词展示。
　　3.实验预备知识
　　本实验操作需要学员有3方面的预备知识做支撑。
　　自然语言处理中分词技术的相关理论基础支撑，分词是自然语言处理中最基础的操作，可用于多种自然语言处理任务；
　　有相应Python语言实战基础，对Python基础的数据格式，数据类型以及相关的字符处理函数有所了解，并熟悉对文件的读写操作。

　　对中文分词框架jieba当中的分词模块有相应的了解，主要是对分词函数及其相应参数有所了解。

　　4.安装相关模块
　　安装jieba分词模块。点击windows系统左下角的“开始”按钮，进入菜单列表：

　　图1-1Anaconda Prompt
　　点击“Anaconda Prompt”按钮，进入Anaconda系统：

　　图1-2Anaconda 环境
　　两种安装安装方式，基于Anaconda的conda install jieba和基于Python的pip install jieba，两种都可以使用，操作如下：

　　图1-3安装jieba
　　同样的操作流程，其他需要的Python框架安装也是如此。
　　5.实验步骤
　　本章内容包括4个小操作，都是基于jieba分词进行操作，其中结巴分词包括三种分词模式，下面就进行一一演示。具体如下：
　　　　jieba的精确分词模式实现；
　　　　jieba的全分词模式实现；
　　　　jieba的搜索分词模式实现；
　　　　基于jieba的文本分词实现；
　　5.1.精确模式分词
　　代码：
　　# 导入模块
　　import jieba
　　import warnings
　　# 忽略警告
　　warnings.simplefilter('ignore')
　　# 精确模式
　　print("----精确模式：----")
　　# 分词语料
　　s = u'华为合作伙伴网络是华为与合作伙伴之间的协作框架，包含一系列的合作伙伴计划。'
　　# 精确分词
　　cut = jieba.cut(s, cut_all = False, HMM=False)
　　print(' '.join(cut))
　　结果：
　　----精确模式：----
　　华为合作伙伴网络是华为与合作伙伴之间的协作框架，包含一系列的合作伙伴计划。
　　5.2.全模式分词
　　代码：
　　# 全模式
　　print("----全模式：----")
　　# 全模式分词和HMM模式对比
　　print(' '.join(jieba.cut(s, cut_all = True)))
　　print(' '.join(jieba.cut(s, cut_all = False, HMM=False)))
　　结果：
　　----全模式：----
　　华为合作合作伙伴伙伴网络是华为与合作合作伙伴伙伴之间的协作框架包含一系一系列系列的合作合作伙伴伙伴计划
　　华为合作伙伴网络是华为与合作伙伴之间的协作框架，包含一系列的合作伙伴计划。
　　5.4.文本文件分词
　　代码：
　　# 文本分词
　　old_file = "../data/华为.txt"
　　new_file = "../data/华为cut.txt"
　　# 读取数据
　　with open(old_file, 'r') as f:
　　text = f.read()
　　# 分词
　　new_text = jieba.cut(text, cut_all=False)
　　# 去掉标点符号
　　str_out = ' '.join(new_text).replace('，', '').replace('。', '').replace('？', '').replace('！', '').replace('“', '').replace('”', '').replace('：','').replace('…', '').replace('（', '').replace('）', '').replace('—', '').replace('《', '').replace('》', '').replace('、', '').replace('‘', '').replace('’', '').replace('-', '').replace('\n', '')
　　# 数据写入和保存
　　With open(new_file, 'w', encoding='utf-8') as fo:
　　fo.write(str_out)
　　# 结果查看
　　with open(new_file, "r", encoding="utf-8") as f:
　　print(f.readline(1000))
　　结果：
　　公司简介华为是全球领先的 ICT 信息与通信基础设施和智能终端提供商致力于把数字世界带入每个人每个家庭每个组织构建万物互联的智能世界我们在通信网络 IT 智能终端和云服务等领域为客户提供有竞争力安全可信赖的产品解决方案与服务与生态伙伴开放合作持续为客户创造价值释放个人潜能丰富家庭生活激发组织创新华为坚持围绕客户需求持续创新加大基础研究投入厚积薄发推动世界进步华为成立于 1987 年是一家由员工持有全部股份的民营企业目前有 18 万员工业务遍及 170 多个国家和地区我们为世界带来了什么为客户创造价值华为和运营商一起在全球建设了 1 , 500 多张网络帮助世界超过三分之一的人口实现联接华为携手合作伙伴为政府及公共事业机构金融能源交通制造等企业客户提供开放灵活安全的端管云协同 ICT 基础设施平台推动行业数字化转型；为云服务客户提供稳定可靠安全可信和可持续演进的云服务华为智能终端和智能手机正在帮助人们享受高品质的数字工作生活和娱乐体验推动产业良性发展华为主张开放合作共赢与客户合作伙伴及友商合作创新扩大产业价值形成健康良性的产业生态系统华为加入 360 多个标准组织产业联盟和开源社区积极参与和支持主流标准的制定构建共赢的生态圈我们面向云计算 NFV / SDN 5G 等新兴热点领域与产业伙伴分工协作推动产业持续良性发展促进经济增长华为不仅为所在国家带来直接的税收贡献促进当地就业形成产业链带动效应更重要的是通过创新的 ICT 解决方案打造数字化引擎推动各行各业数字化转

　　6.实验小结
本章主要是基于中文分词框架jieba进行多种jieba分词模式的演练和操作，由于每种模式的分词效果各不相同，所以可以根据不同的需求进行相应模式的选择。