当前位置: 首页 > news >正文

浏网站建设补贴怎么创造自己的网站

浏网站建设补贴,怎么创造自己的网站,书画展示网站模板,县城网站怎么做中文分词就是将一个汉字序列切分成一个一个单独的词。例如: 另外还有停用词的概念,停用词是指在数据处理时,需要过滤掉的某些字或词。 一、jieba库 安装过程见:https://blog.csdn.net/momomuabc/article/details/128198306 ji…

中文分词就是将一个汉字序列切分成一个一个单独的词。例如:
在这里插入图片描述
另外还有停用词的概念,停用词是指在数据处理时,需要过滤掉的某些字或词。
在这里插入图片描述

一、jieba库

安装过程见:https://blog.csdn.net/momomuabc/article/details/128198306
jieba库的基础与实例:https://blog.csdn.net/momomuabc/article/details/128219592

jieba库基础功能

1.分词函数jieba.cut

import jiebafor i in jieba.cut("我爱python"):print(i,end=' ')#利用end参数取消换行
--输出
我 爱 python 

2.向词库添加词jieba.add_word()
如果想添加一些专业词汇进入词库,可以使用jieba.add_word()函数
例如:

import jiebaseg_list=jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for i in seg_list:print(i,end=" ")
--此时输出
真武 七截阵 和 天罡 北斗 阵 哪个 更 厉害 呢 ? 
--可以看到真武七截阵和天罡北斗阵两个专业词汇被拆分开了,那么进行词组添加
jieba.add_word("真武七截阵")
jieba.add_word("天罡北斗阵")
seg_list=jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢?")
for i in seg_list:print(i,end=" ")
--再次输出后,可以看到真武七截阵和天罡北斗阵已经被识别为单独的词
真武七截阵 和 天罡北斗阵 哪个 更 厉害 呢 ?

3.导入词库jieba.load_userdict()
当需要大量导入专业词汇时,使用jieba.add_word()一个个添加会过于麻烦,可以使用jieba.load_userdict()方法将词库一次性导入。
词库中的单词需已每行一个词的方式保存,例如:
在这里插入图片描述

jieba.load_userdict("D:\\2.2 中文分词\\2.2\\金庸武功招式.txt")

二、文章分词

1.搭建语料库

上一节已经导入了语料库:https://blog.csdn.net/momomuabc/article/details/129183499
代码如下:

import os
import os.path#读取文件路径
import codecs#转换文件读取格式
import pandasfilePaths = []#设置存储文件路径的变量
fileContents = []#存储文件内容的变量
for root, dirs, files in os.walk("D:\SogouC.mini\Sample"):#os.walk()返回文件的目录,子目录,文件名,详情见上篇for name in files:filePath = os.path.join(root, name)#将目录和子目录拼接为目前的文件路径filePaths.append(filePath)#将文件路径存入路径变量f = codecs.open(filePath, "r", "utf-8")#以utf-8的格式打开当前路径下的文件fileContent = f.read()#读取文件内容f.close()#关闭文件fileContents.append(fileContent)#将文件内容存入内容变量       
#将文件路径和内容存入DataFrame中
corpos=pandas.DataFrame({"filePath":filePaths,"fileContent":fileContents
}
)

2.语料库分词

分词后需要注明,每个分词的来源,因此需要取上面的corpos对象里的filepath,并对filecontent进行分词。

import jieba
Path=[]
segments=[]
for index,row in corpos.iterrows():#返回corpos的内容filepath=row["filePath"]#取其中的filepath字段segs=jieba.cut(row["fileContent"])#取其中的filecontent字段,并进行分词for seg in segs:#将分词后的内容遍历segments.append(seg)#存入segmentsPath.append(filepath)#同时存储filepath
segmentDataFrame=pandas.DataFrame(#将分词结果存为数据框{"filepath":Path,"segment":segments}
)

iterrow()方法可以返回所有的行索引index,以及该行的所有内容row。

http://www.mmbaike.com/news/70260.html

相关文章:

  • 网站建设都用哪些软件免费的关键词优化软件
  • 看b站24个小时直播间外贸推广平台哪个好
  • 梅县区住房和城乡规划建设局官方网站广告宣传网站
  • 赣州南康网站建设电脑培训学校网站
  • 如何做一名合格的网站巡查关键词歌词简谱
  • 网站等级保护测评必须做吗百度推广北京总部电话
  • 开发工程师是什么网站快速优化排名排名
  • 资讯网站开发的背景百度竞价推广代理商
  • ppt模板免费下载网站 知乎qq刷赞网站推广全网
  • 网站建设外包流程利尔化学股票最新消息
  • 中小企业网站建设中服务器的解决方案是十八大禁用黄app入口
  • 陕西省政府网站建设要求谷歌推广代理公司
  • 机械设备如何做网站网络推广平台有哪些
  • 潜江网站建设广州网站建设正规公司
  • 如何申请建设网站域名网页制作软件免费版
  • 网站建设需要域名还有什么品牌推广案例
  • 网站转化率偏低怎么办百度搜索量怎么查
  • 网站开发教程深圳网络公司推广公司
  • dreamweaver官网免费东莞seo优化推广
  • 移动网站开发永州网站seo
  • hois.skxy.wordpress河南郑州网站推广优化
  • 泰山区疫情最新情况浙江短视频seo优化网站
  • 浙江省建设继续教育网站首页文案写作软件app
  • 公司建设网站算入什么会计科目搜索引擎优化的内部优化
  • 湛江网站建设皆选小罗23推广是什么意思
  • 食品网站建设策划书网站优化的方法有哪些
  • 国内响应式网站模板太原网站制作优化seo
  • 专业做网站排名多少钱关键词查询优化
  • 彩票网站给实体店做代销西安关键词优化服务
  • 外包工是临时工吗关键词排名优化提升培训