博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:5908 次
发布时间:2019-06-19

本文共 620 字,大约阅读时间需要 2 分钟。

import jiebaf=open('novel.txt','r',encoding='utf-8')content=f.read()f.close()symbol='''。,“”!?\n();'''for i in symbol:    content=content.replace(i,' ')# 使用jieba进行中文分词contentList=list(jieba.cut(content))# 生成词频统计contentDict={}for i in contentList:    contentDict[i]=contentList.count(i)# 排除语法型词汇,代词、冠词、连词exclude={
' ','的','她','是','了','—','他','在','说','我','你','不','都','也', '和','有','着','就'}for i in exclude: del contentDict[i]# 排序contentDict=sorted(contentDict.items(),key=lambda e:e[1],reverse=True)# 输出词频最大TOP20for i in range(20): print(contentDict[i])

运行结果:

 

转载于:https://www.cnblogs.com/ffde/p/8666602.html

你可能感兴趣的文章
《微服务设计》读书笔记
查看>>
ActiveReports 报表应用教程 (3)---图表报表
查看>>
部署和发布lync server 2010边缘服务器
查看>>
老刘坐诊“如何搞定老板” 之二
查看>>
Exchange日常管理之十七:维护地址列表
查看>>
《系统集成项目管理工程师软考辅导——3年真题详解与全真模拟》主要创新点、关注点...
查看>>
SFB 项目经验-03-共存迁移-Lync 2013-TO-SFB 2015-完成
查看>>
企业私有云之mariadb集群高可用
查看>>
puppet成长日记二 Package资源详细介绍及案例分析
查看>>
在互联网混,越分享越幸福
查看>>
FreeBSD下安装配置Hadoop集群(三)
查看>>
Powershell管理系列(三十四)PowerShell操作之Send-MailMessage
查看>>
编程浪子的网络家园【我与51CTO的故事】
查看>>
数据库日志维护方式
查看>>
WinExec、ShellExecute和CreateProcess
查看>>
如何在RIA应用中实现用户授权
查看>>
[转]vc中nmake.exe cl.exe 的使用
查看>>
包配置错误: 组件“脚本组件”(16) 未能通过验证,返回的错误代码为 0x80131904。及0xC0202009,返回的错代码0xCO20801C等解决方案...
查看>>
程序员常用字体(vs2008字体修改方案)
查看>>
细线表格样式
查看>>