中文词频统计-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

中文词频统计

阅读量：5908 次

发布时间：2019-06-19

本文共 620 字，大约阅读时间需要 2 分钟。

import jiebaf=open('novel.txt','r',encoding='utf-8')content=f.read()f.close()symbol='''。，“”！？\n（）；'''for i in symbol:    content=content.replace(i,' ')# 使用jieba进行中文分词contentList=list(jieba.cut(content))# 生成词频统计contentDict={}for i in contentList:    contentDict[i]=contentList.count(i)# 排除语法型词汇，代词、冠词、连词exclude={
   ' ','的','她','是','了','—','他','在','说','我','你','不','都','也',         '和','有','着','就'}for i in exclude:    del contentDict[i]# 排序contentDict=sorted(contentDict.items(),key=lambda e:e[1],reverse=True)# 输出词频最大TOP20for i in range(20):    print(contentDict[i])

运行结果：

转载于:https://www.cnblogs.com/ffde/p/8666602.html

你可能感兴趣的文章

《微服务设计》读书笔记

ActiveReports 报表应用教程 (3)---图表报表

部署和发布lync server 2010边缘服务器

老刘坐诊“如何搞定老板” 之二

Exchange日常管理之十七：维护地址列表

《系统集成项目管理工程师软考辅导——3年真题详解与全真模拟》主要创新点、关注点...

SFB 项目经验-03-共存迁移-Lync 2013-TO-SFB 2015-完成

企业私有云之mariadb集群高可用

puppet成长日记二 Package资源详细介绍及案例分析

在互联网混，越分享越幸福

FreeBSD下安装配置Hadoop集群(三)

Powershell管理系列（三十四）PowerShell操作之Send-MailMessage

编程浪子的网络家园【我与51CTO的故事】

数据库日志维护方式

WinExec、ShellExecute和CreateProcess

如何在RIA应用中实现用户授权

[转]vc中nmake.exe cl.exe 的使用

包配置错误: 组件“脚本组件”(16) 未能通过验证，返回的错误代码为 0x80131904。及0xC0202009,返回的错代码0xCO20801C等解决方案...

程序员常用字体(vs2008字体修改方案)

细线表格样式

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-27 08:33:05 当前IP: 18.227.0.21 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我