import jiebaf=open('novel.txt','r',encoding='utf-8')content=f.read()f.close()symbol='''。,“”!?\n();'''for i in symbol: content=content.replace(i,' ')# 使用jieba进行中文分词contentList=list(jieba.cut(content))# 生成词频统计contentDict={}for i in contentList: contentDict[i]=contentList.count(i)# 排除语法型词汇,代词、冠词、连词exclude={ ' ','的','她','是','了','—','他','在','说','我','你','不','都','也', '和','有','着','就'}for i in exclude: del contentDict[i]# 排序contentDict=sorted(contentDict.items(),key=lambda e:e[1],reverse=True)# 输出词频最大TOP20for i in range(20): print(contentDict[i])
运行结果: