Crossin的编程教室

标题: 我这个新人菜鸟又来了。。。。 [打印本页]

作者: BIU    时间: 2018-2-25 19:35
标题: 我这个新人菜鸟又来了。。。。
代码:
import jieba
excludes={"将军","却说","荆州","二人","不可","不能","如此"}
txt=open("三国演义.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)
couts={}
for word in words:
    if len(word)==1:
        continue
    elif word=="诸葛亮" or word=="孔明曰":
        rword="孔明"
    elif word=="玄德" or word=="玄德曰":
        rword="刘备"
    elif word=="关公" or word=="云长":
        rword="关羽"
    elif word=="丞相" or word=="孟德":
        rword="曹操"
    else:
        rword=word
    couts[rword]=couts.get(rword,0)+1
for word in excludes:
    del(couts[word])
items=list(couts.items)
items.sort(key=lambda x:x[1],reverse=Ture)
for i in items:
    m,n=items
print("{0:<10}{1:>5}".format(m,n))

QQ图片20180225193404.png (8.14 KB, 下载次数: 215)

问题的原因我大概知道了 但是百度了很多都无法解决这个问题。。。

问题的原因我大概知道了 但是百度了很多都无法解决这个问题。。。


作者: crossin先生    时间: 2018-2-26 14:11
你改成gbk试下,windows默认不是utf8
作者: BIU    时间: 2018-2-26 21:47
crossin先生 发表于 2018-2-26 14:11
你改成gbk试下,windows默认不是utf8

Traceback (most recent call last):
  File "D:/python/html...py", line 3, in <module>
    txt=open("三国演义.txt","r",encoding='gbk').read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xfc in position 194400: illegal multibyte sequence
这次是这个错误了
作者: crossin先生    时间: 2018-2-27 10:29
BIU 发表于 2018-2-26 21:47
Traceback (most recent call last):
  File "D:/python/html...py", line 3, in
    txt=open("三国演 ...

看起来你这个源文件不大对。你找个编辑器重新设置编码保存下,或者先换个文件把程序调通。
作者: BIU    时间: 2018-2-27 17:25
crossin先生 发表于 2018-2-27 10:29
看起来你这个源文件不大对。你找个编辑器重新设置编码保存下,或者先换个文件把程序调通。 ...

好的 我试试




欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/) Powered by Discuz! X2.5