Crossin的编程教室

标题: 我这个新人菜鸟又来了。。。。 [打印本页]

作者: BIU 时间: 2018-2-25 19:35
标题: 我这个新人菜鸟又来了。。。。
代码：
import jieba
excludes={"将军","却说","荆州","二人","不可","不能","如此"}
txt=open("三国演义.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)
couts={}
for word in words:
if len(word)==1:
      continue
elif word=="诸葛亮" or word=="孔明曰":
      rword="孔明"
elif word=="玄德" or word=="玄德曰":
      rword="刘备"
elif word=="关公" or word=="云长":
      rword="关羽"
elif word=="丞相" or word=="孟德":
      rword="曹操"
else:
      rword=word
couts[rword]=couts.get(rword,0)+1
for word in excludes:
del(couts[word])
items=list(couts.items)
items.sort(key=lambda x:x[1],reverse=Ture)
for i in items:
m,n=items
print("{0:<10}{1:>5}".format(m,n))

QQ图片20180225193404.png (8.14 KB, 下载次数: 332)

问题的原因我大概知道了但是百度了很多都无法解决这个问题。。。

作者: crossin先生 时间: 2018-2-26 14:11
你改成gbk试下，windows默认不是utf8

作者: BIU 时间: 2018-2-26 21:47

crossin先生发表于 2018-2-26 14:11
你改成gbk试下，windows默认不是utf8

Traceback (most recent call last):
File "D:/python/html...py", line 3, in <module>
txt=open("三国演义.txt","r",encoding='gbk').read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xfc in position 194400: illegal multibyte sequence
这次是这个错误了

作者: crossin先生 时间: 2018-2-27 10:29

BIU 发表于 2018-2-26 21:47
Traceback (most recent call last):
File "D:/python/html...py", line 3, in
txt=open("三国演 ...

看起来你这个源文件不大对。你找个编辑器重新设置编码保存下，或者先换个文件把程序调通。

作者: BIU 时间: 2018-2-27 17:25

crossin先生发表于 2018-2-27 10:29
看起来你这个源文件不大对。你找个编辑器重新设置编码保存下，或者先换个文件把程序调通。 ...

好的我试试

欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)