查看: 9175|回复: 2

如何读取机器码和文本混合的文档,从中提取文本部分的内容?

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

电梯直达

楼主

发表于 2020-9-20 03:17:25 |只看该作者 |倒序浏览

我想使用python读取一个视频编辑器的存档文件, 这个存档绝大部分是文本, 但是开头部分和中间随机的部分有一些机器码. 我如何才能使用python读取其中的文本片段?

代码样式

我尝试使用代码框粘贴到这里, 但是粘贴完后自动就过滤了那些机器码. 所以我用贴图的方式展示.

开头部分:

中间部分:

我的尝试

with open('testing.wfp', 'r', encoding='utf-8') as f:

复制代码

这个提示: UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9a in position 11: invalid start byte

with open('c:/desktop/testing.wfp', 'rb') as f:

复制代码

使用byte模式读取, 虽然没有提示出错, 但读取的结果f.read()是一个byte变量, 又没有办法使用字符串的操作.
当使用decode()这类的方法进行转换的时候又回到上面的decode error.

我的问题

不知道有什么办法才能读取这样的混合型的文件? 为了方便高手帮我调试, 我在附件中加了一个片段, 包括头部的机器码和下面的一段文字.

非常感谢.

testing.zip

498 Bytes, 下载次数: 3

样式文件, 只有头部的机器码和部分文字内容

收藏0

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

沙发

发表于 2020-9-20 15:47:54 |只看该作者

这种文件都是某种软件自己定义的格式，如果你不知道它的规则，或者用专门的库，是没有办法完美读取的，读取了也没法用。

如果你只是需要取出其中的可读文本部分，可以在open里加上参数 errors='ignore' 或者 'replace'，会自动替换无法解码的字符

----
你保存成的txt文件就是相当于软件帮你做了这个过程，所以你发上来的txt即使直接打开也不会报错

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

anyone

16 主题	1 好友	244 积分

中级会员

Rank: 3 Rank: 3

发消息

板凳

发表于 2020-9-20 18:41:33 |只看该作者

crossin先生发表于 2020-9-20 15:47
这种文件都是某种软件自己定义的格式，如果你不知道它的规则，或者用专门的库，是没有办法完美读取的，读取 ...

非常感谢, errors的ignore/replace正是我需要的.

在这里总是学到很多. 再次感谢.

使用道具举报

返回列表

		自动登录	找回密码
密码			立即加入