123 / 3 页下一页

楼主: crossin先生

【每日一坑 6】查找文件内容

[复制链接]

南斗

0 主题	0 好友	30 积分

新手上路

Rank: 1

发消息

11^#

发表于 2017-3-27 22:53:45 |只看该作者

#! /usr/bin/env python
#coding=utf-8
import os
rootdir = 'E:\Famine' #定义根目录
#三个参数：分别返回1.父目录 2.父目录下所有文件夹名字（不含路径） 3.父目录下所有文件名字
for father_path, foldernames, filenames in os.walk(rootdir):
for filename in filenames: #遍历文件
if os.path.splitext(filename)[1] == '.txt': #判断文件后缀是否是txt
dir = os.path.join(father_path, filename) #组合文件路径
if os.path.exists(dir): #判断文件路径是否存在
folder = os.path.split(os.path.split(dir)[0])[1] #获取文件上层文件夹
print 'The upper folder is:\n%s' % folder, '\n'
print 'The file name is:\n%s' % filename, '\n'
f = file(dir) #打开文件
context = f.read() #读取文件内容
print 'The contents of this file is', '\n', context, '\n\n'
f.close() #关闭文件

复制代码

使用道具举报

xqqxjnt1988

0 主题	1 好友	61 积分

注册会员

Rank: 2

发消息

12^#

发表于 2017-4-11 15:33:46 |只看该作者

crossin先生发表于 2016-2-16 22:35
查找文件里的内容不用readlines，直接read到一个字符串，然后find就可以了。
另外你这个代码好像无法检测 ...

谢谢你，crossin先生，我在你的论坛上学习了python之后，就找了一个写python的工作，所以到现在才来看，特意来感谢你的。谢谢！

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

13^#

发表于 2017-4-11 23:29:28 |只看该作者

xqqxjnt1988 发表于 2017-4-11 15:33
谢谢你，crossin先生，我在你的论坛上学习了python之后，就找了一个写python的工作，所以到现在才来看， ...

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

wolfog

1 主题	0 好友	39 积分

新手上路

Rank: 1

发消息

14^#

发表于 2017-8-31 11:57:51 |只看该作者

import fnmatch
import os

def filterFile(filePath, contain):
for grandFather, father, sons in os.walk(filePath):
      sonList = []
      for son in sons:
         sonList.append(son)
      fnmatchs = fnmatch.filter(sonList, "*.txt")
      if len(fnmatchs) != 0:
         for fnmatchFile in fnmatchs:
            absultePath = grandFather + "/" + fnmatchFile
            absultePath = absultePath.replace("\\", "/")
            f = file(absultePath)
            str = f.read()
            f.close()
            if str.__contains__(contain):
                  print absultePath

path = raw_input("请输入遍历的绝对路径：")
filterFile(path, "aaa")

做的过程中存在两个问题困扰了我:
1、sonList刚开始在方法外放着，导致生命周期太长，所以导致了我的拼接出来的路径下不存在某个文件
2、拼接出来的路径是双引号的，用来打开文件会出错。但是我敲的demo在pycharm中打印出来却是单斜杠的。一直不知道是哪里出问题了。最后发现是pycharm自动将其转化为合格的路劲。

使用道具举报

coolqing

0 主题	2 好友	46 积分

新手上路

Rank: 1

发消息

15^#

发表于 2018-5-16 16:48:56 |只看该作者

我这边自己建了一个文件夹，里面放了一个子文件夹，一些txt、excel和word文件。
运行代码后，txt文件正常显示内容，excel和word都不正常。
自己搜索了下，说是excel和word的读取要用其他模块来处理的，但是基础课程中讲到read的使用时，老师好像也没有提到txt文件之外的类型该怎么读取，麻烦问下老师excel这些是要再另外处理吗？

1526460289(1).jpg (17.28 KB, 下载次数: 661)

1526460289(1).jpg

1526460267(1).jpg (9.67 KB, 下载次数: 643)

1526460267(1).jpg

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

16^#

发表于 2018-5-17 22:42:57 |只看该作者

coolqing 发表于 2018-5-16 16:48
我这边自己建了一个文件夹，里面放了一个子文件夹，一些txt、excel和word文件。
运行代码后，txt文件正常显 ...

excel、word是不能直接读取的，要读写的话，需要用专门的库
公众号回复 excel 有介绍

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

highhig

0 主题	0 好友	10 积分

新手上路

Rank: 1

发消息

17^#

发表于 2018-8-23 11:46:19 |只看该作者

crossin先生发表于 2014-1-2 10:30
open只是在python打开，把内容读入内存，不会调用任何其他程序打开。但这个过程是很慢的。所以虽然可以实 ...

import os
import re
dirnme = 'E:\Study during Graduate school'
list_dir = []
for dirnow,folds,files in os.walk(dirnme):
# print(dirnow)
# print(folds)
# print(files)
for fs in files:
      # print(fs)
      filtext = re.findall('.txt',fs)
      if filtext:
         list_dir.append(os.path.join(dirnow, fs))
# filtext = re.findall("*.txt",files)
# list_dir.append(''.join(dirnow,files))
print(list_dir)

使用道具举报

jodie

0 主题	0 好友	52 积分

注册会员

Rank: 2

发消息

18^#

发表于 2020-10-14 23:22:50 |只看该作者

import os
import chardet
def match(search_path,match_text):
result_list = []
for root, dirs, files in os.walk(search_path):
# 遍历所有的文件
for file in files:
# 判断文件名是否以“.txt”结尾
if file.endswith(".txt"):
# 获取文件的绝对路径
file_path = os.path.join(root,file)
# print(file_path)
# 判断文件的编码格式
with open(file_path, "rb") as obj1:
text_b = obj1.read()
text_encoding = chardet.detect(text_b)["encoding"]
# print(text_encoding)
# 用指定的编码格式打开文件，判断文本参数是否存在于文件内容
with open(file_path, "r", encoding=text_encoding) as obj2:
text = obj2.read()
if match_text in text:
result_list.append(file_path)
return result_list
if __name__ == "__main__":
# 提示用户输入路径
while True:
search_path = input("请输入搜索路径： ").strip()
# 判断路径是否存在
if os.path.exists(search_path):
break
print("路径不存在！")
# 提示用户输入匹配的文字
match_text = input("请输入匹配的文字： ")
file_list = match(search_path,match_text)
# 展示匹配到的文件
print("匹配到的文件如下： ")
for one in file_list:
print(one)

复制代码

result.png (7.75 KB, 下载次数: 1034)

使用道具举报

crossin先生

174 主题	45 好友	11万积分

管理员

Rank: 9 Rank: 9 Rank: 9

发消息

19^#

发表于 2020-10-15 13:02:59 |只看该作者

jodie 发表于 2020-10-14 23:22

实际运用中，因为文件夹下可能有很多非文本文件，所以最好加上异常处理，避免报错跳出

#==== Crossin的编程教室 ====#
微信ID：crossincode
网站：http://crossincode.com

使用道具举报

FERRYMAN

3 主题	1 好友	111 积分

注册会员

Rank: 2

发消息

20^#

发表于 2021-2-13 19:24:08 |只看该作者

老师好，能看看嘛？望得到您的建议。

这个程序有些问题。比如我在文件夹中加上一个Word文件，它就会报错。大概是这样：
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 89: illegal multibyte sequence
老师能解释一下和提供个解决方法吗？谢谢啦！

import os
text = input('输入要检索的内容:\n')
way = input('输入要检索的文件夹位置:\n')
result = []
for root, dirs, files in os.walk(way):
for f in files:
file_con = open(root + '\\' + f,encoding = 'utf-8').read()
if text in file_con:
result.append(f)
print(result)

复制代码

使用道具举报

123 / 3 页下一页

返回列表

		自动登录	找回密码
密码			立即加入

【每日一坑 6】 查找文件内容

【每日一坑 6】查找文件内容