Crossin的编程教室

标题: 【每日一坑 6】查找文件内容 [打印本页]

作者: crossin先生 时间: 2013-12-26 17:39
标题: 【每日一坑 6】查找文件内容
Hello 大家好，我终于又来挖坑了。

上次的坑好像反响不是很好，论坛上只有两份解答。其实这题难度不大，不用什么特殊的函数来解决，就是字符串、队列的各种操作，可能会比较烦。如果你要用 python 来处理数据、文件，抓取网页等等，最后也都逃不过各种字符串和队列的操作。

这题本来定的比较宽松，你可以选择按标点划分成新队列，或者按照固定长度划分新队列，然后再按照元素在队列中的位置，重新整合成新队列输出。具体实现就不在微信里发了。

之前说过要挖几个跟文件相关的坑。今天就是在之前“查找文件”的基础上，增加对文件内容的检索。仍然是设定某个文件夹，不同的是要再增加一个文本参数，然后列出这个文件夹（含所有子文件夹）里，所有文件内容包括这个搜索文本的文件。

作者: fl0w 时间: 2013-12-26 22:32
本帖最后由 fl0w 于 2013-12-26 22:35 编辑

findThemAll.py

#! /usr/bin/env python
# coding:utf-8
import sys
import os
import fnmatch
import re
def filterFilename(path, text):
fileList = []
for dirpath, dirnames, filenames in os.walk(path):
for filename in filenames:
if fnmatch.fnmatch(filename, text):
fileList.append(os.path.join(dirpath, filename))
return fileList
if __name__ == "__main__":
if len(sys.argv) < 3:
print 'Please input like this:./findThemAll.py your_dir your_match_string'
elif os.path.exists(sys.argv[1]):
fileList = filterFilename(sys.argv[1],'*.txt')
themAll = []
for file in fileList:
with open(file) as f:
content = f.read()
if len(re.findall(sys.argv[2], content)) > 0:
themAll.append(file)
print 'The files under %s contain "%s" are:' % (sys.argv[1], sys.argv[2])
print themAll
else:
print 'Are you sure the path is exist?'

复制代码

作者: scz_000 时间: 2013-12-27 14:27
这题是不是可以拓展成为比较实用的搜索相关文本功能？不同的格式直接用open是不是默认用记事本打开，里面的那些编码有什么价值啊？小的文件夹还行，尝试的搜整个盘系统就会变得非常慢，用时似乎还要很久。

# coding=gbk
import os,fnmatch
def find_txt(root,patterns='*'):#定义主函数，接受目录与所要匹配的拓展名为参数
list_of_file=[]#列表储存匹配文件路径
for dirname,subdir,filenames in os.walk(root):#使用os。walk（遍历包括子目录下所有文件），生成三组列表，第一组为当前目录地址，第二组为当下前目录下的文件夹名（没有则返回一个空列表），第三组为当前目录的所有文件
for i in filenames:#遍历当前目录下的所有文件，每个文件名加上当前文件夹路径，构成完整的文件路径
file_object='\\'.join([dirname,i])#构造完整目录
try:
f=open(file_object,'r')#打开文件
file_content= f.read()#读取文件
if key_words in file_content:#判断关键词是否在文件内容内
list_of_file.append(file_object)
finally:
f.close()
return list_of_file
if __name__=='__main__':
root=raw_input('所要搜索目录:')
key_words=raw_input('内容关键词:')
match_files=find_txt(root)
if match_files:
print "以下是包含关键词%s的文件"%key_words
for i in match_files:
print i
else:
print"没有找到相关文件"

复制代码

作者: crossin先生 时间: 2014-1-2 10:30

scz_000 发表于 2013-12-27 14:27
这题是不是可以拓展成为比较实用的搜索相关文本功能？不同的格式直接用open是不是默认用记事本打开，里面的 ...

open只是在python打开，把内容读入内存，不会调用任何其他程序打开。但这个过程是很慢的。所以虽然可以实现文本搜索，也还是不能用来全盘搜索。

作者: creek 时间: 2014-6-27 00:16

#!/usr/bin/env python
#coding:UTF-8
import os
import re
def VisitDir(path):
for root,dirs,files in os.walk(path):
for f in files:
if os.path.splitext(f)[1]=='.py':
content=open(os.path.join(root,f),'r').read()
if re.search('import os',content):
print f
if __name__=="__main__":
path="."
VisitDir(path)

复制代码

作者: manhong2112 时间: 2016-1-16 14:37

import re
import os
def check(dir,text):
for i in os.listdir(dir):
if os.path.isdir(i): check(dir + "/" + i,text)
if re.search(r'.*\.txt',i):
file = open(dir + "/" + i,encoding="utf8").read()
print(str(i) + "\n" if re.search(text,file) else "",end="")
check(os.getcwd(),"hello world")

复制代码

作者: xqqxjnt1988 时间: 2016-2-16 15:25
@crossing先生
请帮我看看，新手鼓起勇气努力写了大半天，期待前辈指点，有任何错误，不妥，都请您指出，拜谢
#!\usr\bin\python
#-*-encoding:utf-8-*-
#author=xuqq
#下面这个程序实现的功能是：在一个文件夹，包括子文件夹中，寻找包含相关内容的文件，把这些文件罗列出来
import os,re

def search_in_path(path_original,str_targit):
targit_files = []
if (os.path.exists(path_original) and os.path.isabs(path_original)):
      for root,dir,files in os.walk(path_original):                                  #os.walk()遍历是个好东东
         print root
         print dir
         print files

         for file_obj in files:
            file_whole_name = os.path.join(root,file_obj)
            result = search_in_file(file_whole_name,str_targit)
            if result !="":
                  targit_files.append(result)
            else:
                  continue
else:
      print "The path which you have input is not valid!"
print "最终包括这个内容的文件有：\n"
result_num = 0
for tar in targit_files:
      print "%d\t%s" %(result_num,tar)
      result_num = result_num+1

def  search_in_file(file_original,str_targit):
if os.path.isfile(file_original):
      fp = open(file_original,'r')
      match = False
      line = "file begin:"
      i = 1
      while line:
         line =  fp.readline()
         #print "以下打印内容:\n" ,line
         m = re.findall(str_targit,line)
         #print "m = \t",m
         if m !=[]:
            match =True
            print "在文件里找到了"
            break
         else:
            continue
         i = i+1
      print "%_%"*28
      print "match:\t",match
      if match ==True:
         print "Found it!\t"+file_original
         fp.close()
         print '*'*80
         return file_original
      else:
         print "Nothing found!"
         fp.close()
         print '#'*80
         return ""

def main():
search_in_path("C:\Python27", "xuqq")

if __name__ =='__main__':
main()

作者: crossin先生 时间: 2016-2-16 22:35

xqqxjnt1988 发表于 2016-2-16 15:25
@crossing先生
请帮我看看，新手鼓起勇气努力写了大半天，期待前辈指点，有任何错误，不妥，都请您指出，拜 ...

查找文件里的内容不用readlines，直接read到一个字符串，然后find就可以了。
另外你这个代码好像无法检测子文件夹，因为你没有进一步对dir去递归搜索

作者: morpheus2222 时间: 2017-1-22 09:03
import os
def find_certain_files(keyword = input("search:") ):
result = []
for path,dirs,files in os.walk("文件夹"):
      for file in files:
         if file.endswith(".txt"):
            fileWithPath = os.path.join(path,file)
            a = open(fileWithPath)
            b = a.read()
            if keyword in b:
                  result.append(fileWithPath)
            a.close()

print(result)
find_certain_files()

作者: huiwenwu 时间: 2017-3-7 15:43
模仿上一个题目的一个解答编写的。让用户提供文件夹，文件类型和搜索文本。

#!/usr/bin/python
#This file is used to search files in path A. The names of the files contains B, and the content of the files contain C
#the input should like this:python search.py A B C

import os
import re
import sys

def searchmethod(path,filetype,text):
  all=[]
  for dirpath, dirnames, filenames in os.walk(path):
for filename in filenames:
   f=file(os.path.join(dirpath,filename))
   content=f.read()
   f.close()
   #print content
   if os.path.splitext(filename)[1]==filetype and re.findall(text, content): # to match file type and file content
      all.append(os.path.join(dirpath,filename))
  print all

if __name__=='__main__':
  if len(sys.argv) !=4:
print 'Please input like this:./9.py your_dir file_type your_match_string'
  elif os.path.exists(sys.argv[1]):
searchmethod(sys.argv[1],sys.argv[2],sys.argv[3])

作者: 南斗 时间: 2017-3-27 22:53

#! /usr/bin/env python
#coding=utf-8
import os
rootdir = 'E:\Famine' #定义根目录
#三个参数：分别返回1.父目录 2.父目录下所有文件夹名字（不含路径） 3.父目录下所有文件名字
for father_path, foldernames, filenames in os.walk(rootdir):
for filename in filenames: #遍历文件
if os.path.splitext(filename)[1] == '.txt': #判断文件后缀是否是txt
dir = os.path.join(father_path, filename) #组合文件路径
if os.path.exists(dir): #判断文件路径是否存在
folder = os.path.split(os.path.split(dir)[0])[1] #获取文件上层文件夹
print 'The upper folder is:\n%s' % folder, '\n'
print 'The file name is:\n%s' % filename, '\n'
f = file(dir) #打开文件
context = f.read() #读取文件内容
print 'The contents of this file is', '\n', context, '\n\n'
f.close() #关闭文件

复制代码

作者: xqqxjnt1988 时间: 2017-4-11 15:33

crossin先生发表于 2016-2-16 22:35
查找文件里的内容不用readlines，直接read到一个字符串，然后find就可以了。
另外你这个代码好像无法检测 ...

谢谢你，crossin先生，我在你的论坛上学习了python之后，就找了一个写python的工作，所以到现在才来看，特意来感谢你的。谢谢！

作者: crossin先生 时间: 2017-4-11 23:29

xqqxjnt1988 发表于 2017-4-11 15:33
谢谢你，crossin先生，我在你的论坛上学习了python之后，就找了一个写python的工作，所以到现在才来看， ...

作者: wolfog 时间: 2017-8-31 11:57

import fnmatch
import os

def filterFile(filePath, contain):
for grandFather, father, sons in os.walk(filePath):
      sonList = []
      for son in sons:
         sonList.append(son)
      fnmatchs = fnmatch.filter(sonList, "*.txt")
      if len(fnmatchs) != 0:
         for fnmatchFile in fnmatchs:
            absultePath = grandFather + "/" + fnmatchFile
            absultePath = absultePath.replace("\\", "/")
            f = file(absultePath)
            str = f.read()
            f.close()
            if str.__contains__(contain):
                  print absultePath

path = raw_input("请输入遍历的绝对路径：")
filterFile(path, "aaa")

做的过程中存在两个问题困扰了我:
1、sonList刚开始在方法外放着，导致生命周期太长，所以导致了我的拼接出来的路径下不存在某个文件
2、拼接出来的路径是双引号的，用来打开文件会出错。但是我敲的demo在pycharm中打印出来却是单斜杠的。一直不知道是哪里出问题了。最后发现是pycharm自动将其转化为合格的路劲。

作者: coolqing 时间: 2018-5-16 16:48
我这边自己建了一个文件夹，里面放了一个子文件夹，一些txt、excel和word文件。
运行代码后，txt文件正常显示内容，excel和word都不正常。
自己搜索了下，说是excel和word的读取要用其他模块来处理的，但是基础课程中讲到read的使用时，老师好像也没有提到txt文件之外的类型该怎么读取，麻烦问下老师excel这些是要再另外处理吗？

1526460289(1).jpg (17.28 KB, 下载次数: 446)

1526460289(1).jpg

1526460267(1).jpg (9.67 KB, 下载次数: 424)

1526460267(1).jpg

作者: crossin先生 时间: 2018-5-17 22:42

coolqing 发表于 2018-5-16 16:48
我这边自己建了一个文件夹，里面放了一个子文件夹，一些txt、excel和word文件。
运行代码后，txt文件正常显 ...

excel、word是不能直接读取的，要读写的话，需要用专门的库
公众号回复 excel 有介绍

作者: highhig 时间: 2018-8-23 11:46

crossin先生发表于 2014-1-2 10:30
open只是在python打开，把内容读入内存，不会调用任何其他程序打开。但这个过程是很慢的。所以虽然可以实 ...

import os
import re
dirnme = 'E:\Study during Graduate school'
list_dir = []
for dirnow,folds,files in os.walk(dirnme):
# print(dirnow)
# print(folds)
# print(files)
for fs in files:
      # print(fs)
      filtext = re.findall('.txt',fs)
      if filtext:
         list_dir.append(os.path.join(dirnow, fs))
# filtext = re.findall("*.txt",files)
# list_dir.append(''.join(dirnow,files))
print(list_dir)

作者: jodie 时间: 2020-10-14 23:22

import os
import chardet
def match(search_path,match_text):
result_list = []
for root, dirs, files in os.walk(search_path):
# 遍历所有的文件
for file in files:
# 判断文件名是否以“.txt”结尾
if file.endswith(".txt"):
# 获取文件的绝对路径
file_path = os.path.join(root,file)
# print(file_path)
# 判断文件的编码格式
with open(file_path, "rb") as obj1:
text_b = obj1.read()
text_encoding = chardet.detect(text_b)["encoding"]
# print(text_encoding)
# 用指定的编码格式打开文件，判断文本参数是否存在于文件内容
with open(file_path, "r", encoding=text_encoding) as obj2:
text = obj2.read()
if match_text in text:
result_list.append(file_path)
return result_list
if __name__ == "__main__":
# 提示用户输入路径
while True:
search_path = input("请输入搜索路径： ").strip()
# 判断路径是否存在
if os.path.exists(search_path):
break
print("路径不存在！")
# 提示用户输入匹配的文字
match_text = input("请输入匹配的文字： ")
file_list = match(search_path,match_text)
# 展示匹配到的文件
print("匹配到的文件如下： ")
for one in file_list:
print(one)

复制代码

result.png (7.75 KB, 下载次数: 397)

作者: crossin先生 时间: 2020-10-15 13:02

jodie 发表于 2020-10-14 23:22

实际运用中，因为文件夹下可能有很多非文本文件，所以最好加上异常处理，避免报错跳出

作者: FERRYMAN 时间: 2021-2-13 19:24
老师好，能看看嘛？望得到您的建议。

这个程序有些问题。比如我在文件夹中加上一个Word文件，它就会报错。大概是这样：
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x82 in position 89: illegal multibyte sequence
老师能解释一下和提供个解决方法吗？谢谢啦！

import os
text = input('输入要检索的内容:\n')
way = input('输入要检索的文件夹位置:\n')
result = []
for root, dirs, files in os.walk(way):
for f in files:
file_con = open(root + '\\' + f,encoding = 'utf-8').read()
if text in file_con:
result.append(f)
print(result)

复制代码

作者: crossin先生 时间: 2021-2-13 20:14

FERRYMAN 发表于 2021-2-13 19:24
老师好，能看看嘛？望得到您的建议。

这个程序有些问题。比如我在文件夹中加上一个Word文件，它就会报错。 ...

word无法直接当做文本读写，可以通过异常处理来跳过。或者要用 python-docx库打开

作者: FERRYMAN 时间: 2021-2-13 21:05

crossin先生发表于 2021-2-13 20:14
word无法直接当做文本读写，可以通过异常处理来跳过。或者要用 python-docx库打开 ...

老师，我还有些问题。

报错UnicodeDecodeError的原因就是文件夹里的Word无法直接读是吗？
如果是，那如果文件夹里还有Excel，PPT之类，也要把那些库一个一个下载来用是吗？应该怎么办？

作者: crossin先生 时间: 2021-2-16 22:33

FERRYMAN 发表于 2021-2-13 21:05
老师，我还有些问题。

报错UnicodeDecodeError的原因就是文件夹里的Word无法直接读是吗？

看你具体什么需求，如果是需要检索的话，那确实是要的

作为这个练习来说，能做到检索txt内容和其他文件的名字就够了

作者: FERRYMAN 时间: 2021-2-17 11:05

crossin先生发表于 2021-2-16 22:33
看你具体什么需求，如果是需要检索的话，那确实是要的

作为这个练习来说，能做到检索txt内容和其他文件 ...

好的，谢谢老师

欢迎光临 Crossin的编程教室 (https://bbs.crossincode.com/)