本代码由广州75中单纯的荔枝老师分享在NOI教练群内,自己亲测了一下,感觉蛮好玩,所以特意收藏下来,具体代码如下:
import pdfplumber
from openpyxl import Workbook
wb = Workbook() # 创建文件对象
ws = wb.active # 获取第一个sheet
myfile = ‘CSPJS入门级-公示.pdf’ # 把文件名改成自己的实际文件名即可
path = myfile
pdf = pdfplumber.open(path)print(‘开始读取数据’)print(pdf.pages[0].extract_tables()[0][0])
ws.append(pdf.pages[0].extract_tables()[0][0])for page in pdf.pages: # 获取当前页面的全部文本信息,包括表格中的文字 # print(page.extract_text())for table in page.extract_tables(): # print(table)for row in table:if “序号” not in row: # print(type(row))
rowlist = str(row).replace(“[“, “”,).replace(“]”, “”).replace(“‘”, “”).replace(“\\n”, vps云服务器 “”).split(“,”)print(rowlist)
ws.append(rowlist) #print(‘———- 分割线 ———-‘)
pdf.close()# 保存Excel表
wb.save(myfile+’.xlsx’)print(‘\n’)print(‘写入excel成功’)
69166744