背景:2018AICon大会中的一些PPT,官方没有提供完整的PDF文件,而是一张张图片,不方便下载和后续阅读,这里使用Python爬取相关演讲的图片,并生产PDF文件

下载函数

创建下载图片函数,使用的是Python的urllib库,代码如下

1
2
3
4
5
6
7
8
9
10
11
12
# 下载图片
def save_img(img_url,file_path="./img/"):
if not os.path.exists(file_path):
print("保存图片的文件不存在,创建该目录")
os.mkdir(file_path)
# 图片后缀
file_suffix = os.path.splitext(img_url)[1]
file_name = str ( int(img_url.split("-")[1].split(".")[0]) )
# 拼接图片名(包含路径)
filename = '{}{}{}'.format(file_path,file_name,file_suffix)
# urllib
urllib.request.urlretrieve(img_url, filename=filename)

生成PDF函数

创建图片生成PDF文件的函数,使用的是Python的reportlab库,代码如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 生成pdf
def convert_img_to_pdf(img_path,pdf_path):
pages = 0
(w, h) = landscape(portrait(A4))
can = canvas.Canvas(pdf_path, pagesize=landscape(portrait(A4)))
# 获取img_path下文件,并进行排序
files = os.listdir(img_path)
files.sort(key=lambda x: int(x[:-4]))
# 遍历每个文件
for f_name in files:
# 拼装成完整的file路径
file_path = img_path + os.sep + str(f_name)
can.drawImage(file_path, 0, 0, w, h)
can.showPage()
pages = pages + 1
can.save()

需要注意的是,pagesize不能直接指定值portrait(A4),因为一张图片会完整的嵌套在一页A4纸张上,极其不美观,这里需要将A4的大小进行转置,pagesize=landscape(portrait(A4))

定义要生成的PDF相关信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
_list = (
{
"pdf_name": "FFM及DeepFFM模型在推荐系统的探索及实践.pdf",
"img_path": "./img_1/",
"page": 52,
"id": "3670025915"
},{
"pdf_name": "知乎推荐系统的实践及重构之路.pdf",
"img_path": "./img_2/",
"page": 38,
"id": "4291192513"
},{
"pdf_name": "深度树匹配——下一代推荐技术的探索和实践.pdf",
"img_path": "./img_3/",
"page": 33,
"id": "3621355867"
},{
"pdf_name": "基于知识的搜索推荐技术及应用.pdf",
"img_path": "./img_4/",
"page": 31,
"id": "436657700"
},{
"pdf_name": "瓜子二手车个性化推荐的挑战与应对.pdf",
"img_path": "./img_5/",
"page": 40,
"id": "1433077746"
},{
"pdf_name": "机器学习在苏宁搜索平台中的实践.pdf",
"img_path": "./img_6/",
"page": 55,
"id": "1155556309"
}
)

生成PDF

遍历要生成PDF的每个信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
for one in _list:
print(one)
for i in range(1,one["page"]+1):
img_path = one["img_path"]
pdf_path = one["pdf_name"]
if i < 10:
img_url = "https://static001.geekbang.org/con/37/pdf/" + one["id"] + "/image/page-00" + str(i) + ".jpg"
else:
img_url = "https://static001.geekbang.org/con/37/pdf/" + one["id"] + "/image/page-0" + str(i) + ".jpg"
print(img_url)
# 下载图片
save_img(img_url,img_path)
# 合成pdf
convert_img_to_pdf(img_path, pdf_path)
print("Image转PDF完成!")

PDF文件资料获取方式:百度网盘

链接:https://pan.baidu.com/s/1MC_bH2x5jjsP1LvBB5cZCA

提取码:58zq


原文链接:https://blog.csdn.net/Gamer_gyt/article/details/85637436


打开微信扫一扫,关注微信公众号【搜索与推荐Wiki】