'利用切片爬取先知'

一个简单的脚本,利用切片爬取先知社区的标题、文章链接、作者、作者主页、文章分类、发表时间、评论数,写的很辣鸡,大佬就当个笑话。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import requests

response = requests.get('https://xz.aliyun.com/?page=1').text
table = response.find('<table class="table topic-list">')
_table = response.find('</table>')
connet = response[table:_table]
c = connet.split('<tr><td>')

for n in range(1, 31):
d = c[n].split(r'<a href="')[1]
authorurl = d.split(r'">')[0] # 作者链接

e = d.split(r'">')[1]
author = e.split(r'</a> /')[0] # 作者

f = c[n].split(r'">')[8]
tags = f.split(r'</a>')[0] # 分类

time = c[n].split(r'/ ')[1][0:10] # 时间

g = c[n].split(r'">')[5]
title = g.split(r'</a>')[0] #标题

h = c[n].split(r'href="')[2]
titleurl = h.split(r'">')[0]

j = c[n].split(r'<span class="pull-right"><span class="badge badge-hollow text-center ">')[1]
number = j.split('</span>')[0]

with open(r"D:\xz.txt", "a", encoding='utf-8') as file: # 在D盘中打开/创建一个名为先知的txt文件
file.write('标题:' + title.strip() + '\n') # 向文件中写入title的字符串(即文章的标题),并换行
file.write('文章链接:' + 'https://xz.aliyun.com' + titleurl + '\n') # 向文件中写入文章的链接,并换行
file.write('作者:' + author + '\n')
file.write('作者主页:' + 'https://xz.aliyun.com' + authorurl + '\n')
file.write('文章分类:' + tags + '\n')
file.write('发表时间:' + time + '\n')
file.write('评论数:' + number + '\n\n')

效果