爬虫实战_爬取豆瓣图书利用csv库存储

读取csv文件

通过csv.reader()和DictReader()两个函数
reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!

1
2
3
4
5
6
7
8
9
10
11

import csv
# with open('1 (2).csv','r') as fp:
#     reader=csv.reader(fp)
#     # next(reader)
#     for x in reader:
#         print(x)
with open('1 (2).csv','r') as fp:
    reader=csv.DictReader(fp)
    for i in reader:
        print(i['学生姓名'])


写入csv文件

两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
writerow() writerows()
都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。


项目

项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
import requests
import csv
from bs4 import BeautifulSoup
header={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
}
headers=['书名','相关信息','评分']
def spdier(url):
    resp=requests.get(url,headers=header)
    text=resp.text
    html=BeautifulSoup(text,"lxml")
    # print(html.prettify())
    alist=html.find_all('a',class_='title')
    titles=[]
    for a in alist:
        title=list(a.stripped_strings)[0]
        titles.append(title)
    infolist=html.find_all('div',class_='desc')
    infos=[]
    for info in infolist:
        info1=list(info.stripped_strings)[0]
        infos.append(info1)
    ratelist=html.find_all('span',class_='rating_nums')
    rates=[]
    for i in ratelist:
        rate=list(i.stripped_strings)[0]
        rates.append(rate)
    books=[]
    for i in range(len(rates)):
        book={
            '书名':titles[i],
            '相关信息':infos[i],
            '评分':rates[i]
        }
        books.append(book)
    return books
def csv_storage(list_books,filename):
    with open(filename,'w',encoding='utf-8',newline='') as fp:
        writer=csv.DictWriter(fp,headers)
        writer.writeheader()
        writer.writerows(list_books)
def main():
    base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
    books=[]
    for i in range(0,136,15):
        url=base_url.format(i)
        book=spdier(url)
        books +=book
    csv_storage(books,'豆瓣图片.csv')
if __name__ == '__main__':
    main()

总结

今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。

#
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×