sjba

标价语言 HTML,xml (类似于

ihsaohoh

bs4

安装bs4

bs4使用

1
2
3
4
5
6
7
8
9
1.解析数据

将页面源码交给BeautifulSoup,生成bs对象
page = BeautifulSoup(resr.text,"html.parser") 指定HTML解析器
2.从生成的对象中找数据
find("标签",class="属性值") find_all()
我们拿到一个标签以后我们可以用get()函数将里面的属性值提出来
爬东西的话最好还是弄一个文件夹

xpath

安装lxml模块

from lxml import etree

1
2
3
4
5
6
7
8
9
10
11
12
 tree = etree.xml(xml)

result = tree.xpath("/book/name/text()") 后面的text()是代表文本的意思

result = tree.xpath("/book//name/text()") //后面的代表的是后代的意思

result = tree.xpath("/book/*/name/text()") *代表的是中间的任意标签

result = tree.xpath("/book/name/a[@href="dapao"]/text()") [@xxx=xxx] @可以直接找到标签里的属性
result = tree.xpath("/book/name/a/@href) 这样可以把属性值拿出来
相对查找./a/@href,绝对查找就是上面的那些

线程池和进程池

线程:执行单位

进程:资源单位

线程池:一次开辟多个进程。我们的用户直接给线程池提交任务。线程吃的任务直接交给线程池完成