ihsaohoh

）

bs4

安装bs4

bs4使用

1.解析数据

将页面源码交给BeautifulSoup，生成bs对象
page = BeautifulSoup(resr.text,"html.parser") 指定HTML解析器
2.从生成的对象中找数据
find("标签"，class="属性值") find_all()
我们拿到一个标签以后我们可以用get()函数将里面的属性值提出来
爬东西的话最好还是弄一个文件夹

xpath

安装lxml模块

from lxml import etree

 tree = etree.xml(xml)

result = tree.xpath("/book/name/text()") 后面的text()是代表文本的意思

result = tree.xpath("/book//name/text()")  //后面的代表的是后代的意思

result = tree.xpath("/book/*/name/text()")  *代表的是中间的任意标签

result = tree.xpath("/book/name/a[@href="dapao"]/text()") [@xxx=xxx] @可以直接找到标签里的属性
result = tree.xpath("/book/name/a/@href） 这样可以把属性值拿出来
相对查找./a/@href，绝对查找就是上面的那些

线程池和进程池

线程：执行单位

进程：资源单位

线程池：一次开辟多个进程。我们的用户直接给线程池提交任务。线程吃的任务直接交给线程池完成