python网页爬虫代码
pythonimport requests
from bs4 import BeautifulSoup
# 定义要爬取的网页链接
url = 'http://example.com'
# 发送GET请求获取页面内容
response = requests.get(url)
# 检查响应状态码
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 在这里可以根据网页结构提取你需要的内容
# 例如,查找所有的<a>标签
links = soup.find_all('a')
# 打印所有链接
for link in links:
print(link.get('href'))
else:
print("Failed to retrieve the webpage")
在这个示例中,我们首先使用requests
库发送了一个GET请求来获取指定网页的内容。然后,我们使用BeautifulSoup
解析HTML内容,以便轻松地提取出我们需要的信息。在这个例子中,我们查找了所有的<a>
标签,并打印了它们的href
属性,即链接地址。
请确保在使用网页爬虫时
pythonimport requests
from bs4 import BeautifulSoup
# 定义要爬取的网页链接
url = 'http://example.com'
# 发送GET请求获取页面内容
response = requests.get(url)
# 检查响应状态码
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取标题
title = soup.title.text
print("标题:", title)
# 提取内容
content_paragraphs = soup.find_all('p')
content = ''
for paragraph in content_paragraphs:
content += paragraph.text.strip() + '\n'
print("内容:", content)
else:
print("Failed to retrieve the webpage")
在这个例子中,我们通过soup.title.text
提取了网页的标题,然后通过soup.find_all('p')
找到了所有的<p>
标签,表示段落。随后,我们将这些段落拼接起来,形成了整个网页的内容。最后,我们打印了标题和内容。
需要注意的是,不同的网页结构可能会有所不同,你需要根据目标网站的HTML结构来调整代码,确保能够正确地提取出你需要的信息。