要导出一个网页的所有 HTML 代码,可以使用以下方法:
方法 1:直接使用浏览器
使用“另存为”功能
在网页上 右键 → 选择 “查看页面源代码”(或快捷键 Ctrl + U)。复制代码到本地,或按 Ctrl + S 保存网页(选择“网页,完整”或“网页,仅 HTML”)。
使用开发者工具
在 Chrome/Edge/Firefox 上按 F12 打开开发者工具(或 Ctrl + Shift + I)。选择 Elements(元素)面板,右键 标签,选择 “编辑为 HTML”,复制所有代码。
方法 2:使用 Python
如果你想用 Python 爬取网页的 HTML,可以使用 requests 和 BeautifulSoup:
import requests
url = "https://example.com"
response = requests.get(url)
with open("page.html", "w", encoding="utf-8") as file:
file.write(response.text)
print("HTML 已成功保存到 page.html")
如果目标网站有反爬机制,建议使用 headers 伪装:
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)
方法 3:使用 Chrome 插件
如果你需要导出动态生成的 HTML(如 JavaScript 渲染的内容),可以使用:
Scraper(Chrome 插件):自动提取网页的 HTML 数据。Web Scraper:提供批量抓取功能,并可导出 HTML。
方法 4:使用 Selenium
如果网页是动态加载的(如 AJAX 请求的内容),可以使用 Selenium:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://example.com")
html = driver.page_source
with open("page.html", "w", encoding="utf-8") as file:
file.write(html)
driver.quit()
print("HTML 页面已保存")
方法 5:使用 wget(适用于 Linux/macOS)
在终端执行:
wget -O page.html "https://example.com"
这会将网页的 HTML 保存到 page.html。
总结
方式适用情况说明浏览器右键另存为静态网页简单快捷,适用于普通网页开发者工具复制 HTML需要部分 HTML 代码适合分析网页结构Python requests静态网页适用于爬取 HTML,但不支持 JavaScript 渲染Selenium动态网页适用于需要执行 JavaScript 代码的网页Chrome 插件可视化抓取适合非编程用户wget/curl终端用户适用于 Linux/macOS 直接抓取你可以根据需求选择最合适的方法!