html转义字符
2022-08-09 # Python

抓网页数据经常遇到例如>或者 这种HTML转义符

什么是转义字符
在 HTML 中 <、>、& 等字符有特殊含义(<,> 用于标签中,& 用于转义),他们不能在 HTML 代码中直接使用,如果要在网页中显示这些符号,就需要使用 HTML 的转义字符串(Escape Sequence),例如 < 的转义字符是 <,浏览器渲染 HTML 页面时,会自动把转移字符串换成真实字符。

转义字符(Escape Sequence)由三部分组成:第一部分是一个 & 符号,第二部分是实体(Entity)名字,第三部分是一个分号。 比如,要显示小于号(<),就可以写&lt; 。

Python 反转义字符串

1
2
3
4
import html

html.unescape('a=1&amp;b=2') #反转义
html.escape('a=1&b=2') #转义