Python 中 HTML 与 XML 处理全解析
1. HTML 解析
在 Python 中,有多种方式可以对 HTML 进行解析,下面将介绍使用HTMLParser和BeautifulSoup进行 HTML 解析的方法。
1.1 HTMLParser 相关方法
HTMLParser提供了多个方法用于处理 HTML 文档中的不同元素:
-handle_comment(comment):用于处理注释,comment是<!--...-->内的字符串,不包含分隔符。HTMLParser对该方法的默认实现不做任何操作。
-handle_data(data):用于处理任意字符串数据。通常,自定义的子类会重写此方法。HTMLParser的默认实现不做任何操作。
-handle_endtag(tag):用于处理结束标签,tag是小写的标签字符串。HTMLParser的默认实现不做任何操作。
-handle_entityref(ref):用于处理实体引用&ref;。HTMLParser的默认实现不做任何操作。
-