python正则替换替换文本特殊字符和html代码
import re
h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布!'
h2 = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]','',h2,flags=re.I)
# 去除掉所有的div
p_con = re.sub(r'</?div[^>]*>', '', p_con)
# 去除掉HTML注释
p_con = re.sub(r'<!--.+?-->', '', p_con)
# 删除p标签里面的属性
p_con = re.sub(r'<p[^>]+>', '<p>', p_con)
p_con = re.sub(r'<br[^>]+>', '', p_con)
p_con = re.sub(r'<strong[^>]+>', '<strong>', p_con)
p_con = re.sub(r'<span[^>]+>', '<span>', p_con)
p_con = re.sub(r'<section[^>]+>', '<section>', p_con)
# p_con = re.sub(r'<span[^>]+>(.*)</span>', r'\g<1>', p_con)
# p_con = re.sub(r'<strong.*>?(.*)</strong>', r'\g<1>', p_con)
# 删除img标签里面除src以外的属性
p_con = re.sub(r'<img[^>]+src="([^"]+)"[^>]*>', r'<img src="\g<1>">', p_con)
# 删除超链接a标签
p_con = re.sub(r'<a[^>]+>([^<]+)</a>', r'\g<1>', p_con)
# 删除多余的空白字符\n\r\t
p_con = re.sub(r'[\r\t\n]+| {2,}', '', p_con)
p_con = re.sub(r'</?(section|span)>+', '', p_con)
# 删除iframe视频
p_con = re.sub(r'<iframe[^>]+>', '', p_con)