当前位置:首页 > 技术杂坛 > 正文内容

python正则替换替换文本特殊字符和html代码

zhangchap3年前 (2021-06-25)技术杂坛311
import re
h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布!'
h2 = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]','',h2,flags=re.I)
# 去除掉所有的div
p_con = re.sub(r'</?div[^>]*>', '', p_con)
# 去除掉HTML注释
p_con = re.sub(r'<!--.+?-->', '', p_con)
# 删除p标签里面的属性
p_con = re.sub(r'<p[^>]+>', '<p>', p_con)
p_con = re.sub(r'<br[^>]+>', '', p_con)
p_con = re.sub(r'<strong[^>]+>', '<strong>', p_con)
p_con = re.sub(r'<span[^>]+>', '<span>', p_con)
p_con = re.sub(r'<section[^>]+>', '<section>', p_con)
# p_con = re.sub(r'<span[^>]+>(.*)</span>', r'\g<1>', p_con)
# p_con = re.sub(r'<strong.*>?(.*)</strong>', r'\g<1>', p_con)
# 删除img标签里面除src以外的属性
p_con = re.sub(r'<img[^>]+src="([^"]+)"[^>]*>', r'<img src="\g<1>">', p_con)
# 删除超链接a标签
p_con = re.sub(r'<a[^>]+>([^<]+)</a>', r'\g<1>', p_con)
# 删除多余的空白字符\n\r\t
p_con = re.sub(r'[\r\t\n]+| {2,}', '', p_con)
p_con = re.sub(r'</?(section|span)>+', '', p_con)
# 删除iframe视频
p_con = re.sub(r'<iframe[^>]+>', '', p_con)


标签: python笔记
分享给朋友:

相关文章

python xpath语法总结

python xpath语法总结:常用的://1.从任意节点开始/2.从根节点开始//div/p3.div下的p标签//div[@class="hrzz_bottom"]/ul/l...

python判断当前系统为win还是Linux

使用sys模块进行判断,以便启用在win平台下不支持的代码:import sys p = sys.platform if p != &#...

Python 正则表达式 带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

python 字典排序

prefix_word = {'怎么': 4, '昨晚': 27, '会': 56...

python下random随机选择的三种方式

from random import sample,choice,choices list_1 = [1,2,3,4,5,6] # 从列...

python chardet模块自动识别编码

import chardet str = b'Hello word' str1 = '你好,世界。'.e...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。