当前位置:首页 > 技术杂坛 > 正文内容

python正则替换替换文本特殊字符和html代码

zhangchap3年前 (2021-06-25)技术杂坛303
import re
h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布!'
h2 = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]','',h2,flags=re.I)
# 去除掉所有的div
p_con = re.sub(r'</?div[^>]*>', '', p_con)
# 去除掉HTML注释
p_con = re.sub(r'<!--.+?-->', '', p_con)
# 删除p标签里面的属性
p_con = re.sub(r'<p[^>]+>', '<p>', p_con)
p_con = re.sub(r'<br[^>]+>', '', p_con)
p_con = re.sub(r'<strong[^>]+>', '<strong>', p_con)
p_con = re.sub(r'<span[^>]+>', '<span>', p_con)
p_con = re.sub(r'<section[^>]+>', '<section>', p_con)
# p_con = re.sub(r'<span[^>]+>(.*)</span>', r'\g<1>', p_con)
# p_con = re.sub(r'<strong.*>?(.*)</strong>', r'\g<1>', p_con)
# 删除img标签里面除src以外的属性
p_con = re.sub(r'<img[^>]+src="([^"]+)"[^>]*>', r'<img src="\g<1>">', p_con)
# 删除超链接a标签
p_con = re.sub(r'<a[^>]+>([^<]+)</a>', r'\g<1>', p_con)
# 删除多余的空白字符\n\r\t
p_con = re.sub(r'[\r\t\n]+| {2,}', '', p_con)
p_con = re.sub(r'</?(section|span)>+', '', p_con)
# 删除iframe视频
p_con = re.sub(r'<iframe[^>]+>', '', p_con)


标签: python笔记
分享给朋友:

相关文章

python使用mongodb数据库

from pymongo import MongoClient,collection class KSpdier(Thread):   ...

python fake_useragent 模块用法

我们每次发送requests请求时通过random从中随机获取一个随机UserAgent,两行代码即可完成UserAgent的不停更换 from fake_useragent i...

python列表排序(以字符串长度)

M = ['a', 'sss', 'bb'] 第一种: m = M.sort(key&n...

python jieba分词自定义分词器及自定义词典

import jieba jieba.initialize() # 自定义分词器的写法 n_c = jieba.Tokenizer(dictionary=...

Python 正则表达式 带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

python 字典排序

prefix_word = {'怎么': 4, '昨晚': 27, '会': 56...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。