当前位置：首页 > 技术杂坛 > 正文内容

python正则替换替换文本特殊字符和html代码

zhangchap3年前 (2021-06-25)技术杂坛311

import re
h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布！'
h2 = re.sub(r'[^\u4e00-\u9fa5a-zA-Z0-9]','',h2,flags=re.I)
# 去除掉所有的div
p_con = re.sub(r'</?div[^>]*>', '', p_con)
# 去除掉HTML注释
p_con = re.sub(r'<!--.+?-->', '', p_con)
# 删除p标签里面的属性
p_con = re.sub(r'<p[^>]+>', '<p>', p_con)
p_con = re.sub(r'<br[^>]+>', '', p_con)
p_con = re.sub(r'<strong[^>]+>', '<strong>', p_con)
p_con = re.sub(r'<span[^>]+>', '<span>', p_con)
p_con = re.sub(r'<section[^>]+>', '<section>', p_con)
# p_con = re.sub(r'<span[^>]+>(.*)</span>', r'\g<1>', p_con)
# p_con = re.sub(r'<strong.*>?(.*)</strong>', r'\g<1>', p_con)
# 删除img标签里面除src以外的属性
p_con = re.sub(r'<img[^>]+src="([^"]+)"[^>]*>', r'<img src="\g<1>">', p_con)
# 删除超链接a标签
p_con = re.sub(r'<a[^>]+>([^<]+)</a>', r'\g<1>', p_con)
# 删除多余的空白字符\n\r\t
p_con = re.sub(r'[\r\t\n]+| {2,}', '', p_con)
p_con = re.sub(r'</?(section|span)>+', '', p_con)
# 删除iframe视频
p_con = re.sub(r'<iframe[^>]+>', '', p_con)

标签: python笔记

分享给朋友：

返回列表

上一篇：python判断当前系统为win还是Linux

下一篇：python 字典排序

相关文章

python xpath语法总结

python xpath语法总结：常用的：//1.从任意节点开始/2.从根节点开始//div/p3.div下的p标签//div[@class="hrzz_bottom"]/ul/l...

python判断当前系统为win还是Linux

使用sys模块进行判断，以便启用在win平台下不支持的代码：import sys p = sys.platform if p != &#...

Python 正则表达式带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

python 字典排序

prefix_word = {'怎么': 4, '昨晚': 27, '会': 56...

python下random随机选择的三种方式

from random import sample,choice,choices list_1 = [1,2,3,4,5,6] # 从列...

python chardet模块自动识别编码

import chardet str = b'Hello word' str1 = '你好，世界。'.e...

发表评论

最顶级的能力是屏蔽力，任何消耗你的人和事，多看一眼都是你的不对。

人生最大的代价不是金钱，而是你走过的弯路，
人生最大的成本不是金钱，而是你的时间和精力，
机遇一旦错过就可能是一生。
Copyright zhenglia.com Rights Reserved.
挣俩网张涛与你共勉：当你的才华还撑不起你的野心的时候，你就应该静下心来学习。当你的能力还驾驭不了你的目标的时候，你就应该沉下心来历练。问问自己，想要怎样的人生。
分享学习(python、优化)的点点滴滴

Powered By Z-BlogPHP. Theme by TOYEAN.