当前位置:首页 > 技术杂坛 > 正文内容

python 文本清洗(网址、邮箱HTML转义字符)、自动分段等

zhangchap2年前 (2022-05-30)技术杂坛556

记录下这个模块,日后用得着:

from harvesttext import HarvestText
ht = HarvestText()

print("各种清洗文本")
ht0 = HarvestText()
# 默认的设置可用于清洗微博文本
text1 = "回复@钱旭明QXM:[嘻嘻][嘻嘻] //@钱旭明QXM:杨大哥[good][good]"
print("清洗微博【@和表情符等】")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1))
# URL的清理
text1 = "【#赵薇#:正筹备下一部电影 但不是青春片....http://t.cn/8FLopdQ"
print("清洗网址URL")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, remove_url=True))
# 清洗邮箱
text1 = "我的邮箱是abc@demo.com,欢迎联系"
print("清洗邮箱")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, email=True))
# 处理URL转义字符
text1 = "www.%E4%B8%AD%E6%96%87%20and%20space.com"
print("URL转正常字符")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, norm_url=True, remove_url=False))
text1 = "www.中文 and space.com"
print("正常字符转URL[含有中文和空格的request需要注意]")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, to_url=True, remove_url=False))
# 处理HTML转义字符
text1 = "<a c> ''"
print("HTML转正常字符")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, norm_html=True))
# 繁体字转简体
text1 = "心碎誰買單"
print("繁体字转简体")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, t2s=True))


github :https://github.com/blmoistawinde/HarvestText


分享给朋友:
返回列表

上一篇:多线程代理ip切换实例

没有最新的文章了...

相关文章

video视频提示没有找到支持的视频格式和MIME类型解决方案

初次尝试用 html5的 video 标签添加适配,代码如下: <link href="//vjs.zencdn.net/7.8.2/video-js.min.css"...

requests超时,重试(Python请求的高级用法)

import requests from requests.adapters import HTTPAdapter from requests.p...

python列表排序(以字符串长度)

M = ['a', 'sss', 'bb'] 第一种: m = M.sort(key&n...

python函数开启多线程

from threading import Thread 以下是代码举例: def main(num):    &nbs...

python 获取当前的路径并切换

import os curdir = os.path.dirname(__file__) #获取当前的路径,若运行在当前文件夹,是获取不到当前路径的,最保险的...

pip install 安装出现:Requirement already satisfied 的解决办法

刚开始装上python安装轮子挺顺利的,后来再使用pip install 安装开始报错,网上有解决方案说用国内的源就没问题,但是我的源早就改成国内的了,用了另外一种解决方案,搞定加上--target参...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。