当前位置:首页 > 日记本 > 正文内容

python chardet模块自动识别编码

zhangchap3年前 (2021-09-27)日记本246
import chardet
str = b'Hello word'
str1 = '你好,世界。'.encode('utf-8')
# 检测 编码
c_str = chardet.detect(str1)
print(c_str)
# {'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
# encoding:编码,confidence:检测的概率,language:字段语言
c_chart = c_str.get('encoding','utf-8')
print(c_chart)
# utf-8

备注:经测试,不是100%能够识别的,网站代码写的不规范的情况下,还是慎用

分享给朋友:

相关文章

python url.parse模块编码解码

from urllib.parse import quote,unquote,urlencode # 对汉字进行编码使用 quote ...

json输出json.dumps中文为ascii编码如何解决?

import json print json.dumps('中国') 输出:"\u4e2d\u56fd" json.dumps(...

python列表排序(以字符串长度)

M = ['a', 'sss', 'bb'] 第一种: m = M.sort(key&n...

python 获取当前的路径并切换

import os curdir = os.path.dirname(__file__) #获取当前的路径,若运行在当前文件夹,是获取不到当前路径的,最保险的...

python判断当前系统为win还是Linux

使用sys模块进行判断,以便启用在win平台下不支持的代码:import sys p = sys.platform if p != &#...

Python 正则表达式 带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。