python3默认支持utf-8,因此对于uXXXX这种格式的中文,可以直接转换,但经常爬虫抓取回来的中文是uXXXX格式,因此需要进行转换
s1='\u70ed\u95e8\u94ed\u6587\u63a8\u8350' print('s1=',s1)
s2='\\u70ed\\u95e8\\u94ed\\u6587\\u63a8\\u8350' print('s2=',s2)
s3=s2.encode('utf-8').decode('unicode_escape') print('s3=',s3)
|
s1= 热门铭文推荐 s2= \u70ed\u95e8\u94ed\u6587\u63a8\u8350 s3= 热门铭文推荐
|