作业一

代码


  import requests
import re
a = requests.get("http://www.jxufe.edu.cn/")
b = a.text
pat = '

.*?

' s = re.compile(pat).findall(b) #读取标签中的文本 chin = r'[\u4e00-\u9fa5]+'(汉字编码) hanzi = re.compile(chin).findall(b) #匹配所有汉字

结果

结果

解释

先匹配出文本内容,再用汉字编码匹配出所有汉字