import requests import re a = requests.get("http://www.jxufe.edu.cn/") b = a.text pat = '.*?' s = re.compile(pat).findall(b) #读取标签中的文本 chin = r'[\u4e00-\u9fa5]+'(汉字编码) hanzi = re.compile(chin).findall(b) #匹配所有汉字
.*?