



理想是火,点燃熄灭的灯。
puppeteer-extra-plugin-stealth 潜行模式 511
正则表达式记录 282
js函数中call方法的使用 302
关于懒加载数据的获取 280
React学习记录 376
原生iframe 父子页面通讯 329


一些网页的html的编码格式是utf-8/gbk/gb2312
通过网页的responese header Content-Type字段

当然也可以通过html中head中的meta标签 可以定义编码格式

但是正常通过fetch网页html的时候 一般都会
fetch("xxx").then(res => res.text()).then(html => {
console.log("html_", html);
})
text() 这个操作在浏览器中可以根据请求返回头中的content-type进行动态编码(utf-8,gbk,gb2312)
但是在node环境中只能按照utf-8进行编码
所以对gbk编码格式的html 进行utf-8进行解析必然出现乱码的情况
所以在node环境中解决方案就是通过:
arraybuffer + iconv.decode(charset)
npm install iconv-lite
fetch("xxx").then(res => res.arrayBuffer()).then(buffer => {
//指定的解析编码
const html = iconv.decode(Buffer.from(buffer), "gbk"); // or "gb2312"
})
作者: Bill 本文地址: http://biaoblog.cn/info?id=1769500876740
版权声明: 本文为原创文章,版权归 biaoblog 个人博客 所有,欢迎分享本文,转载请保留出处,谢谢!
上一篇:没有了
下一篇:重学跨域