怎么再保存网页文字,怎么保存网页的全部文本

首页 > 生活 > 作者：YD1662024-05-02 14:27:58

智能识别网页标题

var title=""; try{ title=document.title;//取网页标题 }catch{} if(title==""){ //网页标题为空时，查找H1元素内容作为标题 var h1s=document.getElementsByTagName("h1"); if(h1s.length>0) { title=h1s[0].innerText; } } if(title==""){ //仍未找到标题时，查找样式为title的元素内容作为标题 var h1s=document.getElementsByClassName("title"); if(h1s.length>0) { title=h1s[0].innerText; } } title;

再创建一个脚本代码步骤，定义几个重复使用的函数。

怎么再保存网页文字,怎么保存网页的全部文本(5)

function generateFullXPath(el) { let query = "" while (el && el.nodeType === Node.ELEMENT_NODE) { // 也可以使用nodeName,nodeName包含了tagName let component = el.tagName.toLowerCase() let index = this.getElementIndex(el) if (index >= 1) { component = '[' index ']' } query = '/' component query el = el.parentNode } return query } function getElementIndex(el) { let index = 1 let sib = el.previousSibling while (sib) { if (sib.nodeType === Node.ELEMENT_NODE && this.compareTagNameEqual(el, sib)) { index } sib = sib.previousSibling } if (index > 1) return index sib = el.nextSibling while (sib) { if (sib.nodeType === Node.ELEMENT_NODE && this.compareTagNameEqual(el, sib)) { return 1 } sib = sib.nextSibling } return 0; }; /** * 查看两个元素节点名称是否相同 */ function compareTagNameEqual(primaryEl, siblingEl) { let p = primaryEl, s = siblingEl // return (p.tagName === s.tagName && (!p.id || p.id === s.id)); return (p.tagName === s.tagName) };

同样使用js代码智能识别查找正文元素，一般文章正文部分由多个段落组成，所以我们从P元素入手，找到子元素包含大量P元素的元素，就是正文元素了。如果没有P元素，则获取页面中间位置，面积较大的元素作为正文元素，并给正文元素设置一个id值”mutoubrowser"作为标记。方便后续步骤调用。

怎么再保存网页文字,怎么保存网页的全部文本(6)

智能识别网页正文

var content=""; var fa=null; var ps=document.getElementsByTagName("p"); if(ps.length>0) {//取包含P的父元素 fa=ps[0].parentElement; while(fa.parentElement.scrollWidth*fa.parentElement.scrollHeight>fa.scrollWidth*fa.scrollHeight) { fa=fa.parentElement; } if(ps.length>1) {//找到第一个p和最后一个p的共同父元素 do{ var endfa=ps[ps.length-1].parentElement; var faxpath=generateFullXPath(fa); var endfaxpath=generateFullXPath(endfa); if(faxpath.indexOf(endfaxpath)==0) {fa=endfa; break; } else if(endfaxpath.indexOf(faxpath)==0) { break; } else { fa=fa.parentElement; endfa=endfa.parentElement; } }while(true); } } else {//取页面中间最大的元素 var w=document.body.clientWidth; var h= document.body.clientHeight; var el=document.elementsFromPoint(Math.round(w/2),Math.round(h/3*2)); if(el!=null){ var d=0; for(var i=0;i<el.length;i ){ var e=el[i]; var dd=e.scrollWidth*e.scrollHeight; if(dd>d*1.8) { fa=e; } d=dd; } } else { fa=el.document.body; } } if(fa!=null) { fa.setAttribute("id","mutoubrowser"); content=fa.innerHTML; } content;

再创建一个保存内容步骤，勾选“保存网页内容”，选择“下载图文单个文件”。设置文件名为js变量title，即标题做为文件名，并指定保存文件路径为“D:\文档”。在窗口下方设置正文的元素，通过js代码获得。

怎么再保存网页文字,怎么保存网页的全部文本(7)

保存图文到文件

document.getElementById("mutoubrowser");

最后保存项目文件为“AI保存网页”，通过点击书签按钮运行这个项目，就能智能识别网页标题和正文，保存网页有效内容和图片了。

上一页 12末页

栏目热文

怎样保存网页上的内容（如何将网页的内容保存下来）
阅读全文>>2024-05-02 14:52:12
如何保存网页上的内容（怎么保存一个网页全部内容）
阅读全文>>2024-05-02 14:12:47
自动保存网页全部内容（如何保存网页及其链接的所有内容）
阅读全文>>2024-05-02 14:52:51
怎样把整个网页保存（怎么把一个网页保存在本地）
阅读全文>>2024-05-02 14:57:12
春江花月夜原文带拼音（春江花月夜原文带拼音及赏析）
阅读全文>>2024-05-02 14:42:50
如何完整保存网页内容（怎么保存网页内容到本地）
阅读全文>>2024-05-02 14:22:36
朋友请听好电台直播放在哪里（朋友请听好电台入口）
阅读全文>>2024-05-02 14:58:39
朋友请听好广播剧回放（朋友请听好电台版回放）
阅读全文>>2024-05-02 14:59:24
朋友请听好广播可以回放吗（朋友请听好的广播在哪里听）
阅读全文>>2024-05-02 14:46:05
朋友请听好广播在哪里录制（朋友请听好广播在哪儿收听）
阅读全文>>2024-05-02 14:36:14

文档排行

本站推荐

哪部电视剧的女主叫时南（女主人公叫时南的电视剧）
阅读全文>>2024-01-17 16:37:10
山东人腌韭花的方法（山东山韭花腌菜）
阅读全文>>2022-10-27 00:50:00
柠檬树放客厅大忌（柠檬树盆栽在家里禁忌）
阅读全文>>2024-02-18 03:46:12
鼻子不通气缓解方法（鼻子不通气有什么好办法）
阅读全文>>2024-04-30 05:25:47
20公分厚的水泥板能承重多少吨（120平米水泥板承重多少吨）
阅读全文>>2023-05-14 23:24:25
26攻速和32攻速（12攻速和15攻速的区别）
阅读全文>>2023-04-27 10:40:14

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.