书签 分享 收藏 举报 版权申诉 / 34

类型HTMLParser使用.docx

  • 文档编号:23850116
  • 上传时间:2023-05-21
  • 格式:DOCX
  • 页数:34
  • 大小:37.31KB

   白泽居-

测试代码:

/**

*@author

*/

packagecom.baizeju.htmlparsertester;

importjava.io.BufferedReader;

importjava.io.InputStreamReader;

importjava.io.FileInputStream;

importjava.io.File;

import.HttpURLConnection;

import.URL;

importorg.htmlparser.Node;

importorg.htmlparser.util.NodeIterator;

importorg.htmlparser.Parser;

/**

*@author

*/

publicclassMain{

   privatestaticStringENCODE="GBK";

   privatestaticvoidmessage(StringszMsg){

       try{System.out.println(newString(szMsg.getBytes(ENCODE),System.getProperty("file.encoding")));}    catch(Exceptione){}

   }

   publicstaticStringopenFile(StringszFileName){

       try{

           BufferedReaderbis=newBufferedReader(newInputStreamReader(newFileInputStream(newFile(szFileName)),   ENCODE));

           StringszContent="";

           StringszTemp;

            

           while((szTemp=bis.readLine())!

=null){

               szContent+=szTemp+"\n";

           }

           bis.close();

           returnszContent;

       }

       catch(Exceptione){

           return"";

       }

   }

    

  publicstaticvoidmain(String[]args){

        

       try{

           Parserparser=newParser((HttpURLConnection)(newURL("http:

//127.0.0.1:

8080/HTMLParserTester.html")).openConnection());

        

           for(NodeIteratori=parser.elements();i.hasMoreNodes();){

               Nodenode=i.nextNode();

               message("getText:

"+node.getText());

               message("getPlainText:

"+node.toPlainTextString());

               message("toHtml:

"+node.toHtml());

               message("toHtml(true):

"+node.toHtml(true));

               message("toHtml(false):

"+node.toHtml(false));

               message("toString:

"+node.toString());

               message("=================================================");

           }            

       }

       catch(Exceptione){     

           System.out.println("Exception:

"+e);

       }

   }

}

输出结果:

getText:

!

DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http:

//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"

getPlainText:

toHtml:

DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http:

//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toHtml(true):

DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http:

//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toHtml(false):

DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http:

//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toString:

DoctypeTag:

!

DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http:

//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd;beginsat:

0;endsat:

121

=================================================

getText:

getPlainText:

toHtml:

toHtml(true):

toHtml(false):

toString:

Txt(121[0,121],123[1,0]):

\n

=================================================

getText:

head

getPlainText:

白泽居-

toHtml:

白泽居-

toHtml(true):

白泽居-

toHtml(false):

白泽居-

toString:

HEAD:

Tag(123[1,0],129[1,6]):

head

Tag(129[1,6],197[1,74]):

metahttp-equiv="Content-Type"content="text/html;...

Tag(197[1,74],204[1,81]):

title

   Txt(204[1,81],223[1,100]):

白泽居-

   End(223[1,100],231[1,108]):

/title

End(231[1,108],238[1,115]):

/head

=================================================

getText:

getPlainText:

toHtml:

toHtml(true):

toHtml(false):

toString:

Txt(238[1,115],240[2,0]):

\n

=================================================

getText:

htmlxmlns="http:

//www.w3.org/1999/xhtml"

getPlainText:

        

                

               白泽居-

白泽居-

        

       白泽居-

toHtml:

//www.w3.org/1999/xhtml">

       

               

--这是注释-->

               白泽居-

白泽居-

       

       白泽居-

toHtml(true):

//www.w3.org/1999/xhtml">

       

               

--这是注释-->

               白泽居-

白泽居-

       

       白泽居-

toHtml(false):

//www.w3.org/1999/xhtml">

       

               

--这是注释-->

               白泽居-

白泽居-

       

       白泽居-

t

举报
举报
版权申诉
版权申诉
word格式文档无特别注明外均可编辑修改;预览文档经过压缩,下载后原文更清晰! 立即下载
配套讲稿:

如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制:

部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

关 键  词:
HTMLParser 使用
提示  冰豆网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:HTMLParser使用.docx
链接地址:https://www.bdocx.com/doc/23850116.html
相关搜索
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2008-2022 冰点文档网站版权所有

经营许可证编号:鄂ICP备2022015515号-1

收起
展开