阅读:2026回复:1
关于正则表达式匹配和Firefox的源码的问题。 [已解决]
对象是ChinaUnix的论坛;
问题一: 我用Firefox上,看源码,Style标签里,都会有";"号,而IE却没有。 比如: IE的以下部分: <br style="clear: both"> Firefox下就是: <br style="clear: both;"> 为什么呢? 问题二: 我用下面这个表达式,可以获取论坛纯文本(没有引用或者code之类的帖子)的主题帖子的内容 <div id="message\d+" class="t_msgfont">(.+?)</div> 我分析了一下html,希望用下面的代码来获取带有引用或者code的帖子的内容,发现无法匹配。 <div id="message\d+" class="t_msgfont">(.+?)</div>(?:/s<br style="clear: both">) 测试页面: http://bbs.chinaunix.net/thread-1261951-1-1.html 用第二个表达式,第一个匹配居然是二楼的正文,想不通了。 谢谢。 ======================= 第二个问题的原因是,“.”号不匹配换行。我改为(.|\n)就正常了。 看来还是学艺不精。 第一个问题楼下已经给出答案了,谢谢。 |
|
1楼#
发布于:2008-09-07 22:16
1.5时Firefox的“网页源码”,不是真正的原始网页代码,是Firefox“规范化”后的网页源码,如地址、颜色加上引号。
2.0.*没比较过,3.0还没捣鼓好。 建议保存网页文本方式打开和Firefox的“网页源码”显示对比。 |
|