Xorcerer
狐狸大王
狐狸大王
  • UID21159
  • 注册日期2007-10-10
  • 最后登录2015-02-08
  • 发帖数455
  • 经验15枚
  • 威望0点
  • 贡献值8点
  • 好评度0点
阅读:1832回复:1

关于正则表达式匹配和Firefox的源码的问题。 [已解决]

楼主#
更多 发布于:2008-09-07 22:16
对象是ChinaUnix的论坛;
问题一:
我用Firefox上,看源码,Style标签里,都会有";"号,而IE却没有。
比如:
IE的以下部分:
<br style="clear: both">

Firefox下就是:
<br style="clear: both;">

为什么呢?
问题二:
我用下面这个表达式,可以获取论坛纯文本(没有引用或者code之类的帖子)的主题帖子的内容
<div id="message\d+" class="t_msgfont">(.+?)</div>

我分析了一下html,希望用下面的代码来获取带有引用或者code的帖子的内容,发现无法匹配。
<div id="message\d+" class="t_msgfont">(.+?)</div>(?:/s<br style="clear: both">)

测试页面:
http://bbs.chinaunix.net/thread-1261951-1-1.html
用第二个表达式,第一个匹配居然是二楼的正文,想不通了。
谢谢。
=======================
第二个问题的原因是,“.”号不匹配换行。我改为(.|\n)就正常了。
看来还是学艺不精。
第一个问题楼下已经给出答案了,谢谢。
zeroieme
千年狐狸
千年狐狸
  • UID12805
  • 注册日期2006-05-17
  • 最后登录2015-10-11
  • 发帖数1407
  • 经验34枚
  • 威望0点
  • 贡献值20点
  • 好评度0点
  • 社区居民
1楼#
发布于:2008-09-07 22:16
1.5时Firefox的“网页源码”,不是真正的原始网页代码,是Firefox“规范化”后的网页源码,如地址、颜色加上引号。
2.0.*没比较过,3.0还没捣鼓好。

建议保存网页文本方式打开和Firefox的“网页源码”显示对比。
游客

返回顶部