tzkr.net
当前位置:首页 >> 正则表达式提取网页数据 >>

正则表达式提取网页数据

找到这几组数据的类型,比如第一个是字母加数字,第二个是纯文本,第三个是纯数字,第四个是纯文本,第五个是时间,你可以匹配一下去除纯数字和时间,剩下的就是你框出来的数据

用这个正则 获取 <div\sclass="\sshop-hd\srow">[\s\S]*title="([^"]*)"

Java正则表达式:(.*?) 完整的Java程序如下:(android也是java程序,把主函数下的代码拷贝到你的android程序中就可以了) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 import java.util.regex.Matcher; import java.util.

]+>(.*?)\s*]+>(.*?)\s*]+>(.*?)

直接写 “转发数:”很多情况是 <span>转发数:</span><span style="color:red;">3876</span> 这种,可以直接写个简单的正则来拿到后面的数字.转发数:[^>]*>[^>]*>([^<]*)<解释:“转发数:后面不等于 大于号 的所有值,这样就能拿到第一个 </span> 的大于号,然后自己补一个大于号,然后在跳过一个不为大于号的所有字符,就是 red 后面的大于号了,然后在自己补一个大于号,这时候你的光标起点就是 3 这个数字前面,那么只要拿到光标位置到不为小于号之间的所有值,那就是你需要的那个数字了~”

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪.在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关

<\w+>\s*?(?<id>\d+)\s*?</\w+>\s*?<\w+>\s*?(?<name>\s*?[\u4E00-\u9FA5]{2,6})\s*?</\w+>\s*?<\w+>\s*?(?<phone>\d+)\s*?</\w+>\s*?<\w+>\s*?(?<qq>\d+)\s*?</\w+>\s*?<\w+>\s*?(?<email>\w+@\w+\.\w+)\s*?</\w+> 试试把.

// 正则表达式对象var re = new RegExp(" :[\\d\\w]{12}", "");// 查找var mresult = re.exec("your string");if( mresult != null ){ alert("founded: " + mresult);\\这里就是你的操作..}

string reg = "^[a-za-z0-9\u4e00-\u9fa5]+$"; pattern pattern = pattern.compile(reg); matcher matcher = pattern.matcher("需要去匹配该正则的string字符串"); boolean b = matcher.matches(); reg代表就是你要写的正则的规则!让后就会返回

会用正则就会抓取.不会正则,一时半会也教不错.不过,推荐你使用phpQuery这个框架,用jQuery的使用器来抓取数据.

网站首页 | 网站地图
All rights reserved Powered by www.tzkr.net
copyright ©right 2010-2021。
内容来自网络,如有侵犯请联系客服。zhit325@qq.com