Welcome to OGeek Q&A Community for programmer and developer-Open, Learning and Share
Welcome To Ask or Share your Answers For Others

Categories

0 votes
472 views
in Technique[技术] by (71.8m points)

请问用LXML为什么无法爬取到指定网页中的这条信息?

https://www.che168.com/dealer/357032/37286245.html?pvareaid=100519&userpid=0&usercid=0&offertype=0#pos=1#page=1#rtype=10#isrecom=0#filter=36a469a0_0a0_0a0_0#module=10#refreshid=0#recomid=0#queryid=#cartype=70
这个是我要爬信息的网址
我用浏览器指定位置拷贝出来的 xpath地址为:/html/body/div[5]/div[2]/div[2]/s
微信图片_20200606124904.png

我想提取出 新车价格 这个内容但是就是爬不到数据,请问这是怎么回事呢?其他的信息都能爬到。


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome To Ask or Share your Answers For Others

1 Reply

0 votes
by (71.8m points)

可以将这条请求返回的html保存起来,然后查找s标签。
发现text文本中并不含实际的含税价。

<em class="price-transfer ndy">含过户费</em>
              
<s class="price-nom" id="newprice">新车含税价:0万</s>

说明实际数据,是通过返回json串加载上去的或者是通过js渲染上去的。
通过抓包工具,过滤动态请求,发现动态请求中并不包含数据。所以那一定是在返回的js文件中。
然后过滤返回js文件的请求,查看几项后找到了你要的数据。


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
OGeek|极客中国-欢迎来到极客的世界,一个免费开放的程序员编程交流平台!开放,进步,分享!让技术改变生活,让极客改变未来! Welcome to OGeek Q&A Community for programmer and developer-Open, Learning and Share
Click Here to Ask a Question

...