想要爬取知乎,首先要解决的就是登录问题,知乎登录还是比较简单的,这里有一个示例:
https://demo.zjmainstay.cn/php/curl/hulogin.php
而爬取,不过是对登录成功之后的得到的cookie进行再次利用,使用
curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);
即可。
上面示例最后一步获取登录成功后的首页就做了示范。
至于爬取过程对链接(文章链接、专栏链接等)的解析,需要针对来处理了。
解析可以用phpQuery,也可以用正则。
你可以参考我这个全站爬取程序:
https://github.com/Zjmainstay/CurlMulti/blob/webClone/demo/custom/webClone.php
更多关于PHP cURL的内容,请参考《PHP cURL实现模拟登录与采集使用方法详解》
http://www.zjmainstay.cn/php-curl
更深入讨论可以通过我的博客找我。
来自:求助得到的回答