今天在V2EX上发现了一个上搜索微信内容的好网站

http://weixin.sogou.com/

练习爬虫的同学有福了,没事儿干可以试试。

接口地址:

http://weixin.sogou.com/gzhjs

获取方式:

GET

参数:

  1. cb 必须 固定值 sogou.weixin.gzhcb

  2. openid 必须 公众号的唯一ID,可以通过搜索结果页面获得

  3. page 可选 页码 默认第一页 每页最多十条记录

  4. t 可选 请求发送的时间,目测没啥大用

最近貌似对openid加密了,等高人破解吧。

dmsYotdg%2F1V4oas03wIdducg7w5SL9M%2BYAL3GsHdR%2Fw9aG9Qzsh6XnA%2FUqKuQ66p8tRkK

oIWsFt4Dl6kREBsD_KrMA84ThiIA

wDssoe6gmmM8o%2FDMnpcWKuHwEPHxqeOZXzd%2FXytWShm4vQlImQmVes2pA7cYWfc%2FwudCK

oIWsFt5sM7wz7isNXkl01is9M834

IAsHogvgG8dho2KKG6sO2uI3QooM18Hx%2BZF7o7%2BjinhzOVx5t3EcYmhn93gQQgsYira4N

oIWsFt0fiD095kHlyHMIXEM7PrZc

M8sGoC2gu6ZRohqri5nKnuau%2FD8g0jkqKyfAW8cjgPLn1e3wwAZSEM%2FMsVhWFQqp7%2Bz%2B9

oIWsFtwFWRis8pbm2-hOgllnpZfw

6Ss7od5gsiLBoala%2BGkVduU4PRslLs6USIzFeWxJXDR4oyMBZNvWwNovVPSmZJ6GVI7PG

oIWsFt4UdPREjjItJo-JsJhoTjSU

Qqsoo2gg7EDuovYnPkpxGu22Hv1%2FLF9MkC4AtaAGVcP%2B49dhr5tmnOpMZFpMtNQfp%2BnRv

oIWsFt-abnxH6yhUGXNtgwhtsvS4

标签: api, spider, wechat, sogou

已有 29 条评论

  1. 古藤 古藤

    请问现在还有对应的接口吗?最近一直在找找不到,都是直接用正则去匹配的。

  2. GT Recovery GT Recovery

    博主写的很好,赞一个,多谢分享

    分享一个免费好用的云端爬虫开发平台

    http://www.shenjianshou.cn/

  3. cong cong

    新的微信思路已改,也有办法获取json,但就是老被ban,这个点如何破,老高能否指点一二

  4. 微信抓取 微信抓取

    获取到微信的url,http://weixin.sogou.com/websearch/art.jsp?sg=v9b3y-IawNDUbZJ_5iWQgKuxeOEJB9LDrKUcqO46zXkfVvGpaQW3qnJY2UIlAwjEKlYTz252sI7hqiYrz6cOBuhm6a2h2s2XtqhGQxY2TUY.&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wjRKcJWDu3KJ4Uu7WlGkJ76FJmAPOq06My4a1suGCyFKD8FAQFjW_fouD8l4SteORDNYyKT701yKH1DO7-0pKdODukPCXHPwclYy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk,怎么获取到他跳转的302链接?我传送了cookie过去,但是返回The URL has moved here,没有看到真实链接??求解。。

  5. hi,我自己找到的结果和你这一样,对文章解析方式也是一样。。。。但问题是,最近还是ban的好严,cookie,delay(几十秒一次请求)都试过了。。。居然还说我请求频繁。。。给跪了。。。求教啊,3x

  6. 酷哥 酷哥

    通过http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFt3j-x2_T8SHkNeA05jsjHGA&page=1获取的页面在浏览器中显示是代码,爬虫应该怎么处理呢,用以前的通过url获取doc的方法不适用了,请教大神怎么解决

    1. 酷哥 酷哥

      谢谢,已经找到了解析方法

    2. 仔细观察此段代码,你会发现他其实是json格式包裹了一段xml,所以解析json后再用xml解析器继续解析就行。

  7. shu shu

    请教仁兄,怎么获取openid

    1. http://weixin.sogou.com/gzh?openid=oIWsFt67mxqDfXdIxpbQ8voA6S8o 你的openid太短了吧

    2. 1. 用随机代理 2. 控制抓取频率 3. 换UA

    3. shu shu

      谢兄台指点,这两天试验了下,可以是可以,不过sogou那边有防抓取,不知道用的什么机制,抓一段时间就302了(估计是屏蔽ip了)

    4. shu shu

      太感谢,兄台!希望可以继续交流,微信:shushenghong

    5. 这些都很简单啊。。。 关键字 python 控制采集频率 python 采集使用代理 python user agent

    6. openid就好比帐号,你关注了以后观察数据包就能拿到。

    7. 兄台,有没有实际的例子,江湖救急……

    8. shu shu

      http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=gh_257a3b2d1c9a 我试了下这种,貌似没效果

  8. 画城听雨眠 画城听雨眠

    eqs这个问题有解决方法了吗

    1. 问一遍就行,没有。。。。。

    2. Huha Huha

      eqs已经过时了

  9. cool cool

    求解提交的eqs参数

  10. 现在这个方法不管用了,原来openId被加密了好像 http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&eqs=0psMoc7gvrxyoUT%2FFX3RvuCitRV88ESGXqLOrMLjlL84lygHNHi%2BWIQVYhK6vbcBiPXcf&ekv=1&page=1&t=1432344237371

    1. 透

      有没有大神把加密方式破解了

    2. 酷哥 酷哥

      是啊,我也是用的原来的方法,现在获取不到页面内容了,请教兄台怎么解决的啊

  11. 酷哥 酷哥

    老高,openid现在被加密了,怎么传参啊

    1. 画城听雨眠 画城听雨眠

      你好,eqs这个问题您解决了吗 跪求解决方案啊

  12. huoxini huoxini

    我也是被eqs参数挡住了,有没有什么解决方案跪求!

    1. 画城听雨眠 画城听雨眠

      eqs这个参数的问题解决了吗

添加新评论