python爬虫

  • 搞定某APP的TCP抓包,并直接调用so文件进行Hook抓取

    APP抓包比较繁琐,尤其是对方优先走socket,发TCP包,而不是走应用层发http/https协议。这种抓包更烦躁,绝大部分利用中间人攻击原理这种代理抓包软件都抓不到tcp请求,代理抓包软件大都只能抓应用层协议。 今天写篇搞定发TCP包的APP和实现Hook抓取的文章。 抓TCP包常用的工具是wireshark和tcpdump。tcpdump可以运行在手…

    2020年3月13日
  • 大规模异步新闻爬虫的实现思路

    我们知道,异步IO(asyncio)非常适合使用在网络请求的场景,也就是说它很适合在爬虫中应用。 但是,如果我们只是特定抓取某一个网站,而且该网站对IP访问频率做了限制,那么asyncio并没有什么优势,并且不如同步请求的爬虫的逻辑更清晰、实现更方便。 不过,我们要是抓几千家新闻网站的新闻呢?面对这么多的目标网站,我们的爬虫可以通过异步IO同时请求这些网站,…

    2020年3月13日
  • 让爬虫无障碍抓取上千万APP数据

    爬虫论抓取难度,一是抓取对内容有加密的,难度很大,尤其是在app端的内容加密。有的可能需要逆向app。二是抓取必须要登陆后才能看的内容,再加上对登陆账号做IP访问次数控制的。这可能会难道一大片爬虫选手。 本文不讨论app逆向问题,这种问题似乎也不宜公开说,《刑法》第286条中阐述了反编译软件属于破坏计算机信息系统罪。 如果是被举证了,风险挺大的,尤其是竞品之…

    2020年3月13日
  • 使用frida rpc不还原token算法抓取APP最简单的Hook方法

    偷懒了一阵,今天写篇抓取APP的文章,用最简单的Hook方法抓取APP。 抓APP有三个麻烦的地方,一个是APP脱壳,二个是抓包问题,三个是请求头里signature/token的还原。前两个问题要好一点,有现成的工具使用,绝大部分APP都能搞定。第三个问题sig/token还原是最麻烦的,没有一个工具能自动化搞定,有的生成sig/token的代码写在Jav…

    2020年3月13日
  • 写爬虫是不违法的,违法的是你用数据干了非法的事

    这一阵看到一直有人在提爬虫违法的事情,先把一些似是而非/模棱两可的新闻和真假不明的对话一一列举,后把违法事情描述成是因为写了爬虫导致的,然后把锅甩给爬虫,这是严重误导人啊。 文章中所举新闻是某简历大数据公司非法获取/售卖个人简历的事情。这个违法事情跟是不是用爬虫抓的简历没有因果关系。你找几个人每天靠人肉去网上收集个人信息,售卖这些信息也是犯法;你就算是在垃圾…

    2020年3月13日
  • 逆向破解js代码加密,代码混淆不是难事

    爬虫解析网页数据时,最棘手的问题莫过于关键数据被加密,被混淆。加大了解析难度,常见的诸如登陆密码,token等被混淆成了一个长长的字符串。好在这些加密都是javascript在浏览器中进行,找到这些js代码并破解并不是难事。 谷歌的Chrome浏览器有个开发工具(DevTools),可以帮助前端开发者完成调试JavaScript代码等工作。这个工具非常棒,也…

    2020年3月13日
  • 谈下微信小程序的抓取技巧

    今天聊下微信小程序的抓取,其实小程序的抓取不难,主要解决抓包和如何调试小程序这两个问题。如果你运用chrome调试已经比较熟练了的话,就手到擒来。 先来说小程序抓包问题 不用破解的办法如何抓到小程序的包?破解是个费劲的事,一不小心微信账号还可能被封。 小程序抓不到包通常就是你手机的安卓系统版本太高和微信APP的版本太高了。版本越高,通常它的安全性就越好。换用…

    2020年3月13日
  • 如何让Python爬虫一天抓取100万张网页

    前一两年抓过某工商信息网站,几三周时间大约抓了过千万多万张页面。那时由于公司没啥经费,报销又拖得很久,不想花钱在很多机器和带宽上,所以当时花了较多精力研究如何让一台爬虫机器达到抓取极限。 本篇偏爬虫技术细节,先周知。 Python爬虫这两年貌似成为了一项必备技能,无论是搞技术的,做产品的,数据分析的,金融的,初创公司做冷启动的,都想去抓点数据回来玩玩。这里面…

    2020年3月13日
  • 反爬虫的四种常见方式-JS逆向方法论

    现在的网页代码搞得越来越复杂,除了使用vue等前端框架让开发变得容易外,主要就是为了防爬虫,所以写爬虫下的功夫就越来越多。攻和防在互相厮杀中结下孽缘却又相互提升着彼此。 本文就JS反爬虫的策略展开讨论,看看这中间都有着怎样的方法破解。 一 、JS写cookie 我们要写爬虫抓某个网页里面的数据,无非是打开网页,看看源代码,如果html里面有我们要的数据,那就…

    2020年3月13日
  • 写爬虫,免不了要研究JavaScript设置cookies的问题

    网页端抓数据免不了要跟JavaScript打交道,尤其是JS代码有混淆,对cookie做了手脚。找到cookie生成的地方要费一点时间。 那天碰到这样一个网页,用浏览器打开很正常。然而用requests下载URL却得到“521”的状态码,返回的内容是一串压缩混淆的JavaScript代码。就是下面这个样子: 返回的是JavaScript就好说了。肯定是浏览器…

    2020年3月13日

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息