标签:爬虫

如何让爬虫跑满100M宽带

这个是一个严肃的问题。
目的是为了抓取一批图片,大约几个T的样子。
上次干这个活是在3月份,所以3月份打了一个草稿,今天补充下,附下今天的图,顺便把坑填了。
内存及负载使用状况:
爬虫下载过程中的负载情况
针对的应用场景
对方不限速,无IP限制
对方有多个CDN
如图片爬取类的操作
采用的方案 (请忽略分布式...

Now 突然了解到,只有在低网速下才能写出优秀的爬虫程序,因为超时真的不好处理,特别是在node.js下。