归档 2011年4月1日

最后更新于 .

好吧,我知道是大半夜……,但我还是觉得赶紧花上半个小时,把这最新的想法分享出来是值得的~直接进入正题~ 我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

def func_top(url):
    data_dict= {}

    #在页面上获取到子url
    sub_urls = xxxx

    data_list = []
    for it in sub_urls:
        data_list.append(func_sub(it))

    data_dict['data'] = data_list

    return data_dict

def func_sub(url):
    data_dict= {}

    #在页面上获取到子url
    bottom_urls = xxxx

    data_list = []
    for it in bottom_urls:
        data_list.append(func_bottom(it))

    data_dict['data'] = data_list

    return data_dict ...

昨天

2011年3月26日

明天

2011年4月11日

归档