标签归档:urllib

RSS feed of urllib

最后更新于 .


最近被公司的事情搞的很纠结,博客也有段时间没写了,不过最近还是忙里偷闲做了点其他事情,在这里记录下来,和大家分享一下。
需求也比较简单,老婆是做社区运营的,所以需要每天把几个帖子定时的顶上来,手工做很累,所以就想让我用程序实现。
分析一下,其实无非是先用户名和密码登录,获取到cookie后,再带着cookie去访问要顶贴的页面即可,至于剖析页面来获取url就是BeautifulSoup要做的事情了。(论坛是discuz做的,这里只为演示方法)
登录代码实现如下:


def Login(user,pwd):
loginpage = urllib.urlopen('http://bbs.xxx.com/logging.php?action=login').read()
login_soup = BeautifulSoup(loginpage)
formhash_tag = login_soup.find('input',attrs={'name':'formhash'})
formhash = formhash_tag['value']

params = {
"answer":"",
"formhash":formhash,
"loginfield":"username",
"loginsubmit":"",
"password ...

最后更新于 .

公司最近的网络限制越来越严格了,除了公司自己业务的任何网站,软件,都必须通过代理访问。
于是我华丽的发现google code更新不了代码了,等了两天,实在受不了找企业IT部,发现svn是可以配置代理的,如图:

1

试了一下svn up,可以用啦,不错不错,大快~,结果再试了一下svn ci,于是又杯具了……

唉,估计是代理对https的协议支持不好,罢了罢了,翻过一墙还是一墙,那我就只更新吧。

但是事情并没有结束,我有时候需要写程序去抓取外网的网页数据:

import urllib
url = 'https://www.vimer.cn'
data = urllib.urlopen(url).read()

简洁的python,但是用不了……

换urllib2,加代理:

import urllib,urllib2
url   = 'https://www.vimer.cn/'
proxy = 'xxx.xxxx.com:8080'
opener ...