fatiherikli

özellikle türkçe web sayfalarıyla işlem yaparken çok fazla unicode error'larıyla karlılaşmaktayız. bu problemi çözmek için web sayfasını içeriğini çekerken aşağıdaki gibi bir fonksiyon kullanırsanız işinizi rahatlatacaktır.

def get_source(url):

req = urllib2.urlopen(url)

encoding=req.headers['content-type'].split('charset=')[-1]

ucontent = unicode(req.read(), encoding)

return ucontent

ben yandım siz yanmayın. ayrıca en başta urllib2'yi import edin. sonradan bu niye çalışmıyo demeyin.

comments powered by Disqus