XMLParse2.py

   1 #
   2 # XMLParse2.py
   3 #
   4 # Parse arbitrary XML news streams into an object type
   5 # understandable by Planet UCC.
   6 # Now uses feedparser to parse 9 different types of RSS _and_ Atom
   7 #
   8 # (c) 2004, Davyd Madeley <[email protected]>
   9 #
  10
  11 import sys, time
  12 import CacheHandler
  13 sys.path.insert(0, 'extra')
  14 import feedparser
  15
  16 feedparser.USER_AGENT = "PlanetUCC/1.0b +http://planet.ucc.asn.au/ %s" % feedparser.USER_AGENT
  17
  18 class Blog:
  19         def __init__(self):
  20                 self.blogName   = None
  21                 self.blogTitle  = None
  22                 self.blogURL    = None
  23                 self.feedURL    = None
  24                 self.imageURL   = None
  25                 self.imageLink  = None
  26                 self.items      = []
  27                 self.cache      = None
  28
  29 class BlogItem:
  30         def __init__(self):
  31                 self.itemTitle  = None
  32                 self.itemDate   = None
  33                 self.itemURL    = None
  34                 self.contents   = None
  35
  36 class XMLParse:
  37         def __init__(self, URL, blogObject):
  38                 self.feedURL    = URL
  39                 self.blogObject = blogObject
  40
  41         def parse(self):
  42                 "Return a single Blog object"
  43                 item            = Blog()
  44                 if self.blogObject and self.blogObject.cache:
  45                         sys.stdout.write('Downloading feed %s... ' % self.feedURL)
  46                         try:
  47                                 data    = feedparser.parse(self.feedURL, self.blogObject.cache.etag, self.blogObject.cache.date)
  48                                 # check to see what we got returned
  49                                 if data['items'] == [] and data['channel'] == {}:
  50                                         sys.stdout.write('cached.\n')
  51                                         return self.blogObject
  52                                 else:
  53                                         sys.stdout.write('done.\n')
  54                         except:
  55                                 sys.stdout.write('failed.\n')
  56                                 return None
  57                 else:
  58                         sys.stdout.write('Downloading feed (no cache) %s... ' % self.feedURL)
  59                         try:
  60                                 data    = feedparser.parse(self.feedURL)
  61                                 sys.stdout.write('done.\n')
  62                         except:
  63                                 sys.stdout.write('failed.\n')
  64                                 return None
  65                 # create caching data
  66                 try:
  67                         cache           = CacheHandler.CacheObject()
  68                         try:
  69                                 cache.etag      = data['etag']
  70                         except:
  71                                 cache.etag      = None
  72                         try:
  73                                 cache.date      = data['modified']
  74                         except:
  75                                 cache.date      = None
  76                         item.cache      = cache
  77                 except:
  78                         sys.stderr.write('DEBUG: XMLParse2: cache item generation failed\n')
  79                         item.cache      = None
  80                 # parse the return of data into a blog
  81                 if data['channel'].has_key('title'):
  82                         item.blogTitle  = data['channel']['title']
  83                 else:
  84                         item.blogTitle  = '(Unknown)'
  85                 if data['channel'].has_key('link'):
  86                         item.blogURL    = data['channel']['link']
  87                 else:
  88                         item.blogURL    = self.feedURL
  89                 for entry in data['items']:
  90                         blogItem                = BlogItem()
  91                         if entry.has_key('title'):
  92                                 blogItem.itemTitle      = entry['title']
  93                         else:
  94                                 blogItem.itemTitle      = '(Untitled)'
  95                         if entry.has_key('link'):
  96                                 blogItem.itemURL        = entry['link']
  97                         else:
  98                                 blogItem.itemURL        = item.blogURL
  99                         if entry.has_key('date_parsed'):
 100                                 blogItem.itemDate       = time.mktime(entry['date_parsed']) + 28800
 101                         else:
 102                                 blogItem.itemDate       = 0
 103                         if entry.has_key('description'):
 104                                 blogItem.contents       = entry['description']
 105                         else:
 106                                 blogItem.contents       = '(entry could not be retrieved)'
 107                         item.items.append(blogItem)
 108                 return item