网站LOGO
公爵书房 | 技术分享
页面加载中
10月4日
网站LOGO 公爵书房 | 技术分享
以指键之轻,承载知识之重
菜单
  • 公爵书房 | 技术分享
    以指键之轻,承载知识之重
    用户的头像
    首次访问
    上次留言
    累计留言
    我的等级
    我的角色
    打赏二维码
    打赏博主
    python实现RSS解析
    点击复制本页地址
    微信扫一扫
    文章二维码
    文章图片 文章标题
    创建时间
  • 一 言
    确认删除此评论么? 确认
  • 本弹窗介绍内容来自,本网站不对其中内容负责。

    python实现RSS解析

    公爵 · 原创 ·
    笔记 · pythonrss
    共 1361 字 · 约 1 分钟 · 23
    本文最后更新于2023年09月02日,已经过了31天没有更新,若内容或图片失效,请留言反馈
    今天带大家了解一种暴力解析Rss种子的方式feedparser,连爬取带解析,对于blog,新闻带RSS功能的是既方便又简单。

    了解

    RSS: RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。

    feedparser: 可以轻松从任何 RSS 或 Atom 订阅源抓取标题、链接和文章的条目。

    pprint: 格式化美观输出内容

    安装模块

    安装feedparser模块

    python 代码:
    pip install feedparser

    安装pprint模块

    python 代码:
    pip install pprint

    使用方法

    首先导入feedparserpprint

    python 代码:
    import feedparser
    import pprint

    暴力解析RSS资源 这里用的是开源中国的RSS订阅源

    python 代码:
    # 网站种子解析
    rss_oschina = feedparser.parse('https://www.oschina.net/news/rss')
    # 抓取内容 , depth 抓取深度
    pprint.pprint(rss_oschina,depth=1)

    其中 depth 可以根据订阅源数据深度设置 ,这里可用1 - 5测试

    打印编码

    python 代码:
    print(rss_oschina['encoding'])

    for 循环取出需要的数据 这一步演示传统取值方法

    python 代码:
    for entry in rss_oschina['entries']:
         print(entry['title'])
         print(entry['link'])
         print(entry['published'])

    整理为JSON数组

    python 代码:
     mylist = [{'title': entry['title'], 'link':entry['link']} for entry in rss_oschina['entries']]
     pprint.pprint(mylist)

    具体代码

    这里以标题和链接抓取为例,超简单代码实现

    python 代码:
    import feedparser
    import pprint
    """抓取开源中国RSS"""
    # 网站种子解析
    rss_oschina = feedparser.parse('https://www.oschina.net/news/rss')
    # 整理为JSON数组
    mylist = [{'title': entry['title'], 'link':entry['link']} for entry in rss_oschina['entries']]
    pprint.pprint(mylist)
    声明:本文由 公爵(博主)原创,依据 CC-BY-NC-SA 4.0 许可协议 授权,转载请注明出处。

    还没有人喜爱这篇文章呢

    发一条! 发一条!
    博客logo 公爵书房 | 技术分享 以指键之轻,承载知识之重 51统计 百度统计
    MOEICP 萌ICP备20226257号 ICP 赣ICP备2022001242号-1 ICP 闽公网安备35020502000606号 又拍云 本站由又拍云提供CDN加速/云存储服务

    🕛

    本站已运行 1 年 257 天 7 小时 34 分

    🌳

    自豪地使用 Typecho 建站,并搭配 MyLife 主题
    公爵书房 | 技术分享. © 2022 ~ 2023.
    网站logo

    公爵书房 | 技术分享 以指键之轻,承载知识之重
     
     
     
     
    壁纸