博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取校园新闻首页的新闻
阅读量:5284 次
发布时间:2019-06-14

本文共 827 字,大约阅读时间需要 2 分钟。

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。

2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(newsurl)res.encoding='utf-8'from bs4 import BeautifulSoupsoup = BeautifulSoup(res.text,'html.parser')for new in soup.select('li'):    if len(new.select('.news-list-title')) > 0:        url= new.select('a')[0].attrs['href']        print(url)        res = requests.get(url)          res.encoding = 'utf-8'        e = BeautifulSoup(res.text, 'html.parser')        content = e.select('#content')        show = e.select('.show-info')        print(show[0].text[0:25])        print(show[0].text[30:38])        print(show[0].text[38:45])        print(show[0].text[46:56])        print(show[0].text[62:])

 

转载于:https://www.cnblogs.com/wxyplu/p/8717290.html

你可能感兴趣的文章
11)Java abstract class 和 interface
查看>>
使用xrdp或Xmanager 远程连接 CentOS6
查看>>
Linux误删恢复
查看>>
Unity调用Windows窗口句柄,选择文件和目录
查看>>
HashMap循环遍历方式
查看>>
React Native 入门 调试项目
查看>>
C# 通过 Quartz .NET 实现 schedule job 的处理
查看>>
关于java之socket输入流输出流可否放在不同的线程里进行处理
查看>>
目前为止用过的最好的Json互转工具类ConvertJson
查看>>
Day13
查看>>
tensorflow saver简介+Demo with linear-model
查看>>
Luogu_4103 [HEOI2014]大工程
查看>>
Oracle——SQL基础
查看>>
项目置顶随笔
查看>>
Redis的安装与使用
查看>>
P1970 花匠
查看>>
java语言与java技术
查看>>
NOIP2016提高A组五校联考2总结
查看>>
iOS 项目的编译速度提高
查看>>
table中checkbox选择多行
查看>>