python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!...

news/2024/5/20 5:21:46

写在前面

考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。

目的

爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云

一、分析

1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子

1.2 帖子内容,也有规律,都在这个标签里面

1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事

1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具

二、爬取过程

2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数学计算就行

2.2爬取过程代码,爬取后就调用内容审核以及情感分析,然后写入文件

def gettbtz(tbname,tznum): ####根据给出的贴吧和帖子数(50的整数倍)获得所有帖子

n = -50

tznum = int(tznum) ###z这里是要根据贴吧的规则,每页显示50条帖子

emotions = 0

while (tznum > n):

n = n + 50

print("正在爬取前" + str(n) + "条帖子")

url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)

soup = BeautifulSoup(requests.get(url).text,'lxml') ###爬取动作

a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')

for a in a: ###接下来以此判断文本是否合规,然后判断情感正向倾向指数,然后写入文件

if BDAITEXT(a.text) == "合规":

print("爬取到合规帖子,正在写入文件:" + a.text)

with open("resaults.txt","a+",encoding='utf-8') as f:

f.write(str(a.text)) ###写入这里特意转换一下数据类型,避免后面发生文本编码错误

try:

emotions = emotions + BDAIemotion(a.text)

print("当前累计情感指数:" + str(emotions))

except:

print("情感分析出错,跳过")

else:

print("帖子不合规,跳过")

time.sleep(10) ###君子协议,10秒暂停

f.close()

三、百度人工智能API调用

3.1 百度AK获取,就是要先到百度AI开发平台注册一个开发者账号,然后创建应用,获取应用id和密钥,然后得到这样一个调用的密钥

# client_id 为官网获取的AK, client_secret 为官网获取的SK

host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'

response = requests.get(host)

if response:

print(response.json())

3.2 内容审核API调用

def BDAITEXT(text): ####百度AI文本审核,返回合规或者不合规

content = {"text": text}

r = requests.post(BDAItexturl,content).text

if r:

rback = json.loads(r)

return rback["conclusion"]

3.3 情感分析API调用

def BDAIemotion(text): ####百度AI情感分析,返回一个数值

content = {"text": text}

content = json.dumps(content)

r = requests.post(BDAIemotionurl,content).text

if r:

rback = json.loads(r)

return rback['items'][0]['positive_prob']

四、词云生成

有很多在线工具,导入大段文本,然后根据需要进行文本的过滤、分词,然后设置颜色、样式就可以生成词云。

五、信息分析

看词云,结果不言而喻,提早地准备、丰富的经验、专业课、数学、政治、院校选择…………

从情感上来看,大多数情感指数偏向积极,说明对待考研还是需要一个积极的态度。

运行截图

待改进

1.应该多线程,速度太慢了

2.爬取了帖子,没有爬取评论

3.情感分析有很多出错

“闲言碎语留给市井小民,你只管优雅从容心怀远方”


http://www.niftyadmin.cn/n/3230040.html

相关文章

Silverlight技术调查(1)——Html向Silverlight传参

Silverlight技术调查(1)——Html向Silverlight传参 原文 Silverlight技术调查(1)——Html向Silverlight传参 近几日项目研究一个很牛的富文档编辑器DXperience RichEdit组件,调查环境为Silverlight4.0,应用服务器为Tomcat6.20,组件版本为11.1…

RTP-RFC 3550/3551

●实时传送协议(Real-time Transport Protocol或简写RTP)是一个网络传输协议,它是由IETF的多媒体传输工作小组1996年在RFC 1889中公布的。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。它一开始被设计为一个多播协议&#xf…

Java 文件夹的操作

package expression;import java.io.File;public class Demo2{public static void main(String[] args) {File file new File("dir/dir1/dir2/dir3");//boolean f file.mkdir();创建单个文件夹boolean flag file.mkdirs();//创建文件夹及其子文件夹System.out.pr…

ILMerge参考文档

ILMerge Michael Barnett Research in Software Engineering (RiSE) Microsoft Research Copyright © Microsoft Corporation. All rights reserved. 原文链接:https://github.com/dotnet/ILMerge/blob/master/ilmerge-manual.md 1. Introduction This doc…

python人像美颜_200 行 Python 代码实现简单图片人像识别换脸

在这篇文章中我将介绍如何写一个简短(200行)的 Python 脚本,来自动地将一幅图片的脸替换为另一幅图片的脸。这个过程分四步:检测脸部标记。旋转、缩放、平移和第二张图片,以配合第一步。调整第二张图片的色彩平衡,以适配第一张图片…

Suricata

Suricata is the OISF IDP engine, the open source Intrusion Detection and Prevention Engine. IDS:Intrusion Detection System入侵检测系统 IPS:Intrusion Prevention System入侵防御系统 Suricata.yaml Max-pending-packets With the max-pending…

Java开发 drawimage 绘制图像

第四个参数是在哪上面画就通知谁 package expression;import java.awt.Canvas; import java.awt.Graphics; import java.awt.Image; import java.awt.image.ImageObserver; import java.awt.image.ImageProducer;import javax.swing.ImageIcon; import javax.swing.JFrame;imp…

LMerge-github

ILMerge ILMerge是一个将多个.NET程序集合并到一个程序集中的实用程序。它可以免费使用,并以NuGet包的形式提供。 如果您在使用它时遇到任何问题,请与我们联系。(mbarnett at microsoft dot com)。但首先尝试阅读文档。 ILMerg…