百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

Selenium爬虫实践:ajax请求抓包、浏览器退出

qiyuwang 2024-11-01 14:42 20 浏览 0 评论

前言

  最近在搞公司内部系统,累的一批,需要从另一个内部系统导出数据存到数据库做分析,有大量的数据采集工作,又没办法去直接拿到那个系统的接口,太难了,只能爬虫,但是cookie还经常失效,为了不每次登录失效就来找我重新注入Cookie,我写了一个手机版的网页,用来控制后台的selenium自动登录,截取token和cookie。


  ajax请求抓包方案

  搜索资料的过程真的痛苦,不过还好这时间没有白花,最终还是解决了问题……

  根据找到的资料,有以下几种方法可以在Selenium中抓取ajax请求中的数据。

  ·使用本地代理:browsermob-proxy

  · 使用selenium的执行js功能注入 ajax hook 并执行,然后本地开一个服务器接收拦截到的ajax数据

  · 用第三方库selenium-wire,这个是一个GitHub上的开源项目,可以直接截取response_code和body,原理应该走的也是代理

  · 开启selenium的性能抓取,在性能日志里面可以做改动,以拦截response_body

  使用本地代理

  本文使用Browsermob-Proxy这个代理服务器,这个是用Java写的,有一个python封装的接口包可以方便交互……

  先去下载:https://github.com/lightbody/browsermob-proxy/releases

  安装python包:

  pip install browsermob-proxy

  在代码中使用,这里我截取了项目的部分代码,随便看看就好了,完整代码可以看官网文档或者参考资料~

  有几个需要注意的坑的地方,我在代码中标出了。

  # 创建代理服务器

  self.server = Server(

   # Windows就是bat,如果Linux就是另一个不带后缀名的

   r'path\bin\browsermob-proxy.bat',

   # 这里可以自定义端口

   options={'port': 9090}

  )

  # 这里启动服务器,等会机会要关掉,不然下次用就端口占用冲突了

  self.server.start()

  # 注意这里一定要 trustAllServers 不然等会selenium会报 error_tunnel 错误

  self.proxy = self.server.create_proxy(params={'trustAllServers': 'true'})

  # 设置selenium的代理

  options = ChromeOptions()

  options.add_argument('--ignore-certificate-errors')

  options.add_argument(f'--proxy-server={self.proxy.proxy}')

  self.driver = webdriver.Chrome(options=options)

  使用代理来进行抓包,我这个项目需要在ajax请求的header里面提取出token和cookie,截取了关键部分的代码如下:

  self.proxy.new_har('抓包名称 自己起一个', options={'captureHeaders': True, 'captureContent': True})

  # 找到需要点击的元素

  elem_query = self.driver.find_element_by_css_selector(elem_css_selector)

  elem_query.click()

  # 点击按钮后等待 并把数据取出来

  time.sleep(5)

  result = self.proxy.har

  data = {}

  for entry in result['log']['entries']:

   url = entry['request']['url']

   # 根据URL找到数据接口

   if 'xxx/query' in url:

   _response = entry['response']

   _content = _response['content']['text']

   for item in entry['request']['headers']:

   # 提取出header里面的 token

   if item['name'] == 'Authorization':

   data['authorization'] = item['value']

   # 提取出header里面的 cookie

   if item['name'] == 'Cookie':

   data['cookie'] = item['value']

   break

  print(data)

  以上代码同样不是完整代码,不过已经将具体抓包的过程完整表达出来,需要的同学可以根据自己的实际需求进行编码,只要能抓到数据,一切都好说~

  浏览器和代理服务器退出

  这个没啥好写的,但是也有一个小坑,水一下吧~

  从上面的代码里也可以看出来,我写了一个类来操作Selenium,程序执行完了肯定要把代理和服务器关了,不然selenium会留着一个 chromedriver.exe 的进程在后台占用资源,时间一长,系统内存都满了。

  我在类的__del__方法中加入了关闭代理服务器和浏览器的代码,如下:

  def __del__(self):

   print('SeleniumFxxkUnicom has been deleted.')

   self.proxy.close()

   self.server.stop()

   for win in self.driver.window_handles:

   self.driver.switch_to.window(win)

   self.driver.close()

   os.system('taskkill /im chromedriver.exe /F')

  注意这个循环的driver.close(),在__del__里是没办法正常执行driver.quit()的,按理说quit才是最好的退出方法,但是他还要导入什么鬼乱七八糟的模块,导致我在这个__del__里执行失败,于是只好曲线救国,先把全部标签页关闭,然后用系统命令结束掉进程……

相关推荐

别再乱找了!这才是 Alist 本地安装挂载的正确打开方式

一、探秘Alist的神奇世界在这个数据爆炸的时代,我们的生活里充斥着各种各样的网盘服务,百度网盘、阿里云盘、腾讯微云等等,它们成了我们存储资料的得力助手。但随着网盘数量的增多,管理这些分散在不同平...

如何将数据从旧iPhone传输到新iPhone 16?这五个方法你必须知道!

前不久,苹果发布了备受期待的iPhone16系列,新机型搭载了更强大的芯片、更流畅的操作体验,还有备受热议的全新摄像系统。无论你是冲着A18仿生芯片,还是更丰富的动态岛功能,相信很多果粉早已跃跃欲试...

大数据传输的定义与大数据传输解决方案的选择

当我们需要处理大量的数据时,我们就要把数据从一个地方移动到另一个地方。这个过程就叫做大数据传输。它通常需要用到高速的网络连接、分散的存储系统和数据传输协议,以保证数据的快速、可靠和安全的移动。常用的大...

【工具】在线传输文件工具(在线文件互传)

前言在线传输文件工具主要是用于在不同的设备之间,如手机、电脑、平板等快速便捷地传送文件。告别使用USB传统传输文件的方式。...

如何使用 CAN-FD 在 LPC5500 上传输数据

目录1引言2CAN-FD3示例演示1引言...

轻松同步:将照片从三星手机传输到iPad的简便方法

概括想要在新iPad上查看三星照片吗?但是,如果您不知道如何将照片从三星手机传输到iPad,则无法在iPad上查看图片。为此,本文分享了7个有用的方法,以便您可以使用它们在不同操作系统之...

常见又地道的网络缩写:美剧中常说的SFW到底是个啥?

在这堂课中,让我们来学习更多在数字网络世界中常用的有趣网络用语。7shifts/unsplashhttp,https“http”和“https”是万维网(www)传输文件用的协议。“http”是hy...

每天学会一个计算机网络协议之FTP

开始行文之前提出一个问题,相信大家在看完本文后一定可以回答当我们在网站上填写注册信息的时候,需要我们上传照片,上传的过程发生了什么?下面引入我们的主角,FTP文件传输协议FTPFileTransf...

即用即走,这3款文件分享工具真香

打工人的日常,免不了「文件分享存储服务」的需求。我们一般会选择不同的网盘,但是大家也知道,网盘不是限速就是叫你充值。今天跟大家简单推荐3款文件分享工具,既可以免登录匿名使用,而且操作简单稳定性也不错。...

安卓手机里的文件和照片与Mac互传的办法

因为HandShake一段时间未更新,似乎目前不可操作。我一时间未找到更好的「传输」办法,经实践操作,向大家介绍一下「安卓手机」,包括「一加」、「索尼」,都可用此方法,来进行文件传输到Mac的...

软网推荐:同一个平台选择不同的传输方法

平时上网的时候,我们经常要分享一些文件给其他朋友,一般通过云服务平台来实现。今天笔者给大家介绍的Worksphere传输服务,它提供了两种不同的分享方式,方便我们根据实际需要进行选择。一个链接分享所有...

跨平台不限速的免费文件传输网站(跨平台不限速的免费文件传输网站是什么)

大家好,欢迎来到天天惠分享,不知道各位平时都是用什么方法来进行文件跨平台传输的呢?是百度网盘?微信还是QQ?亦或是有线传输。虽然这些方法都可以达到传输的目的,但都有各自的缺陷,使用起来一言难尽。比如百...

全网最全最详细的全平台文件传输方法,解决你文件传输问题(一)

前言想必现在大多数人文件传输的方法还是使用qq微信,但是qq微信的文件传输有时候真是,...

文件传输工具有哪些?这3款堪称办公必备!

在不同设备间,想把文件从一台设备传输到另一台,尤其是大体积文件,更是免不了用到文件传输工具,可以说文件传输工具已成为提升效率的关键载体。面对海量文档、设计素材、会议纪要的流转需求,传统邮件附件、U盘拷...

小白也能用的跨网文件交换系统!10款简单易上手的文件摆渡工具

跨网文件交换系统对于需要频繁在不同网络环境中进行文件共享的用户来说至关重要。以下是10款简单易上手的文件摆渡工具,适合小白用户使用,帮助他们高效地分享和传输文件。10款简单易上手的跨网文件交换工具1....

取消回复欢迎 发表评论: