python反爬-图像验证码与滑块验证码的跳过反selenium检测，动态ip等问题

myrgd • 2024年11月28日下午8:10 • python, 前端开发, 编程语言

针对反爬措施，Python可以使用以下策略来跳过图像验证码与滑块验证码、反检测Selenium，以及通过动态IP规避限制。这是一个分步说明：

1. 图像验证码的跳过与破解
1.1 图像验证码处理
对于简单的图像验证码，可以使用 OCR 技术直接识别验证码内容。常用库包括：
Tesseract-OCR: 一款开源 OCR 工具。
Pytesseract: Tesseract 的 Python 封装。
实现示例

from PIL import Image
import pytesseract

# 加载验证码图片
image = Image.open("captcha.jpg")

# OCR 识别验证码
captcha_text = pytesseract.image_to_string(image)
print("识别的验证码是:", captcha_text)

注意
如果验证码经过干扰（如噪声或扭曲），可以先通过 OpenCV 进行图像预处理，例如二值化、去噪等。

import cv2

# 加载图片
image = cv2.imread("captcha.jpg", 0)

# 二值化处理
_, thresh_image = cv2.threshold(image, 127, 255, cv2.THRESH_BINARY)

# 保存处理后的图像
cv2.imwrite("processed_captcha.jpg", thresh_image)

1.2 滑块验证码处理
对于滑块验证码，一般需要模拟拖动行为。常用工具：
Selenium：用于操作网页。
OpenCV：识别滑块和背景的缺口位置。
核心思路
使用 Selenium 加载滑块验证码页面。
使用 OpenCV 检测背景缺口位置。
模拟拖动滑块的行为。
实现示例

from selenium import webdriver
import time
import cv2
import numpy as np
from selenium.webdriver.common.action_chains import ActionChains

# 加载页面
driver = webdriver.Chrome()
driver.get("https://example.com/captcha")

# 截取滑块背景图
background = driver.find_element("id", "background-image")
background.screenshot("background.png")

# 截取滑块图
slider = driver.find_element("id", "slider-image")
slider.screenshot("slider.png")

# 使用 OpenCV 计算滑块缺口位置
def calculate_offset(bg_path, slider_path):
    bg_img = cv2.imread(bg_path, 0)
    slider_img = cv2.imread(slider_path, 0)
    res = cv2.matchTemplate(bg_img, slider_img, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)
    return max_loc[0]  # 返回缺口的 x 坐标

offset = calculate_offset("background.png", "slider.png")
print("缺口位置:", offset)

# 模拟拖动滑块
slider = driver.find_element("id", "slider-handle")
action = ActionChains(driver)
action.click_and_hold(slider).perform()
action.move_by_offset(xoffset=offset, yoffset=0).perform()
time.sleep(0.5)
action.release().perform()

2. 反 Selenium 检测
2.1 修改 WebDriver 属性
很多网站通过检查 navigator.webdriver 或 WebDriver 指纹来识别 Selenium，解决方案如下：
修改 WebDriver 属性

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationControlled")

driver = webdriver.Chrome(options=options)

# 修改 navigator.webdriver 属性
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
    """
})
driver.get("https://example.com")

2.2 隐藏 Selenium 指纹
使用 undetected-chromedriver 库自动隐藏 Selenium 的常见指纹。
安装

pip install undetected-chromedriver

示例代码

import undetected_chromedriver.v2 as uc

driver = uc.Chrome()
driver.get("https://example.com")

3. 动态 IP 切换
3.1 使用代理 IP
通过代理服务器动态切换 IP，常见的代理服务包括免费代理、爬虫代理池或购买代理服务。
示例代码

from selenium import webdriver

proxy = "http://username:password@proxyserver:port"  # 替换为你的代理信息
options = webdriver.ChromeOptions()
options.add_argument(f"--proxy-server={proxy}")

driver = webdriver.Chrome(options=options)
driver.get("https://example.com")

3.2 搭建代理池
使用 requests 配合代理池实现动态 IP 切换。可以使用开源代理池项目如 IPProxyPool 或 自建代理池。
示例代码

import requests

# 示例代理池
proxies = [
    "http://proxy1:port",
    "http://proxy2:port",
    "http://proxy3:port"
]

# 动态切换代理
for proxy in proxies:
    try:
        response = requests.get("https://example.com", proxies={"http": proxy, "https": proxy}, timeout=5)
        print(f"IP {proxy} 访问成功: {response.status_code}")
    except Exception as e:
        print(f"IP {proxy} 访问失败: {e}")

4. 综合反爬策略
模拟真实用户行为
随机设置鼠标移动轨迹和速度。
设置动态的 User-Agent。
动态加载时间
添加 time.sleep 随机延迟，模拟真实的用户行为。
分布式爬取
将任务分发到多个代理 IP 或服务器，减少单 IP 压力。
日志监控
实时监控请求返回状态，动态调整代理或重试策略。

通过以上方法，可以有效处理反爬中常见的图像验证码、滑块验证码、动态 IP 和 Selenium 检测问题。在实践中需要根据目标网站的反爬策略灵活调整代码。

发布者：myrgd，转载请注明出处：https://www.object-c.cn/4896

OCR识别 Pytesseract python Selenium

Like (0)

0 0

关于作者

myrgd

207 文章

0 评论

14 问题

1 回答

0 粉丝

这个人很懒，什么都没有留下～

微信小程序获取图片网页链接转换为 base64 ，wx.arrayBufferToBase64(binary) 提示已弃用的处理方法

Previous 2024年11月28日下午7:42

在 Unity 的 UGUI 中，图片锯齿严重的问题解决方法

Next 2024年11月28日下午8:14

前端开发

安装 Laravel 11 + Filament 详细教程

安装Laravel 11之前选确保安装了Composer 管理器，接下来的步骤是通过Composer 包管理器安装完成的。一、前提条件二、使用 Composer 创建新的 Laravel 11 项目三、在现有项目中添加 Laravel 11（如果是集成到现有项目）请注意，在实际安装过程中，可能会遇到各种问题，如权限问题（在 Linux 下，如果没有足…

myrgd
2025年1月18日
000
前端开发

Jeewx-Api 1.3.1 发布：更简易的微信小程序开发 API 降低了开发成本

Jeewx-Api 1.3.1 发布：更简易的微信小程序开发 API Jeewx-Api 是一款开源的微信开发 SDK，支持微信公众号、小程序、企业微信等全场景开发。1.3.1 版本针对小程序功能做了全面优化，为开发者提供了更简洁易用的 API，降低了开发成本。 1. 新版本亮点支持微信小程序功能更简洁的 API 支持企业微信与公众号 2. Jeewx-…

myrgd
2024年12月3日
000
前端开发

在 WPF 中使用 Vlc.DotNet 和 LibVLCSharp.WPF 两种库来进行 VLC 的二次开发

在 WPF 中使用 Vlc.DotNet 和 LibVLCSharp.WPF 两种库来进行 VLC 的二次开发，可以实现丰富的视频播放功能，比如播放本地视频、流媒体、控制播放、获取视频信息等功能。以下是对两者的介绍及开发步骤。一、Vlc.DotNet 和 LibVLCSharp 的对比特性 Vlc.DotNet LibVLCSharp.WPF 开发活跃度…

myrgd
2024年12月3日
000
前端开发

uni-app 一个使用 Vue.js 开发所有前端应用的框架跨端开发的优势

uni-app 是一个使用 Vue.js 开发所有前端应用的框架，开发者编写一套代码，可发布到 iOS、Android、Web（响应式）、以及各种小程序（微信 / 支付宝 / 百度 / 头条 / QQ / 钉钉）等多个平台，其跨端开发具有以下优势：开发效率高跨平台兼容性好性能优化生态丰富学习成本低

myrgd
2024年12月22日
000
开发工具

在 Windows 上使用 PyCharm 进行远程开发并连接到 Spark 进行 PySpark 开发

在 Windows 上使用 PyCharm 进行远程开发并连接到 Spark 进行 PySpark 开发，通常涉及以下几个步骤：1. 设置 PyCharm 环境首先，需要安装 PyCharm，并确保你使用的是专业版（Professional），因为它支持远程开发。确保 Python 已经安装，并配置好虚拟环境。2. 配置远程开发环境在 Windows 上使用…

myrgd
2024年11月27日
000
前端开发

部署 Harbor 时，如果运行 install 脚本报错可能导致问题的

在部署 Harbor 时，如果运行 install 脚本报错，可能是网络问题导致的。以下是排查网络问题的方法： 1. 检查网络连通性测试目标网络的连通性：检查 DNS 配置：如果解析失败，检查 /etc/resolv.conf 中的 DNS 配置，或者尝试手动指定公共 DNS，如 Google 的 8.8.8.8 或阿里云的 223.5.5.5。 2.…

myrgd
2024年12月9日
000
前端开发

理解 HTML、HTML5 和 “H5” 区别的重要性

HTML & HTML5 & H5 的区别在构建现代网页时，理解 HTML、HTML5 和 “H5” 的区别是非常重要的。以下是它们的概念和主要区别： 1. HTML（超文本标记语言）定义HTML 是 HyperText Markup Language 的缩写，即超文本标记语言，用于定义网页内容的结构和含义。特性提供基…

myrgd
2024年12月2日
000
编程语言

C语言内存函数动态分配内存、释放内存和对内存内容进行操作。

C语言中的内存函数主要用于动态分配内存、释放内存和对内存内容进行操作。这些函数都在标准库 <stdlib.h> 和 <string.h> 中定义。以下是 C 语言常用的内存函数及其详细说明： 1. 动态内存管理函数这些函数位于 <stdlib.h> 中，用于在运行时分配和释放内存。 1.1 malloc 示例：功能：分配一块指定大…

myrgd
2024年11月22日
000
小程序

实现微信支付提现api接口教程

微信支付的提现功能，通常是通过调用企业付款到零钱 API 或企业付款到银行卡 API 来实现的。以下是如何使用微信支付提现 API 的详细教程，包括其前置条件、接口调用以及注意事项。 1. 准备工作 1.1. 开通微信支付商户号 1.2. 配置证书将这些文件保存在你的服务器上，用于发起 HTTPS 请求。 1.3. 获取 API 密钥 2. 企业付款到…

myrgd
2024年11月24日
000
后端开发

通过 PHP 读取微软邮箱（Outlook/Office 365 邮箱）

通过 PHP 读取微软邮箱（Outlook/Office 365 邮箱）邮件，通常需要使用 Microsoft Graph API，因为微软逐步淘汰了基于用户名和密码的 IMAP/SMTP 方式。Microsoft Graph API 支持 OAuth2.0 认证，可以安全地访问和管理用户邮件。以下是实现读取微软邮箱邮件的完整示例。实现步骤 1. 准备工…

myrgd
2024年11月25日
000
前端开发

浏览器跨域请求中携带 Cookie需要同时在前端和后端进行配置

浏览器跨域请求中，要让请求携带 Cookie，需要同时在前端和后端进行配置。以下是实现的方法：前端配置在前端代码中使用 fetch 或 Axios 发起请求时，需要设置 credentials 属性： 1. Fetch 示例 2. Axios 示例后端配置在后端需要允许跨域请求，并确保 Cookie 能够正常传递。 1. 设置 Access-Cont…

myrgd
2024年12月9日
000
编程语言

C语言中的操作符（Operators）对数据进行运算的符号

C语言中的操作符（Operators）是对数据进行运算的符号，分为多种类型，支持从基本算术到复杂的逻辑操作。以下是C语言操作符的详解： 1. 算术操作符（Arithmetic Operators）用于执行基本数学运算：示例： 2. 关系操作符（Relational Operators）用于比较两个值，结果为布尔值：示例： 3. 逻辑操作符（Logic…

myrgd
2024年11月22日
000
前端开发

使用 Webpack 5 优化构建减少生成文件的体积提升前端性能

在使用 Webpack 5 时，优化构建以减少生成文件的体积是提升前端性能的重要一步。以下是一些常见的优化方法和策略： 1. 开启生产模式确保构建时使用生产模式，Webpack 会自动应用多种优化（如代码压缩、Tree Shaking 等）：或在配置文件中明确设置： 2. 启用 Tree Shaking Tree Shaking 是 Webpack 内置…

myrgd
2024年12月3日
000
前端开发

2024年最新的 Node.js 安装与环境配置教程

以下是2024年最新的 Node.js 安装与环境配置教程，适用于 Windows、macOS 和 Linux 系统。一、什么是 Node.js？ Node.js 是一个基于 V8 引擎的 JavaScript 运行环境，主要用于开发服务端应用程序。它的特点是异步事件驱动和非阻塞 I/O，适合高性能应用。二、Node.js 安装 1. 下载 Node.j…

myrgd
2024年11月23日
000
前端开发

在开发 Angular 项目时，使用 RangeSlider 控件时的常见问题

在开发 Angular 项目时，使用 RangeSlider 控件时，可能会遇到一些常见的问题。以下是一些问题及其解决方案：1. 滑块值不更新问题描述：当用户拖动滑块时，滑块的值不会实时更新，或者显示的值不正确。解决方案：确保绑定的模型是双向绑定，使用 ngModel 或者监听 input 事件来确保滑块值能实时更新。例如：确保你已经导入了 FormsMo…

myrgd
2024年11月27日
000