新闻中心
试卷手写笔迹擦除 -- 百度网盘AI大赛:手写文字擦除第5名方案
该方案为百度网盘AI大赛手写文字擦除第5名方案,基于SegFormer语义分割模型实现试卷手写笔迹擦除。通过生成手写笔迹分割掩码,再利用掩码去除笔迹。处理数据集时生成二分类掩码、预处理图像并增强数据。改进SegFormer的decoder,采用转置卷积,结合交叉熵与Dice损失函数,提升效果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

试卷手写笔迹擦除
-- 百度网盘AI大赛:手写文字擦除第5名方案
一、简介
1. 项目介绍
本项目基于 SegFormer 语义分割模型,识别试卷中的手写笔迹来生成去除掩码,实现 AI 笔迹橡皮擦,擦除试卷中的手写笔迹。
2. 项目背景
本项目源于百度网盘的图像处理挑战赛,手写文字擦除任务。 百度网盘AI大赛——图像处理挑战赛是百度网盘开放平台 面向AI开发者和爱好者发起的计算机视觉领域挑战赛。AI时代已到来,百度网盘与百度飞桨AI Studio强强联合,旨在基于个人云存储的生态能力开放,通过比赛机制,鼓励选手结合当下前沿的计算机视觉技术与图像处理技术,完成模型设计搭建与训练优化,产出基于飞桨框架的开源模型方案,为中国开源生态建设贡献一份力量。 本次图像处理挑战赛以线上比赛的形式进行,参赛选手需要在规定时间内,完成模型设计搭建与训练优化,并提交基于评测数据集产出的结果文件
3. 赛题分析
赛题描述:选手需要建立模型,对比赛给定的带有手写痕迹的试卷图片进行处理,擦除相关的笔,还原图片原本的样子,并提交模型输出的结果图片。 思路分析:试卷中存在的痕迹可以视为印刷和手写两类,手写字体的笔迹往往不够规整,在整体结构上不如印刷体的分明,因此我们可以将手写体和印刷体视为两种不同结构的语义类别,用语义分割模型对其处理,获得手写笔记的分割mask。但是大多数语义分割模型往往生成较为粗糙的 mask,我们需要对模型的 decoder 进行一定改动设计。
赛题分析
- 赛题描述:选手需要建立模型,对比赛给定的带有手写痕迹的试卷图片进行处理,擦除相关的笔,还原图片原本的样子,并提交模型输出的结果图片。
- 思路分析:试卷中存在的痕迹可以视为印刷和手写两类,手写字体的笔迹往往不够规整,在整体结构上不如印刷体的分明,因此我们可以将手写体和印刷体视为两种不同结构的语义类别,用语义分割模型对其处理,获得手写笔记的分割mask。但是大多数语义分割模型往往生成较为粗糙的 mask,我们需要对模型的 decoder 进行一定改动设计。
二、数据集介绍及处理
本次比赛最新发布的数据集中,所有的图像数据均由真实场景采集得到,再通过技术手段进行相应处理,生成可用的脱敏数据集。该任务为image-to-image的形式,因此源数据和GT数据均以图片的形式来提供。其中训练集有1000个样本,测试集A榜和B榜各200个样本训练数据集。训练数据集结构如下:
|- root|- images |- gts
images 手写文字的源图像数据,gts 为无手写文字的真值数据(仅有训练集数据提供gts ,A榜测试集、B榜测试集数据均不提供gts);
-
images 与 gts 中的图片根据图片名称一一对应。

上图为训练集中的一对样本,我们可以观察得到以下三点特征:
- 需要去除的手写痕迹在结构上比较的精细,而且大小区别很大
- 虽然存在需要大量去除的痕迹,但是与整张图片比较,区域占比相对还是比较小
- 手写痕迹存与印刷痕迹存在耦合,这对于完整结构的识别与分割提出了挑战
数据集处理
依据我们的设计,数据集处理分为以下部分:
- Mask 生成:由于我们采用语义分割框架,我们需要生成二分类掩码的真实值。
-
我们通过对比去除文字后和去除文字前的图像,对于大于设定阈值的地方,我们认为是需要除去的部分,置为 1 值,其余置为 0 值,以此生成 Mask,如下图所示:

-
- 图像输入预处理:输入的图像往往是矩形图像,为了保持横纵比,对于非正方形图像,我们填充图像边缘形成正方向图像作为输入,同时输入图像的大小一,且有些图像像素尺寸较大,因此我们统一下采样图片至 384 * 384。
- 训练数据增强:在训练时,我们对数据进行一定的增强,加入了随机水平反转和随机裁剪等操作,增强模型的泛化能力。
三、模型设计
我们把笔记擦除任务视为笔迹识别并生成掩码的任务,而这恰好是语义分割所擅长的,因此我们考虑采用基于语义分割的 SOTA 模型--Segformer 来进行文字擦除。
美图云修
商业级AI影像处理工具
50
查看详情
SegFormer: Encoder - Decoder 结构,Encoder 捕获充足的上下文语义信息,Decoder 进行上采样得到像素分割掩码(但原文设计中最终只得到原图 4x 下采样的语义分割结果,需要上采样回去到输入图像的尺寸)。Encoder 由Transformer Block 组成,形成结构化特征表征;Decoder 由 MLP 组成,聚合不同尺度信息。整体框架如下所作:

SegFormer 设计的特点:
-
Efficient Self-Attn:通过将空间局部信息转化为通道信息,高效自注意力层将原始自注意力层 O(N2) 的计算复杂度降为了 O(RN2) ,同时通过这一操作还实现了全局--局部信息的交互,强化了信息提取能力。
-
Mix-FFN:SegFormer 放弃了 Transformer 原始的位置编码,利用 MLP 和 3×3 卷积编码来实现局部位置信息的感知,从而能够更加灵活适应多种分辨率图像的输入,捕捉不同尺度的信息。
Lightweight All-MLP Decoder:SegFormer 的 Decoder 仅由 MLP 和无参数上采样层组成,作者提出由于编码器中自注意力层的存在,在解码器中无需再设计复杂的模块(如Dilated Convolution 和 ASPP 设计)来扩大模型有效感受野,因此用 MLP 层进行信息融合即可。当然这也有一定弊端,无参数上采样层无法很好利用局部信息来插值,导致分割结果的边缘可能不够精细化。
*详见 SegFormer: Simple and Eicient Design for Semantic Segmentation with Transformers
模型改进
试卷中的文字一般是精细化的结构,而 SegFormer 产生的掩码相对粗糙,不利于去除手写的文字痕迹,我们考虑采用可学习的转置卷积,通过局部区域特征上采样,不断补充精细结构来生成掩码结果,相较于无参数的上采样(如双线性插值),能够更好利用局部信息进行更高阶上采样。
损失函数设计
一般的语义分割任务中的对象往往大尺寸的结构占主体,因此交叉熵损失就足够解决问题;但是手写痕迹的细化结构,会导致交叉熵损失效果不能起到最好效果,因此我们在交叉熵损失基础上还加入了 dice loss 针对细化结构进行有效惩罚。
Dice=∣X∣+∣Y∣2∣X⋃Y∣
Ldice=1−Dice
其中 X⋃Y 表示求取 X 和 Y 的并集。最终的损失函数如下:
L=Lce+λ×Ldice
Lce 为交叉熵损失,λ 为平衡超参数,这里设置为0.5。
工程实践
1. 环境安装
In [ ]!pip install -r work/requirement.txt
2. 数据集生成
In [ ]!ls data/data127971 # show the raw directory!unzip data/data127971/dehw_train_dataset.zip -d data/ # extract the train data!unzip data/data127971/dehw_testA_dataset.zip -d data/ # extract the test data!python work/generate_files.py --trainData 1 --root data/dehw_train_dataset/images # generate the train list!python work/generate_files.py --trainData 0 --root data/dehw_testA_dataset/images # generate the test list
3. 训练模型
In [ ]!python work/main.py\
--train 1\
--arch segformer_b2\
--num_epochs 10\
--batchSize 24\
--dataRoot data/dehw_train_dataset\
4. 结果生成
In [ ]!python work/main.py\
--train 0\
--arch segformer_b2\
--modelLog Log/segformer_b2/02131458.pdparams\
--dataRoot data/dehw_testA_dataset\
以上就是试卷手写笔迹擦除 -- 百度网盘AI大赛:手写文字擦除第5名方案的详细内容,更多请关注其它相关文章!
# ai
# 百度网盘
# 百度
# 区别
# udio
# python
# 推广软件seo顾问
# 象山网站建设营销
# 阜康网站关键词排名
# 日照网站建设平台有哪些
# 江北区网站获客推广
# 何为seo技术
# 引流推广网站挚恼QBMZR CN 28
# 网课营销推广方式
# 电视栏目的营销推广策略
# 网站营销推广蔚新hfqjwl做词
# 对其
# 两种
# 我们可以
# 图像处理
# 美图
# 一言
# 掩码
# 中文网
# 百度网
# 擦除
# design
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
linux环境中如何使用ping命令
单片机显存怎么设置最佳
单片机怎么判定高电平
市盈率当中17A 18E是什么意思
如何用命令查看本机的操作系统
如何体验苹果16系统
单片机怎么进行排序操作
make命令如何使用
光刻机的分类及特点
如何寻找和修复无法在 AI 中找到文件的问题
type-c全能接口是什么意思
ip dhcp是什么意思
单片机蓝牙怎么开启设备
美食音乐每日推荐怎么写
学typescript需要什么基础么
微波炉power中文是什么意思
命令不执行如何处理
个人征信不好如何恢复 个人征信不良的全面修复指南
苹果ipad爱奇艺怎么投屏到电视
md5解密是什么意思
苹果16改进了哪些
如何更新typescript
type-c输入接口是什么
什么软件能下载夸克视频
电动车仪表盘上的power是什么意思
高市盈率是什么意思
输入命令如何换行
固态硬盘如何打开软件
夸克缺什么登录不了
命令控制台如何执行sql文件
苹果16要升级哪些功能
折叠屏手机为什么这么小
excel中datediff函数怎么用
为什么有的夸克带电
soup是什么意思
华为的nfc功能是什么意思
如何用ftp连接命令行
市盈率20a21e是什么意思
如何用命令连接mysql
typescript文件怎么打开
如何由js快速切换typescript
如何将系统移到固态硬盘
苹果16粉色还有哪些机型
linux如何用命令修改ip
爱玛电动车power模式是什么意思
市盈率3.2是什么意思
夸克转存中是什么意思
在遥控器中power是什么意思
如何显示固态硬盘
华为交换机 配置 如何复制命令行


2025-07-21
浏览次数:次
返回列表
|- images
|- gts