新闻中心
【飞桨论文复现赛-图像描述生成】Soft-Attention
本文为百度论文复现赛第四期相关论文的复现代码介绍。依赖paddlepaddle-gpu2.1.2、python3.7,在coco2014数据集训练,给出复现精度。介绍了模型背景、结构、数据集,还说明了运行、安装依赖、训练及评估的步骤,提及代码解释相关内容。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

前言
本项目为百度论文复现赛第四期《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文复现代码。
依赖环境:
- paddlepaddle-gpu2.1.2
- python3.7
代码在coco2014数据集上训练,复现精度:
| Bleu_1 | Bleu_2 | Bleu_3 | Bleu_4 | METEOR | ROUGE_L | CIDEr |
|---|---|---|---|---|---|---|
| 0.721 | 0.547 | 0.405 | 0.300 | 0.242 | 0.525 | 0.924 |
模型背景及其介绍
参考论文:《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文链接
近年来,人们提出了几种生成图像描述生成方法。这些方法中许多都是基于递归神经网络,并受到了成功使用序列与神经网络进行机器翻译训练的启发。图像描述生成非常适合机器翻译的编码器-解码器框架,一个主要原因是它类似于将图像翻译成句子。
受机器翻译和目标检测工作的启发,论文首次提出在图像描述模型中引入注意力机制,大幅度提高了模型的性能,并可视化展示了注意力机制如何学习将目光固定在图像的显著目标上,整体框架如下。
第一步:输入Image到模型中。
第二步:经过CNN进行卷积提取Image特征信息最终形成Image的特征图信息。
第三步:attention对提取的特征图进行加权求和,作为后续进入LSTM模型的输入数据,不同时刻的attention数据会受到上一时刻状态输出数据的影响。
第四步:LSTM模型最终输出caption。
模型结构:
参考项目地址链接
复现论文代码github地址链接
美图云修
商业级AI影像处理工具
50
查看详情
数据集
coco2014 image captions 论文,采用“Karpathy” data split 论文
数据集总大小:123287张
训练集:113287张
验证集:5000张
测试集:5000张
标签文件:dataset_coco.json
运行
解压预训练数据到work/data/目录下
预训练数据包括: 通过vgg19提取的coco2014图像网格特征、cocotalk.json、cocotalk_label.h5
通过命令 !python3 scripts/prepro_feats.py 和 !python3 scripts/prepro_labels.py 获得
In [5]%cd /home/aistudio/work/data/ !unzip -oq /home/aistudio/data/data106948/coco_data_vgg.zip
/home/aistudio/work/data
解压用于训练测试的文件到work/目录下
In [6]%cd /home/aistudio/work/ !unzip -oq /home/aistudio/data/data107076/coco-caption.zip
/home/aistudio/work
安装依赖库
In [ ]%cd /home/aistudio/work/ !pip install -r requirements.txt
训练
训练的日志和模型会放到work/log/目录下
In [ ]!python3 train.py
评估
我已经将训练好的model_best.pdparams文件放在了work/log目录下
加载work/log目录下保存的训练模型数据进行验证
In [ ]%cd /home/aistudio/work/ !unzip -oq /home/aistudio/data/data107076/log.zip代码解释 In [ ]
!python3 eval.py
以上就是【飞桨论文复现赛-图像描述生成】Soft-Attention的详细内容,更多请关注其它相关文章!
# 官网
# 淄博网站建设 熊掌号
# 网站推广seo教程排名优化方法
# 学校网站建设哪里便宜
# 自助餐社群推广营销方案
# 南京市SEO哪家好
# 淮安专业关键词排名
# 惠东网站优化怎么收费
# 微信红酒营销推广方案
# 词根词seo
# 湖南工厂营销推广
# 放在
# 第四期
# 都是
# python
# 目录下
# 美图
# 一言
# 中文网
# 递归
# coco
# captions
# udio
# 征信
# talk
# 百度
# ai
# git
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
本科一批和本科二批是什么意思
选哪个折叠屏手机好用
url解码什么意思
300秒等于多少分钟
ensp命令如何提示
华为使用nfc功能是什么意思
什么是泛域名解析
bugly是什么
mac如何使用vi命令行
夸克网盘是什么都有吗
夸克的答案为什么不对
折叠屏手机信号哪个最强
j*a怎么创建json数组
vue中datediff函数怎么用
电脑显示屏上power是什么意思
忐忑不安是什么意思
爱奇艺中下载的视频怎么在PPT中播放操作方法
dos命令如何复制目录结构
复制 命令如何撤销
a03怎么根据编号找文链接入口
如何查看固态硬盘速度
新装固态硬盘如何安装
typescript书籍哪个好
折叠屏手机为什么凉凉
夸克*免费吗
折叠屏手机为什么没火
linux如何使用db2命令
固态硬盘如何4k对其
tft单片机怎么写彩屏
typescript是什么类型的语言
如何使用net命令
苹果16最近玩法有哪些
固态硬盘如何显示
税负是什么意思
喇叭上标的power30w是什么意思
如何显示固态硬盘
空调power灯一直闪是什么意思
市盈率中的19a是什么意思
导航power在汽车上是什么意思
计数器上power是什么意思
win7怎么关闭360壁纸屏保
爱奇艺视频怎么下载到手机u盘怎么转换格式方法
如何卸载typescript
征信信誉不好如何恢复 如何修复不良征信方法
如何安装台式机固态硬盘
typescript入门要多久
反向春运抢票方式
typescript学会要多久
手机如何运行ping命令
typescript中怎么引用js文件


2025-07-25
浏览次数:次
返回列表