多媒体技术论文研读报告

news2025/7/10 3:34:29

多媒体技术论文研读报告

一、论文基本信息

论文题目为:基于多模态特征融合嵌入的相似广告检索方法,作者信息:南京大学计算机软件新技术国家重点实验室,南京大学软件学院冯奕、周晓松、李传艺、葛季栋、骆斌,深圳市腾讯计算机系统有限公司王挺,胡雨成,张小鹏。
刊物:计算机学报,发表时间:2022.7.15。

二、研究背景

随着互联网人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(ClickThrough-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.该分类器的优劣依赖广告的实际转化人群规模,但在实际应用中通常面临某些广告转化人群不足的问题,现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.

三、研究方法

基于目前精准投放广告模型的问题,该论文提出了一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,具体来说,分别使用Transformer模型提取文本语义特征,使用目标检测YOLO模型挖掘图像中细粒度的视觉特征,并结合文本注意力机制识别图像中与商品相关的目标,以降低无关目标给广告特征带来的噪声影响.同时,该文提出了一种多模态融合注意力机制,以高效融合广告文本和图像特征.该模型命名为ToTYEmb(Text oriented Transformer-Yolo fusion Embedding).另外,该文还将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中。模型整体架构如图1所示。
在这里插入图片描述

图1 ToTYEmb模型整体架构图
ToTYEmb主要由三个部分组成,分别是基于Transformer的文本特征提取器,基本YOLO的图像特征提取器,以及多模态融合组件。具体而言,对于文本模态,该文使用词级与训练Transformer生成隐层特征向量。对于图像模态,采用YOLO提取图中目标region。为了筛选出广告相关的region,该文提出一种以文本为线索的注意力机制给予关键region更大的权重,最后,利用一种cross attention策略,以融合文本语义和图像视觉语义,模型训练目标是细化商品分类预测,迭代训练完成后利用次顶层隐态向量作为一则广告的fusion embedding特征。

3.1 Transformer编码器

该文使用Transformer对广告文本进行特征提取,Transformer已被运用于多个预训练模型(如BERT等)的文本编码器,其可有效挖掘文本的语义,语序信息,且得self-attention机制,能够计算文本的关键信息,给定一个广告文本序列X={w_1,w_2,w_3,……,w_i},其中w_i为输入序列中词语,iϵ[1,n],Transformer编码过程如下:
e_i=W_e ω_i
h_i=Transformer(e_i+p_i)
其中,输入w_i由参数矩阵W_e转换成初始向量,向量维度为d_model,Transformer不同于RNN,非时序输入,需要单独的位置编码体现词的位置信息,本文采用和Transformer原文一致的的位置编码,接着将初始化的词Embedding和位置Embedding相加,通过Multi-head attention挖掘文本信息。

3.2 YOLO区域特征提取器

对于图像模态部分,该文关注于细粒度的region特征,提出利用目标检测模型YOLO抽取图像的关键目标的区域,并基于区域表达特征信息,相比于Faster-RCNN等两步计算模型,YOLO能以更快的速度达到足够有竞争力的性能。
具体表现上,本文采用YOLO-v3版本进行实现,相比于前两代,其解决了小目标物体检测识别率低的问题,对于一张图像,YOLO可以识别出多个目标,本文取出这些目标对应的卷积特征,用全连接层映射到固定维度:
r_j=F_v (v_j)
在提取出来的特征中,该文以文本信息为线索,对YOLO识别出的目标做筛选,保留商品相关目标,剔除无效目标。这样做有效避免了单纯凭借边框置信度取最高的区域特征在广告数据集上丢失信息的情况。

3.3图文融合注意力机制

在得到文本特征{H_1,H_2,…,H_n}和图像特征{r_1,r_2,…,r_k}后,该文提出一种跨模态的融合注意力机制来获得文本和图像的综合特征向量,其能够融合不同模态的特征并挖掘不同模态间的相关性。首先计算每个词和每个区域之间的相关度:
S_ij=H_i^T r_j
其中H_i^T为H_i的转置。广告中图文是有内在关系的,文本描述着图像的视觉信息,而图像也是文本的语义体现。为了凸显这种内在的关系,用图片信息表征每个词,用文本信息表征每个图片区域:
H_i’=∑_(j-1)k▒(exp⁡(s_(ij)))/(∑_(m-1)^k▒S_im ) r_j
r_j’=∑_(i-1)n▒(exp⁡(s_(ij)))/(∑_(m-1)^n▒S_mj ) h_i
其中H_i’为每个词的图像信息表示,r_j’为每个region的文本信息表示。值得注意的是,这里的矩阵乘并取Softmax操作的部分本质上就是类似于Transformer中的矩阵乘Attention,不一样之处在于跨模态乘法将两个不同量纲的数值乘到了一起,而保证其有效性的前提是对各自模态的每一个分量都做了相同操作。

3.4模型训练过程

该文以多分类交叉熵为损失函数:
loss=-∑▒ylogy
在下游实际召回过程中,直接根据广告图文融合特征向量召回特征空间特征空间中最近的相识广告,而非根据分类结果召回。因为测试集中有相当一部分商品类别从未在训练集中出现,在测试或者应用过程中,如果依据分类结果召回,范化能力较弱,该模型侧重自动地提取广告中多模态特征并获得图文融合嵌入向量,标签分类只是作为训练目标。

3.5相似广告检索下游框架

如图2所示为人群智能定向更新工作流,挖掘转化人群,即根据投放地广告在一定时间周期后,分析有哪些用户对这些广告进行了点击/收藏/购买等行为,并认为这批转化人群是真正容易对当前投放地广告产生兴趣地人群,将这些用户单独抽取出来。人群特征学习文本采用XGBoost模型,其为业内最常用点击预测模型之一。
在这里插入图片描述

图2 人群智能定向更新与可插拔相似广告检索地扩充框架

四、结论和心得

4.1模型结果

该文以Word2Vec、ELMo、GPT、Bert、RoBerta、VGG16、InceptionV4、YOLO、ViLBERT、ESIM、ABCNN和DIIN为基线模型,该文模型整体来看,依据图文融合embedding思想所构建地最后三种模型在precision@k地指标上均远远高出单独从文本/图像角度依据embedding/matching方式召回相似广告,Top10精确率至少高出15个以上的百分点,这表明融合文本与图像信息对于相似广告检索而言是至关重要的。
在这里插入图片描述

表1 文本方法和基线方法召回实验效果对比

4.2 心得

ToTYEmb模型能提取图文嵌入作为广告地融合内容特征,同时融合文本语义信息和图像的视觉信息,解决相似广告检索问题,进而将其作为可插拔组件加入到现有人群智能定向更新框架中,提升广告投放推荐的效果。相比于其它方法,该模型有如下优势:(1)利用YOLO以及基于文本线索的注意力机制,可提取出商品对应区域目标特征,从而减少背景噪声和无关目标。(2)以文本为线索,引导YOLO模块区域排序,避免丢失重要信息。(3)多模态注意力机制有效融合了文本模态和图像模态,使得特征向量更加健壮。
本次研读的这篇论文,让我开拓了视野。其能提取图文嵌入作为广告的融合内容特征,同时融合文本语义信息和图像信息,弥补了单模态Embedding信息的不足。能够讲文本和图像很好的结合起来,用于相似广告的检索,有很强的实际意义与落地空间。但现实生活中,海量的广告数据只有图片或者文字,如何实现模态之间的转换,弥补单模态的缺陷仍需要进行解决。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/36812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2022最新JUC+多线程面试题

Java中实现多线程有几种方法 创建线程的常用的几种方式: 继承Thread类 实现Runnable接口 (重写run方法,无返回值) 实现Callable接口( JDK1.5>,重写call方法,可以自定义返回值 ) 线程池方…

带式输送机的传动装置设计

目 录 摘 要 I Abstract II 1 绪论 1 1.1设计概述 1 1.2研究内容及参数 1 1.3 带传动 2 1.4圆锥-圆柱齿轮传动减速器 2 2结构设计 4 2.1V带传动 4 2.2减速器内部的传动零件 4 2.3联轴器的选择 4 3 设计计算过程及说明 6 3.1选择电动机 6 3.1.1电动机类型和结构型式选择 6 3.1.2…

android源码-ContentProvider实现原理分析

前言: 最初的目的是想研究下ContentProvider产生ANR原因的,但是如果要讲ANR的原因,那么必须要了解ContentProvider的完整实现原理,所以本篇就先讲一下ContentProvider的实现原理,下一篇再去讲ANR的原因。 本篇主要会讲…

估值破千亿,被资本疯抢的广汽埃安会是广汽的未来吗?

最近,广汽埃安在新能源市场上捷报频传,先是宣布完成了182.94亿元的A轮融资,成近年国内新能源整车最大的单笔私募融资。品牌估值更是达到了震撼人心的1032.39亿,基本等于广汽集团AH总市值,也远超港股小鹏、零跑汽车的市…

就两秒?这说出去谁信啊!

文 | xiaoyi(转载请后台联系)关注公众号:小一的学习笔记截止发文,北上广深一共有6510条公交线路为了获取上面的这些线路信息,我写了一个爬虫,大概用了2秒左右就搞定,真爽!说出来你们…

Maven环境搭建

目录一、安装及环境配置1.1、下载1.2、Maven目录结构介绍1.3、环境配置二、关于Maven仓库的说明2.1、仓库基本分类(私服仓库和中央仓库均为远程仓库)2.2、本地仓库的默认位置(在setting.xml中配置)2.3、中央仓库连接位置的体现&am…

K8S部署后的使用:dashboard启动、使用+docker镜像拉取、容器部署(ubuntu环境+gpu3080+3主机+部署深度学习模型)

0、k8s安装、docker安装 参考:前两步Ubuntu云原生环境安装,dockerk8skubeedge(亲测好用)_爱吃关东煮的博客-CSDN博客_ubantu部署kubeedge 配置节点gpu: K8S调用GPU资源配置指南_思影影思的博客-CSDN博客_k8s 使用gpu…

机器学习-(手推)线性回归1-最小二乘法(矩阵表达)、几何意义

一、最小二乘法(矩阵表达)误差平均分散每个样本 如下数学推到过程(手推!!!): 数据介绍: D{(x1,y1),(x2,y2),......(xn,yn), Xi(P维列向量&…

留学Essay写作主要靠哪些步骤得分?

期末来了,留学生该怎么办?如何做Essay?下面我们介绍提高写作能力的有效技巧! What should international students do when the end of the semester comes?How to do Essay?Here we introduce effective skills to improve your writing …

[附源码]SSM计算机毕业设计农贸产品交易系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

SSM框架-从JDBC到Mybatis,你今天CRUD了吗?

1 Jdbc 1.1 jdbc入门使用 导入驱动jar包 新建一个目录lib,把jar包放进去 add as library 具体代码 public class JDBCdEMO {public static void main(String[] args) throws Exception{//1.注册驱动Class.forName("com.mysql.jdbc.Driver");//2.获取连…

vue2 - 基于Export2Excel.js导出Excel案例(js-xlsx插件二次封装使用)

目录一、项目场景二、实现思路三、准备工作1、下载js-xlsx2、下载Export2Excel.js3、下载file-saver和script-loader4、下载mock四、代码实现1、mock数据2、使用Export2Excel.js导入导出excel数据3、App.vue代码五、运行结果六、进阶(复杂表头的导出)一、…

让我们拥抱DataV,感受数据可视化的魅力

最近领导给安排了一个工作,做原型设计。看了37万字的项目需求文档,发现客户对数据可视化要求很高。为什么用户对可视化要求这高呢?可以说,可视化也是这两年的热点了,大数据,可视化,数字孪生频繁…

[HFCTF2020]EasyLogin

有注册登录,先注册一个账号然后登录进去 在登录页面的源代码发现 访问得到 /*** 或许该用 koa-static 来处理静态文件* 路径该怎么配置?不管了先填个根目录XD*/function login() {const username $("#username").val();const password $(…

树形表,自关联表查询技巧

方法一:部门表,部门表中除了自身主键id外,还有另一个字段parentId父id,可以一直递归下去 数据库表: 菜单这样展示就需要我们在接口的返回值中,返回这样的层级数据: [{"id": 1,"…

Mybatis-plus使用教程

注意点:我们在主启动类上需要扫描我们持久层文件下的所以接口 MapperScan("com.kuang.mapper") 配置日志 mybatis-plus.configuration.log-implorg.apache.ibatis.logging.stdout.StdOutImplCRUD扩展 1.插入测试 //测试插入Testpublic void testInse…

java之《浅入了解异常》适合预习,复习

🎇🎇🎇作者: 小鱼不会骑车 🎆🎆🎆专栏: 《java练级之旅》 🎓🎓🎓个人简介: 一名专科大一在读的小比特,努力学习编程是我…

就推荐 4 个 yyds 的开源项目

本期推荐开源项目目录:1. 2022 年黑色星期五精选项目2. 力推的 SwiftUI 教程3. 开源的高校微信小程序4. 上班摸鱼用的 IDEA 插件012022 年黑色星期五精选项目没错,这个开源项目叫做 Black Friday。这是一个优质开源项目精选开源项目,盘点了开…

制作一个简单HTML个人网页网页(HTML+CSS)大话西游之大圣娶亲电影网页设计

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

QT中的OpenGLWidget

1、在生成的UI中,通过控件OpenGL Widget来布置相应的空间(后续讲通过promoted widget将此控件与派生的OpenGLWidget进行绑定) 2、添加一个widget类,该类派生于 QOpenGLWidget, QOpenGLFunctions_*_*_Core(*代表版本号…