每日学术速递2.9

news2025/6/8 7:01:56

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV、cs.AI、cs.LG、cs.IR

1.Graph Signal Sampling for Inductive One-Bit Matrix Completion: a Closed-form Solution(ICLR 2023)

标题:归纳单比特矩阵完成的图信号采样:一个闭式解决方案

作者:Chao Chen, Haoyu Geng, Gang Zeng, Zhaobing Han, Hua Chai, Xiaokang Yang, Junchi Yan

文章链接:https://arxiv.org/abs/2302.03933v1(

项目代码:https://github.com/cchao0116/GSIMC-ICLR2023

摘要:

        归纳式单比特矩阵完成法是由现代应用所激发的,如推荐系统,新用户会在测试阶段出现,其评分只由1而没有0组成。我们提出了一个统一的图信号采样框架,它享有图信号分析和处理的好处。其关键思想是将每个用户对项目的评分转化为项目-项目图顶点上的函数(信号),然后学习结构图属性,从某些顶点上的数值恢复函数--这就是图信号采样的问题。我们提出了一类考虑到图顶点域中离散随机标签噪声的正则化函数,然后开发了GS-IMC方法,该方法使重建偏向于相邻顶点之间变化不大的函数,以减少噪声。理论结果表明,在温和条件下可以实现精确的重建。对于在线设置,我们开发了一个贝叶斯扩展,即BGS-IMC,它考虑了图形傅里叶域中的连续随机高斯噪声,并建立在预测-校正更新算法之上,以获得无偏和最小方差的重建。GS-IMC和BGS-IMC都有封闭式的解决方案,因此在大数据中具有高度的可扩展性。实验表明,我们的方法在公共基准上取得了最先进的性能。

Inductive one-bit matrix completion is motivated by modern applications such as recommender systems, where new users would appear at test stage with the ratings consisting of only ones and no zeros. We propose a unified graph signal sampling framework which enjoys the benefits of graph signal analysis and processing. The key idea is to transform each user's ratings on the items to a function (signal) on the vertices of an item-item graph, then learn structural graph properties to recover the function from its values on certain vertices -- the problem of graph signal sampling. We propose a class of regularization functionals that takes into account discrete random label noise in the graph vertex domain, then develop the GS-IMC approach which biases the reconstruction towards functions that vary little between adjacent vertices for noise reduction. Theoretical result shows that accurate reconstructions can be achieved under mild conditions. For the online setting, we develop a Bayesian extension, i.e., BGS-IMC which considers continuous random Gaussian noise in the graph Fourier domain and builds upon a prediction-correction update algorithm to obtain the unbiased and minimum-variance reconstruction. Both GS-IMC and BGS-IMC have closed-form solutions and thus are highly scalable in large data. Experiments show that our methods achieve state-of-the-art performance on public benchmarks.

2.Geometric Perception based Efficient Text Recognition

标题:基于几何感知的高效文本识别

作者:P. N. Deelaka, D. R. Jayakodi, D. Y. Silva

文章链接:https://arxiv.org/abs/2302.03873v1

项目代码:https://github.com/ACRA-FL/GeoTRNet

摘要:

        每个场景文本识别(STR)任务都由文本定位和文本识别作为主要子任务。然而,在现实世界中具有固定摄像头位置的应用中,如设备显示器读取、基于图像的数据输入和印刷文件数据提取,其基础数据往往是普通的场景文本。因此,在这些任务中,使用通用的、庞大的模型与定制的、高效的模型相比,在模型的可部署性、数据隐私和模型的可靠性方面存在明显的缺点。因此,本文介绍了开发模型的基本概念、理论、实现和实验结果,这些模型针对任务本身高度专业化,不仅实现了SOTA性能,而且具有最小的模型权重、更短的推理时间和高的模型可靠性。我们介绍了一个新的深度学习架构(GeoTRNet),它被训练来识别普通场景图像中的数字,只使用现有的几何特征,模仿人类对文本识别的感知。

Every Scene Text Recognition (STR) task consists of text localization & text recognition as the prominent sub-tasks. However, in real-world applications with fixed camera positions such as equipment monitor reading, image-based data entry, and printed document data extraction, the underlying data tends to be regular scene text. Hence, in these tasks, the use of generic, bulky models comes up with significant disadvantages compared to customized, efficient models in terms of model deployability, data privacy & model reliability. Therefore, this paper introduces the underlying concepts, theory, implementation, and experiment results to develop models, which are highly specialized for the task itself, to achieve not only the SOTA performance but also to have minimal model weights, shorter inference time, and high model reliability. We introduce a novel deep learning architecture (GeoTRNet), trained to identify digits in a regular scene image, only using the geometrical features present, mimicking human perception over text recognition. 

3.Neural Artistic Style Transfer with Conditional Adversaria

标题:有条件对抗性的神经艺术风格转移

作者:P. N. Deelaka

文章链接:https://arxiv.org/abs/2302.03875v1

项目代码:https://github.com/nipdep/STGAN

摘要:

        一个神经艺术风格转换(NST)模型可以通过添加著名图像的风格来修改简单图像的外观。即使转换后的图像看起来并不完全像各自风格图像的同一艺术家的艺术作品,但生成的图像还是很吸引人。一般来说,一个训练有素的NST模型专攻一种风格,而单一的图像代表这种风格。然而,在一个新的风格下生成图像是一个繁琐的过程,其中包括完整的模型训练。在本文中,我们提出了两种方法,向风格图像独立的神经风格转移模型迈进。换句话说,经过训练的模型可以在任何内容、风格图像输入对下产生语义准确的生成图像。我们的新贡献是一个单向的GAN模型,它通过模型结构确保了循环一致性。此外,这导致了更小的模型尺寸和有效的训练和验证阶段。

A neural artistic style transformation (NST) model can modify the appearance of a simple image by adding the style of a famous image. Even though the transformed images do not look precisely like artworks by the same artist of the respective style images, the generated images are appealing. Generally, a trained NST model specialises in a style, and a single image represents that style. However, generating an image under a new style is a tedious process, which includes full model training. In this paper, we present two methods that step toward the style image independent neural style transfer model. In other words, the trained model could generate semantically accurate generated image under any content, style image input pair. Our novel contribution is a unidirectional-GAN model that ensures the Cyclic consistency by the model architecture.Furthermore, this leads to much smaller model size and an efficient training and validation phase.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/334531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序员该不该在年后跳槽?3个问句给你答案

过完春节,2023年也迎来了第二个月份,有些程序员虽然还在公司上班,但是私底下跳槽的心蠢蠢欲动,简历说不定都改到第三版了。 在各大社交平台上,经常能看到不少程序员分享自己的跳槽经历,尤其是春节后更是如…

13薪|运营策划[北京市 - 海淀区]-10k-15k

"众推职聘”以交付结果为宗旨的全流程化招聘服务平台!今日招聘信息↓【工作内容】1、根据项目要求,收集相关数据,策划撰写项目运营方案;2、运营合作环节中,监督管理执行;3、参与项目的评估&#xff1b…

WorkTool无障碍服务实现企业微信机器人接口

前言 想要实现一个企业微信机器人,如京东/拼多多福利群、美团瑞幸定时营销群、自助订单查询、智能咨询或社群管理机器人等,首先官方未提供外部群/客户群的机器人API,会话存档也只在一定场景下适用,及时使用会话存档也存在只能收不…

56 门控循环单元(GRU)【动手学深度学习v2】

56 门控循环单元(GRU)【动手学深度学习v2】 深度学习学习笔记 学习视频:https://www.bilibili.com/video/BV1mf4y157N2/?spm_id_fromautoNext&vd_source75dce036dc8244310435eaf03de4e330 门控循环单元GRU GRU和LSTM 实际上效果差不多。…

030_SSS_MaskSketch Unpaired Structure-guided Masked Image Generation

MaskSketch: Unpaired Structure-guided Masked Image Generation 1. Introduction 本文在MaskGIT的基础上进行了改进,提出了MaskSketch用于sketch-to-photo。MaskSketch直接使用预训练好的MaskGIT,不需要进行模型的训练,而且不需要成对的监…

29 - 面向对象的三大特征 - 多态

目录 一、理解多态 1、概念 2、使用场景 3、特点 二、多态案例1 1、需求 2、代码实现 一、理解多态 1、概念 不同的子类对象调用相同的父类方法,产生不同的执行结果2、使用场景 以继承和重写父类方法为前提是调用方法的技巧,不会影响到类的内部设计3、特…

Kubernetes那点事儿——健康检查

K8s应用程序生命周期管理——健康检查前言一、重启策略二、健康检查三、健康监控方式前言 官网:https://kubernetes.io/zh-cn/docs/tasks/configure-pod-container/configure-liveness-readiness-startup-probes/#define-readiness-probes 一、重启策略 Always&a…

云原生技术在容器方面的应用

随着近几年云原生生态的不断壮大,众多企业纷纷开展了用云上云的工作,学习和了解云原生及容器技术对于现代工程师是必不可少的,本文主要为大家介绍云原生及其在容器方面的应用。 1.1 什么是云原生 云原生技术有利于各组织在公有云、私有云和…

基于可视化 BI 工具 DataEase 制作第七次人口普查数据分析大屏

一、制作第七次人口普查数据大屏的背景介绍:第七次人口普查刚刚结束,想要制作一个大屏,能够直观的看到人口总数、出生人数、死亡人数等的情况;希望能够直观的看到人口分布的情况、各种比例、年龄结构等有一定的了解;直…

【网络原理篇2】TCP报头详解

在这一篇文章当中,了解到TCP是属于传输层的协议;当数据从应用层向传输层发送的时候,如果使用的是TCP协议,那么就需要把应用层的数据加上TCP报头。初识网络:IP、端口、网络协议、TCP-IP五层模型_革凡成圣211的博客-CSDN…

2023年去培训机构学前端还是Java?

选择专业肯定是优先考虑更有发展前景和钱途的专业。毕竟IT专业的培训费都不低,基本都要一两万左右,咱们花钱总是希望获得最大回报。 那么到底哪个更有发展前景呢? 零基础能学得会吗? 就业薪资如何呢? 前言 不知道大家有…

Python运算符优先级

以下表格列出了从最高到最低优先级的所有运算符&#xff1a;运算符描述**指数 (最高优先级)~ -按位翻转, 一元加号和减号 (最后两个的方法名为 和 -)* / % //乘&#xff0c;除&#xff0c;取模和取整除 -加法减法>> <<右移&#xff0c;左移运算符&位 AND^ |位…

pyqt5:python读取二进制文件(音频PCM文件)显示波形

文章目录1.使用ffmpeg生成PCM文件1.1 用 ffprobe 查看文件信息1.2 用 ffmpeg 命令转换1.3 用ffplay 测试播放PCM文件2.python读取PCM文件显示波形2.1 函数numpy.fromfile2.2 数据类型dtype说明3.源码和PCM文件链接有个项目需要输出10-50Hz的低频信号驱动线圈&#xff0c;考虑使…

canal 使用详解

第1章 Canal 简介canal [kənl]&#xff0c;译意为水道/管道/沟渠&#xff0c;主要用途是基于 MySQL 数据库增量日志解析&#xff0c;提供增量数据订阅和消费工作原理canal 模拟 MySQL slave 的交互协议&#xff0c;伪装自己为 MySQL slave &#xff0c;向 MySQL master 发送 d…

[架构之路-104]:《软件架构设计:程序员向架构师转型必备》-14-根据需求用例驱动进行软件架构的模块划分过程

14 用例驱动的模块划分过程描述用例的两种方式&#xff1a;图形描述&#xff1a;用例序列图&#xff0c;直观&#xff0c;但修改不方便&#xff0c;版本控制不方便。文本描述&#xff1a;用例规约描述&#xff0c;不直观&#xff0c;但修改方便&#xff0c;版本控制方便。14.1 …

轻松使用 Python 检测和识别车牌(附代码)

车牌检测与识别技术用途广泛&#xff0c;可以用于道路系统、无票停车场、车辆门禁等。这项技术结合了计算机视觉和人工智能。 本文将使用Python创建一个车牌检测和识别程序。该程序对输入图像进行处理&#xff0c;检测和识别车牌&#xff0c;最后显示车牌字符&#xff0c;作为…

AWS实战:Dynamodb到Redshift数据同步

AWS Dynamodb简介 Amazon DynamoDB 是一种完全托管式、无服务器的 NoSQL 键值数据库&#xff0c;旨在运行任何规模的高性能应用程序。DynamoDB能在任何规模下实现不到10毫秒级的一致响应&#xff0c;并且它的存储空间无限&#xff0c;可在任何规模提供可靠的性能。DynamoDB 提…

Linux破解root密码

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;Linux操作…

Postgresql中不支持事务块中调用plpgsql回滚(多层exception、事务块有检查点)

前言 Postgresql使用子事务来实现EXCEPTION的功能&#xff0c;即在进入EXCEPTION的存储过程前&#xff0c;会自动起一个子事务&#xff0c;如果发生了异常&#xff0c;则自动回滚子事务&#xff0c;达成EXCEPTION的效果。那么如果在事务块内本身就带子事务&#xff08;SAVEPOI…

Python文件操作-代码案例

文章目录文件打开文件open写文件上下文管理器第三方库简单应用案例使用python生成二维码使用python操作excel程序员鼓励师学生管理系统文件 变量就在内存中,文件在硬盘中. 内存空间更小,访问速度快,成本贵,数据容易丢失,硬盘空间大,访问慢,偏移,持久化存储. \\在才是 \的含义…