Briefings in bioinformatics2022 | 基于神经网络的分子性质预测通用优化策略

news2025/7/20 17:20:54

原文标题:A general optimization protocol for molecular property prediction using a deep learning network

代码:GitHub - titanda/Learn-it-all at ready_classification_feature

一、问题提出

虽然个别优化方法都成功地提高了模型的性能,但当这些方法和实践的具体组合应用时,可能会获得更好的改进。

比如:集成模型、数据增强、超参数优化、迁移学习

二、论文讨论

1、ConvS2S model

将输入分子编码,并利用解码器的注意机制。该模型完全基于CNN。该模型只有上面第一个分支,提取SMILES特征。

Dynamic batch size

默认batch-size设置4000 token。对于t时刻的权重wt,学习率η, batch-size b,M个实例(通过transforms Ti对同一个输入产生),权重更新为:

将枚举比率变成10倍、100倍,batch-size token分别为8000和16 000,因此可将更新规则改为:

R是SMILES枚举比率,R是批大小增强比率,k(t)在这里是从增强数据集中采样的。每一步的批大小使用较大的rlog R·B。

Bayesian optimization

使用Hyperopt Python库。具体来说,对10个随机种子进行20次贝叶斯优化,以确定最佳超参数,并根据验证集的性能选择超参数。

目标函数【expected improvement (EI)】为:

y *是发现的最佳值:y * = min {f(xi),1≤i≤n}, pM是H的后验模型,使用树结构Parzen估计器,Parzen estimator model p(x|y):

l(x)是使用与最小损失函数值相关的超参数值集形成的密度,g(x)是由剩余超参数值形成的密度:

最佳embedding_dim、convolution size、编码器层数和解码器层数:

Hybrid representation

如模型图1,在第二个分支添加其他的特征,来融合不同表示的信息。修改了CNN模型的readout阶段,将全连接网络f应用于学习到的分子特征向量h与计算出的分子特征hf: y = f (concatenate (h, hf))的拼接。

分析了MACC指纹与RDKit计算的200个分子特征的混合表示。通过分位数信息变换特征【sklearn.preprocessing.quantile_transform函数】,以确保不同特征的大小不同不会导致某些范围大的特征支配较小范围的特征,并将所有特征放在同一个分布中。

Experimental procedure

组合测试:

三、实验

使用PyTorch1.8.1、Nesterov优化器进行early stopping,并置学习率收缩因子为0.1,学习率为0.25,最小学习率为10−5。经过10次训练,经t检验以95%置信区间报告。

1、dataset

MoleculeNet

采用过采样方法,在每次数据集拆分时增加少数数据量,使少数数据量与多数数据量相等。为了保持少数类的分布,对化合物进行了同样的过采样。

The best SMILES enumeration ratios are different in regression and classification datasets

Dynamic batch size has to be carefully configured

Bayesian optimization must be performed on the same enumerated dataset

The effects of hybrid representation are dataset dependent

Enumeration cannot be replaced by an optimization technique

消融实验:

Molecular features benefit the model in certain situations

The model employing the best optimization methods achieved the best performance compared to related work

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/35833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2022年IT服务行业研究报告

第一章 行业概况 IT服务是指在信息技术领域服务商为其用户提供信息咨询、软件升级、硬件维修等全方位的服务。IT服务产品包括:硬件集成、软件集成、通用解决方案、行业解决方案和IT综合服务。 服务过程是指IT需求得以满足的全过程,从IT服务商为用户提供…

小咖啡馆也能撬动大生意

在我们的传统观念里,无论什么行业,似乎店越大、生意也就越大,但事实真的如此吗?未必!位于成都的原福咖啡馆整店大小仅10㎡,但在社区却人气非常高。从2018年开业至今,门店排队不断,而…

Pycharm初次创建项目时页面环境变量选择

Pycharm确实是一个非常不错的Python开发IDE,尤其对于初学者而言。 安装完Pycharm,并未创建任何工程项目时的界面,选择新建一个Pure Python项目, 基于上述界面解读 : 1是新建项目路径可以在Location处选择。 2是Proje…

MapReduce

4.1 MapReduce概述 2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了Google的GFS和MapReduce的基本原理和主要设计思想。 4.1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架&#…

基于GIS的人口统计数据空间化解决方案

​ 人口数据一般以各种级别的行政区域为统计单位,使用表格进行展示。常用的人口分布度量指标是人口密度,即行政区域内单位土地面积上的人口数量,这种以行政辖区为单位进行统计的方法,统计的结果是假定人口均匀分布在整个区域内&a…

Flink的检查点和保存点

在分布式架构中,当某个节点出现故障,其他节点基本不受影响。这时只需要重启应用,恢复之前某个时间点的状态继续处理就可以了。这一切看似简单,可是在实时流处理中,我们不仅需要保证故障后能够重启继续运行,…

2023年系统规划与设计管理师-第二章信息技术知识

1. 软件工程 2. 面向对象 3. 开发模型 4. 开发方法 4.1 敏捷开发方法 4.2 RUP 5. 数据仓库和网络技术 5.1 网络七层结构 5.2 各设备位于哪一次 5.3 各层的协议 5.4 TCP分层 5.5 IPv6 VS IPv4 5.6 IPv4 :A类、B类、C类地址的划分 A类地址的第一组数字为1&#xff5…

【Python+Appium】开展自动化测试(5)appium元素定位常用方法

目录 前言 一,使用uiautomatorview对app页面截图,查看元素属性 二,appium移动端自动化常用的元素定位方法 1,find_element_by_id() 2,find_element_by_class_name() 3,find_element_by_xpath() 三&a…

D-014 温度传感器硬件电路设计

温度传感器硬件电路设计1 简介1.1 温度湿度传感器DHT111.2 温度传感器DS18B202 电路实战3 温度传感器芯片1 简介 温度传感器是指能感受温度并转换成可用输出信号的传感器。温度传感器是温度测量仪表的核心部分,品种繁多。常见的温度传感器有: 1.1 温度…

PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八]

PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八] 原项目链接:fork一下即可:https://aistudio.baidu.com/aistudio/projectdetail/5096910?contributionType1 相关项目参考:(其余图神经网络相关项目见主页) …

你理解的 ANR 监控可能一直是错的……

主要说了几种主流的卡顿监控方式: 通过开一个子线程不断去轮询主线程。原理就是不断向主线程发送Message,每隔一段时间检查一次刚刚发送的消息是否被处理,如果没被处理,说明这段时间主线程被卡住了。 通过使用系统方法 setMessag…

ADAU1860调试心得(3)接口说明以及硬件搭建步骤

这个板子是我做的,我做了 3 路模拟输入,1 路模拟输出,我做硬件设计从来就是怎么省事怎么来,所以就直接照着ADI给我的参考设计来的,关键电路坚决不创新,抄就完了。来看看接口的布局情况:三个绿色…

HttpClient别说话,用心看

官网:Apache HttpComponents – Apache HttpComponents 常见使用场景:1.爬虫(python相对做爬虫专业,但是java也可以做) 2.与其他应用进行交互时候 注意下,不同的HttpClient的jar包版本,API和包路径有明显不同 先使用JDK原生API请求网页 将控制台的复制保存为html文件 双击打…

vscode配置自定义代码片段模板

目录1、打开vscode,使用快捷键打开搜索面板2、输入snippets, 点击 代码片段:配置用户代码片段3、模板配置3.1 vue模板配置3.2 全局模板配置1、打开vscode,使用快捷键打开搜索面板 win: Ctrl Shift P mac: command Shift P 2、输入snipp…

圆通山美食城旅游发展总体规划

目 录 目 录 - 1 - 第一章 项目背景及区域概况 - 4 - 一、项目开发背景 - 4 - (一)项目区位 - 4 - (二)自然环境条件 - 4 - 1.气候 - 4 - 2.植被 - 5 - (三)社会经济条件 - 5 - 第二章 SWOT分析 - 6 - 一、…

L16物联网ARM开发--开发环境搭建及平台及GPIO口操作平台介绍(day2、3)

目录 一、MDK-ARM环境介绍及安装 二、STM32Cube简介及安装 STM32CubeMX安装 加载固件库 ​编辑 三、 STM32F0存储器映射 四、STM32启动文件分析 略 五、GPIO的基本概念及寄存器介绍1 1、GPIO接口简介 2、GPIO功能复用 3、GPIO寄存器介绍 GPIO工作原理框图: …

android 签名打包 Invalid keystore format,配置JDK,报错javax.xml.bind.JAXBException

如果AndroidStudio版本高,把Gradle JDK换成更高的版本,就解决了。如下,由1.8换成11,解决了。 这个是全局配置 单独配置项目 File ---> Project Structure---->SDK Location ---> Gradle Srttings jdk配置 MAC 安装JD…

上海亚商投顾:沪指重返3100点 房地产板块掀涨停潮

上海亚商投顾前言:无惧大盘大跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪大小指数今日走势分化,沪指低开后震荡走高,重返3100点上方,以中字头为首的权重股…

Vue3 按需引入 Element Plus

本文记录博主亲测在 Vite 创建的 Vue3 项目框架中从0开始安装配置按需引入 Element Plus 的步骤 注:以下配置的示例为 Vite 构建的 Vue3 脚手架项目 Element UI 官方指南 安装所需插件 请在项目根目录打开终端分别执行如下安装指令: 1.安装 Element …

实时车载激光雷达感知的点云深度学习

又来卷这个了,此次调查了神经网络中使用的计算表示与其性能特征之间的关系,提出了现代深度神经网络中用于3D点云处理的LiDAR点云表示的新计算分类法。使用这种分类法,对不同的方法家族进行结构化分析,论文揭示了在计算效率、内存需…