蛋白合成微信学术交流之如何从数据库找合适的化合物

2020.8.24

qi

致力于为分析测试行业奉献终身

　　体系相关

　　A:http://biocomp.chem.uw.edu.pl/CABSdock/这个网站的结果怎么比较啊?

　　殷赋科技:我还没用过呢，只是在网上搜索到的。你那计算完了，有什么结果啊?

　　殷赋科技:没有打分之类的东西?

　　A:只给了结果，但没看到这样排序的依据。

　　殷赋科技:应该是最上面的是最合适的，那你下载下来就可以用啦!

　　A:没看到这样排序的依据。

　　殷赋科技:上面有讲啊，根据动力学轨迹中出现的概率排序，1表示最可能。

　　A:我还以为会和vina一样，有一个数值结果的比较。

　　殷赋科技:大多数都有个评分，但这个恰好没有。不过也不妨碍我们使用，评分只是一个参考，通常只具有相对比较的意义，所以，换成概率也是可以的，而概率也只是一个粗略的估计，变成排序更为方便。请根据你对体系的了解，多看几个model，综合判断，选择一个合适的来做后续工作吧。

　　殷赋科技:我多说一句，我经常在群里和私聊说，“对体系的了解”，指的是根据你的目标确定你要了解哪些信息，以此筛选、过滤模型。比如，如果我要做分子对接预测蛋白-配体结合模式，那么，除了打分是一个参考指标外，还需要你对这个蛋白的功能、关键残基、抑制剂、激动剂、拮抗剂的作用机理有所了解。掌握的信息越多，判断就越容易。我们平台把操作最简化，但其实对用户具有更高的要求，要做出科学合理的结果，需要用户去了解和思考，而非当个操作员。

　　模型预测

　　B:想问下大家，ZINC数据库下载下来的小分子，有没有相对应的LD50?

　　C:没有吧。

　　D:zinc里面天然产物能知道来源生物吗？

　　E:什么数据库这么强大？

　　D:我在zinc里面下载的好像ibs还是stock1n。我也不懂，纳闷那个物质能查到来源吗。

　　B:USCF DOCK对接软件里，可以预测化合物的LD50吗?主要是因为我看了这篇文献，文章里没说做实验得到的LD50，我就想不明白这个LD50到底是哪里得来的。

　　F:数据库查到的?对接不能预测LD50吧。

　　殷赋科技:对接软件不能预测LD50，文献是个别化合物刚好有人测了LD50。

　　结果是这样的一个表格，我也不知道这些LD50哪里来的，关键是65个来源于ZINC数据库的小分子，难道正好都是查到了别人做过的LD50吗。

　　F:可能他选的大部分都是测过的吧。

　　殷赋科技:是啊，不是还有2个没有LD50吗?如果是软件预测，为啥不是全部有呢？

　　B:也对哈，突然间我也意识到这个问题了。

　　G:部分化合物有admet数据，可以自己做模型预测。

　　B:怎么做啊这个？

　　G:自己训练模型，我没有训练过急性毒性，我做过遗传毒性。

　　C:搞个深度学习模型预测ADMET。

　　G:http://admet.scbdd.com/。

　　B:为啥有两个化合物没有毒性信息呢？

　　G:http://www.pkumdl.cn:8080//DLAOT/DLAOThome.php。有很多文献，照文献来就可以，大部分都没有，只有部分有。

　　B:我是看文献，没看懂。

　　G:其实现在不用看懂文献，只要做个合格的数据搬运工: 将数据帮到百度、阿里云、Google上，让它自动训练，获得模型。建议试试Google机器学习，1小时20美金。

　　B:我看是文献里对接出打分较高的65个小分子，然后这些小分子做了LD50，直接将这些小分子结构输入这些网站就能得到LD50?

　　G:不会，你要首先要训练它，获得一个模型；然后用模型预测。

　　B:训练他什么意思?

　　C:数据结构整理好，输入模型就可以了。

　　G:你还是用这个比较好。http://www.pkumdl.cn:8080//DLAOT/DLAOThome.php。再看看这个的方法学。

　　H:请问现在有没有那种输入化合物，直接给出合成路线的软件或网站?尤其是天然产物那种。

　　G:我也想找一个。

　　H:通过训练ai，应该可能实现吧?

　　G:普通机器学习就可以

　　H:那怎么没人搞

　　D:效果不好呗

　　G:很多人搞，最好的是simulation pkus。https://www.simulations-plus.com/

　　G:刚才发的也都是机器学习，比薛定谔强100倍。你试试herg毒性预测就知道比所有的都强，只是学术用的比较少而已。

　　D:好，我平常用的都是ds带的ADMET预测，估计也不太靠谱。

　　G:你试试herg阴性化合物，试试schrodinger与ds，看看预测结果。

　　I:我之前用nlp的word2vec搞逆合成的深度学习，可惜学艺不精，准确度比较差。就是把化合物的smiles格式字符串变成向量，然后用LSTM神经网络学习，大概60万个化学反应。预测准确度很低。

　　C:反应当做什么，变量还是描述符?

　　I:就是自然语言处理翻译，把产物“翻译”成反应物。这个描述符就是word2vec，把smiles格式变成向量即可。

　　C:逆合成啊？

　　I:是啊。

　　殷赋科技:LSTM适用于序列预测问题，但逆合成不涉及时间序列吧。你把逆合成的步骤算作序列?

　　I:lstm在nlp中比较常见，所以我就选它了。

　　Miscellaneous

　　I:DS对接出来Energy得分是正的，这代表啥意思啊?

　　D:是cdock吗?

　　I:是的，是cdocker。

　　G:不管是正值还是负值，解读应该都一样。这篇文章里的cdocker也都是正值。

　　https://www.sciencedirect.com/science/article/pii/S2095754817302119，见表5。

　　G:正确做法应该读个说明书与算法，看看结合亲和力与打分的关系。再与大家分享一下，文献之类的都不靠谱。

　　H:有没有软件或网站，能直接给出蛋白活性口袋区域的DNA序列?

　　G:你是说组成口袋氨基酸残基对应的dna吗?

　　H:对，我想比较一下两个蛋白的口袋，看看有没有异同。

　　G:那直接比蛋白口袋就可以了，序列比对或蛋白叠合就可以了。

　　K:@殷赋科技这个地方指的保守的氢键网络是什么啊?

　　殷赋科技:应该是跟同类多肽、不同种属、同工蛋白之类的进行比较，这个氢键是大家都有的，称为保守吧。要根据上下文判断。

　　贝尔湖:大家好，新来菜鸟报道，请问得到分子对接文件dlg怎么解释结果合理性呢，怎么解读结果呢?

　　殷赋科技:还在用autodock4啊?用vina吧，更推荐用dock6。

　　贝尔湖:autodock4和dock6有什么大的差异吗，是结果可靠性还是什么?

　　殷赋科技:官方数据表明autodock vina比autodock4更快更准，我的经验是dock6比vina准确，而且能够解释更多东西，更有物理意义。

　　M:嗯，不会用dock6。

　　殷赋科技:用我们的平台，有教程，跟着一步一步点击鼠标就行。

　　这里还有分析教程：【文献重现】D715-2441 抑制剂与PB2蛋白的结合模式研究和作图教程：高质量PyMOL作图教程。

　　M:可以win吗?我还不会linux。

　　殷赋科技:不用安装任何软件，只要浏览器，在任何系统都可以。

　　更多资讯，请登录www.yinfotek.com 或关注微信公众号“殷赋科技”。我司建立了微信学术交流群，为生物医药领域的朋友搭建沟通交流的互动平台。想入群的朋友，请在微信公众号菜单栏输入“加群”，根据提示操作即可。

互联网

分析测试百科网

蛋白合成微信学术交流之如何从数据库找合适的化合物

qi

Chemspeed ISYNTH 全自动高通量反应与化合物库合成平台

Labonova Direct 从自来水生产纯水/超纯水的一体化系统

大恒光学镜片储存与清洁

Semrock @LaserMUX 合束（分束）片

合成的引物应如何保存？

γ-丁内酯如何合成GHB

微信怎样查核酸检测结果

如何从细胞中提取dna

如何在基因中选择合适的转录本？

如何从细胞中提取蛋白质

萜类化合物的生物合成方法

蛋白质合成的简单过程

有机叠氮化合物的合成方法介绍

旋转蒸发仪-如何选择合适的旋蒸温度

如何选择合适的放大镜

如何从冻存的细胞提取RNA

微流控漫谈系列之图解液滴微流控技术

如何选择合适的色谱柱

表观遗传之组蛋白修饰—组蛋白乙酰化

喷嘴如何选择合适的材质？

高温电炉如何选择合适的电炉丝

微信学术交流群之关于蛋白的处理

微信学术交流群之靶标预测

蛋白合成交流之如何从数据库找合适的化合物？

喜欢作者

蛋白合成微信学术交流之如何从数据库找合适的化合物

qi