第三十六章生物信息思考下_学医路漫漫

理论的解释，观测是我们普遍承认的一阶，我们要知道其背后的概率网络才是最基本的，网络的观测应该使用新的科学范式，考虑引入八卦的阴阳二分及其多阶分化，序列10100100101110101。假设：1。次的分化有一定收敛半径和边界，任何事物可等同某一层次或特定层次的集合（不动点定理和傅里叶分析）2。10是基本的划分，如同各种周期波3。序列的一定的同源性与层次耦合相关，不同的程度决定距离的远近4。分布是基本函数，各个层次在大规模都符合其概率规律

网络生成与网络存在是同等级的，这是一种层次的耦合，宏观上一个是y，一个是y’

巴拉巴西的理论包含两个假设：第一，网络中的结点从少到多，逐渐增加；第二，新加入的结点，倾向与已有连接边更多的结点连接。这个网络具有“无尺度”（Scale-free）的特性，即随机去掉网络中部分结点以及相应的边，不会改变网络的拓扑结构，因此也叫“无尺度网络”（Scale-*******work）（高维结构的形成，不被低维变化影响，除非量变引发质变，同样改变高维结构。符合我们的认知结构，有一定的稳健性）

应可提出新假设，即关系的重新构成，其生成和消失应该是动态的过程，不是节点数目的变化而是数目红色位置的整体变化

倾向是重要的背景，如熵增，还有分布是倾向于正态分布，能量的。节点链接数的马太效应，复杂度是单向变化的

几乎所有的生物网络都是无尺度网络，是概率的网络，又是整体的剧烈变化不会对整体造成影响，有时分子小小的变化带动网络剧烈变化

有研究表明，代谢通路中每一个分子的表达水平增加10%，即可导致最终代谢物产量增加100%，这是一个概率网络变化的总体变化

从网络的层次来看，势必有一定不动点层次，在人群的总体层次也应该有，但这时就失去意义了。因为大概率的是小范围，这里也有一定的分布。癌症相关的突变会显著出现在特定信号通路的基因中。也就是说，在单个突变、单个基因上没有共性，但在网络的层面上却有很强的倾向。靶点不必须是单个基因，可以是特定的通路或网络，这是二阶的结构，更具备稳健性

标志物的边际算法

应用基因芯片检测的方法，首先发现特异表达的。接下来通过检测小鼠禁食和恢复饮食过程中lncRNA的表达情况，从这3个lncRNA中筛选到一个在禁食后表达显著降低，而恢复饮食后表达也随之恢复，也就是与小鼠体内的能力水平相关的lncRNA，lncLSTR。现在关于lncRNA发现的研究很多，但具体能够解析lncRNA功能的工作较少，很多工作仅做个lncRNA的表达谱或找到差异表达的lncRNA后就无法深入了。造成这种现象的一个重要原因就是研究人员对功能检查研究还不够熟悉，找不到合适的条件去筛选某些功能相关的lncRNA。所以这个工作给了生物信息研究人员一个很好的启示，要多关注生物学问题和调控机理，多和生物学家交流或合作，这样有利于研究工作的深入。

有了功能发现如何解析分子机制？通过对NCBIGEO数据库中不同条件下芯片数据的综合分析，赵屹研究组发现参与多个代谢调控通路的基因都与lncLSTR的表达相关（关联性大），并且进一步发现胆汁合成的一个重要限速酶（Cyp8b1）的表达与lncLSTR的表达正相关，很有可能是lncLSTR下游的靶基因。这个推测被后继的实验所证实，并且完成了lncLSTR通过结合TDP-43而阻止TDP-43与Cyp8b1启动子的结合，进而解除TDP-43对Cyp8b1的转录抑制这一分子机制的解析。只可惜目前还没有在人类细胞中找到lncLSTR的同源序列，不知人类细胞中是否存在同样的lncRNA，或者存在序列不同但行使同样功能的lncRNA。

数据的整合参考层次的互补，其量化为一定的序列（傅里叶分析）再考虑其同源性和特异性，这强调的是高维结构，如孟德尔的分离率和自由组合率的基因量子。

特定的组合有更大概率形成特化区，如CPG岛，N6-甲基化区域之类的，这是二阶的层次

偏导数是一个整体对部分即变量的比例，前提是连续空间，则其高阶的顺序是等价的。积分与路径无关是高维的关系，其耦合成环。曲面积分与重积分的关系转换，多维度的偏导之和

维度的变化，如格林公式，可计算维度等于高维的低维计算

大数据的理论的高度抽象，如物理的力，相对作用，依靠概率的显现，其数学的定律是什么？群体，匹配，序列同源

简单的路径是比较本征的路径，使用人体作为催化剂，而催化剂本质上是通过多概率的限制条件使得波函数以比较本征的路径坍缩

大规模的序列的高维结构是如同程序的自编程和运作，可以根据不同的算法表现不同的行为。大规模的细菌可以编程；根据基因的选择性表达构建算法，如同计算机代码，DNA序列—程序—APP

传播是一种系统的信息传递的过程，我们可以考虑将宏观的传播学和微观的细胞信号转导相结合，合作和整合使得形成概率网络从而表现特征

组学是网络的一个低维投影，我们可以通过寻找组学层次的一定模式，根据层次之间的相似性，不断推测网络的各种性质。而这是基于数据库的大数据和大数定律。

序列比对之于组学如节点和联系之于网络，都是基本单位。网络降维为序列，然后利用序列匹配通过矩阵打分来确定相似性

同源性来确定进化的时间序列，也是功能结构相似性的概率

蛋白质结构和功能预测是序列的遍历和升维，首先是特定模块的寻找，然后是组合和组合的模式寻找，然后有多层次的耦合，即对网络的筛选。最后我们可以对生物发育机理、代谢过程和疾病认识加深。

数据增长的摩尔定律，指数级增长---数据管理，解读，利用

(1)新算法和统计学方法研究；(2)各类数据的分析和解释；(3)研制有效利用和管理数据新工具。---预测

序列的聚类，此时视为节点，我们网络的平均距离是收敛的

不同匹配度的序列的功能是相应的离散状态

分子序列构建数，然后利用序列的相似性耦合起来，形成网络结构

从数据的积累转向数据的解释，如同从简单的加减乘除上升到微积分，同时也可以视为简单的图灵机

对从自动测序仪中出来的序列的处理是一种黑箱处理，借鉴当初中医对人体这个黑箱各种理论的探讨：阴阳，五行，经络，气血等等理论，我们寻找的序列匹配理论不也一样？当然它们的进化速度不一样

不同层次的频率的分布函数，如碱基频率在基因区域，重复序列区域是不同的：碱基相邻的频率不是独立的。碱基相邻（两个，三个……）的频率一般不等于单个碱基频率的乘积。频率比对。密码子的对应：不同氨基酸对应的密码子的数目不同，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，则其收敛范围为3。这也是马尔科夫链的机制：第k阶马尔科夫链假定在序列中某一位置上碱基的存在只取决于前面k个位置上的碱基

重复序列也是一种模块

第三十六章生物信息思考下（1 / 1）