第八十七章网络的数据分析_学医路漫漫

统计分析，对数据的趋势的把握，能够转换为信息。定性和定量是不同层次的描述，样本对整体的描述可以参照不动点。本质上这是一个对频率和概率的描述，通过各种条件如方差，平均值等等来描述数据的分布。

序列的耦合可以以正交，层次之间的概率连接，模糊数学的多层次。

网络的各种数据分析，聚类，降维，SVM，神经网络等等算法可以进行一定的路径坍缩，即我们从无限高维的网络经过提取出我们可以理解的信息。其具体的形式与生物信息学的序列分析是一致的。

一维的是简单的上调下调，不同的对象形成一定的相关性路径，如我们惯见的信号通路，就是利用这些蛋白层次的相对关系来构建的宏观图景。形成各种复杂的促进/抑制机制。我认为还应该引入这些路径的相对竞争博弈，才能形成更高维的图景。

二维的是具体的数值，以此为基础我们可以根据一定的模型来拟合这些数据。

三维的是大规模数据的模式涌现：基因/蛋白的网络调控表达，这是多层次耦合的作用网络。

基本趋势：熵增及其抵抗性变化，幂律分布（聚类），序列相似性与功能相似性的对应，相互作用的蛋白质之间具有更大的概率可能产生一定的功能联系，模块化，层次的遍历和路径形成，网络的拓扑性质、生物信息、系统动力学，表达谱，概率网络和隐马尔科夫模型，网络的代偿和稳定性，通过外部的攻击来模拟基因表达变化，以此验证稳定性（类似如今的基因疗法）；矩阵表示，通过聚类等等分类手段可以根据有限信息推断特定对象的位置，从而推断其他的性质。我们还可以借助贝叶斯推断来不断提高其准确性。

算法来整合数据库级别的信息，提取出适合不同层次的指标，具备一定的信息。网络的节点形成二级结构如环路等等，然后可以往上遍历形成更高维结构，这是如同编程的模块化思想。我们可以在这些结构的变化寻找与序列的对应关系。

第一章：意义；传统方法；系统观点的方法；具体的网络方法；

基于序列对相互作用网络的预测，杂交系统的预测，亚层的形成，统计指标的作用

序列信息的网络理解，这与我们尝试把网络结构降维到序列是相互耦合的。一个是从底到顶，一个是从顶到底，我们有信心它们竞争博弈能够形成一定的平衡。或许公理化体系是一种选择，当然这是内核，具体的情况还需要多体系的耦合，即其选择性表达可以有更大的与现实的拟合度。反正网络可以形成不同的层次，这些层次具有一定的相似性并且可以相互转换，可以组合形成高维的结构，知识模块化的思想。

单变量的类似数学的偏导研究模式在复杂的网络结构的实用性相比其他低耦合的系统（相对独立的分布）大大降低，因为网络的底层可以选择性表达为缺失的部分，这是网络的代偿和稳定性。当然这是一个概率分布的问题，因为如果特定的基因是网络的高连通度的中心节点可能产生比较明显的效应，如致死或者其他的明显性状改变。我们不能每次都筛选出这种不动点才做实验（目前的研究模式），我们应该寄托于大规模的数据运算使得特定模式涌现，即我们以多变量（能够根据一定的标准即相互作用）为研究对象，在这个层次构建不同的形成一定聚类的亚层结构之间的关系，即模块之间的相互作用，以概率的形式连接不同的模块，最终做到多层次的信息统合。

相互作用的蛋白质时间有更大的概率作用与相同/相似的功能。这是统计层次的模式涌现。

基于聚类的相同特征（表达趋势）可以提取出高维的图景，即不同的类可以根据一定的路径连接。首先是共表达模式可能具有相同的功能，然后是各种不动点式的指标来介绍不同模式之间的联系，最后在网络层次进行全部蛋白质的关系构建。并且在这个基础上建立于基本相关的对应关系

芯片技术/酵母双杂交/免疫共沉淀—大规模数据产出—数据分析—挖掘模式

网络级别的数据：矩阵表示，矩阵乘法就是路径形成，组合的加和也是多路径的耦合，即路径积分。

第二章：蛋白相互作用网络提供的大数据的运算，其可以比较的维度很多：拓扑，表达量等等。遍历所有路径，最后路径积分是平凡，这是路径坍缩。守恒定律，耗散结构的输入和输出。具体的表达不一定是需要的，这是概率性的。

蛋白质之间的组合是更高维的结果，这种相互作用的网络可以与特定的功能改进更大的相关性，而具体的蛋白质的表达量与这些高维功能的联系是概率分布，即存在一定的中心节点具有更大的相关性，当然大部分的节点是低概率连接的，一般来说被视为涨落。这种相互作用网络就是高维的结构，对应于复杂的功能。

对一定的物种的蛋白相互作用网络的研究可以做到一定的知识迁移，如各种分布，幂律分布，小世界模型等等性质。模块的思想引自程序设计。

连通性，分布分化

机器学习对序列的模式识别来解决可能的关系，即网络的不同对象之间的概率性连接。

不同层次的聚类，根据不同的标准划分的不同组合形式。理论上可以以一系列的特征描述来整体指代特定对象，这就是序列思想，可以做到准确对应，但这需要耗费的资源太大了不可接受。

可考虑结合贝叶斯的统计学习，即聚类不仅仅可以考虑距离之间的关系，还可以考虑概率的相对运算，而且考虑网络的幂律分布可以形成一定的高耦合低外聚的内模块

分子层次是生物网络的最低一级亚层，我们可以通过对其的遍历往上构建其他层次：细胞，组织，器官，系统等等。每一个层次都有一定的相似性，这是层次之间的相互作用的基础。但彼此之间的影响强度是收敛的（如分子层次的改变对细胞的影响最大，对其他层次的影响会衰减），此时只有使用影响范围来使得层次之间的作用传递。

生命就是一个复杂系统。网络的结构与遗传信息的传递相耦合。因为其足够细化，可以有很大细化的描述即我们认可的成果。这是机体网络的选择性表达的结果，而以这些成果构建的网络的选择性表达就是我们可以理解的生命现象。

组学是一种网络，提供一个大背景。

疾病是机体网络的选择性表达，具体表现为局部的分子数目失衡和层次之间的交流变异（网络的拓扑结构变化），但不是我们对症治疗即改变局部情况就可以使得整体网络回复稳态，因为网络具有一定的惯性会把这种努力抵消。我们可以暂时理解为聚类过度使得模块过于独立，从而信息传递减少。这是基因表达异常的隐结构。其中分子机制就是网络的坍缩路径，我们不能确定真实的情况，但我们在统计水平的观测可以构建高概率的通路，这是一种等效。

中心法则是整体的趋势，同时也有一定的抵抗性变化，如RNAi和microRNA等等的作用是我们可以用于四两拨千斤地影响整体网络表达的基础。同时也有如同本征的因子，基因等等可以调节网络行为。

镰状细胞贫血的发病机制是分子层次的表达程度很大，这是网络的分布造成的。同时也揭示了网络相对独立的模块。这是比较底层的，由于遍历形成的网络就是建立在这些底层概念上的，因此可能造成整体网络疾病的影响，如染色体病。

人工重组DNA是一种外周体系的代入，可能对网络的表达产生影响。

我们的基因还与外界环境有一定的交流，因为这些基因就是外来物，如癌基因。

组学的测序，数据的指数级爆炸。

酶是网络控制的本征，之前有一个假说：onegeneoneenzyme（基因对性状的控制是通过基因控制酶来实现的），而且酶也是各个层次的耦合点。由于网络的构造需要多层次的沟通交流，这就需要维持在一定水平的速度，不然网络就可能分解为各个模块（层次的聚类收敛），酶就起到这种提高速度的催化剂作用。

基因是有意义的编码区域，是基于我们暂时不明白其意义的非编码区域的选择性表达，这是一种分布:编码DNA，RNA等等。这是基于组学大数据的层次收敛。

第八十七章网络的数据分析（1 / 1）