本文档整理了一些在课堂讨论基础上形成的思考,主要围绕蛋白质结构预测中 β 折叠(β-sheet)预测准确率较低这一现象展开。这些内容并非对现有方法的系统总结,也不是一个成熟的模型或算法提案,但尝试从“折叠过程本身”的角度,对相关问题进行概念性梳理。
在整理这些思考时,我刻意避免直接参考或引入已有具体模型的架构细节,而是希望先厘清:如果把蛋白质折叠视为一个逐步进行的过程,而不是一个静态预测问题,那么哪些困难是结构性存在的,哪些假设是必要的。
思路整理
问题的起点:β 折叠与长程依赖
课堂中提到了一代、二代蛋白质结构预测方法在预测准确率上的局限,尤其是 β 折叠结构的预测效果长期不理想。这一现象本身非常耐人寻味,因为从直觉上看,β 折叠并非局部几何问题,而是强烈依赖于序列中远距离残基之间的配对关系。
这使我联想到一个问题:如果折叠过程中最关键的信息本身是“谁和谁相关”,那么单纯依赖局部构象或逐步几何优化,可能天然就不适合 β 折叠这一类结构。
从“预测结果”转向“折叠过程”的视角
顺着这个问题继续往下想,我逐渐意识到,或许可以暂时把“给定序列直接预测最终结构”这一目标放在一边,而转而思考另一个问题:蛋白质结构是如何在折叠过程中一步步变得“不可再轻易改变”的?
也就是说,与其把折叠看作一个静态映射问题,不如将其视为一个逐步丧失自由度的过程。在这个过程中,某些局部构型一旦形成,就会在后续步骤中对整体搜索空间施加强约束。在这样的视角下,“折叠”更像是一种受限搜索,而不是一次性求解全局最优解。
“冻结”概念
真实的蛋白质折叠并非在完整序列一次性给定的条件下进行全局优化。其重要约束包括:
- 共翻译折叠。蛋白质在核糖体上边合成边折叠,N端结构形成时,C端尚未出现。
- 信息的时间性缺失。对于β-sheet,当一条β-strand出现时,其潜在的远程配对伙伴在时间上可能尚不可及。
- 路径依赖与不可逆性。折叠过程具有时间箭头,早期形成的局部结构会约束后续选择,且生物体内大规模回滚成本高昂。
在上述过程中视角下,一个自然浮现的概念是“冻结”。直观地说,折叠并不是不断增加结构,而是不断减少可能性:
- 某些局部关系(比如容易立即形成的 ɑ 螺旋)一旦被确认,就不再频繁调整;
- 系统的自由度随时间大致单调下降;
- 折叠的终止,并非因为达到了某个数值最优,而是因为“已经很难再继续合理地改变”。
这里的冻结并非绝对不可逆,而更像是一种强但仍允许有限破坏的软约束。这一点在后续考虑整体回退或纠错机制时尤为重要。
为什么 β 折叠尤其困难
在这一框架下,β 折叠显得“格格不入”。原因主要有三点:
- 长程配对:β-strand 往往需要与序列中相距很远的另一段形成精确配对;
- 注册敏感性:哪怕偏移一个残基,整体氢键网络也可能完全错误;
- 局部可行但全局错误:错误的 β 配对在局部看起来可能相当稳定,却会彻底锁死后续结构。
这意味着,如果在折叠早期就对 β-strand 进行“过早冻结”,系统极易被锁定在错误路径中。从这个角度看,β 折叠更像是一个需要被验证的关系结构,而不是一个可以逐步贪心构建的几何结构。
关系优先于几何的直觉
基于上述观察,我逐渐形成了一个比较粗糙但直观的判断:对于 β 折叠而言,“关系是否正确”可能比“当前几何是否合理”更重要。
也就是说,折叠过程中或许应当允许系统先提出若干“可能的配对关系”,并延迟对几何细节的承诺;只有当这些关系在更大范围内彼此兼容时,才逐步将其冻结为不可轻易修改的结构约束。这一点在直觉上与“长程依赖建模优先于局部优化”的思路是相容的。
先验、数据与搜索空间
进一步思考时,很难回避先验信息的问题。现实中,某些序列片段在大量数据中反复出现相似的二级结构模式,这些统计规律显然能够有效缩小搜索空间。从这个角度看,引入多序列比对(MSA)等信息,主要是为了提前排除大量不太可能的关系组合,将有限的计算资源集中到更有希望的区域;或者反过来,为哪些残基之间值得重点考虑关系提供强先验。当然,这种做法天然受限于数据分布,对于缺乏同源信息的序列,其效果必然下降。
折叠作为“受限搜索”的一种理解
综合上述想法,我更倾向于把蛋白质折叠理解为在强先验与物理约束下进行的一种、带有明显路径依赖的受限搜索过程。在这一过程中:
- 不需要显式构建完整的能量景观;
- 不必保证一定到达全局最优;
- 局部最优甚至“错误折叠”本身,也可能是生物系统可以接受甚至真实存在的结果。
这一理解无法覆盖所有蛋白质类型(例如功能性亚稳态蛋白),但在一定问题边界内,它提供了一种相对一致的过程性视角。
机制构想
核心假设与基本立场
该模型基于以下几条核心立场:
- 折叠是一个单向展开的过程 在自然条件下,蛋白质并非在完整构象空间中全局搜索,而是从一个确定的初始状态出发,逐步形成局部结构并向前推进。
- 局部决定会逐步“冻结”自由度 一旦某些局部关系被确立,它们在后续过程中应被视为难以改变的软约束,而非始终可逆的变量。
- 系统并不“知道正确答案” 折叠过程中并不存在对终态的显式验证机制,系统只能在当前状态下判断“是否还能继续合理推进”。
基于上述立场,模型的目标不再是最小化某个全局能量函数,而是维持结构演化过程中的一致性与可继续性。
拟议的过程框架(概念层面)
整体流程可被概括为以下阶段:
- 关系提议 在局部范围内提出可能的结构关系(如片段配对、空间邻近性),其来源可以包括序列局部规则、弱进化先验(如 MSA 偏置)等,但不构成硬约束。
- 一致性检验 评估新关系是否与当前已形成的结构整体相容,重点关注几何合理性、空间冲突和约束传播效应。
- 冻结机制 若某一结构关系在多轮演化中持续保持一致,则将其视为“冻结”的软约束,降低其在后续步骤中的可变性。
- 不可继续状态与受限回退 当系统进入无法继续推进的一致性冲突状态时,允许进行有限次数、受限范围的结构扰动或重新尝试,以模拟生物系统中分子伴侣对局部错误的修复作用。若仍无法获得更优状态,则接受当前结构作为最终结果。
该框架的关键特征在于:它是过程驱动的、历史敏感的,并且允许失败作为自然结果的一部分。
讨论
该框架只是一个在逻辑与概念层面自洽的“思想模型”,将其转化为可计算系统会面临复杂的挑战:
- 核心概念如何计算?“结构一致性”“冻结/解冻”等关键概念高度抽象,将其转化为可计算且高效的数学形式是一大障碍。
- 搜索空间仍然巨大。虽然通过冻结减少自由度,但在收敛前仍需探索不同的结构形成顺序与关系假设。
- 缺乏过程数据。现有结构数据库只提供最终静态结构,折叠路径的中间态与决策点数据极难获取,使监督学习几乎不可行。
- 与物理基础的平衡。完全放弃显式能量函数可能产生数学自洽但物理不合理的结构;如何嵌入最低限度的物理规则(如立体碰撞约束)需要谨慎设计。
- 如何评价过程模型?现有评价标准(如TM-score)针对终态精度,而过程模型需要建立新的评价体系,如折叠路径是否与实验动力学数据相符、指出的“易卡住”区域是否合理等。
小结
综上所述,这份备忘录并非试图提出一种新的蛋白质结构预测方法,而是希望在暂时搁置具体模型实现与性能指标的前提下,对“蛋白质折叠这一问题本身”进行一次过程性重述。
核心动机在于:当折叠被视为一个具有时间箭头、路径依赖和逐步冻结特征的过程时,一些长期存在的困难(尤其是 β 折叠的预测不稳定性)或许不再只是建模技巧不足的问题,而是源于问题表述方式本身的限制。在这一视角下,折叠更接近一种在强先验与物理约束下进行的受限搜索,而非一次性求解的全局优化任务。
需要强调的是,上述讨论仍停留在概念层面,其中的许多假设(如“冻结”“一致性”“不可继续状态”等)尚未获得清晰的计算定义,也可能在现实物理或已有研究中已被部分证伪。这份整理的主要目的,并非主张其正确性,而是希望明确哪些直觉是必要的、哪些困难是结构性存在的,从而为后续理解和评估现有工作的设计取舍提供一个参考坐标系。

