开放协作 | Ailurus Open Express:百万级蛋白表达数据计划

Ailurus Open Express Initiative

Open Express · Season 1

从重组蛋白表达开始,构建开放、结构化、面向 AI/ML 的真实实验数据。

2026 年 5 月,波士顿——小熊猫生物(Ailurus Bio)正式发起 Open Express 第一季。这是一项面向开放科学的长期计划,旨在从重组蛋白表达开始,构建开放、结构化、可用于 AI/ML 的真实实验数据集。

嘿,各位生物开发者、蛋白工程师、科研工作者,以及正在用 AI 设计和改造蛋白的朋友们:

小熊猫生物(Ailurus Bio)正式发起 Open Express,这是我们面向开放科学推出的第一项长期计划。

这一次,我们想做一件看起来很基础、但对整个 AI for Bio、蛋白工程和生物制造都很重要的事情:

构建一个大规模、开放、可用于 AI/ML 的重组蛋白表达数据集。

为什么从蛋白表达开始?

过去几年,人工智能正在快速改变生命科学。我们已经可以更快地预测蛋白结构,更快地设计和筛选候选序列,也可以用计算方法探索越来越大的蛋白序列空间。

但无论一个蛋白来自哪里,它最终都要回到真实的生物系统中接受检验。

它可能是一个天然存在但难以表达的药物靶标,可能是一个需要改造和放大的工业酶,可能是一个诊断原料、抗原、抗体片段、结合蛋白,也可能是一个全新的 AI 设计蛋白。

真正进入实验室后,一个朴素但关键的问题仍然挡在前面:

这个蛋白,能不能在细胞里表达出来?

能不能以可溶的形式表达?

能不能以合理成本拿到足够的量?

这并不是一个小问题。

对于基础研究,蛋白表达决定了后续结构解析、功能验证、抗体筛选、酶学分析能不能开始。对于产业应用,蛋白表达则直接影响产品开发周期、生产成本与放大可行性。

更重要的是,蛋白表达并不是一个可以简单从第一性原理推导的问题。它会受到蛋白序列、密码子选择、载体结构、启动子、标签、宿主细胞状态、培养条件、折叠与降解路径等多种因素共同影响。

许多失败的表达尝试,最后只留在实验记录、公司内部数据库,甚至没有被系统记录下来。

换句话说,AI 生物学今天面临的瓶颈,不只是模型,也不只是算力。

我们还缺少足够开放、结构化、实验真实的生物数据。

Open Express 就是小熊猫生物对这个问题的一个起点。

Open Express 第一季会做什么?

在 Open Express 第一季中,小熊猫生物将从 UniProt 等公开资源中筛选安全、可溶的蛋白序列,并结合 Ailurus vec 表达载体库,在大肠杆菌体系中开展大规模组合表达测试。

我们将重点测量三类信息:

1. 相对胞内可溶表达水平

一个给定编码序列,在 Ailurus vec 不同遗传上下文中的相对可溶表达信号。

2. PandaPure 纯化子集的产物读数

对部分样本,我们会使用 PandaPure 进行纯化,并用 Bradford 吸收读数估计纯化产物量。

3. 开放发布的数据

所有公开发布的数据将按照 Ailurus Open License v0.1 共享,鼓励社区使用、分析、再利用,并推动开放、负责任的 AI/ML 生物学研究。

这不是一个只依赖社区投稿的项目。

Open Express 的数据集将来自两个方向:

  • 小熊猫生物从公开蛋白数据库中主动筛选和构建的序列集合;
  • 科研人员、科学家和生物开发者提交的蛋白兴趣序列。

社区提交会帮助这个数据集覆盖更真实、更有代表性的研究兴趣。

什么样的蛋白适合提交?

Open Express 第一季主要面向:

  • 单链蛋白;
  • 可溶蛋白或可溶结构域;
  • 非保密序列;
  • 天然蛋白、突变蛋白、工程化蛋白、AI 设计蛋白或 de novo 蛋白;
  • 具有清楚功能描述与安全说明的蛋白;
  • 长度在 600 aa 以下
  • 适合在大肠杆菌中进行可溶表达筛选的蛋白。

第一季暂不适合

多链复合物、整合膜蛋白、机密或受限序列、没有可解释功能说明的蛋白,以及超过 600 aa 的蛋白。

请不要提交

病原体或病原体相关因子、毒素或毒力因子、受管制或存在安全风险的序列、任何用于有害生物学目的的序列,以及任何你没有权利公开分享的专有序列。

如何参与?

提交截止日期:2026 年 7 月 31 日。

你可以通过以下方式参与:

提交蛋白兴趣序列

提交安全、非保密、600 aa 以下的可溶蛋白序列。被选中的蛋白将进入测试队列,相关表达数据将在后续公开发布。

成为合作伙伴或赞助方

我们尤其欢迎 DNA 合成、测序、Biofoundry、云计算、AIxBio 生态伙伴,以及支持开放科学的赞助方参与。

帮助我们扩展开放数据生态

如果你有公开蛋白数据库、de novo 蛋白设计平台、自动化实验平台或 AI/ML 建模能力,也欢迎与我们讨论合作方式。

为什么要做这件事?

如果说 PDB 让结构生物学进入了一个可复用、可积累、可训练的时代,那么我们也希望 Open Express 能够成为蛋白表达数据开放化的一个起点。

蛋白表达听起来像一个老问题,但它并没有真正被解决。

它连接着基础研究、药物发现、酶工程、诊断原料、食品与材料、生物制造,也连接着 AI/ML 模型和真实湿实验世界之间的最后一段距离。

开放蛋白,开放数据,开放协作。

这一次,我们从「一个蛋白能不能表达」开始。

联系我们

经验丰富的服务团队和强大的生产支持团队为客户提供无忧的订单服务。

    请选择语言