- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
GenoStack A Collection of Biotechnology Tools Using Containers
展开查看详情
1 . GenoStack™ Chao Wang / A Full Stack Toolchain for Biotechnology
2 .目录(Contents) • 背景知识:生物信息处理基本过程 Background:Workflow of bioinformatics • GenoStack概览(Overview) • GenoStack生物信息工具链 Full Stack Toolchain for biotechnology • GenoStack推荐系统(Recommend system) • GenoStack场景化服务(Context service)
3 . 背景知识(Background) 先补充点初中的生物知识(biology from high school) 线粒体作为细胞的能量工厂,也有自己的 遗传物质,其DNA为环形,只来自于母亲, 可用于追溯母系祖源 约30亿个碱基对 2万到2.5 万个基因,决定了我们的 各种特征 人类是真核生物 人类有23对染色体(22对常染色体,1对性染 色体)其中一组来自父亲,一组来自母亲 https://www.slideserve.com/cynthia-pittman/two-basic-cell-types-prokaryotic-vs-eukaryotic-cells https://pmgbiology.files.wordpress.com/2015/10/chromosomes.png https://www.semanticscholar.org/paper/Circular-DNA-Vologodskii/4942d0246f18be904a25db942d304e52ca7147be https://www.khanacademy.org/test-prep/mcat/behavior/behavior-and-genetics/a/genes-environment-and-behavior
4 . 背景知识(Background) DNA is the code of life Vs. IBM029 and punch cards http://www.kloth.net/services/cardpunch.php
5 . 背景知识(Background) 基因数据处理的关键过程,数据分析所需要的软件平台会越来越重要 NGS 原始文件 (raw data) 第一阶段(primary) 质量控制 通常和测序仪类型强相关 核酸提取(dna extraction) Chip array Fastq 二代测序(NGS) 第二阶段(Secondary) 文库制备(library construction) 生物学流水线,GATK bio-pipeline 芯片(chip array) 唾液样本 (saliva) 基因型 无创非接触式 第三阶段(Tertiary) 解读 综合分析 大数据 机器学习 准备阶段(preparation) 上机测序(sequencing) 数据分析(data analysis) http://bioted.es/1-1-extraction-and-purification-of-nucleics-acids/?lang=en https://www.thermofisher.com/cn/zh/home/brands/thermo-scientific/molecular-biology/thermo-scientific-specialized-molecular-biology- applications/sequencing-thermo-scientific/next-generation-sequencing-library-preparation-thermo-scientific.html
6 . 生命科学领域IT设施面临的挑战 1 针对不同场景 存在多种设备类型 产生的数据格式有差异 2 传统HPC模式的扩展性、可维护性带来巨大的瓶颈 3 多样的细分领域(基因组学、代谢组、蛋白质组,动植物)巨大的工具集 碎片化导致代码可维护性低 4 向云端迁移 需要专业的技术支撑来平滑迁移;当前对云计算的成熟技术(大数据、人工智能、GPU/FPGA 加速)利用还较弱 3 2 1 4 Cloud computing 结果发布、分享 On-premise HPC https://insidehpc.com/white-paper/cloud-computing-guide/ http://www.nust.edu.pk/INSTITUTIONS/Centers/RCMS/ap/pg/MSBioinformatics/Pages/default.aspx
7 .基因领域IT设施面临的挑战 生物信息处理的工具碎片化 多达5000种不同的工具 而且还在增加 不同的细分领域有自己的工具集 不同的语言环境
8 .GenoStack架构概览(Overview) 营养师 医生 美容师 科学家 https https 专家自助服务 PDF LIMS 报告 实验员 api 用户 recommandation engine Bio-pipeline engine https 流程 解读 生信 管理 Resource manager REST API
9 .GenoStack基于容器的Pipeline 1.可复用的流程(WDL/CWL语言描述) 2.工具进行容器化管理 方便复用 状态管理 Portal 节点 生信公共 数据库 CCE docker仓库 流程仓库 生信流程定义 工具 华为基础设施 流程引擎
10 . GenoStack基于基因的推荐系统 饮食 运动 提醒 乳糖不耐受 咖啡因代谢快 最大吸氧量高
11 . GenoStack基因场景化服务 Like 5G network slicing 30亿碱基 2万多个基因 https://www.helix.com/blog/decides-dna-read-cells/
12 .愿景 • 充分利用云原生的能力,紧密集成 • 让每个人都用好(简单、快捷、安全)自 己的基因数据
13 .“Quote Placeholder”
14 .