DataDirect Networks > 实例探究 > 加速:学术研究 - 研究行为、认知和情感的遗传基础,南加州大学需要高性能、可扩展的基础设施来支持下一代基因组测序

加速:学术研究 - 研究行为、认知和情感的遗传基础,南加州大学需要高性能、可扩展的基础设施来支持下一代基因组测序

DataDirect Networks Logo
公司规模
1,000+
地区
  • America
国家
  • United States
产品
  • GRIDScaler® File Storage Appliance
  • Illumina® HiSeq2000 instruments
技术栈
  • GRIDScaler parallel file system
  • SFA10K-E
  • Burrows-Wheeler Aligner (BWA)
实施规模
  • Enterprise-wide Deployment
影响指标
  • Innovation Output
  • Productivity Improvements
技术
  • 分析与建模 - 大数据分析
  • 基础设施即服务 (IaaS) - 云存储服务
适用行业
  • 医疗保健和医院
  • 生命科学
适用功能
  • 产品研发
用例
  • 预测性维护
  • 过程控制与优化
服务
  • 云规划/设计/实施服务
  • 系统集成
关于客户
Zilkha 神经遗传研究所是 USC 神经科学计划的重要组成部分,旨在促进不同学科研究人员之间的合作。它旨在促进最优秀和最聪明的研究人员之间的互动。研究所的科学家跨越界限,采用其他研究领域的方法和技术,寻找检查神经系统功能的新方法,以便我们更好地了解神经和精神疾病的根本原因。James Knowles 博士的实验室致力于了解行为、认知和情感的遗传基础。目前,该实验室的大部分工作都致力于了解大脑发育的转录程序以及精神分裂症、躁郁症和强迫症的遗传学。该实验室正在利用高通量测序技术寻找在精神疾病病因中起重要作用的遗传因素。利用这些知识,他们旨在改进诊断方法,并可能开发出治疗方法来改善该人群的生活质量。
挑战
南加州大学凯克医学院 Zilkha 神经遗传研究所的 James Knowles 博士实验室面临着巨大的挑战。该实验室专注于了解行为、认知和情感的遗传基础,但其传统的 SAN 存储服务器已接近容量上限,无法满足数据访问要求,这令其苦不堪言。网络和 NFS 的性能限制阻碍了存储吞吐量。上传速度缓慢导致的存储瓶颈延迟了发现时间。该实验室需要一种新的存储解决方案,该解决方案可以提供超过每秒 GB 的吞吐量,并在单个名称空间中扩展到 PB 级。Knowles 实验室存在数据存储性能问题。他们需要对 1,400 个完整的人类基因组进行测序,以支持他们正在进行的研究。这项工作每天会产生数 TB 的原始数据,需要传输、检查和与人类基因组对齐。他们的传统存储系统只能向 CPU 集群输出足够的数据,以便在 Pegasus MPI 工作流程下运行 Burrows-Wheeler Aligner (BWA) 的单个实例。此外,他们只能以 30-50 MB/秒的速度将数据上传到该系统,远不及 GbE 网络 100MB/秒的峰值理论容量。这个瓶颈不仅带来了不便,而且还减慢了他们的发现时间。
解决方案
Knowles 实验室和 USC 的 HPCC 团队与 DDN 合作,确定了一种高性能、可扩展且经济高效的解决方案。USC 选择了基于 DDN 的 Storage Fusion Architecture® 的解决方案,在 SFA10K-E 上运行 DDN GRIDScaler 并行文件系统的嵌入式映像。该解决方案似乎满足了双方的需求,同时支持高性能并行文件系统和 NFS。Keck 医学院的其他拥有大量数据的研究小组了解到即将进行的存储部署。他们将资源投入到 GRIDScaler 的购买中,然后将原始系统容量翻倍至 1PB 以上。GRIDScaler 是一种大型高性能存储设备,具有共享架构 - 能够持续为 USC HPCC 集群提供超过 8 亿 IOPS。与使用较小、性能较低的设备相比,这提供了明显的优势,这也需要更多的 HPCC 管理。存储阵列通过多个 10Gb-E 连接到计算机资源。有一个单独的 10Gb-E 连接到头节点,该节点运行 GRIDScaler 客户端软件的映像并充当 NFS 服务器。Knowles 实验室中的缓存服务器提供到 HPCC 头节点的长距离连接,并充当 Knowles 实验室中 Windows/Linux 终端和仪器的数据传输网关。
运营影响
  • The solution simultaneously supports a high performance parallel file system and NFS.
  • GRIDScaler is a large, high-performance storage appliance with a shared architecture- capable of delivering in excess of 800 million IOPS continuously to the USC HPCC cluster.
  • GRIDScaler provides performance, economy and scale.
  • Every member of this group of diverse medical researchers has the use of high-performance storage, central management and a clear path to increase their data capacity.
数量效益
  • The new schedule will generate several terabytes of raw data per day that needs to be transferred, inspected and aligned to the human genome.
  • The storage array is connected to the computer resources via multiple 10Gb-E.
  • GRIDScaler is a large, high-performance storage appliance with a shared architecture - capable of delivering in excess of 800 million IOPS continuously to the USC HPCC cluster.

Case Study missing?

Start adding your own!

Register with your work email and create a new case study profile for your business.

Add New Record

相关案例.

联系我们

欢迎与我们交流!
* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

感谢您的信息!
我们会很快与你取得联系。