关于分布式存储，你需要知道的真相

很多人可能对分布式存储耳熟能详，但是，大多数人对其概念或者知识点却了解得都过于分散，看了很多却“只见树木，不见森林”，学了很多往往只能“知其然，却不能知其所以然”。因此，...

CSDN资讯

16426人浏览 · 2018-11-02 14:20:59

CSDN资讯 · 2018-11-02 14:20:59 发布

640?wx_fmt=gif

很多人可能对分布式存储耳熟能详，但是，大多数人对其概念或者知识点却了解得都过于分散，看了很多却“只见树木，不见森林”，学了很多往往只能“知其然，却不能知其所以然”。因此，有必要对分布式存储的概念、问题和矛盾进行一下分析和解读。

为什么需要分布式存储？

很多人可能从来没有考虑过这个问题，为什么需要分布式存储？实际上，使用分布式存储是“被迫”的，因为随着互联网的飞速发展、应用越来越丰富、用户数量越来越多、数据也成几何级增长，海量数据的存储给本地存储带了巨大压力，存储系统已经不堪重负，处于崩溃的边缘，因此，必须通过其他手段分散存储系统压力，分布式存储和分布式文件系统应运而生。

实际上，如果可能，应该是尽量不使用分布式的，因为这会增加系统的复杂度和管理难度，然而，虽然是这样，但这些终归是可以通过其他技术来解决，而如果不使用分布式，系统的可用性、稳定性都无法保证，更谈不上系统的高性能了。因此，说分布式是被迫使用的，一点也不夸张。

不难发现，分布式的目的就在于追求高性能与高可用这两个特性。分布式系统中遇到的各种理论、技术以及设计方案，其本质上就是为了解决这两个关键性问题而已。在想清楚了这个观点之后，那所谓的分布式也并没有这么高大上，深不可测。它无非是提出一些技术方法来解决遇到的一堆问题。

如何保证分布式存储的高性能与高可用

那么问题来了，如何保证分布式存储系统的高性能与高可用性呢？

大家可能想到的是，除了传统架构里面的备份、Hot Standby、双活、多活这种架构之外，对于保证分布式存储系统的高可靠和高可用，数据在系统中一般存储多个副本。当某个存储节点出故障时，系统能够自动将服务切换到其他的副本，从而实现自动容错。分布式存储系统通过复制协议将数据同步到多个存储节点，并确保多个副本之间的数据一致性。同一份数据有多个副本，仅有一个为主副本 Primary，其他的副本为备份副本 Backup，数据从主副本复制到备份副本，采用最终一致性来保证数据和事物的完整。

但这些措施可能只是治标不治本，只能满足一般的要求和不时之需。

而实际上，高性能与高可用是矛盾的，比如要设计一个分布式存储系统，出于对性能的考虑，记录数据时先写一个份数据到某个机器上并立即返回，然后异步发起多个数据备份过程（副本）。这种设计的性能最好，但存在“容错性”的风险，即写完数据后，目标机器立即发生故障，会导致数据丢失！如果同时写多个副本，每个副本写成功以后再返回，则又导致性能下降，因为这个过程取决于最慢的那台机器的性能。这就是高性能与高可用之间的矛盾。

而要真正从根本上克服这些矛盾，解决分布式存储的高性能和高可用问题，更有效的是对于分布式文件系统和分布式存储系统架构进行优化和改进，从而从源头解决这些问题。

不过，要对分布式文件系统和分布式存储系统架构进行优化和改进，就必须对分布式文件系统和分布式存储有更深入的了解，可是很多人却不知道该从哪里学习这些知识。恰好，最近UCloud将在武汉举办UCan下午茶活动，邀请数位在分布式存储和分布式文件领域重量级的技术大咖重点讲解分布式存储和分布式文件系统，帮您了解分布式存储和分布式文件系统的真相。对此感兴趣的朋友们可千万不要错过啊！

会议议程

时间	议程	演讲
13:00-13:30	签到
13:30-13:40	主持人开场
13:40-14:30	《UCloud 分布式文件系统产品架构解析》	UCloud文件存储研发工程师邓瑾
14:30-15:20	《分布式存储中的数据分布算法》	奥思数据创始人&CTO 李明宇
15:20-15:30	茶歇
15:30-16:00	《云硬盘架构升级和性能提升详解》	UCloud块存储研发工程师叶恒
16:20-17:10	《基于CephFS的改进及优化》	深信服科技存储研发专家卢波
17:10-17:30	互动交流	互动交流