一、非关系型数据库相关理论
-
CAP理论
- CAP:一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)
- 一致性Consistency
- 任何一个读操作总是能读取到之前完成的写操作,也就是在分布式环境中,多点的数据是一致的。
- 分布式系统对于一致性的要求为当更新写入操作完成时,其余读取操作需要及时看到数据的更新
- 可用性Availability
- 每一个操作总是能够在确定的时间内返回,也就是系统随时都是可用的
- 一个系统从设计到实施都应该能够提供可持续的操作
- 分区容忍性Partition tolerance
- 在出现网络分区(比如断网)的情况下,分离的系统也能正常运行
- 一旦开始将数据和逻辑分布在不同的节点上,就有形成分区的危险。假定网线被切断,就形成分区,在不同分区的节点A和节点B无法通信。临时的分区形成是常见的,处理这种情况就属于分区容忍性。
- 三者之间成三角形关系
-
关系型数据库中的ACID
- 原子性Atomicity
- 事务执行作为原子,不可再分离,整个语句要么执行,要么不执行,不可能停在中间某个环节
- 一致性Consistency
- 在事务开始之前和事务结束之后,数据库的完整性约束没有被破坏
- 隔离性Isolation
- 两个事务的执行互不干扰,也不会发生交互,一个事务不可能看到其它事务运行中某一时刻的数据
- 持久性Durability
- 在事务完成以后,该事务对数据库所做的更改将持久地保存在数据库之中,并不会被回滚
- ACID特性在关系型数据库中的应用背景
- 在数据库系统中,事务的ACID属性保证了数据库的一致性。如银行系统中,对于付款事务,从原账户扣除金额以及向目标账户添加金额,这两个数据库操作构成一个完整的过程,为原子操作,不可拆分。
- 存在的问题
- ACID特性对于大型的分布式系统来说,与高性能是不兼容的。比如在线购买商品时,任何一个人购物的过程都作为一个原子操作,不允许存在两个人同时进行购物的情况,故对于绝大多数在线商城,ACID并不完全适用。
- 原子性Atomicity
-
BASE
- 出现背景
- 对于许多互联网应用来说,对一致性的要求可以降低,而可用性的要求要更高,从而产生了弱一致性理论BASE
- Bascially、Available、Soft-state、Eventual Consistency
- 核心特性:基本可用、软状态、最终一致性
- 解释:一个应用在任意时间内首先应该能完成最基本化的工作(即基本可用),并不需要总是一致(即软状态),但最终应该是一致的(即最终一致性)
- 出现背景
-
NoSQL数据库服从BASE特性
- 不需要预定义模式
- 不需要事先定义数据模式,预定义表结构
- 数据中的每条记录都可能有不同的属性和格式,当插入数据时,不需要预先定义他们的模式
- 弹性可拓展
- 可以在系统运行的时候,动态增加或删除节点。不需要停机维护,数据可以自动迁移。
- 分区
- 相对于将数据存放于同一个节点上,NoSQL数据库通常将数据进行分区,将记录分散在多个节点上
- 分区通常还做复制,一方面提高并行性能,另一方面保证没有单点失效的问题
- 异步复制
- NoSQL中的复制通常为基于日志的异步复制,这样,数据就可以尽可能地写入一个节点,而不会被网络传输引起延迟
- 缺点是并不总是能保证一致性,这样的方式在出现故障时,可能会丢失少量的数据
- 不需要预定义模式
-
BASE特性与ACID特性的比较
-
NoSQL的适用情况
- 数据模型比较简单
- 需要灵活性更强的IT系统
- 对数据库性能要求较高
- 不需要高度的数据一致性
二、非关系型数据库分类
- NoSQL可分为四类
- 列式存储数据库、键值对存储数据库、文档数据库和图数据库
- 列式存储数据库
- Column-oriented NoSQL
- 行式数据库即传统的关系数据库,数据按行记录存储,每一条记录的所有属性存储在一行
- 列式数据库是按照数据库记录的列来组织和存储数据的,数据库中每个表由一组页链的集合组成,每条页链对应表中的一个存储列
- 典型代表有HBase
- 键值对存储数据库
- 键值存储典型实现的数据结构一般为数组链表:先通过Hash算法得到Hashcode,找到数组的某一个位置,然后插入链表
- 典型代表有Redis,MemcacheDB
- 文档型数据库
- Document-oriented NoSQL
- 文档型数据库同第一种键值存储相类似
- 该类型的数据模型是版本化的文档、半结构化的文档以特定的格式存储,例如Json
- 典型代表有MangoDB
- 图数据库
- Graph-oriented NoSQL
- 将数据存储在图结构中
- 适合存储通过图进行建模的数据如社交网络数据,生物信息网络数据等
- 典型代表有Neo4j
三、非关系型数据库的应用
- 三种应用方式
- 以NoSQL为辅:NoSQL作为关系型数据库的补充
- 以NoSQL为主:NoSQL作为系统存储数据的主体
- 以NoSQL为缓存:NoSQL作为加速数据存取速度的手段
- 以NoSQL为辅
- 不改变原有的以MySQL作为存储的架构,使用NoSQL作为辅助镜像存储,用NoSQL的优势辅助提升性能
- 在原有基于MySQL数据库的架构上增加了一层辅助的NoSQL存储
- 在写入MySQL数据库后,同时写入到NoSQL数据库,让MySQL和NoSQL拥有相同的镜像数据
- 分为两种子模式:同步模式和组合模式
- 同步模式
- 通过MySQL把数据同步到NoSQL中,是一种对写入透明但是具有更高技术难度的一种模式
- 适用于现有的比较复杂的老系统,通过修改代码不易实现,可能引起新的问题。
- 组合模式
- MySQL中只存储需要查询的小字段,NoSQL存储所有数据
- 把需要查询的字段,一般都是数字,时间等类型的小字段存储于MySQL中,根据查询建立相应的索引
- 其它不需要的字段,包括大文本字段都存储在NoSQL中
- 在查询时,先从MySQL中查询出数据的主键,然后从NoSQL中直接取出对应的数据
- 以NoSQL为主
- 纯NoSQL架构
- 在一些数据结构、查询关系非常简单的系统中,我们可以只使用NoSQL即可解决存储问题
- 在一些数据库结构经常变换,数据结构不定的系统中,非常适合用NoSQL存储。比如监控系统中的监控信息的存储,可能每种类型的监控信息都不太一样。
- 以NoSQL为数据源的架构
- 数据直接写入NoSQL,再通过NoSQL同步协议复制到其它存储
- 应用程序只负责把数据直接写入到NoSQL数据库,然后通过NoSQL的复制协议,把NoSQL数据的每次写入、更新、删除操作都复制到MySQL数据库中
- 也可通过复制协议把数据同步复制到全文检索实现强大的检索功能
- 纯NoSQL架构
- 以NoSQL为缓存
- 由于NoSQL数据库天生具有高性能、易拓展的特点,所以常常结合关系数据库、存储高性能的、海量的数据
- 内存模式
- Memcached、Redis等键值对数据库提供了相当高的读写性能,完全可以作为缓存服务器
- Redis支持List、hashes等多种数据结构的功能,提供了更加易于使用的api和操作性能,比如对缓存的list数据的修改
- 持久化模式
- 虽然基于内存的缓存服务器具有高性能。低延迟的特点,但是内存成本高、内存数据易失也不容忽视
- 大部分互联网应用的特点是数据访问有热点,即只有一部分数据是被频繁访问的,使用NoSQL做缓存,由于其不受内存大小的限制,可以把一些不常访问、不怎么更新的数据也缓存起来,即为持久化模式