什么是FastDFS?
FastDFS是一个开源的轻量级分布式文件系统。它解决了大数据量存储和负载均衡等问题。特别适合以中小文件(建议范围:4KB < file_size <500mb)为载体的在线服务,如相册网站、视频网站等等。 500mb)为载体的在线服务,如相册网站、视频网站等等。>
FastDFS架构
从上图可知,FastDFS架构中有三个角色:跟踪服务器(tracker server)、存储服务器(storage server) 和客户端(client)。
tracker server
跟踪服务器,主要做调度工作,起负载均衡的作用。负责管理所有的storage server和group,每个storage在启动后会连接tracker,告诉tracker自己所属的group,并保持周期性心跳,tracker根据storage的心跳信息,建立
storage server
存储服务器(又称:存储节点或数据服务器),顾名思义是用来保存文件的和文件属性的。以group为单位,每个group内可以包含多台storage server,数据互为备份,存储容量空间以group中storage server容量最小的为准。以group为单位组织存储能够方便的进行应用隔离、负责均衡和副本数定制;确定是group的容量受单机容量的限制。group内机器故障,需要依赖group内其他机器重新同步数据来恢复数据(更换坏盘,重启fdfs_storaged即可)。storage存储依赖本地文件系统,storage课配置多个数据存储目录,磁盘不做raid,直接分别挂在到多个目录,将这些目录配置为storage的数据目录即可。
storage接收写请求的时候,会根据配置好的规则,选择其中一个存储目录来存储文件;为了避免单个目录下的文件过多,storage第一次启动的时候,会在每个数据存储目录创建2级子目录,每级256,总共65536个目录,新写的文件会以hash的方式路由到其中一个子目录下,然后将文件数据直接作为一个本地文件存储。
client
客户端,作为业务请求的发起方,通过专有接口,使用TCP/IP协议与跟踪器服务器或存储节点进行数据交互。
FastDFS的工作流程
文件上传
上传的流程:
- client询问tracker上传到的storage
- tracker返回一台可用的storage
- client直接和storage通信,完成文件上传
选择tracker server
集群中tracker之间是对等关系,client在上传文件时可以使用任意一个tracker
选择存储group
当tracker接收到上传文件的请求的时候,会为该文件分配一个可以存储的group。目前支持选择的group的规则有:
- Round robin,轮询
- Sepcified group,上传的时候指定某个group
- Load balance,生成存储空间较多的group优先
选择storage server
当选定group后,tracker会在group内选择一个storage server给client,目前支持选择server的规则有:
- Round robin,轮询(默认)
- 根据IP地址进行排序,选择第一个服务器(IP地址最小者)
- 根据优先级进行排序,上传优先级由storage server来设置,参数为uoload_priority
选择storage path
当分配好storage server后,客户端将向storage发送写文件请求,storage会将文件分配一个数据存储目录,目前支持选择存储路径选择的规则有:
- Round robin,轮询(默认)
- load balance,选择使用剩余空间最大的存储路径
生成file id
选择存储目录之后,storage会生成一个file_id,采用base64编码,包含有:storage server ip,文件创建时间,文件大小,文件CRC32校验码和随机数。每个存储目录下有两个256*256个子目录,storage会按文件file_id进行两次hash,路由到其中一个子目录,然后将文件以file_id为名字存储。
文件路径如下:
group0/M00/00/02/exwf8b8lFJIxx2234841AAAbpQt7xVI473456.txt
组名:group0 磁盘: M00 目录:00/02 文件名:exwf8b8lFJIxx2234841AAAbpQt7xVI473456.txt
文件索引信息包括:组名,虚拟磁盘路径,数据两级目录,文件名。
- 组名:文件上传后所在的存储组名称,在文件上传成功后有存储服务器返回,需要客户端自行保存。
- 虚拟磁盘路径:存储服务器配置的虚拟路径,与磁盘选项store_path*对应。
- 数据两级目录:存储服务器在每个虚拟磁盘路径下创建的两级目录,用于存储数据文件。
- 文件名:与文件上传时不同。是由存储服务器根据特定信息生成,文件名包含:源存储服务器IP地址、文件创建时间戳、文件大小、随机数和文件拓展名等信息。
文件下载
文件下载流程:
- client询问tracker要下载文件的所在的storage,参数为文件标识(group,文件名)
- tracker返回一台可用的storage
- client直接和storage通信,下载文件
client发送下载某个文件的请求到某个tracker,tracker从文件名中解析出文件的group,文件大小,创建时间等信息,然后为该请求选择一个storage用于读请求
选择下载服务器
目前支持的规则有:
- 轮询方式,可以下载当前文件的任意一个storage server
- 从源storage server下载
同步时间管理
当一个文件上传成功后,客户端马上发起对该文件下载请求(或删除请求)时,tracker是如何选定一个适用的存储服务器呢?
其实每个存储服务器都需要定时将自身的信息上报给tracker,这些信息就包括了本地同步时间(即,同步到的最新文件的时间戳)。而tracker根据各个存储服务器的上报情况,就能够知道刚刚上传的文件,在该存储组中是否已完成了同步。
快速定位文件
知道FastDFS FID的组成后,我们来看看FastDFS是如何通过这个精巧的FID定位到需要访问的文件。
- 通过组名tracker能够很快的定位到客户端需要访问的存储服务器组,并将选择合适的存储服务器提供客户端访问;
- 存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录,并根据文件名找到客户端需要访问的文件。