副问题[/!--empirenews.page--]
谈起HPC时,好像绕不开Lustre。Lustre是HPC的代名词,它是开源HPC并行文件体系市场占据率最高的文件体系,并获得了如Intel和DDN等厂商的大力大举支持。今朝,Intel与Lustre相干的营业已经被DDN所接办。
鉴于Lustre在HPC行业的知名度和承认度,本日,给读者分享一篇关于Lustre调优的文章,目标是给Lustre进修者和喜爱者提供些学衔拷寮。

1 Lustre机能优化参考
1.1 收集带宽
收集带宽每每抉择着lustre文件体系的聚合带宽。Lustre是通过多个OSS同时读取数据来进步体系整体的读写机能,然而,假如收集传输的机能过低,则无法施展lustre文件体系的机能上风。从以下几点思量收集带宽对机能的影响:
- 收集范例(TCP/IP收集及Infiniband收集)
- 网卡范例(千兆网/万兆网)
- 网卡数目及绑定方法(网卡绑定一路)
- 网卡绑定模式
增补:
- 凡是环境下Infiniband收集机能远远高于TCP/IP收集,但本钱较高
- 万兆网比千兆网机能高
- 网卡绑定模式一样平常为6。
1.2 Lustre自身配置
Luster自身配置首要是条块数(即OST的个数)及怎样条块化,这两方面也是lustre实现I/O并发的要害。条带化可以或许使体系到达并发的目标,从而影响了体系的机能。Luster自身配置对体系机能的影响首要从以下几个方面:
- 条块巨细(stripesize,min=64KB)
- 条块数(stripecount)
- 起始块数(start-ost,即条块起始位置)
增补:
- 凡是环境下start-ost默以为-1,不必要举办修改,该配置即不指定初始位置,可以或许很好到达负载平衡的目标
- 凡是环境下lustre条块的巨细的增进,聚合带宽总体呈降落趋势,当条块过大时,某一时刻内的多个I/O产生在统一个OST上,造成I/O守候,凡是配置为64KB
- 凡是环境下,跟着条块数增进,聚合带宽总体呈上升趋势,在必然的情形下,公道的设置OST可以精采的施展lustre的体系机能。
1.3 客户端配置
Lustre文件体系中,客户端天生一个全局存储空间,用户数据通过客户端存入lustre文件体系中,所客户端的配置也会影响体系的机能。
首要从以下几点:
- 单个客户端历程数(毗连数)
- 读写块巨细
- 客户端数目
增补:
- 跟着毗连数(历程数)的增进,聚合带宽开始呈上升趋势,到必然水平后不变(此时体系机能尚未到达饱和),跟着毗连数的增进,带宽开始降落
- 跟着I/O读写块的巨细增进,聚合带宽开始泛起上升趋势,到必然水平后不变,随后增进块巨细聚合带宽反而降落,当64KB~64MB巨细时,保持不变
- 跟着客户端数量标增进,读模式下的聚合带宽明明进步,而写模式下的聚合带宽则变革不明明。
1.4 存储RAID
Luster底层存储装备回收通用存储装备,可所以单磁盘,也可所以RAID,也可所以LVP,大部门回收RAID方法,既能担保聚合存储容量,又能提供数据掩护。首要从以下几点声名:
- RAID方法(硬RAID/软RAID)
- RAID模式(RAID0/1/2/3/4/5/6/10/01)
- 硬RAID卡范例
- 做RAID的磁盘范例(SATA、SAS、SSD)
增补:
- 凡是环境下,lustre文件体系底层回收硬RAID的方法举办底层存储,机能远宏大于软RAID,但本钱高
- Luster凡是做RAID6,进步数据掩护
- OST磁盘一样平常回收低本钱的SATA盘,而MDS则一样平常回收SSD盘
2 Lustre小文件优化
2.1 整体配置
- 1、通过应用聚合读写进步机能,好比对小文件举办Tar,或建设大文件或通过loopback mount来存储小文件。小文件体系挪用开销和特另外I/O开销很是大,应用聚合优化可以明显进步机能。其它,可以行使多节点、多历程/多线程尽也许通过聚合来进步I/O带宽。
- 2、应用回收O_DIRECT方法举办直接I/O,读写记录巨细配置为4KB,与文件体系保持同等。对输出文件禁用locking,停止客户端之间的竞争。
- 3、应用措施只管担保写持续数据,次序读写小文件要明明优于随机小文件I/O。
- 4、OST回收SSD或更多的磁盘,进步IOPS来改进小文件机能。建设大容量OST,而非多个小容量OST,镌汰日记、毗连等负载。
- 5、OST回收RAID 1+0更换RAID 5/6,,停止频仍小文件I/O引起的数据校验开销。
2.2 体系配置
- 1、禁用全部客户端LNET debug成果:缺省开启多种调试信息,sysctl -w lnet.debug=0,镌汰体系开销,但产生错误时将无LOG可询。
- 2、增进客户端Dirty Cache巨细:缺省为32MB,增大缓存将晋升I/O机能,但数据丢失的风险也随之增大。
- 3、增进RPC并行数目:缺省为8,晋升至32将进步数据和元数据机能。倒霉之处是假如处事器压力很大,也许反而会影响机能。
- 4、节制Lustre striping:lfs setstripe -c 0/1/-1 /path/filename,假如OST工具数大于1,小文件机能会降落,因此将OST工具配置为1。
- 5、客户端思量行使当地锁:mount -t lustre -o localflock,假如确定多个历程从统一个客户端举办写文件,则可用localflock取代flock,镌汰发送到MDS的RPC数目。
- 6、行使loopback mount文件:建设大Lustre文件,与loop装备关联并建设文件体系,然后将其作为文件体系举办mount。小文件浸染其上,则原先大量的MDS元数据操纵将转换为OSS读写操纵,消除了元数据瓶颈,可以明显进步小文件机能。
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|