高机能计较Lustre机能优化方案

发布时间：2019-03-02 14:28:28 所属栏目：业界来源：架构师技术联盟

导读：谈起HPC时，好像绕不开Lustre。Lustre是HPC的代名词，它是开源HPC并行文件体系市场占据率最高的文件体系，并获得了如Intel和DDN等厂商的大力大举支持。今朝，Intel与Lustre相干的营业已经被DDN所接办。鉴于Lustre在HPC行业的知名度和承认度，本日，给读者分享

副问题[/!--empirenews.page--]

谈起HPC时，好像绕不开Lustre。Lustre是HPC的代名词，它是开源HPC并行文件体系市场占据率最高的文件体系，并获得了如Intel和DDN等厂商的大力大举支持。今朝，Intel与Lustre相干的营业已经被DDN所接办。

鉴于Lustre在HPC行业的知名度和承认度，本日，给读者分享一篇关于Lustre调优的文章，目标是给Lustre进修者和喜爱者提供些学衔拷寮。

高机能计较Lustre机能优化方案

1 Lustre机能优化参考

1.1 收集带宽

收集带宽每每抉择着lustre文件体系的聚合带宽。Lustre是通过多个OSS同时读取数据来进步体系整体的读写机能，然而，假如收集传输的机能过低，则无法施展lustre文件体系的机能上风。从以下几点思量收集带宽对机能的影响：

收集范例(TCP/IP收集及Infiniband收集)
网卡范例(千兆网/万兆网)
网卡数目及绑定方法(网卡绑定一路)
网卡绑定模式

增补：

凡是环境下Infiniband收集机能远远高于TCP/IP收集，但本钱较高
万兆网比千兆网机能高
网卡绑定模式一样平常为6。

1.2 Lustre自身配置

Luster自身配置首要是条块数(即OST的个数)及怎样条块化，这两方面也是lustre实现I/O并发的要害。条带化可以或许使体系到达并发的目标，从而影响了体系的机能。Luster自身配置对体系机能的影响首要从以下几个方面：

条块巨细(stripesize，min=64KB)
条块数(stripecount)
起始块数(start-ost，即条块起始位置)

增补：

凡是环境下start-ost默以为-1，不必要举办修改，该配置即不指定初始位置，可以或许很好到达负载平衡的目标
凡是环境下lustre条块的巨细的增进，聚合带宽总体呈降落趋势，当条块过大时，某一时刻内的多个I/O产生在统一个OST上，造成I/O守候，凡是配置为64KB
凡是环境下，跟着条块数增进，聚合带宽总体呈上升趋势，在必然的情形下，公道的设置OST可以精采的施展lustre的体系机能。

1.3 客户端配置

Lustre文件体系中，客户端天生一个全局存储空间，用户数据通过客户端存入lustre文件体系中，所客户端的配置也会影响体系的机能。

首要从以下几点：

单个客户端历程数(毗连数)
读写块巨细
客户端数目

增补：

跟着毗连数(历程数)的增进，聚合带宽开始呈上升趋势，到必然水平后不变(此时体系机能尚未到达饱和)，跟着毗连数的增进，带宽开始降落
跟着I/O读写块的巨细增进，聚合带宽开始泛起上升趋势，到必然水平后不变，随后增进块巨细聚合带宽反而降落，当64KB~64MB巨细时，保持不变
跟着客户端数量标增进，读模式下的聚合带宽明明进步，而写模式下的聚合带宽则变革不明明。

1.4 存储RAID

Luster底层存储装备回收通用存储装备，可所以单磁盘，也可所以RAID，也可所以LVP，大部门回收RAID方法，既能担保聚合存储容量，又能提供数据掩护。首要从以下几点声名：

RAID方法(硬RAID/软RAID)
RAID模式(RAID0/1/2/3/4/5/6/10/01)
硬RAID卡范例
做RAID的磁盘范例(SATA、SAS、SSD)

增补：

凡是环境下，lustre文件体系底层回收硬RAID的方法举办底层存储，机能远宏大于软RAID，但本钱高
Luster凡是做RAID6，进步数据掩护
OST磁盘一样平常回收低本钱的SATA盘，而MDS则一样平常回收SSD盘

2 Lustre小文件优化

2.1 整体配置

1、通过应用聚合读写进步机能，好比对小文件举办Tar，或建设大文件或通过loopback mount来存储小文件。小文件体系挪用开销和特另外I/O开销很是大，应用聚合优化可以明显进步机能。其它，可以行使多节点、多历程/多线程尽也许通过聚合来进步I/O带宽。
2、应用回收O_DIRECT方法举办直接I/O，读写记录巨细配置为4KB，与文件体系保持同等。对输出文件禁用locking，停止客户端之间的竞争。
3、应用措施只管担保写持续数据，次序读写小文件要明明优于随机小文件I/O。
4、OST回收SSD或更多的磁盘，进步IOPS来改进小文件机能。建设大容量OST，而非多个小容量OST，镌汰日记、毗连等负载。
5、OST回收RAID 1+0更换RAID 5/6，，停止频仍小文件I/O引起的数据校验开销。

2.2 体系配置

1、禁用全部客户端LNET debug成果：缺省开启多种调试信息，sysctl -w lnet.debug=0，镌汰体系开销，但产生错误时将无LOG可询。
2、增进客户端Dirty Cache巨细：缺省为32MB，增大缓存将晋升I/O机能，但数据丢失的风险也随之增大。

3、增进RPC并行数目：缺省为8，晋升至32将进步数据和元数据机能。倒霉之处是假如处事器压力很大，也许反而会影响机能。

4、节制Lustre striping：lfs setstripe -c 0/1/-1 /path/filename，假如OST工具数大于1，小文件机能会降落，因此将OST工具配置为1。
5、客户端思量行使当地锁：mount -t lustre -o localflock，假如确定多个历程从统一个客户端举办写文件，则可用localflock取代flock，镌汰发送到MDS的RPC数目。
6、行使loopback mount文件：建设大Lustre文件，与loop装备关联并建设文件体系，然后将其作为文件体系举办mount。小文件浸染其上，则原先大量的MDS元数据操纵将转换为OSS读写操纵，消除了元数据瓶颈，可以明显进步小文件机能。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页

宏光MINI GAMEBOY全面	美国初创公司Aquarian
新一代汽车芯片的设计	显示器常见背光种类盘