Monthly Archives: 2月 2016

明和文化

杭州明和科技股份有限公司

愿景

明和,致力于IT基础架构的云计算公司。

 使命

以客户需求为核心,聚焦客户关注的挑战和压力,提供有竞争力的信息产品和服务,保护客户投资,持续为客户创造最大价值。

 核心价值观

公司核心价值观是扎根于我们内心深处的核心信念,是我们面向未来的共同承诺。她确保我们步调一致地为客户提供有效的服务,实现“IT基础架构的云计算公司”的愿景。

201202161059121307

成就客户

为客户服务是明和存在的唯一理由,客户需求是明和发展的原动力。我们坚持以客户为中心,快速响应客户需求,持续为客户创造长期价值进而成就客户。为客户提供有效服务,是我们工作的方向和价值评价的标尺,成就客户就是成就我们自己。

诚实守信

我们只有内心坦荡诚恳,才能言出必行,信守承诺。诚信是我们最重要的无形资产,明和坚持以诚信赢得客户。公司没有诚信,所有的进取都将失去意义。

艰苦奋斗

我们唯有艰苦奋斗才能赢得客户的尊重与信赖。奋斗体现在为客户创造价值的任何微小活动中,以及在劳动的准备过程中为充实提高自己而做的努力。我们坚持以奋斗者为本,使奋斗者得到合理的回报。

自我批判

自我批判的目的是不断进步,不断改进,而不是自我否定。只有坚持自我批判,才能倾听、扬弃和持续超越,才能更容易尊重他人和与他人合作,实现客户、公司、团队和个人的共同发展。

团队合作

胜则举杯相庆,败则拼死相救。

明和 NETPRO NRS2100产品简介 ——企业级 CDP产品

产品概述

NETPRO®  NRS2100企业级IT应用容灾保护系统,采用先进的IO捕获、录像、压缩、CDP、镜像等技术,通过旁路连接方式,为用户服务器操作系统(Linux/Windows/Unix)、业务数据、应用软件、数据库提供零窗口的实时保护及恢复,同时可为大中型数据中心构建容灾存储系统,实现以业务为导向的灾难恢复,通过连续的数据可用性满足用户业务7×24小时不间断运行要求。

NRS2100具有快速、强健的保护用户业务不间断运行的能力,非常适合大中型数据中心的容灾保护,满足政府、医疗卫生、企业、金融等行业的应用级数据容灾保护。

产品亮点

灵活的数据抓取,确保数据安全

  • NRS2100采用连续或定期(时间点)保护策略,满足甚至超出用户的所有RPO(数据恢复点目标)要求
  • NRS2100提供的CDP数据日志可按每次写入的IO颗粒度级别保护用户数据,允许用户将所有数据内容恢复到业务中断之前写入最后一个数据的时间点,实现数据零丢失或近零丢失
  • 每个卷可提供1,000个定期快照,可根据预设的保护计划(例如每小时或每隔几小时)为用户提供多个可启动的数据恢复版本,与传统的每日进行的磁带备份相比,提供了更多恢复点和更高的恢复速度,提供更高的RTO(时间恢复点目标)标准
  • NRS2100可以在同一数据卷上同时使用CDP日志记录和快照进行双重保护,也可根据不同业务要求分别单独使用。
  • 采用多种策略和方式保留、处理和回收快照空间,使快照的容量管理更加优化,提高了磁盘使用效率。

数据一致性保障,满足数据库业务要求

  • NRS2100支持与生产卷的同步数据镜像。写入到生产卷的数据会同时写入到镜像卷中,两份存储卷中的数据完全一致,消除业务系统数据单点故障隐患,避免因主存储系统物理故障导致的业务中断,尤其适用于企业级IT环境数据库之类对数据一致性要求很高的应用。

零干扰的数据保护、恢复、备份

  • NRS2100采用旁路保护模式,不干扰主存储数据读写,NRS2100运行状态不影响生产业务系统,可随时快速接入或快速退出。
  • NRS2100的数据日志恢复卷、快照卷可以直接挂载至服务器作为应急盘阵使用,无后台恢复时间,可快速实现数据和业务的快速恢复
  • 利用离线备份选件,可直接从虚拟的NRS2100数据卷上将原始数据备份到磁带等介质,而无需通过生产服务器进行备份。这不仅提供了SAN级别的性能,还不会对生产系统的服务器及存储系统产生额外备份开销从而影响生产系统性能,实现Server-Free级别数据备份。

自动化灾难恢复工具实现灾难自动切换

  • 利用自动化灾难恢复工具,可以让复杂的数据保护和恢复以及业务系统的恢复实现自动化运作,真正实现一键自动切换。
  • 支持物理和虚拟服务器,支持物理到物理 (P2P)、物理到虚拟 (P2V) 或虚拟到虚拟 (V2V) 服务器的自动保护和恢复
  • 配置VMware应用快照导向模块实现虚机的快照保护
  • 在实际故障出现之前,自动化灾难恢复工具支持对恢复作业执行在线的无中断测试,真正做到有备无患。

远程容灾实现数据、应用的异地保护

  • NRS2100支持卷的远程复制功能,本地的数据卷可按增量自动复制到远程NRS上,可通过IP链路复制,也可通过FC链路实现高性能低延迟复制,复制的数据可以压缩或加密,提高了传输效率的同时保证数据安全性。
  • 采用精简式复制方式,通过基于扇区的窄带宽容灾优化技术可将IP链路容灾复制数据流量降低多达95%。显著的缩减容灾带宽要求和每月带宽成本,能够同时为更多应用程序提供保护。

设备部署灵活,方便用户按需选择

  • NRS2100支持iSCSI和FC的主机连接方式,并可提供万兆iSCSI接口,可部署于现有的SAN网络,或者融入到企业IP网中,提供数据持续保护和快速恢复。
  • NRS2100-G采用功能网关模式,可以连接兼容的磁盘阵列实现容量扩容,既能保证大型应用环境下的性能稳定,又能整合利用已有的空闲磁盘资源,保护投资。
  • NRS2100支持双机高可用方式,两台NRS2100之间相互备援,当一台NRS2100瘫痪时,另外一台自动接管,确保业务系统7×24随时处于保护状态。支持集群节点并行读写,支持集群节点自动故障切换,可升级支持为8节点集群

国产化自主创新产品,符合国内数据安全要求

  • 国产化自主创新产品,具备自主创新产品认证,符合国产化数据安全要求
  • 拥有多项软件著作权、发明专利、实用新型专利等知识产权证书

典型应用

  • 三甲医院HIS系统高可用保护
  • 省市级政府财政、工商、税收等核心业务系统保护和容灾
  • 企业ERP系统、大型数据中心、生产制造系统、数字资产管理系统等快速保护

技术规格

产品型号 NRS2100-L NRS2100 NRS2100-G
物理规格 2U12盘位 2U24盘位 2U标准机架
处理器类型 2个Intel多核处理器 2个Intel多核处理器
高速缓存 32GB~1024GB ECC DDR3 64GB~1024GB ECC DDR3
RAID保护级别 支持RAID 0、1、5、6、10、50、60 取决于磁盘阵列
端口类型 8Gb/16Gb FC、千兆iSCSI、万兆iSCSI/FCoE 8Gb/16Gb FC、千兆iSCSI、万兆iSCSI/FCoE
端口数量 标配2个8Gb FC和4个千兆iSCSI 标配4个8Gb FC和4个千兆iSCSI
管理接口类型 千兆RJ-45 千兆RJ-45
基础容量 12片900GB 10krpm SAS硬盘 无(NRS功能机头,无数据盘,需连接磁盘阵列提供容量)
支持的磁盘类型 SSD硬盘:200GB/300GB/400GB/800GB MLC

SAS硬盘: 900GB @10Krpm 2.5寸

NL-SAS硬盘:2TB、3TB、4TB@7.2krpm 3.5寸

取决于磁盘阵列
快照数量 1000个
CDP保护窗口 无限,取决于CDP日志区存储容量
最大主机连接数 无限
最大磁盘数量 无限
可保护的文件系统 AIX、HP-UX、Solaris等Unix文件系统和Windows、Linux文件系统以及VMware文件系统
可保护的应用类型 Oracle、Sybase、DB2、Informix、Domino等Unix应用

Oracle、Exchange、SQL Server、MySQL等Windows/Linux应用

VMware vCenter Site Recovery Manage等虚拟化应用

存储虚拟化 支持存储虚拟化功能,容灾保护系统中的数据可直接挂载到任一服务器,以Server-Free方式备份至物理磁带机中,此过程无需业务服务器参与。

提供自动精简配置(Thin Provising)功能,可根据应用保护实际所需要的存储容量,多次、少量的分配给保护系统,降低存储空间需求和管理难度,节省业务投资成本

远程复制功能 提供基于IP或FC网络的复制功能,提供基于增量和时间的复制策略,复制时支持加密、压缩和断点续传;具备窄带传输能力,仅传输变化的数据量,消除重复数据块,重复数据块比对尺寸小于等于512byte ,降低容灾链路带宽成本,便于远程数据容灾
持续数据保护功能 提供持续数据保护,支持任意时间粒度的数据保护及快速恢复,支持毫秒级数据恢复,可以对同一个卷同时使用连续保护和快照两种保护模式
数据快照 可为每个目标提供≥1000个数据快照,每个快照点可随时独立挂载服务器使用,无回滚或恢复个,无需影响生产系统,快照卷可读可写;快照更新的数据可根据需求反向同步更新至生产卷;针对数据库配置数据一致性专用软件,无需编写脚本保证一致性;
系统保护 支持操作系统的远程历史点启动(光纤、iSCSI等方式)
数据镜像 支持数据镜像,实现存储系统的‘零’停机迁移
管理方式 简洁的图形化管理能力;支持集中化管理控制台;支持系统状态监控 (SNMP & e-mail);支持对磁盘系统的状态监控;具备多种方式的报告(Report)机制,统计使用状况;支持中心化管理,支持CLI、GUI管理方式,支持自动邮件报警
其它功能 支持HA, IP Trunking, MPIO, CallHome, X-RAY系统报告等
电源模块 全冗余电源模块
物理尺寸 宽437mm × 高89mm × 深648mm
环境规范 电气参数:100V AC~120V AC或 200V AC~240V AC;

温度指标:工作态5°C~45°C;

相对湿度:工作态10%~85%;

海拔高度:0~12000英尺;

明和NETPRO PX5000存储网关 ——双活数据中心存储虚拟化

201404221102108909

产品概述

NETPRO PX5000(以下简称 PX5000)存储虚拟化集群管理系统,基于先进的集群虚拟化管理引擎,采用Cache镜像、Cache加速、数据压缩、自动精简、同步镜像、异步复制、自动分层、异构透明数据迁移、无限容量扩展等关键技术,为用户的应用提供双活异地容灾解决方案、存储虚拟化整合、存储高可用、本地CDP数据保护、,满足用户业务系统弹性扩展及7×24小时不间断运行,打造EDC高效能数据中心。

功能价值

ORACL远程RAC双活数据中心 ( <= 100km )

提供Oracle远程RAC 双活数据库连续性

超强的存储虚拟化整合能力

桌面虚拟化、服务器虚拟化、存储虚拟化,三个要素相加构成用户业务的全局虚拟化,EDC是全局虚拟化最为关键的核心,PX5000作为EDC的中枢神经,提供以下三大应用价值:

虚拟化服务器与虚拟化存储相融合

适用于传统方案中主流的服务器

虚拟化服务器的基础,提供设备兼容性、应用兼容性和虚拟化服务器的高性能需求

通过虚拟化技术,提高服务器设备和存储设备利用率

 

提供存储节点高可用与业务连续性

生产系统7×24小时不间断运行

消除共享式存储单点故障

 

数据中心双活容灾

异构存储的Cache加速,提升业务系统的IOPS和吞吐率

独具特色的远程压缩复制

一键主备切换、一键智能恢复

 

丰富的软件功能

自动分层: PX5000支持SSD、SAS、SATA多种存储介质,在同一存储池内为不同性能的磁盘分层,它能够自动监测 I / O的访问频率,动态的将数据迁移到最佳的存储磁盘层次上,优化整个业务运转效率;

高速缓存: PX5000通过其高速缓存,可以将主机数据块进行整合,并行均衡的写入到磁盘中,提高了应用主机访问存储的速率;

在线快照:PX5000在线快照仅仅记录数据的增量变化并可以驻留在精简配置的虚拟卷中,以降低系统资源的损耗,针对同一份源数据最多可产生1024份快照副本;

CDP功能:PX5000的CDP功能可以通过日志和时间戳能够不间断的记录相对应虚拟磁盘的I / O,可以选择任何时间点的恢复,而不需要中断应用程序、不需要在主机端安装任何代理程序;

N+1 高可用性架构

在经典的双存储冗余架构之上,用户能以虚拟卷为单元,根据不同业务等级配置 高可用性,推荐的N +1 方案在提高可用性的同时,也提高了系统整体存储性能

FC、IP无缝融合

全面支持FC和iSCSI主机端口和阵列端口,支持10GE iSCSI接口

 

异构数据在线迁移

利用PX5000的在线迁移功能,可以在不同品牌、不同架构的盘阵间实现数据卷的迁移,在这一过程中服务器不需要停机,实现异构存储设备之间数据在线迁移,为企业级用户节省时间成本和管理成本。

便捷的管理功能

PX5000提供强大的GUI图形管理界面和可视化管理,通过一个集中的界面实现快速的存储配置和管理;

PX5000整合不同品牌/厂商异构存储,通过中央控制台独立的工具控制和监视整个存储资源,实时更新虚拟存储池的状态,实现远程集中管理;

PX5000的存储资源以虚拟存储池为基础,存储池扩容不需要停机,充分保证用户业务持续可用

典型应用

PX5000拥有超强的存储虚拟化整合能力和容灾保护功能,尤其适合不同存储厂商/品牌混和的信息中心或数据中心,满足地市级以上政府、科研教育、医疗卫生、企业、能源、交通、金融等行业客户的存储虚拟化整合及容灾保护,为客户构建安全可靠、高性能、开放的存储系统。

NETPRO PX5000典型应用包括:公安、检查院、法院、国土资源、教育、医院等存储虚拟化整合等;医疗HIS系统、大中型企业的ERP系统等存储高可用环境。

技术规格

产品系列 NETPRO PX5000
最大集群节点数量 8
每节点标配处理器 2个多核处理器
每节点缓存容量(标配/最大) 32GB/512GB
最大虚拟化管理容量 无限
主机连接数量 无限
每节点IO接口 u       标配4个8Gb FC和2个千兆iSCSI接口,支持端口类型和数量升级,可选升级模块如下:

n         4端口/8端口8Gb FC模块

n         4端口/8端口千兆iSCSI模块

n         4端口万兆iSCSI模块

管理方式 功能强大的GUI人机交互管理界面
报警功能:高级状态提醒(包括日志、自动弹出气球通知等)
通过内置向导建立系统健康状态,LOG关键字,触发信息的预警通知(内置SMTP mailpost);可自制任务计划,系统智能实施;
支持的高级功能
性能保障 支持Caching加速功能,通过高性能磁盘资源(如SSD)对资源池中的所有存储系统提供性能加速;
数据安全 基于IO的连续数据保护、数据镜像和数据快照、远程数据复制等高级功能;不受应用系统、网络、操作系统限制,可动态增加保护对象
业务连续保障 一键主备切换、一键智能恢复,支持集群节点自动故障切换,支持对主机无影响的透明数据迁移功能,迁移后主机配置不做任何修改即可投入使用;
虚拟化支持 自动分层存储、异构存储整合、自动精简配置、提供VMware vSphere插件,支持异构存储系统虚拟化聚合;支持Vmware(VI3,VI4)、Hyper-V、XenServer、KVM等虚拟化管理软件
存储兼容性 l         IBM DS系列、V系列、FAS系列存储

l         HP StorageWorks MSA系列、EVA系列、XP系列、P系列

l         EMC CLARiiON CX系列、Symmetrix DMX系列、VNX系列

l         Fujitsu ETERNUS 2000系列

l         Hitachi AMS/WMS系列、Lightning系列、Thunder系列、USP/NSC系列、HUS系列

l         SUN StorageTek系列

l         Infortrend DS/ES系列、ESVA系列

l         Promise Vtrak系列、Vess系列

等FC SAN存储系统

主机OS兼容性 Windows Server 2000, 2003, 2008, Hyper-V, Windows XP, Windows 7, UNIX, HP-UX, Sun Solaris, IBM AIX, RedHat Linus, Suse Linux, Apple MacOs, VMware ESX / vSphere, Citrix XenServer等
支持的网络文件系统 CIFS、NFS
物理尺寸 89mm Hx430mm Wx660mm D
电源 全冗余电源,80plus认证电源
环境规范 电气参数:100V AC~120V AC或 200V AC~240V AC;

温度指标:工作态5°C ~ 35°C;

相对湿度:工作态8%~85%,非凝结;

海拔高度:0~12000英尺;

 

 

(转)几个 Ceph 性能优化的新方法和思路(2015 SH Ceph Day 参后感)

一周前,由 Intel 与 RedHat 在10月18日联合举办了 Shanghai Ceph Day。在这次会议上,多位专家做了十几场非常精彩的演讲。本文就这些演讲中提到的 Ceph性能优化方面的知识和方法,试着就自己的理解做个总结。

0. 常规的 Ceph 性能优化方法

(1). 硬件层面

  • 硬件规划:CPU、内存、网络
  • SSD选择:使用 SSD 作为日志存储
  • BIOS设置:打开超线程(HT)、关闭节能、关闭 NUMA 等

(2). 软件层面

  • Linux OS:MTU、read_ahead 等
  • Ceph Configurations 和 PG Number 调整:使用 PG 计算公式(Total PGs = (Total_number_of_OSD * 100) / max_replication_count)计算。
  • CRUSH Map

更多信息,可以参考下面的文章:

1. 使用分层的缓存层 – Tiered Cache

显然这不是一个 Ceph 的新特性,在会议上有这方面的专家详细地介绍了该特性的原理及用法,以及与纠错码方式结合的细节。

151026103710731

简单概括:

  • 每一个缓存层次(tiered cache)使用一个 RADOS pool,其中 cache pool 必须是拷贝(replicated)类型,而 backing pool 可以是拷贝类型也可以是纠错码类型。
  • 在不同的缓存层次,使用不同的硬件介质,cache pool 使用的介质必须比 backing pool 使用的介质速度快:比如,在 backing pool 使用一般的存储介质,比如常规的HDD或者 SATA SDD;在 cache pool 使用快速介质,比如 PCIe SDD。
  • 每一个 tiered cache 使用自己的 CRUSH rules,使得数据会被写入到指定的不同存储介质。
  • librados 内在支持 tiered cache,大多数情况下它会知道客户端数据需要被放到哪一层,因此不需要在 RDB,CephFS,RGW 客户端上做改动。
  • OSD 独立地处理数据在两个层次之间的流动:promotion(HDD->SDD)和 eviction(SDD -> HDD),但是,这种数据流动是代价昂贵(expensive)和耗时的(take long time to “warm up”)。

2. 使用更好的 SSD – Intel NVM Express (NVMe) SSD

在 Ceph 集群中,往往使用 SSD 来作为 Journal(日志)和 Caching(缓存)介质,来提高集群的性能。下图中,使用 SSD 作为 Journal 的集群比全 HDD 集群的 64K 顺序写速度提高了 1.5 倍,而 4K 随机写速度提高了 32 倍。

151026103710733

而Journal 和 OSD 使用的 SSD 分开与两者使用同一块SSD,还可以提高性能。下图中,两者放在同一个 SATA SSD 上,性能比分开两块 SSD (Journal 使用 PCIe SSD,OSD 使用 SATA SSD),64K 顺序写速度下降了 40%,而 4K 随机写速度下降了 13%。

151026103710734

因此,更先进的 SSD 自然能更加提高Ceph 集群的性能。SSD 发展到现在,其介质(颗粒)基本经过了三代,自然是一代比一代先进,具体表现在密度更高(容量更大)和读写数据更快。目前,最先进的就是 Intel NVMe SSD,它的特点如下:

  • 为 PCI-e 驱动器定制的标准化的软件接口
  • 为 SSD 定制(别的是为 PCIe 所做的)
  • SSD Journal : HDD OSD 比例可以从常规的 1:5 提高到 1:20
  • 对全 SSD 集群来说,全 NVMe SSD 磁盘Ceph 集群自然性能最好,但是它造价太高,而且性能往往会受限于网卡/网络带宽;所以在全SSD环境中,建议的配置是使用 NVMe SSD 做 Journal 而使用常规 SSD 做 OSD 磁盘。

同时,Intel SSD 还可以结合 Intel Cache Acceleration Software 软件使用,它可以智能地根据数据的特性,将数据放到SSD或者HDD:

151026103710732

测试:

  • 测试配置:使用 Intel NVMe SSD 做 Cache,使用 Intel CAS Linux 3.0 with hinting feature (今年年底将发布)
  • 测试结果:5% 的 cache,使得吞吐量(ThroughOutput)提交了一倍,延迟(Latency)降低了一半

3. 使用更好的网络设备 – Mellanox 网卡和交换机等

3.1 更高带宽更低延迟的网卡设备

Mellanox 是一家总部在以色列的公司,全球约 1900 名员工,专注高端网络设备,2014 年revenue 为 ¥463.6M 。(今天正好在水木BBS上看到该公司在中国的分公司待遇也是非常好)。其主要观点和产品:

  • Ceph 的 Scale Out 特性要求用于 replicaiton、sharing 和 metadata (文件)的网络吞吐量更高、延迟更低
  • 目前 10 GbE(万兆以太网络) 已经不能满足高性能Ceph 集群的要求(基本上 20个 SSD 以上的集群就不能满足了),已经开始全面进入 25, 50, 100 GbE 时代。目前,25GbE 性价比比较高。
  • 大部分网络设备公司使用的是高通的芯片,而 Mellanox 使用自研的芯片,其延迟(latency)是业界最低的(220ns)
  • Ceph 高速集群需要使用两个网络:public network 用于客户端访问,Cluster network 用于 heartbeat、replication、recovery 和 re-balancing。
  • 目前 Ceph 集群广泛采用 SSD, 而快速的存储设备就需要快速的网络设备

实际测试:

(1)测试环境:Cluster network 使用 40GbE 交换机,Public network 分布使用 10 GbE 和 40GbE 设备做对比

151026103710735

(2)测试结果:结果显示,使用 40GbE 设备的集群的吞吐量是使用 10 GbE 集群的 2.5 倍,IOPS 则提高了 15%。

目前,已经有部分公司使用该公司的网络设备来生产全SSD Ceph 服务器,比如,SanDisk 公司的 InfiniFlash 就使用了该公司的 40GbE 网卡、2个 Dell R720 服务器作为 OSD 节点、512 TB SSD,它的总吞吐量达到 71.6 Gb/s,还有富士通和Monash 大学。

3.2 RDMA 技术

传统上,访问硬盘存储需要几十毫秒,而网络和协议栈需要几百微妙。这时期,往往使用 1Gb/s 的网络带宽,使用 SCSI 协议访问本地存储,使用 iSCSI 访问远端存储。而在使用 SSD 后,访问本地存储的耗时大幅下降到几百微秒,因此,如果网络和协议栈不同样提高的话,它们将成为性能瓶颈。这意味着,网络需要更好的带宽,比如40Gb/s  甚至 100Gb/s;依然使用 iSCSI 访问远端存储,但是 TCP 已经不够用了,这时 RDMA 技术应运而生。RDMA 的全称是 Remote Direct Memory Access,就是为了解决网络传输中服务器端数据处理的延迟而产生的。它是通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能.它消除了外部存储器复制和文本交换操作,因而能腾出总线空间和CPU 周期用于改进应用系统性能. 通用的做法需由系统先对传入的信息进行分析与标记,然后再存储到正确的区域。

1510261037107313

这种技术上,Mellanox  是业界领先者。它通过 Bypass Kenerl 和 Protocol Offload 的实现,提供高带宽、低CPU占用和低延迟。目前,该公司在 Ceph 中实现了 XioMessager,使得Ceph 消息不走 TCP 而走 RDMA,从而得以提高集群性能,该实现在 Ceph Hammer 版本中提供。

更多信息,可以参考:

http://www.mellanox.com/related-docs/solutions/ppt_ceph_mellanox_ceph_day.pdf

http://ir.mellanox.com/releasedetail.cfm?ReleaseID=919461

What is RDMA?

RDMA 百度百科

4. 使用更好的软件 – Intel SPDK 相关技术

4.1 Mid-Tier Cache 方案

该方案在客户端应用和 Ceph 集群之间添加一个缓存层,使得客户端的访问性能得以提高。该层的特点:

  • 对 Ceph 客户端提供 iSCSI/NVMF/NFS 等协议支持;
  • 使用两个或者多个节点提高可靠性;
  • 添加了Cache,提高访问速度
  • 使用 write log 保证多节点之间数据一致性
  • 使用 RBD 连接后端Ceph集群
  • 151026103710736
  • 4.2 使用 Intel DPDK 和 UNS 技术

  • 151026103710737
  •     Intel 使用该技术,在用户空间(user space)实现了全 DPDK 网卡及驱动、TCP/IP协议栈(UNS)、 iSCSI Target,以及 NVMe 驱动,来提高Ceph的 iSCSI 访问性能。好处:
    • 与 Linux*-IO Target (LIO) 相比,其 CPU overhead 仅为 1/7。
    • 用户空间的 NVMe 驱动比内核空间的 VNMe 驱动的 CPU 占用少 90%

    该方案的一大特点是使用用户态网卡,为了避免和内核态的网卡冲突,在实际配置中,可以通过 SRIOV 技术,将物理网卡虚拟出多个虚拟网卡,在分配给应用比如OSD。通过完整地使用用户态技术,避免了对内核版本的依赖。

    目前,Intel 提供 Intel DPDK、UNS 、优化后的 Storage 栈作为参考性方案,使用的话需要和 Intel 签订使用协议。用户态NVMe驱动已经开源。

  • 4.3  CPU 数据存放加速 – ISA-L 技术

    该代码库(code libaray)使用 Intel E5-2600/2400 和 Atom C2000 product family CPU 的新指令集来实现相应算法,最大化地利用CPU,大大提高了数据存取速度,但是,目前只支持单核 X64 志强和 Atom CPU。在下面的例子中,EC 速度得到几十倍提高,总体成本减少了百分之25到30.

  • 151026103710738
  • 5. 使用系统的工具和方法 – Ceph 性能测试和调优工具汇总

    本次会议上,还发布了若干Ceph 性能测试和调优工具。

    5.1 Intel CeTune

    Intel的该工具可以用来部署、测试、分析和调优(deploy, benchmark, analyze and tuning)Ceph 集群,目前它已经被开源,代码 在这里。主要功能包括:

    • 用户可以对 CeTune 进行配置,使用其 WebUI
    • 部署模块:使用 CeTune Cli 或者 GUI 部署 Ceph
    • 性能测试模块:支持 qemurbd, fiorbd, cosbench 等做性能测试
    • 分析模块:iostat, sar, interrupt, performance counter 等分析工具
    • 报告视图:支持配置下载、图标视图

    5.2 常见的性能测试和调优工具

    Ceph 软件栈(可能的性能故障点和调优点):

  • 151026103710739

可视性性能相关工具汇总:

Benchmarking 工具汇总:

调优工具汇总:

6. 综合评价

上面的几种方法,与传统的性能优化方法相比,部分具有其创新性,其中,

  • 更好的硬件,包括SSD和网络设备,自然能带来更好的性能,但是成本也相应增加,而且带来的性能优化幅度具有不一致性,因此,需要在应用场景、成本、优化效果之间做综合权衡;
  • 更好的软件,目前大都还没有开源,而且大都还处于测试状态,离在生产环境中使用尚有距离,而且都和 Intel 的硬件紧密绑定;
  • 更全面的方法,则是广大 Ceph 专业人员需要认真学习、使用到的,在平时的使用中能够更高效的定位性能问题并找到解决方法;
  • Intel 在 Ceph 上的投入非常大,客户如果有Ceph集群性能问题,还可以把相关数据发给他们,他们会提供相应建议。

注:以上所有内容皆来自于本次会议上展示的资料以及会后发送的资料。如有内容不合适在本文发布,请与本人联系。再次感谢 Intel 和 RedHat 举办本次会议。

CentOS 7.1 上安装分布式存储系统 Ceph  http://www.linuxidc.com/Linux/2015-08/120990.htm

Ceph环境配置文档 PDF http://www.linuxidc.com/Linux/2013-05/85212.htm

CentOS 6.3上部署Ceph http://www.linuxidc.com/Linux/2013-05/85213.htm

Ceph的安装过程 http://www.linuxidc.com/Linux/2013-05/85210.htm

HOWTO Install Ceph On FC12, FC上安装Ceph分布式文件系统 http://www.linuxidc.com/Linux/2013-05/85209.htm

Ceph 文件系统安装 http://www.linuxidc.com/Linux/2013-05/85208.htm

CentOS 6.2 64位上安装Ceph 0.47.2 http://www.linuxidc.com/Linux/2013-05/85206.htm

Ubuntu 12.04 Ceph分布式文件系统 http://www.linuxidc.com/Linux/2013-04/82588.htm

Fedora 14上安装 Ceph 0.24 http://www.linuxidc.com/Linux/2011-01/31580.htm

Ceph 的详细介绍请点这里
Ceph 的下载地址请点这里

本文永久更新链接地址http://www.linuxidc.com/Linux/2015-10/124526.htm

(转) flash卡的擦写问题

  • 可用性
  •   本身自保护:存储模块之间有类似Raid5+hotspare保护,如果有有存储模块损坏,hotspare进行顶替。如果再坏一个模块,整块卡会置成readonly,将卡保护起来。并且所有过程都有日志输出,我们可以监控起来。
  •   擦写次数:MLC类型,每个block 10000次擦写。数据修改,是将需要修改的block的数据先读取到内存中,修改完成后,通过一个均衡算法,将数据写回到写入寿命相对较小的block。所以不会存在某些block损坏的情况,要坏是整个卡同时坏。

按照这个算法,一块400G的flash卡,需要写入400*10000G,即4PB数据才会整体写坏。我们测算过,按照淘宝双11一天的写入量,每天都这样写入,要写7年时间。淘宝用了5年这款产品,从来没有出现自然寿命损坏的问题。

 

监控软件: 驱动自带监控的,  现在卡 已经写了多少次了,还剩下多少寿命