Author: mac

  • ANA日本全日空航空公司Oracle 4节点RAC集群性能问题所引发的航空系统故障

        ANA全日空是日本最大的航空公司,亦是世界上少有的五星级航空公司之一。全日空的主要机场位于成田国际机场、东京国际机场、关西国际机场及大坂国际机场。     在3月22日上午8:20开始由于系统故障,羽田、大阪以及福冈等地区的机场出现日本国内航线无法办理登机手续的问题。由此,一部分航线被迫取消,大量航班延误。     在ANA的记者会上已经发布了相关事故原因。因为全日本航空的系统故障,导致了刚刚结束节假日连休的机场陷入了混乱状态。 在当日上午11点半左右,系统修复完成。然后办理搭乘手续的业务也终于得以恢复。对此,全日空航空公司表示:“非常抱歉,给大家添麻烦了。” 根据全日本航空给出的数据,受到系统故障影响,羽田机场的航线总计取消116条航班。大约对一万五千人造成影响。     全日空在上个月24号也同样出现了类似的问题,导致全国的机场约30分钟无法办理搭乘手续。   具消息人士指出本次的故障是由于对控制4节点RAC的SLB负载均衡器做了不恰当的操作所致。而并非有网友指出的是ORACLE RAC心跳网络的交换器出现了故障而出现了ORA-29740错误。   有日本本土的消息人士指出此次故障时由于ANA的核心业务系统,一个4节点的ORACLE RAC中;由于对控制4节点RAC的SLB负载均衡器做了不恰当的操作所致,导致其中一个节点出现严重的性能问题。运维工程师在接到系统告警和投诉后进入了慌乱状态,按照既定的故障诊断手册来修复也完全修复不好。于是到处打电话问对应方法,得到的回答也都与手册相同。   对于Oracle数据库你是否有这样一本故障诊断手册? 还没有? 下载 《ORACLE DB数据库常见问题解决及诊断技巧集锦-ORACLE DBA故障修复必备手册》: http://t.cn/Rq4BzBY   日本本土的网友对此次全日空的系统故障吐槽说:   这时,像我这样的系统工程师都会发出这样的感叹:”哎呀,出现这样的故障的话,现场估计乱得不得了吧?“(我想现场如今就像祭典一样,,系统工程师们要三天不眠不休进行修复工作。而且就算完成了修复,之后还有一系列的工作……) 实际上,比起影响,我更在意幕后的一些隐情。这时说起来可能有点不太准确,但我想,如今在系统故障现场还是一派繁忙景象吧。系统工程师倒是要多少有多少,但我想还没有哪个项目能像这次大故障一样如此繁忙吧。(受到此次影响的客人们也感到非常麻烦吧。) 现场状况用”祭典盛景“来形容是最好不过了。控制中心聚集了大量人员,几乎动员了公司内部所有战斗力量。再没哪次故障能汇集这么多人才了。(在此进行一系列会议,大家在白板上激烈讨论了故障过程、原因、以及修复对策。) 以往办公室都是比较安静的,但故障时,却是一片异样的繁忙盛景。经历过一次故障,系统工程师的能力可以连升很多级。由于大家目标一致,努力奋进于是就出现了这样的景象。(虽然善后要更加令人头疼……) 由此,这次的主题就是介绍系统工程师现场会遭遇的各种情况。   是否是系统供应商的人为失误!?   这次4台服务器同时终止的原因可能就是因为人为错误。 无论是硬件或者软件出现问题都不可能造成如此的故障。果然原因只可能是人为失误。报导中提到,“控制四台服务器的设备出现了故障”,可能还误操作了负载均衡器SLB。 果然无论最后是操作系统还是终止系统,最终还是人为使然。 无论对设备以及软件进行怎样的优化,也会由于人的使用方法以及使用顺序错误导致出错。并且,无论如何都需要定期维护,维护的同时也经常伴随着误操作的危险。当然,接触到系统的工作也都有一定的操作顺序,因为都会对其进行反复检查,所以基本不会有问题,但并不是不可能发生。 只要基于人来操作的话,无论如何都是会发生错误的。如果这样的失误重复多次,就会导致如这次一样的大规模的故障。 并不是我反复强调,而是系统的确是无法避免地会出现故障。 当然,我们每天也在为了不再出现这样的情况而努力着,但仅凭现在的技术水平来说,还是必须要人工操作的,所以还是必然会有类似故障发生。 我希望大家能够理解,不理解现状,却一味地抨击系统工程师“不像话”的无知评论家以及无良媒体是多么可恶。我对媒体和评论家这些人一提到就开始批判的态度也是实在没有办法,想说什么就说什么,明明自己没有一点点相关知识。 即使修复了系统故障也不会就此终止 我认为,作为全日本航空的系统供应商应该会非常头疼,希望他们好好努力啊。因为即使修复了故障,之后的善后工作也非常麻烦。 修复了基础层的系统后,应用团队就登场了。由于系统故障,需要确认的问题实在太多了:数据状态如何?现有数据是否完好?是否可以继续进行业务?等等等等。 估计至少得通宵达旦2-3天吧。之前提到过的不可思议的祭典状态还将持续。不仅是修复工作最集中的时候,其他时候系统工程师也必须时刻保持昂扬的战斗状态。 之后,就需要检讨这次故障的对策以及开始道歉了。 虽然我们都认为系统故障是不应该发生的,但还是希望大家能够理解,系统是不可能永远不发生故障的。希望大家做的不仅仅是谴责,也不要认为系统正常运行是理所当然的。但这次的故障影响波及范围实在太广泛了,这也是我们必须反省的。    

  • PRM-DUL终极Oracle数据库恢复工具

    PRM-DUL 下载地址:http://zcdn.parnassusdata.com/DUL5108.zip 诗檀软件自主开发的PRM-DUL可以脱离Oracle数据库软件实例的存在直接读取Oracle数据文件datafile中的行数据和LOB等大对象。 当你的数据库因为ORA-00600/ORA-07445或其他ORA-报错,或丢失关键的system表空间数据文件,或ASM diskgroup损坏时均可以考虑采用PRM-DUL来做恢复。PRM-DUL采用独创的DataBridge恢复技术,直接从数据文件中抽取数据后可以像DBLINK那样直接插入到新建数据库中,而无需数据落地成为DMP文件占用空间。 经过诗檀软件4年的研发改进,PRM-DUL的功能已经十分完善,且因为其采用全称GUI图形化界面的方式,对用户而言学习成本非常低,可以说从头到尾只需要点鼠标即可。支持从Oracle 7.3.4到Oracle 12c的所有版本数据库。 到目前为止已经有多大十多个国外企业级别用户购买PRM-DUL 作为其终极恢复工具,所恢复的数据超过100TB。同时也有单库超过10TB的使用例子,这得益于PRM-DUL 内置了小型嵌入式数据库,当索要恢复的ORACLE数据库很大时,PRM-DUL采用嵌入的数据库来存放找到的ORACLE 源数据,这样可以对源数据做索引和灵活的查询。 PRM-DUL软件由诗檀软件自主研发,研发团队自行研究了Oracle datafile的数据结构同时也参考了ORACLE RDBMS数据库软件的内核代码,研发团队具有基于Oracle Kernel内核代码二次开发的技术能力。 欢迎技术合作! 如果自己搞不定可以找诗檀软件专业ORACLE数据库修复团队成员帮您恢复! 诗檀软件专业数据库修复团队 服务热线 : 13764045638 QQ号:47079569 邮箱:[email protected].  

  • Oracle DUL_PRM_重建对象实验报告

    PRM-DUL抽数据   也是就只导入EASKINGDEE用户下,以”T_GL”开头的表: 有70张表被导入,但是其中也就28个表有数据,各个有数据的表的行数和dul的结果是一样的。     SQL> exec dbms_stats.GATHER_SCHEMA_STATS(OWNNAME=>’test4′); select table_name,num_rows from user_tables order by num_rows desc; 结果如下:   4.2 重建database link   SELECT ‘create ‘||DECODE(U.NAME,’PUBLIC’,’public ‘)||’database link ‘||CHR(10) ||DECODE(U.NAME,’PUBLIC’,Null, U.NAME||’.’)|| L.NAME||chr(10) ||’connect to ‘ || L.USERID || ‘ identified by ‘ ||L.PASSWORD||’ using ”’ || L.host || ”” ||chr(10)||’;’ TEXT FROM link$ L, user$…

  • Hadoop HFTP 指导

    本文固定链接:https://www.askmac.cn/archives/hadoop-hftp-guide.html 原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/Hftp.html 1介绍   HFTP 是hadoop文件系统用来让你从一个远程的hadoop HDFS集群中读取数据的组件。这个读取是通过HTTP,并且数据源是DataNodes。HFTP是一个只读的文件系统,当你试图用来写入数据或者修改文件系统状态时,会抛出异常。

  • Hadoop HDFS 配额指导

    本文固定链接:https://www.askmac.cn/archives/hadop-hdfs-quotas-guide.html 原文地址:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html 1概述   HDFS允许管理员为名称的数量进行配额限制,并且为单独的目录设置使用空间得大小。 命名限额和空间限额是独立的,但是管理员实施的时候这2者是密切配合的(www.askmac.cn)。     2.名称限额   名称限额是根目录中的目录名称文件的硬性限制。如果达到了这个限制,创建文件和目录将会失败。限额也会在重命名操作上起作用,如果重命名也满足限制条件,这个操作也将失败。即使新的配额已经让当前的目录违反了,这个设置操作任然会成功(设置并不会去校验)。一个新创建的目录不会分配配额。最大的配额是Long.Max_Value。配额强制一个目录保持为空(一个目录的数量就是其自身的配额)   在fsimage上,配额是持续性的。当启动时,如果fsimage已经违背了一个配额(也行是fsimage被偷偷的修改),每一个违反都会打印一个警告。设置或删除创建一个日志条目的配额。

  • 诗檀软件与 Solix 合作大数据项目

    诗檀软件与 Solix 合作大数据项目 中国领先的数据库服务公司,基于Apache Hadoop的平台,提供信息生命周期管理(ILM)的通用数据平台和先进分析。   2016 — Santa Clara, Calif. — Solix Technologies, Inc.,  Solix Technologies,提供Apache Hadoop 的信息生命周期管理(ILM)解决方案的领先供应商在今天宣布,中国的数据库服务公司诗檀数据已经选择了Solix的大数据套件,基于Apache Hadoop进行交付归档,应用停用和先进分析。   Apache Hadoop是ILM的理想平台,因为它为企业级数据提供了高度可扩展,低成本,大容量存储。诗檀数据将为客户提供Solix的大数据套件,以提高应用程序的性能,降低成本,并满足管理,风险和合规性要求。Solix的大数据套件作为企业共同的数据平台,对大型数据集的结构化和非结构化数据进行高级分析。   “Apache Hadoop作为一个通用数据平台,是先进企业分析和ILM应用的理想工具。” John Ottman,Solix Technologies, Inc执行主席说道。“我们非常期待与诗檀数据在大中国区市场的合作。”   Solix是目前唯一一家为所有企业数据提供全面的信息生命周期管理(ILM)解决方案的供应商。我们很幸运在中国有这样强大的合作伙伴,诗檀数据CEO Maclean Liu说道。   要了解有关Solix大数据套件的更多信息, 点击这里。   关于Solix Technologies Solix Technologies, Inc.,提供Apache Hadoop 的信息生命周期管理(ILM)解决方案的领先供应商,通过其优化的基础设施,安全保障和先进分析,帮助企业管理自己的企业信息。 Solix Big Data Suite 是一个ILM应用解决方案架构,包括 Enterprise Archiving 和 Enterprise Data…

  • Oracle常见备份方案对应使用RMAN恢复场景

    如果自己搞不定可以找诗檀软件专业ORACLE数据库修复团队成员帮您恢复! 诗檀软件专业数据库修复团队 服务热线 : 13764045638   QQ号:47079569    邮箱:[email protected]   使用RMAN恢复场景   内容提要 当灾难发生的时候实施Restore/Recovery,可以还原生产数据库到最接近灾难发生前的一致性点。 Restore/Recover测试是备份策略很重要的一部分。当真的需要恢复的时候,确保备份可用并且能克服小毛病。如果需要恢复可以减少生产恢复的时间。   本文提供了大多数恢复场景,在灾难发生后的反应。例子的场景不是相关的具体存储。文中提供的场景基于基本的文件系统。稍微改动,就可用于ASM,裸设备,ocfs或其他类型存储。   简介   Redo Vs Rollback Rode  Logs:  重做日志被用于前滚提交和未提交的变化 Rollback:  用于undo/rollback(撤销/回滚)未提交的变化     恢复类型 在线块恢复(进程错误) Oracle数据库的PMON进程会自动执行恢复。在某个进程修改buffer时异常死掉时发生 Oracle会使用重做日志重建buffer并写入磁盘。 线程恢复 (实例错误) 也是oracle自动执行。发生在打开数据库实例崩溃的时候。 Oracle在线程上应用从上次线程检查点之后发生的所有的redo。 介质恢复. 当一个数据文件从备份中恢复的时候需要进行介质恢复,因为数据文件中的checkpoint和控制文件中的不同,也发生在离线文件没来得及做checkpoint操作和使用备份控制文件的时候。   介质恢复类型     完全介质恢复 称之为完全恢复是因为oracle应用所有的重做日志将数据库回到最近的点,代表性的是应用于数据文件或控制文件的介质损坏。 它可以恢复整个数据库也可以只恢复表空间或数据文件。   数据库完全恢复 表空间/数据文件完全恢复 数据库mount 数据库 open 所有数据文件在线 要恢复的表空间/数据文件离线 恢复整个备份…

  • 诗檀软件帮助广州某制造企业恢复ORACLE数据库

    广州某制造企业的金蝶SHR人力管理系统的后台Oracle数据库出现无法打开OPEN DATABASE的问题:   ORA-00600: internal error code, arguments: [3020], [2], [99072], [8487 [], [], [], [], [], [], [] ORA-10567: Redo is inconsistent with data block (file# 2, block# 99072 offset is 811597824 bytes) ORA-10564: tablespace SYSAUX ORA-01110: data file 2: ‘E:\APP\ADMINISTRATOR\ORADATA\ORCL\SYSAUX01.DB ORA-10560: block type ‘FIRST LEVEL BITMAP BLOCK’ 诗檀软件工程师王工基于ORACLE底层数据块至少快速修复了该SHR后台 ORACLE数据库。 金蝶 EAS 财务、SHR人力 系统后台…

  • 【MySQL学生手册】binary备份 vs 文本备份

    本文地址:https://www.askmac.cn/archives/mysql-binary-vs-text-backup.html     11.2 binary备份 vs 文本备份   当备份数据库时,你有两种备份格式可选: 二进制(binary)备份是一种对数据库中存储的内容文件的拷贝。这种拷贝实际上使得备份文件格式和MySQL在磁盘上存储的数据库文件格式保持了完全一致。因此此类数据库恢复则涉及将这些文件拷贝回它原有的位置。建立binary备份的技术包括使用文件拷贝命令(如cp或tar),mysqlhotcopy以及InnoDB Hot Backup**。 ** 需要注意的是mysqlhotcopy从MySQL 5.7及其之后就被去除了,相关功能被融合到了其企业版MySQL Enterprise Backup工具mysqlbackup中。而InnoDB Hot Backup原先是商用软件的一部分,在MySQL Enterprise Backup 3.9之后其相应工具也被融合入mysqlbackup中。 文本备份则是将数据库内容导出(dump)至文件文件中。恢复则涉及到通过处理这些文件的内容将数据返回到数据库中。生成文本备份的技术包括了使用SELECT … INTO OUTFILE 的SQL语句,mysqldump工具等。   这两种备份格式有其不同的优缺点。通常选择使用何种备份的考虑因素是对速度和便携性之间的权衡。   由于二进制备份仅是对文件进行拷贝操作,它不需要了解文件中的内部结构,因此在速度上这种备份速度会更快。然而,如果需要将这种备份传输到另一个使用不同架构的机器上,那么文件就需要更多考虑二进制的便携性。意思就是这些文件需要平台无关化才行,这样你才能直接拷贝它们,从一个MySQL服务端传输到另一个处于不同服务器上的数据库中,而且这第二个服务端需要能够没有任何问题地访问这些文件的内容。使用二进制备份方法,你还需要确保在进行备份的时候,服务端不会对在被拷贝的文件进行修改。

  • Oracle PRM-DUL Undelete Oracle record/rows

    Download PRM-DUL http://www.parnassusdata.com/en On scenarios without valid physical or logical backups, when a mistaken delete occurred in Oracle, it will be given priority to use techniques such as flashback or logminer to recover the data rows in Oracle tables in general, but in many cases even flashback or logminer could not turn the tide. For the…