2009/02/03

인텔 Core 2 Duo CPU 결함

vaio sz56ln을 구입한지 꼭 1년 넘었습니다.

vendor_id    : GenuineIntel
cpu family    : 6
model        : 15
stepping    : 11
flags        : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm nx lm lahf_lm
cpu MHz        : 2194.365
model name    : Intel(R) Core(TM)2 Duo CPU     T7500  @ 2.20GHz

그런데, 갑자기 mpstat에서 cpu가 하나 안나오더군요.
참고로 오픈 솔라리스를 사용하고 있습니다.

$ mpstat 1
CPU minf mjf xcal  intr ithr  csw icsw migr smtx  srw syscl  usr sys  wt idl
  0  297   0    3   461  256 1091  195   11   17    0 19433   15   9   0  76
  0   24   0    0   383  183  312    9    0    0    0 11447    5   4   0  91
  0    0   0    1   424  224  549   98    0    0    0 17563   12   5   0  83
  0    0   0    1   400  198  408   26    0    0    0 14405    7   4   0  89
  0    0   0    1   399  199  390   63    0    0    0  8293    7   5   0  88
 
cpu 컬럼에 0,1이 번갈아 찍혀야 하는데 어찌된 일인지 0번만 계속 찍히는 군요...
psrinfo 로 cpu 상태를 확인해보고 싶어졌습니다.

$ psrinfo -v
Status of virtual processor 0 as of: 02/03/2009 11:38:00
  on-line since 02/03/2009 11:18:59.
  The i386 processor operates at 2200 MHz,
    and has an i387 compatible floating point processor.
Status of virtual processor 1 as of: 02/03/2009 11:38:00
  faulted since 02/03/2009 11:19:43.
  The i386 processor operates at 2200 MHz,
    and has an i387 compatible floating point processor.


헉 ! cpu의 두번째 코어(1번코어)에 장애가 났다고 되어 있습니다.
아니 우예 이런 일이....
솔라리스에 들어있는 장애 관리 툴이 생각이 났습니다.
장애 발생시 자세한 정보를 기록해놓는 툴입니다.

$ fmdump
TIME                 UUID                                 SUNW-MSG-ID
Jan 10 15:12:12.7637 29741a56-c24d-4279-d1ca-a27f0b5244d0 ZFS-8000-D3
Feb 03 11:19:43.3373 178eb5f4-32b5-c164-950e-d89ecd92725a INTEL-8000-1J
Feb 03 11:19:43.5471 2c436e7a-a2ff-e2ca-f0d0-c64b2ed5dc39 INTEL-8000-1J

동일한 INTEL cpu 장애가 있었습니다. 구체적인 내용을 알고 싶었습니다.

$ fmdump -Ve -u 178eb5f4-32b5-c164-950e-d89ecd92725a
TIME                           CLASS
Feb 03 2009 11:15:41.729047265 ereport.cpu.intel.internal_timer
nvlist version: 0
    class = ereport.cpu.intel.internal_timer
    ena = 0x11b7022c15402001
    detector = (embedded nvlist)
    nvlist version: 0
        version = 0x0
        scheme = hc
        hc-list = (array of embedded nvlists)
        (start hc-list[0])
        nvlist version: 0
            hc-name = motherboard
            hc-id = 0
        (end hc-list[0])
        (start hc-list[1])
        nvlist version: 0
            hc-name = chip
            hc-id = 0
        (end hc-list[1])
        (start hc-list[2])
        nvlist version: 0
            hc-name = core
            hc-id = 1
        (end hc-list[2])
        (start hc-list[3])
        nvlist version: 0
            hc-name = strand
            hc-id = 0
        (end hc-list[3])

    (end detector)

    disp = processor_context_corrupt,return_ip_invalid,unconstrained
    IA32_MCG_STATUS = 0x4
    machine_check_in_progress = 1
    privileged = 0
    bank_number = 0x5
    bank_msr_offset = 0x414
    IA32_MCi_STATUS = 0xb200221010040400
    overflow = 0
    error_uncorrected = 1
    error_enabled = 1
    processor_context_corrupt = 1
    error_code = 0x400
    model_specific_error_code = 0x1004
    threshold_based_error_status = No tracking
    __ttl = 0x1
    __tod = 0x4987a8cd 0x2b7460e1

코어 내부 타이머 문제라고 하는 것 같군요. 어쨌든 수정할 수 없는 에러가 하나있다고 나오는 군요.
에러 코드 0x400, 모델 관련 에러 코드 0x1004랍니다
음... http://www.sun.com/msg 에 가서 메세지 id를 넣어봤습니다. http://www.sun.com/msg/INTEL-8000-1J


Major fault 급이군요.. 솔라리스가 오프라인을 시도할 거라고 되어 있군요. 성능이 줄거라고도
되어 있습니다.

해당 CPU를 교체하라고 되어 있네요.. ㅡ.ㅡ;

랩탑이 죽은 건 안타깝지만, 말로만 듣던 솔라리스의 '자가 예측 진단 기능과 장애 관리 기능'을  제눈으로
보고야 말았네요. 기능은 환상이기잠 자주 보고 싶은 기능은 아니군요.ㅡ.ㅡ;

서비스 센터를 가기로 결정했습니다. 문득, 장애난 cpu를 수리했다고 치고 바꿨을 경우 처럼 장애(faulty)로  처리되어 있는 코어를 수리된 것으로 변경하면 어떨까 생각이 들었습니다.

다음과 같이 실행을 해봤습니다.

#fmadm faulty
--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Feb 03 11:19:43 178eb5f4-32b5-c164-950e-d89ecd92725a  INTEL-8000-1J  Major   

Fault class : fault.cpu.intel.internal
Affects     : cpu:///cpuid=1
                  faulted but still in service
FRU         : hc://:product-id=VGN-SZ56LN_B:chassis-id=28205682-7001541:server-id=vaio-bhkim/motherboard=0/chip=0
                  faulty

Description : An internal error has been encountered on this cpu.  Refer to
              http://sun.com/msg/INTEL-8000-1J for more information.

Response    : The system will attempt to offline this cpu to remove it from
              service.

Impact      : Performance of this system may be affected.

Action      : Schedule a repair procedure to replace the affected CPU.  Use
              'fmadm faulty' to identify the module.

--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Jan 10 15:12:12 29741a56-c24d-4279-d1ca-a27f0b5244d0  ZFS-8000-D3    Major   

Fault class : fault.fs.zfs.device

Description : A ZFS device failed.  Refer to http://sun.com/msg/ZFS-8000-D3 for
              more information.

Response    : No automated response will occur.

Impact      : Fault tolerance of the pool may be compromised.

Action      : Run 'zpool status -x' and replace the bad device.

--------------- ------------------------------------  -------------- ---------
TIME            EVENT-ID                              MSG-ID         SEVERITY
--------------- ------------------------------------  -------------- ---------
Feb 03 11:19:43 2c436e7a-a2ff-e2ca-f0d0-c64b2ed5dc39  INTEL-8000-1J  Major   

Fault class : fault.cpu.intel.internal
Affects     : cpu:///cpuid=0
                  faulted and taken out of service
FRU         : hc://:product-id=VGN-SZ56LN_B:chassis-id=28205682-7001541:server-id=vaio-bhkim/motherboard=0/chip=0
                  faulty

Description : An internal error has been encountered on this cpu.  Refer to
              http://sun.com/msg/INTEL-8000-1J for more information.

Response    : The system will attempt to offline this cpu to remove it from
              service.

Impact      : Performance of this system may be affected.

Action      : Schedule a repair procedure to replace the affected CPU.  Use
              'fmadm faulty' to identify the module.

'장애' 기록 자체를 없앨 수 있나 확인을 해봤습니다.

#fmadm reset hc://:product-id=VGN-SZ56LN_B:chassis-id=28205682-7001541:server-id=vaio-bhkim/motherboard=0/chip=0
fmadm: failed to reset module chip=0: specified module is not loaded in fault manager

안되는 군요. ㅡ.ㅡ;

#fmadm repaired hc://:product-id=VGN-SZ56LN_B:chassis-id=28205682-7001541:server-id=vaio-bhkim/motherboard=0/chip=0
fmadm: recorded repair to of hc://:product-id=VGN-SZ56LN_B:chassis-id=28205682-7001541:server-id=vaio-bhkim/motherboard=0/chip=0

'수리됨'으로 마킹을 시도해봤습니다. 그랬더니, 다음처럼 나오는 군요... ㅡ.ㅡ;

$ psrinfo -v
Status of virtual processor 0 as of: 02/03/2009 16:17:36
  on-line since 02/03/2009 16:17:32.
  The i386 processor operates at 2200 MHz,
    and has an i387 compatible floating point processor.
Status of virtual processor 1 as of: 02/03/2009 16:17:36
  on-line since 02/03/2009 16:14:03.
  The i386 processor operates at 2200 MHz,
    and has an i387 compatible floating point processor.


둘 다 온라인으로 나오는 군요.....  이런....

맘이 불안해집니다. 장애난 CPU를 다시 재마킹해서 사용하면
문제가 없을까...

#fmstat 1

로 실시간 상황을 상당히 지켜보고 있습니다만, 아직은 문제가 없군요.

음... 매우 고민되는 군요. 서비스 센터를 가야하나 말아야 하나...



댓글 없음: