Differences between revisions 18 and 19
Revision 18 as of 2017-10-02 09:36:54
Size: 5565
Comment: Dokumenter diskbytte
Revision 19 as of 2017-10-22 13:25:54
Size: 5899
Editor: OlaTellesbø
Comment:
Deletions are marked like this. Additions are marked like this.
Line 5: Line 5:
=== 2017-10-22 ===
Rune oppgraderte Caspar-pc med 250gb ssd-disk. 10 gb ekstra ram er satt inn i maskinen. David jobber med å installere encoder på Caspar-Pc. Tore jobber med koordinering i forbindelse med å flytte filer fra gammel til ny filserver. Ola skriver tekst "om kanalen" til hjemmesiden. Odin jobber med https på frikanalen.no.
Line 7: Line 9:

Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk
Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.
Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.
Line 12: Line 12:
Line 16: Line 15:

* Tore discovers a disk has failed over to a hot spare on file01, uses ''sudo ledctl locate=/dev/sdc'' to identify it. 
 * Tore discovers a disk has failed over to a hot spare on file01, uses ''sudo ledctl locate=/dev/sdc'' to identify it.
Line 26: Line 24:

Driftslogg for Frikanalen

Her føres større endringer relatert til drift av systemet i omvendt kronologisk rekkefølge.

Logg

2017-10-22

Rune oppgraderte Caspar-pc med 250gb ssd-disk. 10 gb ekstra ram er satt inn i maskinen. David jobber med å installere encoder på Caspar-Pc. Tore jobber med koordinering i forbindelse med å flytte filer fra gammel til ny filserver. Ola skriver tekst "om kanalen" til hjemmesiden. Odin jobber med https på frikanalen.no.

2017-10-02

Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.

2017-05-29

  • Petter receive a box of disks from Ola, and insert one of them in the slow previously held by /dev/sdc on file01. It is a Western Digital WD2002FYPS-02W380 T TB disk with S/N WCAVY5484097, WWN 50014EE204F8523A.

2017-05-24

  • Tore discovers a disk has failed over to a hot spare on file01, uses sudo ledctl locate=/dev/sdc to identify it.

  • Tore contacts Petter on IRC and report that /dev/sdc on the new storage server is having problems and should be blinking red. Petter have a look in the machine room, and find a disk blinking as predicted. It is pulled out. It is a Wester Digital WD2002FYPS-01U1B0 2 TB disk with S/N WCAVY0503173, WWN 50014EE20311A302 dated 2009-07-19.
  • While in the machine room Petter notice disk in slot 8 in the lower shelf of the old storage server is also blinking red.
  • Tore: The issue with simula is known, but I don't want to tempt fate by touching that crappy RAID controller any more than absolutely necessary. With sdc now out of the way until monday, sds has been promoted to a full member of the RAID (using sudo zpool detach file01-zpool0 sdc, in accordance with Oracle documentation) and it is no longer marked as DEGRADED.

2017-05-02

* Power outage in the USIT machine room where Frikanalen keep its server installation. The entire room was without power. The initial power outage started 09:45 and the UPS(es) ran out of power 15-20 minutes later. The diesel power generator failed to start, and shortly after 10:00 all power was out. Petter noticed a while later and tried to call Ola, David, Tore and Benjamin. When things started to recover around 11:30, he notified IRC. As NUUG is located in the same room, email to frikanalen@nuug.no was down too.

2017-03-07

- Machine named filserver installed in rack by Marius Halden and Ola Tellesbø

- First 20 disks installed in machine - Basic Debian OS installed by David Noble, connected to internet, fail2ban installed. Tested booting.

- operations.log created for keeping a local log of things done with the machine

- Granted ssh and sudo access to toresbe and halden; based on ssh pubkeys found on github.org

- Granted non-root ssh access to pere and halden; again based on ssh pubkeys found on github.org

- Confirmed working management subsystem using ipmitool - Confirmed SATA hotplug works as intended

- Tested that rcs works correctly on operations.log

TODO

- Configure BMC. root@file01:~# ipmitool lan print shows current configuration. Ethernet is connected to borch eth1; but this is probably not configured either.

- recommended by pere: Test online remove of disk. Test remove of one of the power sources.

2017-02-21

Checksum errors på /dev/sdu. OS-devicet /dev/sdu blir sport tilbake av Petter til RAID-device 33:4 vha. 'ls -l /dev/disk/by-path/|grep sdu', 'megaclisas-status |grep u20' og til slutt søk etter 'Z1E6BMRQST2000DM001-1CH164 i "megacli -PDList -aALL'.

Vi prøvde først å fastslå hvorvidt problemet hadde vært midlertidig ved å kjøre en scrub (checksumming av all data); ytterligere korrupsjon ble påvist; disken erklært upålitelig. Disk ble fjernet fra kontrolleren av Tore vha. 'megacli -pdoffline -physdrv[33:4] -a0', 'megacli -pdmarkmissing -physdrv[33:4] -a0' og 'megacli -pdprprmv -physdrv[33:4] -a0' kjørt (usikkert om noen av disse er unødvendige?).

Petter bytter disk, og ny disk satt inn av Tore med 'megacli -CfgLdAdd -r0 [33:4] -a0' og 'zpool replace -f tank sdu'.

2017-02-20

Petter kjører 'apt-get upgrade' på simula og oppgraderer alle Debian pakker og restarter tjenester som trenger det. Det trengs reboot for å aktivere ny kjerne.

2017-02-15

Petter forsøker å aktivere den tredje nye disken som fortsatt var markert som FAILED av RAID-kontrolleren, ved å kjøre 'zpool offline tank 13666938400593999646', 'megacli -PDOffline -PhysDrv[33:7] -a0', 'megacli -PDOnline -PhysDrv[33:7] -a0' og til slutt 'zpool replace -f tank 13666938400593999646 sdad' etter å ha funnet riktig device-navn med dmesg. Resilver skal ta 11 timer. Uvisst hvorfor, så starter en resilver av de to andre nye diskene samtidig.

2017-02-13

Petter kjører 'zpool replace -f tank 16694028023172514029 sdx' for å ta inn den andre av de nye diskene.

2017-02-12

Petter kjører 'megacli -CfgLdAdd -r0 [33:12] -a0' og 'megacli -CfgLdAdd -r0 [33:5] -a0' for å gjøre diskene synlige for Linux, og 'zpool replace -f tank sdw' for å ta inn en av de nye diskene i ZFS. Resilver går galt, og vi oppdager at vi har mistet en fil (/tank/new_media/media/625464/broadcast/God sondag - tv_gs_140 airdate 2015_10_25.avi).

2017-02-10

Petter ga David Noble sudo-tilgang på simula for å kunne aktivere erstatningsdiskene.

2017-02-08

Ola og Petter byttet to disker i MD1000-hyllene til Frikanalen, disk 7 og 12 i nedre diskhylle blinket orange og ble byttet med to disker Ola hadde fått fra Tore.

grupper/video/frikanalen/driftslogg (last edited 2019-12-09 16:29:58 by PetterReinholdtsen)