Differences between revisions 29 and 33 (spanning 4 versions)

Driftslogg for Frikanalen

Her føres større endringer relatert til drift av systemet i omvendt kronologisk rekkefølge.

Logg

2018-03-05

Petter oppdaterte broch.frikanalen.no med alle pakkene som lå på vent fra Debian. Installerte etckeeper før han oppgraderte, slik at endringer i /etc/ er tilgjengelig i git.

2017-12-05

Petter partisjonerte den nye SSD-disken (sfdisk -d /dev/sdad|sfdisk /dev/sdae) og la partisjon 5 inn i RAID1-settet som inneholder operativsystemet utenom /boot/ (mdadm --add /dev/md0 /dev/sdae5). Petter oppdaget at /boot/ ikke var RAID1, så ha kopierte ut filsystemet og opprettet et RAID1-sett bestående av partisjon 1 på de to SSD-diskene. Etter endringen ble 'update-grub' brukt for å registrere nytt device.

2017-12-04

Ola hentet defekt SSD-disk fra Petter og kom senere innom med ny SSD-disk som ble satt inn i file01 før maskinen ble bootet (alt-ctrl-del). Første reboot spontanrebootet etter at Linux-kjernen var igang med å starte. Hverken Ola eller Petter fikk med seg hva som skjedde, men andre boot fungerte som den skulle.

2017-11-20

Som avtalt etter utviklersamling dagen før, identifiserte Petter defekt OS-disk på file01 og nappet ut disken. Høyre disk av de to små OS-diskene bak ble fjernet. Det er en Kingston SATA SSD disk merket SUV400S37/120G 50026B7671035341. Under arbeidet la Petter merke til at en av datadiskene også rapporterte feil i dmesg. Dette ble ikke undersøkt nærmere.

2017-11-03

Petter byttet disk i skuff 14 i nedre PowerVault-hylle koblet til simula. Defekt disk Seagate Barracuda 2000 GB, Modell ST2000DM001, SN Z1E6DXWN, WWN 5000C50065873717 erstattet med Western Digital Modell WD2002FYPS-01U1B0 SN WCAVY0503393 WWN 50014EE203118A42. Fire ubrukte disker igjen.

Ola og Tore forsøker reboot av file01, som ikke finner noe å boote fra og nekter å starte operativsystem.

2017-10-22

Rune oppgraderte Caspar-pc med 250gb ssd-disk. 10 gb ekstra ram er satt inn i maskinen.
Oppdaterte medlemslista på hjemmesiden.
David jobber med å installere encoder på Caspar-Pc.
Tore jobber med koordinering i forbindelse med å flytte filer fra gammel til ny filserver.
Ola skriver tekst "om kanalen" til hjemmesiden.
Odin jobber med https på frikanalen.no.
Petter jobber med DNS.
Petter rensket opp i Devian på playouten.

Nettverksoversikt over lokalnettverket:

192.168.3.1, simula.gunkies.org, simula
192.168.3.7, obe.frikanalen.no, obe
192.168.3.8, borch.frikanalen.no, borch
192.168.3.9, caspar.frikanalen.no, caspar
192.168.3.10, obehd.frikanalen.no, obehd
192.168.3.59, file01.frikanalen.no, file01

2017-10-02

Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.

2017-05-29

Petter receive a box of disks from Ola, and insert one of them in the slow previously held by /dev/sdc on file01. It is a Western Digital WD2002FYPS-02W380 T TB disk with S/N WCAVY5484097, WWN 50014EE204F8523A.

2017-05-24

Tore discovers a disk has failed over to a hot spare on file01, uses sudo ledctl locate=/dev/sdc to identify it.
Tore contacts Petter on IRC and report that /dev/sdc on the new storage server is having problems and should be blinking red. Petter have a look in the machine room, and find a disk blinking as predicted. It is pulled out. It is a Wester Digital WD2002FYPS-01U1B0 2 TB disk with S/N WCAVY0503173, WWN 50014EE20311A302 dated 2009-07-19.
While in the machine room Petter notice disk in slot 8 in the lower shelf of the old storage server is also blinking red.
Tore: The issue with simula is known, but I don't want to tempt fate by touching that crappy RAID controller any more than absolutely necessary. With sdc now out of the way until monday, sds has been promoted to a full member of the RAID (using sudo zpool detach file01-zpool0 sdc, in accordance with Oracle documentation) and it is no longer marked as DEGRADED.

2017-05-02

* Power outage in the USIT machine room where Frikanalen keep its server installation. The entire room was without power. The initial power outage started 09:45 and the UPS(es) ran out of power 15-20 minutes later. The diesel power generator failed to start, and shortly after 10:00 all power was out. Petter noticed a while later and tried to call Ola, David, Tore and Benjamin. When things started to recover around 11:30, he notified IRC. As NUUG is located in the same room, email to frikanalen@nuug.no was down too.

2017-03-07

- Machine named filserver installed in rack by Marius Halden and Ola Tellesbø

- First 20 disks installed in machine - Basic Debian OS installed by David Noble, connected to internet, fail2ban installed. Tested booting.

- operations.log created for keeping a local log of things done with the machine

- Granted ssh and sudo access to toresbe and halden; based on ssh pubkeys found on github.org

- Granted non-root ssh access to pere and halden; again based on ssh pubkeys found on github.org

- Confirmed working management subsystem using ipmitool - Confirmed SATA hotplug works as intended

- Tested that rcs works correctly on operations.log

TODO

- Configure BMC. root@file01:~# ipmitool lan print shows current configuration. Ethernet is connected to borch eth1; but this is probably not configured either.

- recommended by pere: Test online remove of disk. Test remove of one of the power sources.

2017-02-21

Checksum errors på /dev/sdu. OS-devicet /dev/sdu blir sport tilbake av Petter til RAID-device 33:4 vha. 'ls -l /dev/disk/by-path/|grep sdu', 'megaclisas-status |grep u20' og til slutt søk etter 'Z1E6BMRQST2000DM001-1CH164 i "megacli -PDList -aALL'.

Vi prøvde først å fastslå hvorvidt problemet hadde vært midlertidig ved å kjøre en scrub (checksumming av all data); ytterligere korrupsjon ble påvist; disken erklært upålitelig. Disk ble fjernet fra kontrolleren av Tore vha. 'megacli -pdoffline -physdrv[33:4] -a0', 'megacli -pdmarkmissing -physdrv[33:4] -a0' og 'megacli -pdprprmv -physdrv[33:4] -a0' kjørt (usikkert om noen av disse er unødvendige?).

Petter bytter disk, og ny disk satt inn av Tore med 'megacli -CfgLdAdd -r0 [33:4] -a0' og 'zpool replace -f tank sdu'.

2017-02-20

Petter kjører 'apt-get upgrade' på simula og oppgraderer alle Debian pakker og restarter tjenester som trenger det. Det trengs reboot for å aktivere ny kjerne.

2017-02-15

Petter forsøker å aktivere den tredje nye disken som fortsatt var markert som FAILED av RAID-kontrolleren, ved å kjøre 'zpool offline tank 13666938400593999646', 'megacli -PDOffline -PhysDrv[33:7] -a0', 'megacli -PDOnline -PhysDrv[33:7] -a0' og til slutt 'zpool replace -f tank 13666938400593999646 sdad' etter å ha funnet riktig device-navn med dmesg. Resilver skal ta 11 timer. Uvisst hvorfor, så starter en resilver av de to andre nye diskene samtidig.

2017-02-13

Petter kjører 'zpool replace -f tank 16694028023172514029 sdx' for å ta inn den andre av de nye diskene.

2017-02-12

Petter kjører 'megacli -CfgLdAdd -r0 [33:12] -a0' og 'megacli -CfgLdAdd -r0 [33:5] -a0' for å gjøre diskene synlige for Linux, og 'zpool replace -f tank sdw' for å ta inn en av de nye diskene i ZFS. Resilver går galt, og vi oppdager at vi har mistet en fil (/tank/new_media/media/625464/broadcast/God sondag - tv_gs_140 airdate 2015_10_25.avi).

2017-02-10

Petter ga David Noble sudo-tilgang på simula for å kunne aktivere erstatningsdiskene.

2017-02-08

Ola og Petter byttet to disker i MD1000-hyllene til Frikanalen, disk 7 og 12 i nedre diskhylle blinket orange og ble byttet med to disker Ola hadde fått fra Tore.

grupper/video/frikanalen/driftslogg (last edited 2019-12-09 16:29:58 by PetterReinholdtsen)

-  ⇤ ← Revision 29 as of 2017-11-03 20:10:26 → 
  Size: 6774
  Editor: PetterReinholdtsen
  Comment: Nevn problem med file01.
+   ← Revision 33 as of 2018-03-05 07:20:04 → ⇥
  Size: 8162
  Editor: PetterReinholdtsen
  Comment: Oppgradert borch.
-Deletions are marked like this.
+Additions are marked like this.
 Line 5:
+=== 2018-03-05 ===

Petter oppdaterte broch.frikanalen.no med alle pakkene som lå på vent fra Debian.  Installerte etckeeper før han oppgraderte, slik at endringer i /etc/ er tilgjengelig i git.

=== 2017-12-05 ===

Petter partisjonerte den nye SSD-disken (sfdisk -d /dev/sdad|sfdisk /dev/sdae) og la partisjon 5 inn i RAID1-settet som inneholder operativsystemet utenom /boot/ (mdadm --add /dev/md0 /dev/sdae5).  Petter oppdaget at /boot/ ikke var RAID1, så ha kopierte ut filsystemet og opprettet et RAID1-sett bestående av partisjon 1 på de to SSD-diskene.  Etter endringen ble 'update-grub' brukt for å registrere nytt device.

=== 2017-12-04 ===

Ola hentet defekt SSD-disk fra Petter og kom senere innom med ny SSD-disk som ble satt inn i file01 før maskinen ble bootet (alt-ctrl-del).  Første reboot spontanrebootet etter at Linux-kjernen var igang med å starte.  Hverken Ola eller Petter fikk med seg hva som skjedde, men andre boot fungerte som den skulle.

=== 2017-11-20 ===

Som avtalt etter utviklersamling dagen før, identifiserte Petter defekt OS-disk på file01 og nappet ut disken.    Høyre disk av de to små OS-diskene bak ble fjernet.  Det er en Kingston SATA SSD disk merket SUV400S37/120G 50026B7671035341.  Under arbeidet la Petter merke til at en av datadiskene også rapporterte feil i dmesg.  Dette ble ikke undersøkt nærmere.

=== 2017-11-03 ===

Petter byttet disk i skuff 14 i nedre PowerVault-hylle koblet til simula.  Defekt disk Seagate Barracuda 2000 GB, Modell ST2000DM001, SN Z1E6DXWN, WWN 5000C50065873717 erstattet med Western Digital Modell WD2002FYPS-01U1B0 SN WCAVY0503393 WWN 50014EE203118A42.  Fire ubrukte disker igjen.

Ola og Tore forsøker reboot av file01, som ikke finner noe å boote fra og nekter å starte operativsystem.
-Line 24:
+Line 47:
-=== 2017-11-03 ===
+=== 2017-10-02 ===
-Line 26:
+Line 49:
-Petter byttet disk i skuff 14 i nedre PowerVault-hylle koblet til simula.  Defekt disk Seagate Barracuda 2000 GB, Modell ST2000DM001, SN Z1E6DXWN, WWN 5000C50065873717 erstattet med Western Digital Modell WD2002FYPS-01U1B0 SN WCAVY0503393 WWN 50014EE203118A42.  Fire ubrukte disker igjen.

Ola og Tore forsøker reboot av file01, som ikke finner noe å boote fra og nekter å starte operativsystem.

=== 2017-10-02 ===