Differences between revisions 45 and 46
Revision 45 as of 2018-10-04 09:59:52
Size: 11164
Comment: Nevn at diskhyllene er hentet.
Revision 46 as of 2018-12-01 13:56:49
Size: 11339
Comment: Nevn at disk er nappet ut.
Deletions are marked like this. Additions are marked like this.
Line 5: Line 5:

=== 2018-12-01 ===

Petter napper ut fra file01 en Seagate-disk med serienummer Z1E2PQC8 på instruks fra Tore, som hadde lyst opp alle fungerende disker i ZFS-volumene.

Driftslogg for Frikanalen

Her føres større endringer relatert til drift av systemet i omvendt kronologisk rekkefølge.

Logg

2018-12-01

Petter napper ut fra file01 en Seagate-disk med serienummer Z1E2PQC8 på instruks fra Tore, som hadde lyst opp alle fungerende disker i ZFS-volumene.

2018-10-03

Petter hentet ut de to MD1000-hyllene som tidligere var koblet til simula, slik at det nå er noen U ledig i racket.

2018-08-28

Simula sin iLO-forbindelse er flyttet fra NUUG sitt baknett til Frikanalens, ettersom vi nå har to uavhengige måter å nå baknettet på (simula og file01). Getty er satt opp på simula for seriellkonsoll. Fra file01, benytt ipmitool -I lanplus -H 192.168.3.50 -U Administrator -P (passord) sol activate for å logge på simula via LOM. Det gjenstår fremdeles å flytte file01 sin LOM til Frikanalens baknett.

2018-08-26

Avinstallert pgpool fra f.n.n ettersom tjenesten ikke var i bruk. Cubemap på simula er påvirket av en bug der reloading av tjenesten (som systemd uransakelig ser ut til å gjøre av og til på måfå) feilaktig markerer en kilde som ubrukt. Dette kan være opphavet til problemet vi har sett med svart video på frikanalen.no. Workaround gitt fra Sesse fungerer og nå kan den reloades uten problem.

Update: Sesse har sendt en patch så vi kjører Cubemap fra HEAD nå, deb-pakke versjon 1.3.2-1

2018-08-25

Monitorering av zpool på file01 er lagt til icinga på frikanalen.nuug.no, dist-upgrade av f.n.n er gjennomført.

2018-08-22

Da simula ikke kom opp etter Tores reboot, dro Petter innom maskinrommet og fikk den igang. PERC-kontrolleren klaget over problemer med diskene (for mange disker?). En disk ble nappet ut, og etter reboot kom det så ignorerbar klage fra PREC over endringer i RAID-oppsettet. Maskinen kom så opp som normalt uten monterte filsystemer fra Dell-hyllene.

2018-07-12

Tore får skippertak-ånden over seg og setter opp en delt Google-katalog som preliminært samlingssted for intern data.

Fjernet deb http://linux.dell.com/repo/community/ubuntu wheezy openmanage ettersom simula ikke er en Dell-server lenger og det ikke var noen pakker installert derfra uansett.

2018-05-21

Petter opprettet systembruker frikanalen på obehd.frikanalen.no (metainfo kopiert fra caspar.frikanalen.no) og testet om de gamle OBE-binærene fungerer på nyere Debian. Det fungerer ikke, så det må kompileres på nytt.

2018-05-12

Samling med fokus på oppsett av HD-kjede. Fullførte oppsett av CasparCG på caspar.frikanalen.no. Maskinen har en bruker 'frikanalen' som kjører CasparCG fra sitt hjemmeområde, og er installert med Ubuntu 14.04.5 LTS (support frem til april 2019) da det er støttet av CasparCG ut av boksen. CasparCG trenger X-tilgang for å starte, så bruker frikanalen autoinnlogges for å få X opp å kjøre. For å få X til å starte selv uten tilkoblet skjerm ble /etc/X11/xorg.conf opprettet med nødvendig overstyring (Option "AllowEmptyInitialConfiguration"). Ved innlogging startes CasparCG via ~frikanalen/.xsessionrc. Oppstarten var ikke stabil til å begynne med (ca. 1 av 4 feilet), men vi tror det løste seg ved å ta ut det ene SDI-kortet som sto i maskinen.

2018-03-05

Petter oppdaterte broch.frikanalen.no med alle pakkene som lå på vent fra Debian. Installerte etckeeper før han oppgraderte, slik at endringer i /etc/ er tilgjengelig i git.

2017-12-05

Petter partisjonerte den nye SSD-disken (sfdisk -d /dev/sdad|sfdisk /dev/sdae) og la partisjon 5 inn i RAID1-settet som inneholder operativsystemet utenom /boot/ (mdadm --add /dev/md0 /dev/sdae5). Petter oppdaget at /boot/ ikke var RAID1, så ha kopierte ut filsystemet og opprettet et RAID1-sett bestående av partisjon 1 på de to SSD-diskene. Etter endringen ble 'update-grub' brukt for å registrere nytt device.

2017-12-04

Ola hentet defekt SSD-disk fra Petter og kom senere innom med ny SSD-disk som ble satt inn i file01 før maskinen ble bootet (alt-ctrl-del). Første reboot spontanrebootet etter at Linux-kjernen var igang med å starte. Hverken Ola eller Petter fikk med seg hva som skjedde, men andre boot fungerte som den skulle.

2017-11-20

Som avtalt etter utviklersamling dagen før, identifiserte Petter defekt OS-disk på file01 og nappet ut disken. Høyre disk av de to små OS-diskene bak ble fjernet. Det er en Kingston SATA SSD disk merket SUV400S37/120G 50026B7671035341. Under arbeidet la Petter merke til at en av datadiskene også rapporterte feil i dmesg. Dette ble ikke undersøkt nærmere.

2017-11-03

Petter byttet disk i skuff 14 i nedre PowerVault-hylle koblet til simula. Defekt disk Seagate Barracuda 2000 GB, Modell ST2000DM001, SN Z1E6DXWN, WWN 5000C50065873717 erstattet med Western Digital Modell WD2002FYPS-01U1B0 SN WCAVY0503393 WWN 50014EE203118A42. Fire ubrukte disker igjen.

Ola og Tore forsøker reboot av file01, som ikke finner noe å boote fra og nekter å starte operativsystem.

2017-10-22

  • Rune oppgraderte Caspar-pc med 250gb ssd-disk. 10 gb ekstra ram er satt inn i maskinen.
  • Oppdaterte medlemslista på hjemmesiden.
  • David jobber med å installere encoder på Caspar-Pc.
  • Tore jobber med koordinering i forbindelse med å flytte filer fra gammel til ny filserver.
  • Ola skriver tekst "om kanalen" til hjemmesiden.
  • Odin jobber med https på frikanalen.no.
  • Petter jobber med DNS.
  • Petter rensket opp i Devian på playouten.

Nettverksoversikt over lokalnettverket:

  • 192.168.3.1, simula.gunkies.org, simula
  • 192.168.3.7, obe.frikanalen.no, obe
  • 192.168.3.8, borch.frikanalen.no, borch
  • 192.168.3.9, caspar.frikanalen.no, caspar
  • 192.168.3.10, obehd.frikanalen.no, obehd
  • 192.168.3.59, file01.frikanalen.no, file01

2017-10-02

Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.

2017-05-29

  • Petter receive a box of disks from Ola, and insert one of them in the slow previously held by /dev/sdc on file01. It is a Western Digital WD2002FYPS-02W380 T TB disk with S/N WCAVY5484097, WWN 50014EE204F8523A.

2017-05-24

  • Tore discovers a disk has failed over to a hot spare on file01, uses sudo ledctl locate=/dev/sdc to identify it.

  • Tore contacts Petter on IRC and report that /dev/sdc on the new storage server is having problems and should be blinking red. Petter have a look in the machine room, and find a disk blinking as predicted. It is pulled out. It is a Wester Digital WD2002FYPS-01U1B0 2 TB disk with S/N WCAVY0503173, WWN 50014EE20311A302 dated 2009-07-19.
  • While in the machine room Petter notice disk in slot 8 in the lower shelf of the old storage server is also blinking red.
  • Tore: The issue with simula is known, but I don't want to tempt fate by touching that crappy RAID controller any more than absolutely necessary. With sdc now out of the way until monday, sds has been promoted to a full member of the RAID (using sudo zpool detach file01-zpool0 sdc, in accordance with Oracle documentation) and it is no longer marked as DEGRADED.

2017-05-02

* Power outage in the USIT machine room where Frikanalen keep its server installation. The entire room was without power. The initial power outage started 09:45 and the UPS(es) ran out of power 15-20 minutes later. The diesel power generator failed to start, and shortly after 10:00 all power was out. Petter noticed a while later and tried to call Ola, David, Tore and Benjamin. When things started to recover around 11:30, he notified IRC. As NUUG is located in the same room, email to frikanalen@nuug.no was down too.

2017-03-07

- Machine named filserver installed in rack by Marius Halden and Ola Tellesbø

- First 20 disks installed in machine - Basic Debian OS installed by David Noble, connected to internet, fail2ban installed. Tested booting.

- operations.log created for keeping a local log of things done with the machine

- Granted ssh and sudo access to toresbe and halden; based on ssh pubkeys found on github.org

- Granted non-root ssh access to pere and halden; again based on ssh pubkeys found on github.org

- Confirmed working management subsystem using ipmitool - Confirmed SATA hotplug works as intended

- Tested that rcs works correctly on operations.log

TODO

- Configure BMC. root@file01:~# ipmitool lan print shows current configuration. Ethernet is connected to borch eth1; but this is probably not configured either.

- recommended by pere: Test online remove of disk. Test remove of one of the power sources.

2017-02-21

Checksum errors på /dev/sdu. OS-devicet /dev/sdu blir sport tilbake av Petter til RAID-device 33:4 vha. 'ls -l /dev/disk/by-path/|grep sdu', 'megaclisas-status |grep u20' og til slutt søk etter 'Z1E6BMRQST2000DM001-1CH164 i "megacli -PDList -aALL'.

Vi prøvde først å fastslå hvorvidt problemet hadde vært midlertidig ved å kjøre en scrub (checksumming av all data); ytterligere korrupsjon ble påvist; disken erklært upålitelig. Disk ble fjernet fra kontrolleren av Tore vha. 'megacli -pdoffline -physdrv[33:4] -a0', 'megacli -pdmarkmissing -physdrv[33:4] -a0' og 'megacli -pdprprmv -physdrv[33:4] -a0' kjørt (usikkert om noen av disse er unødvendige?).

Petter bytter disk, og ny disk satt inn av Tore med 'megacli -CfgLdAdd -r0 [33:4] -a0' og 'zpool replace -f tank sdu'.

2017-02-20

Petter kjører 'apt-get upgrade' på simula og oppgraderer alle Debian pakker og restarter tjenester som trenger det. Det trengs reboot for å aktivere ny kjerne.

2017-02-15

Petter forsøker å aktivere den tredje nye disken som fortsatt var markert som FAILED av RAID-kontrolleren, ved å kjøre 'zpool offline tank 13666938400593999646', 'megacli -PDOffline -PhysDrv[33:7] -a0', 'megacli -PDOnline -PhysDrv[33:7] -a0' og til slutt 'zpool replace -f tank 13666938400593999646 sdad' etter å ha funnet riktig device-navn med dmesg. Resilver skal ta 11 timer. Uvisst hvorfor, så starter en resilver av de to andre nye diskene samtidig.

2017-02-13

Petter kjører 'zpool replace -f tank 16694028023172514029 sdx' for å ta inn den andre av de nye diskene.

2017-02-12

Petter kjører 'megacli -CfgLdAdd -r0 [33:12] -a0' og 'megacli -CfgLdAdd -r0 [33:5] -a0' for å gjøre diskene synlige for Linux, og 'zpool replace -f tank sdw' for å ta inn en av de nye diskene i ZFS. Resilver går galt, og vi oppdager at vi har mistet en fil (/tank/new_media/media/625464/broadcast/God sondag - tv_gs_140 airdate 2015_10_25.avi).

2017-02-10

Petter ga David Noble sudo-tilgang på simula for å kunne aktivere erstatningsdiskene.

2017-02-08

Ola og Petter byttet to disker i MD1000-hyllene til Frikanalen, disk 7 og 12 i nedre diskhylle blinket orange og ble byttet med to disker Ola hadde fått fra Tore.

grupper/video/frikanalen/driftslogg (last edited 2019-01-21 09:43:28 by PetterReinholdtsen)