Driftslogg for Frikanalen

Her føres større endringer relatert til drift av systemet i omvendt kronologisk rekkefølge.

Logg

2019-12-09

Tore ringer Petter på jobb og forteller at den ene brannmuren til Frikanalen er død, og lurer på om den kan rebootes. Den er merket enten fw1 eller obehd. Petter besøker maskinrommet, kobler på skjerm uten å se noe galt med maskinen, som på skjermen heter obe-hd. Petter slår av og på maskinen, og den kommer opp igjen til samme Debian-innloggingsprompt den ble funnet med. Petter noterer at videorouteren kun viser fargestolper og ikke sending. Petter satte på merkelapp 'fw1' på maskinen slik at det blir enklere i fremtiden å lokalisere den.

2019-01-21

Petter oppgraderte file01.frikanalen.no fra Jessie via Stretch til Buster. Fikk problemer med CIFS-monteringen på borch.frikanalen.no, som ikke fungerte etter oppgradering. Det ble løst ved å slå på ntlm-auth i samba på file01. Det bør slås av når borch er erstattet/oppgradert.

2018-12-01

Petter napper ut fra file01.frikanalen.no en Seagate-disk med serienummer Z1E2PQC8 på instruks fra Tore, som hadde lyst opp alle fungerende disker i ZFS-volumene. Petter og Ola har fikset caspar2.frikanalen.no til å starte opp uten hjelp (byttet oppstartrekkefølge slik at disk er først), og satt inn NVIDIA-kort i maskinen. VGA-utgangen ga fortsatt bilde, slik at det er håp om å kunne fjernstyre den ved behov. caspar2 mangler da SDI-utgang før den har maskinvaren den trenger.

2018-10-03

Petter hentet ut de to MD1000-hyllene som tidligere var koblet til simula, slik at det nå er noen U ledig i racket.

2018-08-28

Simula sin iLO-forbindelse er flyttet fra NUUG sitt baknett til Frikanalens, ettersom vi nå har to uavhengige måter å nå baknettet på (simula og file01). Getty er satt opp på simula for seriellkonsoll. Fra file01, benytt ipmitool -I lanplus -H 192.168.3.50 -U Administrator -P (passord) sol activate for å logge på simula via LOM. Det gjenstår fremdeles å flytte file01 sin LOM til Frikanalens baknett.

2018-08-26

Avinstallert pgpool fra f.n.n ettersom tjenesten ikke var i bruk. Cubemap på simula er påvirket av en bug der reloading av tjenesten (som systemd uransakelig ser ut til å gjøre av og til på måfå) feilaktig markerer en kilde som ubrukt. Dette kan være opphavet til problemet vi har sett med svart video på frikanalen.no. Workaround gitt fra Sesse fungerer og nå kan den reloades uten problem.

Update: Sesse har sendt en patch så vi kjører Cubemap fra HEAD nå, deb-pakke versjon 1.3.2-1

2018-08-25

Monitorering av zpool på file01 er lagt til icinga på frikanalen.nuug.no, dist-upgrade av f.n.n er gjennomført.

2018-08-22

Da simula ikke kom opp etter Tores reboot, dro Petter innom maskinrommet og fikk den igang. PERC-kontrolleren klaget over problemer med diskene (for mange disker?). En disk ble nappet ut, og etter reboot kom det så ignorerbar klage fra PREC over endringer i RAID-oppsettet. Maskinen kom så opp som normalt uten monterte filsystemer fra Dell-hyllene.

2018-07-12

Tore får skippertak-ånden over seg og setter opp en delt Google-katalog som preliminært samlingssted for intern data.

Fjernet deb http://linux.dell.com/repo/community/ubuntu wheezy openmanage ettersom simula ikke er en Dell-server lenger og det ikke var noen pakker installert derfra uansett.

2018-05-21

Petter opprettet systembruker frikanalen på obehd.frikanalen.no (metainfo kopiert fra caspar.frikanalen.no) og testet om de gamle OBE-binærene fungerer på nyere Debian. Det fungerer ikke, så det må kompileres på nytt.

2018-05-12

Samling med fokus på oppsett av HD-kjede. Fullførte oppsett av CasparCG på caspar.frikanalen.no. Maskinen har en bruker 'frikanalen' som kjører CasparCG fra sitt hjemmeområde, og er installert med Ubuntu 14.04.5 LTS (support frem til april 2019) da det er støttet av CasparCG ut av boksen. CasparCG trenger X-tilgang for å starte, så bruker frikanalen autoinnlogges for å få X opp å kjøre. For å få X til å starte selv uten tilkoblet skjerm ble /etc/X11/xorg.conf opprettet med nødvendig overstyring (Option "AllowEmptyInitialConfiguration"). Ved innlogging startes CasparCG via ~frikanalen/.xsessionrc. Oppstarten var ikke stabil til å begynne med (ca. 1 av 4 feilet), men vi tror det løste seg ved å ta ut det ene SDI-kortet som sto i maskinen.

2018-03-05

Petter oppdaterte broch.frikanalen.no med alle pakkene som lå på vent fra Debian. Installerte etckeeper før han oppgraderte, slik at endringer i /etc/ er tilgjengelig i git.

2017-12-05

Petter partisjonerte den nye SSD-disken (sfdisk -d /dev/sdad|sfdisk /dev/sdae) og la partisjon 5 inn i RAID1-settet som inneholder operativsystemet utenom /boot/ (mdadm --add /dev/md0 /dev/sdae5). Petter oppdaget at /boot/ ikke var RAID1, så ha kopierte ut filsystemet og opprettet et RAID1-sett bestående av partisjon 1 på de to SSD-diskene. Etter endringen ble 'update-grub' brukt for å registrere nytt device.

2017-12-04

Ola hentet defekt SSD-disk fra Petter og kom senere innom med ny SSD-disk som ble satt inn i file01 før maskinen ble bootet (alt-ctrl-del). Første reboot spontanrebootet etter at Linux-kjernen var igang med å starte. Hverken Ola eller Petter fikk med seg hva som skjedde, men andre boot fungerte som den skulle.

2017-11-20

Som avtalt etter utviklersamling dagen før, identifiserte Petter defekt OS-disk på file01 og nappet ut disken. Høyre disk av de to små OS-diskene bak ble fjernet. Det er en Kingston SATA SSD disk merket SUV400S37/120G 50026B7671035341. Under arbeidet la Petter merke til at en av datadiskene også rapporterte feil i dmesg. Dette ble ikke undersøkt nærmere.

2017-11-03

Petter byttet disk i skuff 14 i nedre PowerVault-hylle koblet til simula. Defekt disk Seagate Barracuda 2000 GB, Modell ST2000DM001, SN Z1E6DXWN, WWN 5000C50065873717 erstattet med Western Digital Modell WD2002FYPS-01U1B0 SN WCAVY0503393 WWN 50014EE203118A42. Fire ubrukte disker igjen.

Ola og Tore forsøker reboot av file01, som ikke finner noe å boote fra og nekter å starte operativsystem.

2017-10-22

Nettverksoversikt over lokalnettverket:

2017-10-02

Petter mottar en pakke fra Tore med 6 2TB-disker. En av dem brukes til å bytte ut en defekt disk i skuff 8 i nedre hylle på simula. Disk Seagate Barracuda model ST2000DM001 SN Z1E6E65D WWN 5000C5006587842B byttes ut med Western Digital model WD2002FYPS SN WCAVY5310640 WWN 50014EE2AF956277.

2017-05-29

2017-05-24

2017-05-02

* Power outage in the USIT machine room where Frikanalen keep its server installation. The entire room was without power. The initial power outage started 09:45 and the UPS(es) ran out of power 15-20 minutes later. The diesel power generator failed to start, and shortly after 10:00 all power was out. Petter noticed a while later and tried to call Ola, David, Tore and Benjamin. When things started to recover around 11:30, he notified IRC. As NUUG is located in the same room, email to frikanalen@nuug.no was down too.

2017-03-07

- Machine named filserver installed in rack by Marius Halden and Ola Tellesbø

- First 20 disks installed in machine - Basic Debian OS installed by David Noble, connected to internet, fail2ban installed. Tested booting.

- operations.log created for keeping a local log of things done with the machine

- Granted ssh and sudo access to toresbe and halden; based on ssh pubkeys found on github.org

- Granted non-root ssh access to pere and halden; again based on ssh pubkeys found on github.org

- Confirmed working management subsystem using ipmitool - Confirmed SATA hotplug works as intended

- Tested that rcs works correctly on operations.log

TODO

- Configure BMC. root@file01:~# ipmitool lan print shows current configuration. Ethernet is connected to borch eth1; but this is probably not configured either.

- recommended by pere: Test online remove of disk. Test remove of one of the power sources.

2017-02-21

Checksum errors på /dev/sdu. OS-devicet /dev/sdu blir sport tilbake av Petter til RAID-device 33:4 vha. 'ls -l /dev/disk/by-path/|grep sdu', 'megaclisas-status |grep u20' og til slutt søk etter 'Z1E6BMRQST2000DM001-1CH164 i "megacli -PDList -aALL'.

Vi prøvde først å fastslå hvorvidt problemet hadde vært midlertidig ved å kjøre en scrub (checksumming av all data); ytterligere korrupsjon ble påvist; disken erklært upålitelig. Disk ble fjernet fra kontrolleren av Tore vha. 'megacli -pdoffline -physdrv[33:4] -a0', 'megacli -pdmarkmissing -physdrv[33:4] -a0' og 'megacli -pdprprmv -physdrv[33:4] -a0' kjørt (usikkert om noen av disse er unødvendige?).

Petter bytter disk, og ny disk satt inn av Tore med 'megacli -CfgLdAdd -r0 [33:4] -a0' og 'zpool replace -f tank sdu'.

2017-02-20

Petter kjører 'apt-get upgrade' på simula og oppgraderer alle Debian pakker og restarter tjenester som trenger det. Det trengs reboot for å aktivere ny kjerne.

2017-02-15

Petter forsøker å aktivere den tredje nye disken som fortsatt var markert som FAILED av RAID-kontrolleren, ved å kjøre 'zpool offline tank 13666938400593999646', 'megacli -PDOffline -PhysDrv[33:7] -a0', 'megacli -PDOnline -PhysDrv[33:7] -a0' og til slutt 'zpool replace -f tank 13666938400593999646 sdad' etter å ha funnet riktig device-navn med dmesg. Resilver skal ta 11 timer. Uvisst hvorfor, så starter en resilver av de to andre nye diskene samtidig.

2017-02-13

Petter kjører 'zpool replace -f tank 16694028023172514029 sdx' for å ta inn den andre av de nye diskene.

2017-02-12

Petter kjører 'megacli -CfgLdAdd -r0 [33:12] -a0' og 'megacli -CfgLdAdd -r0 [33:5] -a0' for å gjøre diskene synlige for Linux, og 'zpool replace -f tank sdw' for å ta inn en av de nye diskene i ZFS. Resilver går galt, og vi oppdager at vi har mistet en fil (/tank/new_media/media/625464/broadcast/God sondag - tv_gs_140 airdate 2015_10_25.avi).

2017-02-10

Petter ga David Noble sudo-tilgang på simula for å kunne aktivere erstatningsdiskene.

2017-02-08

Ola og Petter byttet to disker i MD1000-hyllene til Frikanalen, disk 7 og 12 i nedre diskhylle blinket orange og ble byttet med to disker Ola hadde fått fra Tore.

grupper/video/frikanalen/driftslogg (last edited 2019-12-09 16:29:58 by PetterReinholdtsen)