Tag Archives: CPU

Nagios for store installasjoner

Vi har installert Nagios i store installasjoner, med 1000+ devicer (servere, switcher,upser etc) og rundt 10000 servicesjekker. Det meste av informasjon som fins på nettet retter seg mot mindre installasjoner, der dei gjerne skriver “dette blir aldri et problem før du har fleire hundre hoster.” Det er det mange som har.

Vår erfaring er at det er et par viktige ting en bør tenke på.

  • Kjøp en ny server. Det er alltids mulig å kjøre linux på en gammel server, og installere nagios på den -men med et stort miljø vil du alltid møte veggen på gammel hardware.
  • Bruk vanilla nagios, ikkje kloner som Opsview. Desse har ofte en database-backend, som skalerer dårlig.
  • Kjøp prosessor(er) med rask klokkefrekvens (Mange, raske, men klokkefrekvensen er viktigere enn antal kjærner)
  • RAM er gratis, men veldig mykje RAM er ikkje så viktig, 12GB burde vere greitt.
  • Disk IO er viktig. Mange SAS-disker i Raid 10 vil alltid vere bra. No er og SSD-disker mulig å få i standard servere -kan vere ei muligheit. Diskplass er skjeldan et problem, sjølv dei største installasjonane eg har sett klarer seg med 30-40 GB. 2* SSD i Raid1 er kanskje billigere enn 8* SAS i Raid10
  • Multiple Gigabit nettverkskort med Bonding (Nettverks-IO og IRQ blir et problem) -minst 2 nettverkskort
  • Les denne Nagios Performance Tuning
  • Siste punktet i denne seier “NOTE: Hardware performance shouldn’t be an issue unless: 1) you’re monitoring thousands of services, 2) you’re doing a lot of post-processing of performance data, etc. ” -Mange har begge deler, og da _er_ hardware et problem.
  • Med tipsa som står i Nagios Performance Tuning-dokumentet, og en relativt ny boks med hardware som overfor, bør 1000 hoster og 10000 tester vere greitt. Sjølv med en del performancegrafing. Har du et enda større miljø er det mulig du må tenkte på  å flytte deler av testinga til en seperat boks, og bruk passive sjekker til å levere data til hovedboksen.
  • Et par små ting å huske:
    • Pass på at nagios-testane du bruker har minst mulig overhead. Det betyr at tester bør vere kompilert kode, eller perl, og helst ikkje bash/shell-scripting. perl-pluginsbør støtte embedded motoren i nagios.
    • skru ned frekvensen på tester som ikkje må kjøres kvart 5 minutt. versjonssjekker kan t.d. kjøres kvar 12/24 time el.l. (check_interval   xxx) xxx i minutt
    • skru av performance-data prosessering på tester uten performance data (process_perf_data   0)
    • Har eg gløymt noke her? -legg gjerne igjen en kommentar…

Nagios | The Industry Standard in IT Infrastructure Monitoring