Kezdőlap › Fórumok › SOS! Bajban vagyok › user space lefagy?
- This topic has 10 hozzászólás, 2 résztvevő, and was last updated 14 years, 9 months telt el by
linuxforum.
-
SzerzőBejegyzés
-
2010-09-06-19:43 #1889718
Mágikus hibát produkál egy ideje a linux szerverem. Néha részlegesen lefagy. A webszerver, levelezés megáll, logok nem készülnek tovább, de a ping-re válaszol, ráadásul rendes sebességgel a gép. Belépni nem lehet, de a névszerver monitorja sem jelez leállást. (Nem tudom a névszervert mivel monitorozzák, de talán csak felveszik a TCP kapcsolatot az 53-as porttal, aztán ennyi?)
Írtam egy kis démont, ami nem csinál mást, mint fogadja a TCP kapcsolatot, és egy szöveget visszaküld. Ilyen lefagyáskor külső kliensről ugyan lehet kapcsolódni ehhez a démonhoz, de kommunikálni már nem lehet vele. Adatot nem fogad, és választ sem ad.
A HDD RAID1-ben van, de a RAID vezérlő nem jelez hibát.
Nincs más ötletem, mint hogy a user space-ben lévő alkalmazások leállnak, és a kernel space-ben lévők futnak. Talán a saját démonon, amikor kapcsolatra vár, akkor maga a kapcsolatra várás a kernelben zajlik, és csak sikeres kapcsolódás után kerül vissza a user terébe, ahol megáll … Vagy nem tudom.
Ötletem sincs igazán, hogyan lehetne tesztelni, mi a lefagyások oka!
Érdekes módon a CTRL+ALT+DEL hatására a szolgáltatások leállnak, és a rendszer újraindul. Leállás közben a programok továbbra sem képesek a lemezre írni.
A rendszer terhelését monitorozó collectd a lefagyáskor megszűnik adatot rögzíteni, de a rögzített állapotokban semmi extrém nincs. Sem túl sok process, sem túl nagy terhelés, sem memória megfutás, semmi…
Van bárkinek bármi ötlete? … Egyre gyakrabban teszi, bár még mindig kiszámíthatatlanul…2010-09-07-04:21 #2200558Nem tudom, hány particiód van, mi nem lehet elérhetö. Nem lehet, hogy valami lemezterület van nagyon tele? úgy tünik, mint ha valamilyen eröforrásra várna, „deadlock”. Azért, mert nem jelez hibát a RAID, még lehet benne – lehet, hogy ö sem tud már hova jelezni. A lemezeket meg kéne nézni. Egyébként milyen linux, (verzió) milyen RAID (szoftver, hardver, semihardver) milyen diszkek?
A névszerver egyébként alapból UDP, csak ritkán TCP.
Megpróbálnám a helyedben a syslog.conf -ot úgy megeröszakolni, hogy alapból, elsödlegesen küldje a logokat egy másik gépre, (persze lehetöleg a közelben) és azon meg beállítani a távoli logok fogadását. Így talán van esélyed, hogy megkapd, amit nem tud letárolni. Ha így sem sikerül elkapni, (mert pl. az elözö/elsö log kiírására várakozna), esetleg csak távolira próbálj logozni, míg meg nem találod a hibát. Van egy kis perl scriptem, amit arra csináltam, hogy több távoli gépröl gyüjti a logokat külön-külön fájlokba, ha kell, megpróbálom elökotorni, legfeljebb minimális változtatás kell benne.
2010-09-07-11:46 #2200559Köszi az ötleteket!
A RAID egy hardveres PROMISE FastTrak TX4000/376/378/S150 TX Series. Ha hiba lenne leálláskor a lemezen, akkor azt a RAID vezérlő újraindítás után is már, mint egy sérült tükröt jelezné, de azt mondja, hogy az állapota OK.
Egyetlen partíción vannak az adataim /. (Van még boot és swap.)
A linux egy régi RedHat 9, amivel semmi baj nem volt ez év februárjáig. Akkor kezdte el. De volt, hogy több mint egy hónapig semmi, és most már van, hogy 25 órán bellül 3-szor is újra kellett indítani.
Már próbáltam a quotát is kikapcsolni, hátha az blokkol valamit. Hely rengeteg van a lemezen. 250GB-ból 50-et használ.
A távoli logolás jó ötlet, ha ezt kernelből csinálja a gép. Lehetséges, hogy kommunikálni nem lehet a géppel, de távolra mégis logol? Van közeli gép, ahol tudom fogadni a logokat, de még sosem logoltam távolra. Minden segítséget megköszönök, így ha sikerül elküldened a perl scriptjeidet, azokat is örömmel fogadom!2010-09-07-15:26 #2200560Ha minden igaz, a perl script csatolva, azért ilyen hosszú, mert a logrotate is benne van. A logfájlok méretét beállíthatod a scriptben, meg azt is, hová menjenek. (a könyvtár) Minden IP címről külön fájlba csinálja. Ez azon a gépen fut, ahol a logokat fogadod. A problémás gépeden meg a syslog.conf -ba valami olyan sor kell, hogy:
*.* @192.168.0.1
persze a megelelő IP-vel. Oda küldi a log sorokat, UDP/IP-n keresztül.2010-09-08-11:23 #2200561Köszi! Ki fogom próblni, bár most egy kissé elbizonytalanodtam.
A konzolon ugyanis a következő sorokat találtam:Code:ft3xx: camATAReturn Error (5/20/80/05/50/00)
SubmitChannel(DEV5): CAM_SubmitATA() return error
SubmitChannel(DEV5): CAM_SubmitATA() return error
ft3xx| 1|106h|Warning|Disk SAMSUNG SP2504C (Channel 3/Master) time out
ft3xx| 2|104h|Information|Retry access at disk SAMSUNG SP2504C (Channel 3/Maste
r)Meglepő módon a logokban erről semmi nincs!
Ez – félek – azt jelenti, hogy a HDD-m a halálán van. A RAID vezérlő továbbra is hibátlannak mutatja a tükrömet, de lehet, hogy az csak szektor hiba esetén jelez hibát? A lemezemnek meg valószínűleg valami pozícionálási, mechanikai hibája lehet? … Nem tudom, de azt hiszem, a legbiztosabb, ha HDD-t cserélek.2010-09-08-12:17 #2200562Ha a lemez timeoutra megy, akkor (esetleg / valószínüleg) nem ír (a másikra sem). Még nem „igazi” hiba, müködés közben egyszercsak, új indításnál, amikot ellenőriz, akkor nincs ez. Amikor meg van, nem tud írni!
Írtam drivereket (UNIX), mindig megpróbáltam konzolra IS küldeni direktben, és jó volt; amikor a VESA buszon (de régen!) fennakadt az SCSI kontroller kártya… A diszke nem mehetett már semmi, de a konzolon még látszott.A helyedben cserélném, de nagyon gyorsan, ha összeszinkronizált, megfontolandó, hogy utána a másikat is hozzá; azonos típust!.
UI: (szerk) Ha távolra (esetleg CSAK távolra, hogy a diszkhiba ne zavarhasson be) logolsz, lehet, hogy sokkal többet fogsz látni!
2010-09-09-07:42 #2200563Még valami,
régi UNIX/linuxos havernál voltam tegnap este, beszélgettünk erről is. A hardver RAIDvezérlő vagy nagyon jó, vagy nagyon szar. Ő is, – mint legtöbben, én is – azt mondja: semiraid esetében linux alatt a hardvert kapcsoljuk ki, csak tisztán szoftverraidet használjunk. Lényegesen megbízhatóbb. A semiraid (hardver támogatott raid) csak „windowsos” megoldás. Nem is-is, hanem sem-sem. És a google-ban a RAIDedre rákeresve az első találat ilyen: „… PROMISE FastTrak TX4000/376/378/S150 TX Series Linux Driver …” Ez pedig semiraid. Az igazi hardver RAIDet „BIOSból” konfigurálod, a felette futó rendszer NEM LÁTJA, hogy ott RAID van; nincs is köze hozzá!!! Dolgoztam Siemens szerver vassal, Megaraid gyártmányú SAS kontroller volt benne (tudom, kurvadrága) , összeraktam és inicializáltam a RAIDarray-t, az oprendszer (debian, később vmware) csak az összkapacitást látta, egy lemezként! Tehát, ha látja, hogy RAID-et kell támogatni, akkor inkább tisztán szoftver, mert egyébként kevert, nem igazi hardver!2010-09-13-12:20 #2200564A Promise RAID vezérlője hardvere. Biosból tükröz és állítható. Csak ahhoz kell driver, hogy a RH9 felismerje, mint lemezvezérlő eszközt, mivel alapból még nem támogatja.
De a legnagyobb bajom most az, hogy a meghaló HDD helyett nem találok ugyanolyant. Bele lehet tenni olyan másik HDD-t, ami nem azonos típus? És mi van, ha pár bájttal kisebb az új? Vagy csak nagyobbat merjek beletenni? Vagy bele merjek egyáltalán tenni másfélét?2010-09-13-18:03 #2200565Bökd meg, leírtam! „Csak ahhoz kell driver, hogy a RH9 felismerje,…” – lófaszt! Ha hardver raid, akkor bárki, hangsúlyozom, BÁRKI, tehát windows, linux, vmware ESX, … csak hagyományos lemezt lát, akár sima PATA-t, ha úgy állítod be. Semmi driver nem kell hozzá!!! Ha driver is kell hozzá, akkor semiraid. A használható hardverRAID-ek egyébként drágák, nem is gyanakszom rájuk. (Még Csabáé sem az!)
Csináltam jópárat.
Az ugyanolyan méret fontos RAID1-nél, értelemszerűen. Nem derült ki, hogy lemezt vagy particiót tükrözöl. Ha particiót, könnyebb a dolgod. Ha van annyi helyed az újon, hogy egy ugyanakkora perticiót csinálj, mint amit tükrözni akasz, akkor OK. Ha nem, felejtsd el.
2010-09-13-18:19 #2200566Az a baj, hogy RH9-nek minden SATA vezérlőhöz driver kell …
És a BIOS OS nélkül is tükröz, BIOS-ból alakítja ki és javítja a RAID-et. Egyébként eléggé dárga volt …
S mivel BIOS hardveres RAID – a linux csak 1 lemezt lát -, a teljes lemez tükrözve van, nem csak partíciók.
Azóta keresgéltem, és – ha jót találtam – a RAID 1 definíció szerint két eltérő lemez esetén a kisebbik méretét biztosítja, a nagyobbik maradéka elvész… Hát, megpróbálom, jobbat úgysem tehetek … -
SzerzőBejegyzés
- Be kell jelentkezni a hozzászóláshoz.
legutóbbi hsz