Усунення несправностей сервера Servermeile Technet
Виправлення неполадок, тобто вирішення проблем у зоні сервера, може виявитися тривалим та складним без відповідного ноу-хау. З цієї причини в цій статті ми розглянемо найпоширеніші проблеми та пояснимо, як можна швидко відновити та запустити свій сервер у разі передбачуваного дефекту. Якщо у вас немає часу або проблема занадто стійка, ми будемо раді підтримати вас як компетентного партнера системного будинку особисто по телефону або на сайті.
невизначені/невідомі проблеми
Якщо сервер не робить те, що повинен, перше, що потрібно зробити, це з’ясувати, де може бути виявлена передбачувана помилка. Наш досвід у виробництві серверів показує, що рідко йдеться про “справжні” дефекти сервера, тобто про дефектні компоненти серверного обладнання. Набагато частіше ми бачимо помилки конфігурації або просто «інші недокументовані умови» у виробництві серверних сервісів та підтримці на сайтах наших клієнтів, які, однак, не є дефектом обладнання. Останнє може виникнути через застаріле програмне забезпечення, наприклад, але також може мати інші причини.
Підготовчі дії
Перш ніж почати, вам слід підготувати керівництво для вашого сервера - воно вам знадобиться. Професійні інструменти корисні для багатьох іспитів та необхідні для деяких. Для діагностики та виправлення передбачуваної помилки не є абсолютно необхідним відкривати корпус сервера - але якщо це стане необхідним, важливо носити браслет із заземленням, щоб не пошкодити чутливі електронні компоненти. Ви повинні знати, що сучасні сервери також вимкнені забезпечуватися живленням принаймні для роботи BMC та для забезпечення доступу до сервера через IPMI. Тому необхідно повністю відключити відповідний сервер від джерела живлення та мережі перед тим, як відкрити корпус сервера.
Продовжуйте структуровано і зазначайте свій прогрес - якщо ви зробите просту помилку, це не займе багато роботи. Однак, якщо справа виявиться складною, ваші нотатки будуть дуже корисними. Ви застрягли в якийсь момент і вам потрібна професійна порада сервера? Ми раді підтримати та проконсультувати вас.
Майстер усунення несправностей Intel
Для базової та швидкої діагностики ви також можете скористатися Майстром усунення несправностей сервера, який надає Intel. На додаток до посібника, важливо проконсультуватися з керівництвом до материнської плати вашого сервера, оскільки не всі деталі окремих материнських плат сервера Intel були висвітлені.
Сервер не можна вмикати/не видно світиться світлодіодів
Спочатку перевірте основне джерело живлення - чи є шнур живлення взагалі або достатньо енергії (чи підключений сервер до ДБЖ, який може бути несправним)? Якщо це резервний блок живлення, необхідно перевірити два блоки живлення. Слід зазначити, що при надлишкових джерелах живлення плата розподілу живлення також може бути несправною.
В ідеалі у вас є тестовий пристрій для серверних джерел живлення, за допомогою якого ви тепер можете перевірити значення напруги. Тільки після цього ви перевіряєте, чи правильно підключено блок живлення до материнської плати сервера. Примітка: Дуже важливо витягнути шнур живлення перед тим, як вийняти або вставити надлишковий блок живлення !
Сервер можна ввімкнути, але він не завантажується, або зображення монітора залишається чорним/видно принаймні один світлодіод
Як тільки материнська плата сервера отримує живлення, спочатку завантажується контролер управління смугою частот (BMC), який зазвичай можна розпізнати за синіми світлодіодами. Цей і один зелений світлодіод вказують, чи завжди на материнській платі сервера подається напруга.
Якщо до цього моменту все гаразд, існує багато можливих причин помилок - професійні засоби діагностики сервера підтримують вас у виявленні помилки. Кожна серверна плата має принаймні чотири помаранчевих та чотири зелених світлодіода, які можна використовувати для визначення стану процесу завантаження та цілого ряду можливих помилок. На наступному малюнку показано ряд діагностичних світлодіодів Intel S2600WTT, як, наприклад, він вбудований у R2308WTTYS (платформа Intel Grantley для процесорів E5-2600v3).

Скористайтеся інструкцією до материнської плати, щоб допомогти вам розшифрувати стан та коди помилок. Виходячи з досвіду, ми рекомендуємо проводити діагностику без будь-яких додаткових карток. Нам відомі сузір’я, в яких завантаження може бути заблоковано картою PCI-E (наприклад, контролером RAID). Якщо ваш сервер більше не завантажується належним чином після оновлення мікропрограми, спочатку видаліть усі додаткові картки, а потім спробуйте ще раз.
Приклад: перший процес завантаження після успішного оновлення мікропрограми
Оновлення мікропрограми сервера є складним. На додаток до власне BIOS, часто оновлюється ряд інших компонентів: BMC, FBU та SDR, а також ME. Процес повністю завершується лише під час завантаження після успішного оновлення. За певних обставин може статися, що карта PCI-E блокує цей процес. У цьому випадку вийміть усі картки PCI-E, виконайте оновлення ще раз і встановіть відповідні карти знову лише тоді, коли сервер вже успішно завантажився один раз після оновлення і процес оновлення завершено.
Окрім перегляду діагностичних світлодіодів, варто також отримати доступ до BMC. Якщо це було попередньо налаштовано для віддаленого управління, ви можете використовувати IPMI для візуальної перевірки ряду повідомлень про стан або перегляду записів системного журналу за записом. З нашого досвіду, таким чином можна діагностувати всі поширені джерела помилок.

Поширені помилки
Масове зберігання
Реальні апаратні недоліки основних компонентів дуже рідко трапляються з нашими високонадійними серверними компонентами. Крім того, ми покладаємось на Intel (серверна плата, процесор, мережева карта сервера, контролер RAID) для забезпечення оптимальної сумісності.
Зазвичай це жорсткі диски, які - залежно від навантаження - дедалі частіше виходять з ладу з третього року. Отже, масове сховище - незалежно від того, через RAID чи на рівні файлової системи - має бути принаймні розроблене із надмірністю. Помилку жорсткого диска можна легко розпізнати за допомогою веб-консолі Intel RAID 2, а також за допомогою світлодіода на корпусі сервера.
оперативна пам'ять
З третього року експлуатації - знову ж залежно від навантаження - панель оперативної пам'яті може вийти з ладу. Ось чому ми, як правило, рекомендуємо використовувати REG ECC RAM на звичайний термін від 3 до 5 років від конфігурації 64 ГБ і більше, щоб не надто велику пам'ять. Сервер може впоратися з виходом з ладу панелі RAM ECC RAM під час роботи; сервер потрібно лише вимкнути для подальшої заміни. Помилка візуалізується принаймні за допомогою журналу, залежно від материнської плати сервера, а також за допомогою світлодіодів.
Інші помилки
Приклад: диски
Існує також ряд рідко трапляються помилок, які не так просто діагностувати - наприклад, DVD-привід, який "бомбардував" інтерфейс SATA сигналами через несправність електроніки навіть без вставленого DVD або компакт-диска.
Часті "помилки" конфігурації
Приклад: RAID BIOS не відображається
Перейдіть до BIOS материнської плати сервера та вимкніть "Тихе завантаження" в головному меню. Також встановіть режим завантаження на «Спадщина» в меню «(Додаткові) Параметри завантаження». Після збереження налаштувань і перезапуску RAID BIOS тепер знову відображається під час завантаження. Не забудьте встановити режим завантаження назад на UEFI залежно від конфігурації вашого RAID і вибору вашої операційної системи.
Приклад: Windows Server неможливо встановити
Перейдіть до BIOS і перевірте, чи правильно введено ваш обсяг жорсткого диска або RAID в диспетчер завантаження. Встановіть найновіші драйвери для RAID-контролера, якщо обсяг RAID не відображається.
Додаткова інформація/джерела