И опыт, сын ошибок трудных... [Архив]

TheRam

12.08.2010, 11:38

Трям, братцы!

CS1000 MG/3Grp/40PRI/4000 ext. + app. "Нешутошная" станция, прямо скажем.
Пропало электроснабжение, "кандея" высосала аккумуляторы и погасила "музыку". Поскольку в выходные нагрузки не было, шоу продолжалась бесконтрольно и долго. Сутки спустя электричество подали, но станция не поднялась...Уже потом выяснилось, что она таки поднимается, но с косяками и только после ресета кнопкой процессоров.

В поисках причины убито четыре дня. Много разного сделано. И бестолкового - типа перезаливки софта с деплистами и дефолтной базой (спасибо selfimage, ускоряет процесс вдвое), и продёргиванием кабелей, пошатываем разъёмов, сбором мегабайт логов...Самое обидное, что "косяки" в процессе загрузки не повторяются!!! То одна полка с нет-ом отвалится, то фиджи из нулевого шельфа вдруг перегружаются..., то вдруг работает и запускается по питанию с первой группой, но ни в какую со второй...
Во второй половине четвёртого дня я уже устало и безнадёжно включал/выключал процессорные и сетевые полки с выдернутыми процессорами.

Тупо наблюдая за светодиодами обнаружил презанятное - после включения и трехкратного моргания светодиодов во всех группах, кроме нулевой, PRI-ки и NET-ы штатно зажигают светодиоды. А вот в нулевой они гаснут...зажигаются...мигают...подмаргивают мелко..даже что-то вроде бегущего огня в гирлянде...странно, что не обратил внимание раньше...ну мигает и мигает...

Я от этого зрелища мягко говоря обалдел, выдернул ВСЕ платы в группах, и стал вставлять по одной с включением питания полки. Процессоры естественно выдернуты, что-ж их насиловать...

...нашёл клок-контроллер... При полностью исправной работе как по диагностике, так и по индикации, эта плата "засирала помехами"
нулевую группу через связку СС - кабель NTND49- фиджи.

(а как ещё ЭТО назвать? Серое такое, всем связистами известное - только никто никогда живьём не видел - "подсадка"?...).

Клок заменили, станция заработала "как из пушки"...

Вот такая история приключилась.

Malex

12.08.2010, 12:31

Классная тема. Думаю, у многих тут есть чего подобного рассказать. :) Продолжим?

Malex

12.08.2010, 13:07

Лет 6 назад это было.
Крупный комбинат в небольшом городке. Делаем апгрейд 81С 23 релиз на 4.0Т 81С FNF. Станция на 2500 портов, с ММ, диспетчерской комбината, кучей потоков и всякого - разного. Дали нам "корридор" с 22-00 субботы до 8-00 воскресения.
Вощим, подготовившись и хорошо помолившись, в 10 вечера приступаем. Работа спорилась, поменяли каркасы на CoreNet, вставили новую начинку, выбросили IGM, поставили FIJI. Подняли софт на нулевом проце, сбекапили базу, на первом... синхронизировали. В общем, все как по книге, аш противно. К часу ночи все колосилось. Диспетчера уже начали принимать звонки, а связисты вынимать пиво из холодильника.
И тут мы достаем "рояль из кустов": захотелось нам показать людям новые технологии - IP телефонию. Взяли мы с собой IPL, привезли парочку 2004 терминалов. В общем, факультатив, но с видами на будущее, мол "дадим поюзать - купят".
Начиналось тоже все хорошо: МС32 поставили, ОТМ прикрутили, создали ноду, странсферили, ИП телефоны зарегили. Звоним с ИП на ИП, - все отлично. Звоним с ИП на TDM - фастбизи. Пока мы ковырялись в IPL, прибегают диспетчера и спрашивают, типа, "вы еще не закончили? у нас телефоны перестали работать". Я в станцию - и вижу, что она в циклическом ребуте. Туда - сюда, один проц, второй - дулю! Какие тут мысли - все ведь уже работало?! Стало быть - коррапт. Начинаем заливать софт с нуля. Переставили, загружается - циклический ребут! Хоть на одном, хоть на втором. Хоть на костомерской базе, хоть на дефолтной!!
В общем так, я переставлял софт 5 (пять!) раз. Примерно к 6-ти часам утра стало уже очень грустно...
От безнадеги пошел на солюшн серч и почти сразу нашел причину и решение.
Scenario
System down, continuous reboot.
Cause of problem
Corruption of database under NODE directory.
Problem Resolution
1) Go into PDT while in the reload loop and remove (rename is safer) the node.pch file. The core should then come up.
2) Install patch mplr19925.
Еле вскочил в PDT в условиях постоянных ребутов, поставил патч и... попустило.
В восемь утра все работало, но мы пили не пиво, а валерианку. :)

С IP телефонией на данном объекте уже не экспериментировали. :)

Urri

12.08.2010, 13:08

Ну большую станцию лучше запускать без периферии. У меня одна 11 5-кабинетка стартует только при полностью выдернутых всех платах, на одном процессоре. Потом потихоньку втыкаю главный кабинет (штук 4 PRI в нем), потом по одному кабинеты расширения. Видать скорострельности проца не хватает сразу всю периферию поднять.
Из самого свежего.
Пол-ночи убил на попытки скрестить модем и PRI плату посредством кабеля ntck45. Когда уже совсем спать захотелось, начал звонить кабель. Такое впечатление что все жилки были вместе скручены на один пин. В результате перепаял маму на папу (слава богу был под рукой) DB9 в переходке к модему и воткнулся прямо в морду платы. Тут же взлетели.

Tema

12.08.2010, 14:31

2 Malex:

А как этот корапнутый файл node.pch остается после переустановки софта с дефолтной базой? :eek:

slon2

12.08.2010, 14:43

Думаю, что историей когда, после XSL, на станции софт съезжает никого не удивить, но не так давно был такой забавный случай.
Стояла 11с станция, включенная в циску, все хорошо, и вот появилась возможность её через релейку по SL1 зацепить в общую сеть, казалось бы чего проще! И вот дабы удостовериться в функционирование релейки, а надо еще сказать, что от релейки до станции модемы аш дсл еще стояли, воткнули вторую PRI, включили, тесты идут, завороты видятся, все классно, включаем обе станции, д-канал поднялся, обмен пошел, звонки, но тут пошли dta203, не часто так две штуки в минуту, через некоторое время счетчик давит, поток валится... Ладно думаю, синхра, не синхристая, прописал клок туда, все гут, станция синхронизируется,.... ошибки прут. Ставим заворот, с любой стороны, сутки все стоит прекрасно! Убираем, прут... Меняли слот, ставили вместо первой PRI, все работает. Изнасиловали те модемы, релейку, провода, всех тех кто их обслуживает, мозг самим себе, результат тот же... И продолжалось то действо наверно неделю, не меньше! Пока в конце концов саму PRI не поменяли... Поставили другую и все! А ведь все тесты, завороты, работа вместо первой, все говорило, что у нас все в порядке! Такая история :)

Malex

12.08.2010, 15:12

2 Malex:

А как этот корапнутый файл node.pch остается после переустановки софта с дефолтной базой? :eek:
И я задавался тогда этим вопросом. :rolleyes: Но факт налицо - все сносилось и ставилось по-новой (как я писал, - даже с дефолтной базой с диска) - и станция все равно рестартилась.
Кстати, вот о чем был тот патч, который исправил проблему:
MPLR19943 (это более поздняя модификация mplr19925)
Title
INI when a new node is added using OTM
Problem Description
If the OTM is used to create node.pch file, the Call server will reboot.
Notes
Replaces MPLR19925 as this is the complete Fix.