Dram errors или не спешите винить software

Dram errors или не спешите винить software

В то время, когда компьютер зависает либо выдает пресловутый BSOD, в большинстве случаев, во всем винят ПО (и: руки и кривые драйвера недоучившихся программистов, Микрософт и лично Билла Гейтса и т.д.). Но в последние пара лет ученые начали более внимательно присматриваться к аппаратным сбоям, и нашли второй значительный тип неприятностей, каковые проявляются значительно чаще, чем многие думают. О них и отправится обращение.
Смотрите кроме этого: Новые модули памяти объединяют DRAM и NAND

Начались поставки изделий ArxCis-NV в виде модулей DIMM, каковые содержат 4 Гб оперативной памяти DRAM и 8 Гб флеш-памяти NAND, изготовленной по разработке одноуровневых ячеек. Viking Technology начала пробные поставки нестандартных модулей памяти ArxCis-NV, рассчитанных на использование в сетевых массивах и серверах хранения данных.Модуль Viking ArxCis-NV (тут и ниже изображения производителя).

Производители микросхем прилагают массу упрочнений, дабы быть уверенными в том, что их продукция проходит тщательное тестирование и трудится подобающим образом. Но они не обожают сказать о том, что непросто обеспечить корректную работу микросхем в течении долгого времени. С конца 70х годов как мы знаем, что скрытые аппаратные неприятности смогут привести к непредвиденному переключению битов в микросхем из одного состояния в второе.

То, что транзисторы уменьшаются с каждым годом, только увеличивает возможность того, что попадание пролетающей частицы переведёт их состояние. Такие сбои носят название «soft errors» и их значимость будет лишь расти по мере уменьшения техпроцесса, т.к. кроме того единственная частица сможет нанести намного больший ущерб.Но «soft errors» — только часть неприятности.

В течение последних пяти лет исследователи следили за несколькими большими дата-центрами, и они поняли, что во многих случаях обстоятельством сбоев были попросту неисправные микросхемы памяти. Температурное действие либо производственные недостатки со временем смогут привести к появлению неисправностей компонентов (разрушению проводящих связей либо появлению новых).

Это «hard errors»Soft Errors «Soft errors» очень тревожат разработчиков следующих поколений микросхем из-за одного ответственного фактора: энергопотребление. В то время, когда покажется новое поколение суперкомпьютеров, они будут содержать в себе еще больше микросхем и микропроцессоров памяти. И всё это огромное количество транзисторов будет потребовать всё больше энергии чтобы избежать неконтролируемого переключения битов.Сама неприятность связана с базами физики.

По мере того, как производители делают связи в микросхем всё более узкими, электроны попросту «удирают» как капли воды из дырявого шланга. Чем уже связи, тем больше энергии требуется для поддержания корректной работы.Неприятность так сложна, что Intel трудится совместно с министерством энергетики США и рядом вторых правительственных организаций для ее разрешения.

Применяя будущее поколение 5нм технологического процесса, Intel к концу десятилетия разрешит создать в 1000 раз более замечательные суперкомпьютеры, чем существующие на данный момент. Но, думается, что такие суперкомпьютеры не только будут значительно стремительнее, но и окажутся настоящими пожирателями электричества. «У нас имеется путь, дабы достигнуть этого, не волнуясь об энергопотреблении» (достигнуть повышения производительности в 1000 раз). «Но если вы желаете, дабы мы решили проблему энергопотребления – это за пределами отечественных замыслов».На графике — не самые актуальные эти, да и относящиеся к второму типу памяти.

Конкретно для DRAM разрешённых найти не удалось. Но виден неспециализированный тренд: увеличение уровня напряжения снижает количество сбоев.Производители не обожают сказать о том, как довольно часто их продукция дает сбои – такая информация считается тайной и непросто отыскать изучения на данную тему. Довольно часто компании своим клиентам сказать о частоте аппаратных сбоев. «Это область активных изучений.

Мы не говорим об этом открыто, т.к. это весьма щекотливая тема».Soft Errors?«Soft errors» это одна из неприятностей, но имеется и другие неприятности, о которых производители аппаратуры говорят еще меньше. В соответствии с изучениям Университета Торонто, в то время, когда память компьютера дает сбой, это значительно возможнее позвано возрастом либо неточностями изготовления (это «hard errors»), а не «soft errors», обстоятельством которых есть космическое излучение.В 2007 году несколько исследователей получила доступ к дата-центрам Гугл, где ими была собрана информация о том, как довольно часто специальные Linux-совокупности поискового гиганта давали сбои.

Было зафиксировано в десятки раза больше сбоев, чем ожидалось. В случае если прошлые изучения информировали о цифрах от 200 до 5000 сбоев на миллиард часов работы, то изучения в Гугл продемонстрировали цифры от 25000 до 75000.Но что еще занимательнее, приблизительно 8% чипов памяти были повинны в более чем 90% сбоев. Более пристальный взор продемонстрировал, что сбои имеют тенденцию происходить на более ветхих представителях машинного парка. По окончании приблизительно 20 месяцев эксплуатации число сбоев быстро растет.

Возможно, не просто так типовое обновление IT инфраструктуры происходит в районе трехлетней отметки. И, возможно, результаты этих изучений окажутся еще одним доводом в пользу того, что откладывание плановых апгрейдов скоро начнет обходиться дороже, чем сэкономленные средства.

Так, найденные неприятности были «hard errors», а не «soft errors», и их было значительно больше, чем по самым храбрым прогнозам.Последующие изучения продемонстрировали подобную картину для чипов памяти, применяемых IBM в совокупностях Blue Gene и для канадского суперкомпьютера SciNet. Для всех совокупностей частота сбоев памяти была приблизительно однообразной.Изучения, проводимые AMD, кроме этого продемонстрировали, что для чипов DRAM «hard errors» видятся значительно чаще, чем «soft errors».

Но AMD, как и Intel, ни при каких обстоятельствах не публиковала изучений, касающихся частоты сбоев SRAM памяти, применяемой в микропроцессорахВилас Сридаран (Vilas Sridharan), reliability architect из AMD и один из авторов статей на данную тему сообщил: «Это не новая неприятность. Неточности в модулях DRAM были в первый раз увидены во второй половине 70-ых годов двадцатого века, но с того времени мы продолжаем учиться»А, в соответствии с словам Samsung, наибольшего производителя DRAM-памяти в мире, у них «нет никакой детальной информации, которую они имели возможность бы сказать на данный счет».Производителям микросхем направляться уделять больше внимания вопросам «hard errors».

Сейчас существует множество способов для исправления «soft errors»: начиная от кодов коррекции неточностей (ECC) и заканчивая применением освинцованных шахт для размещения серверов. Но в деле противостояния «hard errors» всё далеко не так прекрасно.Наряду с этим «hard errors» вызывают больше неточностей, чем большая часть людей смогут предположить. И в случае если Hi-end сервера и суперкомпьютеры смогут применять ECC, то при с PC это не верно.

Большая часть мобильных устройств, и ноутбуков и настольных компьютеров ECC не содержат. Частично вследствие того что, в соответствии с применяемой модели сбоев, большая часть из них позвано «soft errors». Такая модель удачна производителям. А пользователи вносят собственную лепту, голосуя «рублем».

В случае если вам доводилось выбирать модули памяти для домашнего (да и не только домашнего) компьютера, разглядывали ли вы наличие ECC как серьёзной подробности?А в это же время, наличие ECC кроме того более принципиально важно, чем казалось ранее: в нем довольно часто сокрыта отличие между устранимой неточностью и катастрофической, приводящей к вынужденному несложной. Неудивительно, что создатели датацентров и суперкомпьютеров настаивают на нем.Кстати, похожая обстановка отмечается и для SSD.

Выбирая между моделями на 240Gb и 256Gb, при равной цене большая часть выберет второй. Наряду с этим, то, что в конечном итоге ёмкость однообразна, но первая модель резервирует 16Gb для исправления неточностей увидят единицы, и уж совсем для немногих это повлияет на выбор в пользу первого. Не буду именовать конкретные модели и вендоров – это не верно значительно.К сожалению, сейчас BSOD часто возможно заметить на рекламных щитах, информационных стендах, банкоматах, в множестве и аэропортах вторых мест.

Кто знает, изменится ли в будущем эта обстановка в лучшую сторону? Ну и напоследок тематический демотиватор :):

Случайная статья:

unison hes honest admit horrific overnight prescribes Encyclopedia Gloves Magazines shirts Books


Похожие статьи:

Комментирование и размещение ссылок запрещено.

Обсуждение закрыто.