Обзор AMD Opteron - часть 1: архитектура Opteron/K8

Разработка процессора K8. Создаём большой процессор. Вглубь или вширь? 64-битная стратегия AMD - x86-64. Смотрите, что нашли: встроенный на кристалл контроллер памяти. Многопроцессорная Мекка. Физические параметры. Прекрасный механизм крепления радиатора. Номенклатура Opteron. Чипсеты для Opteron. Встречайте nForce3 Professional.

Технология правильного хранения аккумуляторов и батареек по рекомендациям FANSO и EVE Energy

Во всей истории AMD как производителя микропроцессоров для массового рынка, компания никогда не осуществляла такого провала, как с выпуском K5. Через несколько месяцев задержек, чип наконец-то поступил в продажу, однако процессор был слишком горячим и не смог обеспечить достойную производительность.

С обратной стороны, инженеры AMD никогда не работали столь упорно, как во времена K7. Благодаря этому новый процессор стал козырем в рукаве AMD, однако успех ядра сдерживался плохим маркетингом и политикой - две вещи, с которым не могут справиться даже лучшие команды разработчиков AMD. Даже при всех трудностях, с которыми столкнулась AMD, K7 на сегодня является лучшим продуктом компании, именно поэтому на новый процессор, преемника K7 - K8, возлагали очень большие ожидания.

Около полутора лет назад вышла первая статья по архитектуре AMD K8 (или Hammer), в которой было следующее заключение:

AMD сегодня уже не та компания, которой она была два года назад. Компания начала больше склоняться к позиции лидера индустрии, вместо роли догоняющего, за которую AMD столь долго критиковали. Архитектура Hammer наиболее ярко отображает, что может осуществить AMD в качестве лидера индустрии.

В то же время нельзя недооценивать рынок, поскольку компания всё ещё держит в своих руках значительный объём рынка, и у неё есть потенциал дальнейшего развития технологий. Недавние успехи AMD показали, что скорого возвращения доминирования Intel на рынке не ожидается, и обе компании будут продолжать бороться. У AMD и Intel есть свои ключевые продукты, однако Intel выдвинула свою новую архитектуру несколько позднее. Поэтому AMD не имеет абсолютный иммунитет.

Hammer обладает интересной технологией и у процессора определённо есть потенциал. Но AMD предстоит большое количество работы в следующие 12 месяцев, начиная с сегодняшнего момента до выпуска процессора. Многие уже забыли, что помимо Athlon в списке достижений компании нет успешных позиций. Команде разработчиков Hammer предстоит работать и работать. Удачи!

Если воспринимать эти слова с учётом нынешних реалий, очевидно, что AMD не только не успела вовремя выпустить Hammer, но и процессор оказался далёк от роли "второго K7". Мы попросили главного инженера компании, Фреда Вебера (Fred Weber), прокомментировать выпуск K8 и он подвёл итог: выпуск нового ядра не столь хорош, как в случае с K7, но лучше, чем K5/K6.

AMD прошла долгий путь, работая с новой микропроцессорной технологией, новым технологическим процессом производства (кремний на диэлектрике, SOI) и в то же время находясь под влиянием сильнейшей конкуренции со стороны Intel и общемирового спада в экономике. Однако свет в конце туннеля виден, и хотя K8 не появится на настольных компьютерах ещё несколько месяцев, версия процессоров для рабочих станций/серверов уже на подходе, и называется она Opteron.

В этой статье мы главным образом будем фокусироваться на архитектуре K8 и на её воплощении в Opteron. В ближайшем будущем вас ждут ещё три статьи, в которых мы рассмотрим работу процессора в различном окружении: от корпоративных серверов до настольных приложений. Ниже приведён список статей с ссылкам (когда статьи будут выпущены).

Обзор AMD Opteron - часть 2: производительность корпоративных приложений
Обзор AMD Opteron - часть 3: серверы 1U
Обзор AMD Opteron - часть 4: производительность настольных приложений

Мы настоятельно рекомендуем полностью прочитать эту статью перед переходом к остальным, конечно, если вы не знаете архитектуру K8 наизусть.

Разработка процессора K8

Когда мы впервые ознакомились с K8 примерно два года назад, мы заметили, что архитектурно ядро незначительно изменилось по сравнению с K7. Скорее всего, AMD действовала по старому правилу: "если что-то работает, лучше это не трогать", и в какой-то мере компания оказалась права. Микроархитектура K7 демонстрирует прекрасную производительность, и даже сегодня она, по меньшей мере, продолжает оставаться конкурентоспособной с микроархитектурой Intel NetBurst, использующейся в Pentium 4.

Сначала рассмотрим блочную диаграмму K7:

Блочная диаграмма K7

Затем перейдём к части блочной диаграммы K8:

Часть блочной диаграммы K8

Как вы можете заметить, физически число исполнительных блоков осталось неизменным по сравнению с K7. Помните, что ядро K8 будет использоваться в качестве основы как для настольных, так и для серверных процессоров, поэтому "расширение" (увеличение числа исполнительных устройств) не слишком сильно скажется на производительности, учитывая многопроцессорную природу K8.

Следует также отметить небольшие изменения по сравнению с K7. Обратите внимание, что хотя блоки работы с плавающей запятой имеют такое же окно планировщика (36 входов), целочисленные блоки теперь заполняются более ёмкими планировщиками (суммарно 24 входа против 18 входов у K7).

Почему AMD увеличила размер окна планировщика K8, но оставила такое же число исполнительных блоков? Для ответа на этот вопрос нам следует рассмотреть первое ограничение размера процессора - блок предсказания ветвлений.

Создаём большой процессор

Получается, что первым ограничением размера процессора (то есть числа исполнительных блоков и ступеней конвейера) является эффективность работы блока предсказания ветвлений. Этот блок отвечает за инструкции, которые будут выполнены "на лету" (активны в конвейере) перед тем, как процессор перейдёт по ветвлению. Если было предсказано неправильное направление ветвления, то необходимо сбросить весь конвейер. Теоретически, процессор не должен превышать необходимых размеров, он должен соответствовать числу инструкций, которые могут быть отосланы на конвейер перед тем, как произойдёт ошибка ветвления.

В K8 AMD улучшила блок предсказания ветвлений K7. Глобальный счётчик событий (global history counter) был значительно увеличен, сейчас он в четыре раза превышает размер своего аналога в K7. Глобальный счётчик событий на самом деле представляет собой массив 2-битных счётчиков (то есть принимающих значения от 0 до 3), и отвечает за определение ветвления: следует ли переходить по данной ветви или нет. Когда достигается инструкция ветвления, блок предсказания ветвления забирает часть адреса инструкции (и иногда осуществляет какие-либо логические операции над адресом) и использует его в качестве индекса глобального счётчика событий. По этому индексу производится отслеживание счётчиков и их увеличение. Блок предсказания ветвлений исследует счётчик по данному индексу, и если его значение выше или равно двум, то ветвь предсказывается как "взятая". Если предсказание оказалось неверным, тогда значение счётчика уменьшается на единицу, иначе значение увеличивается на единицу (однако помните - здесь используются 2-битные счётчики, поэтому их значение не может быть меньше 0 или больше 3).

Проблема такого подхода заключается в том, что если двум инструкциям ветвления присваивается одно и то же значение индекса, счётчик по этому индексу будет произвольно увеличиваться или уменьшаться, такой эффект называется интерференцией. Чем больше размер глобального счётчика событий (чем больше число 2-битных счётчиков внутри него), тем меньше вероятность возникновения интерференции. Наконец, чем меньше интерференция, тем более точно будет работать блок предсказания ветвлений.

В блоке предсказаний ветвлений K8 появились и другие улучшения, все они направлены на повышение эффективности предсказаний. Вернёмся к нашему первоначальному утверждению: эффективность работы блока предсказания ветвлений позволяет увеличить размер процессора. Поскольку в K8 блок был улучшен по сравнению с K7, то AMD получила возможность увеличения размера процессора. Но насколько?

Вглубь или вширь?

У AMD, образно выражаясь, было два выбора: пойти вглубь или вширь. Расширение архитектуры процессора, означает увеличение числа исполнительных блоков в ядре, что будет иметь значение только при использовании процессора в корпоративной среде, поскольку "широкое" ядро лучше подходит для параллельных вычислений. Однако K8 будет работать и в качестве настольного процессора, где необходима высокая тактовая частота, поэтому AMD выбрала первый вариант и решила удлинить конвейер.

Независимо от выбора варианта, одно можно сказать точно: чтобы использовать преимущество большего числа инструкций, отсылаемых на конвейер между ошибками предсказания ветвлений, необходимо оснастить процессор более ёмким буфером хранения инструкций. Буфер, который хранит инструкции "на лету" называется окно планировщика, и если вы посмотрите на число входов целочисленного планировщика, вы поймёте причину его увеличения: чем больше ёмкость буфера, тем больше инструкций можно хранить "на лету". Мы можем предположить, что окно планировщика инструкций с плавающей запятой уже обладало достаточным размером и не нуждалось в увеличении. Помните, что большинство инструкций ветвления применяются в целочисленном коде, именно поэтому планировщик здесь остался неизменным со времён K7, несмотря на более эффективный блок предсказания ветвлений.

Сравнение целочисленных конвейеров
Такт	Архитектура K7	Архитектура K8
1	Fetch	Fetch 1
2	Scan	Fetch 2
3	Align 1	Pick
4	Align 2	Decode 1
5	EDEC	Decode 2
6	IDEQ/Rename	Pack
7	Schedule	Pack/Decode
8	AGU/ALU	Dispatch
9	L1 Address Generation	Schedule
10	Data Cache	AGU/ALU
11		Data Cache 1
12		Data Cache 2

Увеличив окно целочисленного планировщика, AMD смогла оснастить K8 ещё несколькими ступенями конвейера. Цель увеличения числа ступеней, как уже говорилось раньше, заключалась в достижении K8 более высоких тактовых частот. Чем больше ступеней насчитывается в конвейере, тем меньшая работа выполняется за такт и тем выше можно поднимать частоту процессора. Именно в этом заключается причина достижения сегодняшним Xeon с 20 ступенями конвейера частоты в 3 ГГц, в то время как 12-ступенчатый Opteron вышел на частоте 1,8 ГГц.

Различие в архитектуре конвейера приводит к невозможности оценки процессоров Xeon и Opteron по тактовой частоте (то же самое верно и для сравнения Pentium 4 с Athlon XP). Архитектура Xeon позволяет достигать более высоких тактовых частот за счёт выполнения меньшей работы за такт, так что единственными критериями сравнения могут выступать цена и производительность в приложениях, а не тактовая частота.

Кэши K8 идентичны кэшам K7, хотя они обладают немного меньшими задержками и большей пропускной способностью, что видно по следующему сравнению производительности:

Сравнение пропускной способности и задержек кэшей L1 и L2.

Последнее изменение в микроархитектуре (перед тем, как мы перейдём к двум самым важным) ядра K8 по сравнению с K7 AMD любит называть "производительными буферами быстрого преобразования адресов" (Large Workload TLB).

Нажмите на картинку для её увеличения

Поскольку Opteron будет, наиболее вероятно, использоваться в серверном окружении, с большими объёмами памяти, то в K8 было увеличено число записей в буферах быстрого преобразования адреса (TLB). Увеличение производительности при повышении размеров TLB в настольных системах, скорее всего, будет минимально. Примером тому может служить ядро Palomino, где AMD увеличила размеры буфера преобразования адресов - тогда небольшой прирост производительности наблюдался лишь в приложениях по 3D-рендерингу.

64-битная стратегия AMD - x86-64

Перейдём к фундаментальной части архитектуры K8/Opteron - поддержке 64 бит. K8 - первое в мире и единственное 64-битное x86-ядро, поскольку AMD смогла добавить 64-битную поддержку в виде расширений набора инструкций x86.

В прошлом именно Intel расширила архитектуру x86 ISA (Instruction Set Architecture) за пределы её 8-битной основы. Но как только компания достигла порога в 32 бита, Intel начала разработку 64-битных процессоров, при этом инженеры компании пожелали освободиться от громоздкой x86 ISA и реализовать что-то более надёжное. Так и появилась IA-64.

Архитектура IA-64 ISA существенно лучше x86 ISA по многим критериям, однако обсуждение IA-64 несколько выходит за рамки нашей статьи, поэтому мы сфокусируем своё внимание на x86. Основная проблема архитектуры IA-64 ISA, следовательно, и микропроцессоров IA-64, заключается в отсутствии встроенной совместимости с x86 кодом, что не позволяет процессорам IA-64 эффективно работать с программным обеспечением, разработанным за последние двадцать лет. Intel прекрасно осознаёт проблему и оборудует свои процессоры IA-64 (Itanium, Itanium 2 и т.д.) декодером, который преобразует инструкции x86 в команды IA-64. Декодер не является самым эффективным как по способу реализации, так и по принципу построения, ведь аппаратная поддержка инструкций x86 работает значительно быстрее. Поэтому Itanium и Itanium 2 обеспечивают низкую производительность в приложениях x86.

Преимущества 64-битной архитектуры микропроцессоров главным образом относятся к памяти. Если вы возьмёте два идентичных микропроцессора, пусть один из них будет 32-битным, а другой - 64-битным, то последний сможет адресовать намного больший объем памяти, чем 32-битный (2⁶⁴ против 2³²). Для тех клиентов, которых ограничивают объём адресуемой памяти 32-битной архитектуры (4 Гбайт), единственным решением Intel с высоким уровнем производительности является Itanium, однако если вам ещё нужна и высокая производительность в x86 приложениях, то Intel ничего вам предложить не может.

64-битная стратегия AMD существенно отличается. AMD всегда фокусировалась на текущих потребностях потребителей, а не на видении компьютерных технологий через 5-10 лет, что хорошо заметно по стратегии развития 64-битных процессоров. Стратегия довольно проста и в прошлом неплохо работала: давайте возьмём за основу производительное x86 ядро и просто расширим набор инструкций для возможности адресации 64-битного пространства памяти - в результате мы получим то, что AMD называет x86-64.

архитектура x86-64

Функции архитектуры x86-86, которую после выпуска Opteron переименовали в AMD64, довольно просты:

Обратная совместимость с существующим x86 кодом
Восемь новых 64-битных регистров общего назначения (GPR) равно как 64-битная версия оригинальных восьми регистров общего назначения GPR x86 (доступны лишь в 64-битном "длинном" режиме, разъяснение дано ниже)
Поддержка SSE и SSE2 помимо восьми новых регистров SSE2
Увеличенное адресное пространство памяти для приложений с большими объемами данных (доступно лишь в "длинном" режиме, разъяснение дано ниже)
Высокая производительность в современных 32-битных приложениях с поддержкой грядущих 64-битных приложений, что позволяет осуществить плавный переход

Поскольку процессор может запускать как x86-код, так работать с новыми инструкциями x86-64, вы можете догадаться о двух рабочих режимах: они названы "наследственным (legacy)" и "длинным (long)".

Режимы работы

В "наследственном" режиме K8 будет работать со всеми 16- или 32-битными x86-приложениями, мало отличаясь от процессора K7.

В "длинном" режиме всё намного интереснее. Начнём с того, что для этого режима необходима 64-битная операционная система, совместимая с архитектурой x86-64. В этом режиме K8 может работать в двух подрежимах: полном 64-битном режиме или в режиме совместимости. Полный 64-битный режим позволяет реализовать все преимущества 64-битной архитектуры, включая 64-битную адресацию памяти. Одна из главных особенностей архитектуры K8 заключается в удвоении регистров общего назначения при работе в режиме x86-64, и эта функция является важным преимуществом полного 64-битного подрежима.

Подрежим совместимости не даёт никаких преимуществ 64-битной архитектуры на уровне приложений, поскольку этот подрежим разработан для запуска 32-битных программ в 64-битной ОС (отсюда и такое название). Дополнительные регистры и расширение регистров до 64 бит в этом подрежиме не работает. Существование подрежима совместимости очень важно в силу ограничения максимального объёма памяти в 2 Гбайт под большинством ОС Windows. И хотя 32-битные версии Windows могут адресовать до 4 Гбайт памяти, каждый процесс может использовать максимум 2 Гбайт - оставшиеся 2 Гбайт зарезервированы под операционную систему. Подрежим совместимости позволяет 32-битным приложениям получать доступ ко всем 4 Гбайт памяти при запуске этих приложений под 64-битной версией Windows (когда она будет выпущена).

Наконец, в нашем распоряжении существует 64-битный "длинный" режим. В дополнение к адресации памяти выше 4 Гбайт, в этом режиме приложения могут использовать удвоенное количество регистров общего назначения. Напомним, что регистры являются высокоскоростными ячейками памяти, находящимися внутри процессора, которые используются для хранения промежуточных данных. К примеру, если вам необходимо найти сумму двух чисел, то оба этих числа и финальный результат будут записаны в регистры.

Проблемы начинают возникать, когда регистров становится недостаточно. Вы не можете взять и просто добавить регистры, поскольку старые приложения были скомпилированы с учётом старой архитектуры, которая не предусматривает использование новых регистров. Если архитектура изначально предусматривает восемь регистров, то вы никуда не денетесь от числа восемь, если только не поменяете архитектуру - а такой процесс происходит очень и очень редко. К тому же смена архитектуры приводит к отсутствию обратной совместимости, если только вы не пойдёте маршрутом AMD x86-64 расширения существующей архитектуры. Но даже в этом случае вы не сможете обеспечить большим числом регистров старые приложения, которые ничего не знают о новой архитектуре.

Когда регистров не хватает, то у процессора не возникает другого выбора, кроме как использовать основную память (или кэш), чтобы хранить промежуточные значения. К сожалению, даже обращение к кэшу выполняется слишком долго по сравнению с хранением данных в скоростных ячейках памяти, поэтому очень важно всегда использовать регистры для хранения данных (по возможности). Принцип очень прост: чем больше регистров находится в вашем распоряжении, тем меньше вероятность того, что вам их не хватит. Удвоение регистров позволяет увеличить производительность при условии работы процессора под управлением 64-битной операционной системы и запуска приложений, откомпилированных с учётом "длинного" 64-битного режима.

Смотрите, что нашли: встроенный на кристалл контроллер памяти

Одна из наиболее противоречивых особенностей ядра K8 заключается в интеграции части функций северного моста на ядро процессора, включая контроллер памяти.

Ядро процессора Hammer

Opteron использует шину памяти DDR шириной 144 бита, то есть 72-битные (64 бита плюс 8 бит для памяти ECC) модули DIMM должны устанавливаться парами. И, как показывает ширина каналов, Opteron поддерживать только регистровую ECC DDR SDRAM.

Преимущества встроенного контроллера памяти очевидны - доступ к памяти с низким задержками и работа контроллера с высокой скоростью, что достигается благодаря использованию современного техпроцесса производства с быстрыми транзисторами.

Сравнение задержек памяти, время доступа в наносекундах, меньше - лучше.

Как видите, встроенный контроллер памяти Opteron обладает существенно меньшими задержками, чем двухканальный контроллер памяти DDR на nForce2. Также следует отметить крайне низкие задержки контроллера памяти 875P, особенно учитывая его "внешнее" расположение - но вам следует иметь в виду, что платформа Intel работает на другой частоте. Если платформа Intel и имеет задержку, сравнимую с Opteron, процессор Xeon работает с намного большей частотой, то есть за одинаковый промежуток времени у него теряется большее число тактов.

Сравнение задержек памяти, число потерянных тактов, меньше - лучше.

Диаграмма отображает число потерянных данных при обращении к основной памяти, и здесь мы наблюдаем неоспоримое преимущество встроенного контроллера памяти.

Недостатком встроенного контроллера памяти является то, что для поддержки новых технологий памяти придётся менять процессор целиком, а не одну материнскую плату. Встроенные возможности процессора позволяют K8 использовать внешний чипсет для доступа к памяти и отключить встроенный контроллер памяти. Однако следует помнить, что K8 без встроенного контроллера памяти напоминает оптимизированный K7 с удлинённым конвейером.

Многопроцессорная Мекка

Если K7 разрабатывался как флагманский процессор AMD для настольных конфигураций, то K8 должен был защитить интересы компании, прежде всего, на рынке серверов, а уже затем "спуститься" до уровня настольных процессоров. Поэтому становится очевидным, что ядро K8 должно быть хорошо подготовлено к работе в многопроцессорном окружении.

Чтобы понять, почему K8 (и Opteron) столь хорошо подходят для многопроцессорных окружений, вы должны сначала разобраться в ограничениях традиционной архитектуры. Athlon MP был призван преодолеть первое ограничение традиционной многопроцессорной архитектуры Intel - разделяемую FSB. Независимо от того, сколько процессоров вы имеете, - один, два или четыре, - все они используют одну и ту же 64-битную FSB для подсоединения к остальной части системы. Недостаток очевиден: чем больше процессоров работает совместно, тем меньше пропускной способности FSB достаётся каждому процессору.

AMD обола это ограничение с выпуском Athlon MP, предоставив каждому процессору собственное 64-битное подключение к северному мосту, выпустив первый в мире протокол FSB типа "точка-точка" для компьютеров архитектуры x86. Подход AMD обеспечил большую производительность по сравнению с Intel, но по значительно более высокой цене. Чипсет 760MP стал очень дорогим чипсетом, при этом он поддерживал только двухпроцессорную конфигурацию. AMD так и не построила 4-процессорную систему на базе чипсета Athlon MP, главным образом по причине отсутствия спроса, но вряд ли для компании такой шаг легко бы дался, даже если бы спрос и существовал.

С выпуском K8 AMD поднимается ещё на одну ступеньку вверх и предлагает более производительное многопроцессорное решение, которое поддерживает прекрасную масштабируемость благодаря реализации технологии AMD HyperTransport. HyperTransport является протоколом последовательной шины "точка-точка", которую AMD использует для подключения многих элементов: от контроллеров ввода/вывода до мостов AGP/PCI и даже центральных процессоров.

Opteron использует три шины HyperTransport шириной 16 бит, причём каждая шина обеспечивает пропускную способность до 3,2 Гбайт/с в каждом направлении (что даёт суммарную пропускную способность 6,4 Гбайт/с на каждой шине), Каждый процессор Opteron может подключаться к другим процессорам Opteron с помощью двух шин. Третья шина используется для связи с любыми другими частями системы.

Многопроцессорные возможности Opteron
2 процессора Нажмите для увеличения	4 процессора Нажмите для увеличения	8 процессоров Нажмите для увеличения

Красота подобного подхода заключается в том, что 8-процессорную систему так же легко реализовывать, как и двухпроцессорную, причём вам не понадобятся дорогие чипсеты.

Побочный эффект обладания каждым процессором своего собственного контроллера памяти заключается том, что пропускная способность памяти увеличивается пропорционально числу работающих процессоров. Если в традиционной многопроцессорной архитектуре процессоры должны разделять между собой пропускную способность точно так же, как и в с случае с FSB, с Opteron каждый процессор самостоятельно распоряжается 128-битной шиной памяти DDR. При наличии в системе нескольких процессоров, каждый из них может использовать как собственный контроллер памяти, так и контроллер памяти другого процессора, что позволяет увеличить эффективную пропускную способность память. К примеру, сегодня Opteron поддерживает максимум DDR333 SDRAM, что даёт пиковую пропускную способность 5,3 Гбайт/с на процессор. Процессор может считывать данные с других контроллеров памяти в многопроцессорной системе с максимальной скоростью 3,2 Гбайт/с, что равно пропускной способности шины HyperTransport между двумя процессорами.

Чтобы в полной мере использовать подобный доступ к памяти, операционная система должна обладать достаточным интеллектом, чтобы не помещать все данные в первые xxx Мбайт памяти. Вместо этого операционная система должна распределять данные таким образом, чтобы максимизировать локальные обращения процессоров к памяти и минимизировать удалённые. К примеру, рассмотрим 4-процессорный сервер Opteron, где для каждого процессора установлен 1 Гбайт памяти. Если объём рабочего массива составляет лишь 512 Мбайт, то его не следует располагать целиком в памяти первого процессора - особенно, если все четыре процессора будут использовать данные. Массив следует либо скопировать в локальную память всех процессоров, или разделить его между четырьмя процессорами, чтобы все четыре процессора могли обращаться к локальным данным на полной скорости 5,3 Гбайт/с. Подобный тип доступа к памяти называется NUMA (доступ к неоднородной памяти, Non-Uniform Memory Access), причём предполагается поддержка подобной технологии в Windows 2003 Server.

В результате мы получаем хорошую масштабируемость ядра K8 (таким образом, и Opteron) с ростом числа процессоров по сравнению с системой на процессорах Intel. Для доказательство мы взяли результаты одного из наших тестов второй части статьи и сравнили преимущество перехода от одного к двум процессорам Opteron и Xeon.

Увеличение производительности при переходе от одного процессора к двум

Если Xeon смог продемонстрировать лишь 11% увеличение производительности при переходе к двум процессорам, то в случае с Opteron оно составило впечатляющие 24 процента! Причём в полученных значениях нет причин сомневаться. Очевидно, AMD разработала процессор Opteron для серьёзных многопроцессорных окружений. Мы надеемся, что вскоре сможем представить вам результаты перехода к 4-процессорной системе.

Ещё один интересный момент архитектуры K8 заключается в том, что она была изначально разработана с учётом создания многоядерных процессоров. Фред Вебер пояснил нам, что Opteron имеет всю необходимую логику для создания многоядерных процессоров. Более того, многоядерные процессоры уже были проверены, хотя производство подобных процессоров ещё не осуществлялось. Процесс довольно прост: AMD изготавливает два ядра Opteron, убирает физические порты HyperTransport и соединяет два процессора на одном кристалле. AMD может начать выпуск подобных процессоров уже сегодня, однако, по словам Вебера, производство многоядерных Opteron имеет смысл лишь при сохранении площади кристалла меньше 120 мм². Этот критерий достижим лишь при переходе к 0,65 мкм техпроцессу, так что по мере совершенствования технологических процессов мы ещё услышим о многоядерных процессорах Opteron.

Физические параметры

Выше мы в основном обсуждали архитектуру ядра Opteron, теперь же настало время перейти к физическим характеристикам.

Opteron изготавливается по самому совершенном технологическому процессу AMD на данный момент - 0,13 мкм с использованием технологии "кремний на диэлектрике" (Silicon on Insulator, SOI). Благодаря использованию этой технологии можно достичь более высоких тактовых частот и меньшего тепловыделения.

Благодаря увеличению кэша L2 до 1 Мбайт, Opteron является самым сложным, большим и дорогим чипом AMD. Площадь кристалла составляет чуть меньше 200 мм². Как сообщили нам представители компании чуть выше, оптимальная площадь кристалла для производства составляет 100 - 120 мм², поэтому вряд ли AMD занимается производством Opteron с лёгкой душой.

Дорогой чип обладает ещё одной неприятностью в производстве, которая станет очевидной, как только вы взглянете на нижнюю часть процессора. Там вы увидите все 940 ножек. Одна цена упаковки бьёт рекорд среди процессоров AMD, что связано с наличием трёх шин HyperTransport и 128-битного интерфейса памяти на каждом процессоре Opteron (что объясняет очень высокую цену на процессоры Opteron).

процессор снизу

Что интересно, AMD вернулась к использованию керамической упаковки Opteron вместо органической упаковки Athlon XP. AMD наверняка перейдёт на органическую упаковку при повышении тактовых частот. Как мы полагаем, снижение тока благодаря применению технологии SOI позволило AMD использовать керамическую упаковку.

Прекрасный механизм крепления радиатора

В последнее время монтаж радиатора мог вызвать различные проблемы, главным образом по причине выпуска плохо продуманных и низкокачественных решений, которые могли повредить как процессор, так и материнскую плату, или сразу оба компонента.

Даже Intel испытала трудности с последними версиями кулеров для Pentium 4, которые легко прогибали материнскую плату в силу использования особого механизма крепления, прикладывающего существенную силу.

Решение крепления радиатора от AMD смотрится более элегантно и требует всего два винта.

крепление

Благодаря встроенному распределителю тепла Opteron, нам больше не нужно беспокоиться о сломанных ядрах.

распределитель тепла

Номенклатура Opteron

Когда AMD выпустила Athlon XP, нас несколько смутила новая система обозначений процессоров, несмотря на то, что мы являлись приверженцами Athlon. Как показала практика, подобная система использования модельных номеров оказалась довольно успешной, поскольку лишь немногие пользователи знали (равно, как и желали знать) о реальной тактовой частоте своих процессоров Athlon XP и вполне нормально использовали модельные номера. Главным недостатком системы модельных номеров AMD явилось то, что процессоры Athlon MP, предназначенные для серверов/ рабочих станций, получили модельные номера на основе производительности в настольных приложениях. С выпуском Opteron AMD наконец-то разделила модели настольных и серверных процессоров.

Система модельных номеров Opteron состоит из трёх цифр, xyz. Первая цифра, x, указывает на общее число процессоров, которое можно использовать в многопроцессорной системе. К примеру, Opteron серии 200 может использоваться как в однопроцессорной, так и в двухпроцессорной конфигурациях, в то время как Opteron серии 800 - дополнительно в 4-процессорных и в 8-процессорных системах.

Оставшиеся цифры, yz, отражают относительную производительность. Однако у нас мало информации о том, как они получаются. Всё, что мы знаем: Opteron x44 быстрее Opteron x42, но причина здесь может заключаться в тактовой частоте, размере кэша или скорости шины HyperTransport, помимо всего прочего. Нравится вам, или нет, но придётся привыкать к новым модельным номерам.

22 апреля AMD выпустила три вида Opteron, два из которых должны быть доступны уже на момент выхода этой статьи, в то время как вариант с повышенной тактовой частотой выйдет на рынок в июне.

Модельные номера AMD Opteron
Название процессора	Тактовая частота
Opteron 244	1,80 ГГц
Opteron 242	1,60 ГГц
Opteron 240	1,40 ГГц

Как видно из таблицы, Opteron будет выпускаться в вариантах 1,4, 1,6 и 1,8 ГГц, с модельными номерами 240, 242 и 244 соответственно. Между тремся процессорами не будет никаких других отличий помимо тактовой частоты.

Интересно отметить, что AMD смогла достичь больших частот, чем 1,8 ГГц, с использованием своего 0,13 мкм техпроцесса без технологии SOI (напомним, что Athlon XP 2800/3000+ оба работают чуть выше 2,0 ГГц). Мы можем лишь догадываться, почему AMD решила проявить консерватизм с тактовыми частотами Opteron. Скорее всего, на достижение сравнимых таковых частот потребуются дополнительные усилия, что может быть связано с доработкой 0,13 мкм техпроцесса SOI. Или AMD пожелала выпустить процессор с максимально низкой тактовой частотой, чтобы сохранить свою конкурентоспособность - сэкономить силы до тех пор, пока они не станут жизненно необходимы.

Чипсеты для Opteron

Мы стали свидетелями появления множества чипсетов для грядущего Athlon 64, однако выбор для Opteron оказался довольно скуп, не считая собственного решения от AMD.

Чипсет AMD 8000 будет работать так же хорошо с Opteron, как и с Athlon 64, причём этот чипсет вы увидите практически на всех системах Opteron. Поскольку AMD фокусирует выпуск нового процессора на корпоративный рынок, то ни одна из появившихся плат для Opteron не использует туннель AGP AMD 8151. Поэтому мы не наблюдаем и слотов AGP.

Концентратор ввода/вывода HyperTransport AMD 8111 (или южный мост).

Туннель PCI-X HyperTransport AMD 8131.

Встречайте nForce3 Professional

Приятным сюрпризом оказался ранний выход nVidia на рынок чипсетов для K8 с выпуском nForce3 Pro.

Одночиповое решение nForce3 Pro направлено на рабочие станции/домашние компьютеры энтузиастов, которые будут использовать один процессор Opteron. Конечно же, этот чипсет оснащён встроенным контроллером AGP 8X.

Вместе с процессором Opteron был анонсирован чипсет nForce3 Pro 150. Поскольку Opteron уже использует встроенный контроллер памяти, nVidia добавила только свои контроллеры AGP, Ethernet, IDE и звука на один чип. nForce3 Pro 150 обеспечивает поддержку AGP 8X, сетевого интерфейса nVidia 10/100 (практически идентичного nForce2) и простейшую поддержку звука AC'97 (без специального процессора). Pro 150 поддерживает три канала UltraATA 133, причём на третий канал возможна установка моста Serial ATA, чтобы обеспечить поддержку соответствующего интерфейса. Чипсет nForce3 Pro 150 не имеет поддержки встроенного видео в силу позиционирования на определённый рынок.

Этой осенью нас ждёт выпуск чипсета nForce3 Pro 250, который будет поддерживать гигабитный Ethernet (собственная разработка nVidia) и Serial ATA (два встроенных порта). nForce3 Pro 250 продолжит оставаться одночиповым решением, причём, как утверждает nVidia, подключение гигабитного сетевого контроллера по шине HyperTransport будет обладать достаточной пропускной способностью.

Как вы догадались, чипсет для Athlon 64, скорее всего, будет назван nForce3, а приставка Pro будет зарезервирована для рынка рабочих станций.

Единственный партнёр nVidia по запуску nForce3 Pro, ASUS, выпустит платы в ближайшие два месяца.

Заключение

После двух лет ожидания мы, наконец-то, получили в своё распоряжение процессор, который может укрепить позиции AMD - Opteron. Нам следует запастись ещё несколькими месяцами терпения до выпуска настольной версии Athlon 64. Но, как вы увидите в наших последующих статьях, высокая производительность будет хорошим оправданием ожиданию, учитывая рост тактовых частот процессора.

Архитектура Opteron несёт определённую угрозу линейке Intel Xeon, но какова будет ситуация на реальных приложениях? Сможет ли AMD заработать деньги? Читайте вскоре продолжение нашей статьи, где мы протестируем Opteron в корпоративном окружении.