Министерство образования Российской Федерации
Рязанская Государственная
Радиотехническая Академия
Кафедра АиММ
Курсовая работа на тему:
«Технические характеристики процессоров»
Оглавление
1. История появления процессоров
2. Процессор и его составляющие
3. Современная микропроцессорная технология фирмы Intel
3.1 Первые процессоры фирмы Intel
3.2 Процессор 8086/88
3.3 Процессор 80186/88
3.4 Процессор 80286
3.5 Процессор 80386
3.6 Процессор 80486
3.7 Процессор i486SX
3.8 Intel OverDrive процессор
3.9 Процессор Pentium
3.10 Процессор Pentium Pro
3.11 Intel® Pentium® 4 стехнологиейHyper-Threading, Intel® Pentium® 4, Intel® Pentium® III Processor , Intel® Pentium® II-всравнительнойхарактеристике
3.12 Hyper-Threading: зачем она нужна
3.13 Pentium 5
4. AMD
4.1 Развитие семейства K-6
4.2 Технология 3DNow
4.3 AMD Duron 650
4.4 AMD Athlon
4.5 Чипсеты
4.6 AMD Athlon (Thunderbird) 800
4.7 AMD Athlon XP 1800+ (1533 MHz)
4.8 Athlon XP 3200+
5. Многопроцессорные системы. (SMP)
5.1 Многопроцессорные системы. Opteron
6. Советы по выбору процессора Intel и AMD
7. Другие фирмы-производители и некоторые процессоры этих фирм
8. Разгон процессора или overclocking
9.Системы охлаждения процессора
9.1 Радиаторы
9.2 Вентиляторы
1.История появления процессоров
С чего же всё началось?
Может быть, всё началось с изобретения транзистора в 1947 году?
А может, всё началось с первого электронного компьютера ENIAC (1946 г.), который умел считать на три порядка быстрее релейных машин (прорыв!). Система насчитывала 18 тыс. электронных ламп, занимала помещение 9x15 кв. метров, весила 30 т, потребляла 150 кВт, имела тактовую частоту 100 кГц (разгону не поддавалась), складывала за 0,2 мс, умножала за 2,8 мс.
И, конечно, у ENIAC имелся ворох недостатков. Во-первых, десятичная система счисления. Во-вторых, чрезвычайно сложное программирование, на перепрограммирование элементарной задачи уходили недели человекотруда. Третье вытекает из второго — очень низкая надёжность системы из-за большой зависимости от человеческого фактора, а на поиск неисправности уходили часы и даже дни.
А может, всё начиналось в 1705 году, когда Фрэнсис Хуксби изобрёл свой электростатический генератор?
/>
Вот он, самый первый электрический генератор, основанный на трении, назывался он автором “influence machine” (машина влияний).
Началось это всё в апреле 1969 года, когда некая японская компания Busicom заказала у молодой, но уже очень амбициозной Intel несколько специальных микросхем для своих будущих калькуляторов. Сама же Intel к тому времени занималась относительно мелкими заказами типа биполярной статической памяти Шотки.
Так вот, прикинув смету на заказ японцев, Intel приходит к выводу, что необходимо разрабатывать десятки микросхем. Говорят, Les Vadasz (тогдашний президент Intel) даже грязно выругался – у них просто не было достаточно людей для подобных разработок. Кроме того, японцы хотели сделать чипам дорогостоящую (по тем временам) упаковку и программировать микросхемы на языке высокого уровня, что, естественно, скорости работы им не добавляло. Но Intel, поднапрягши свои мозги, подтвердил народную русскую пословицу о том, что голь на выдумку хитра.
Вот тут на сцену и выходит Тед Хофф младший (1937 г. рождения), который предлагает все функции возложить на один-единственный центральный процессор.
Идея нравится Бобу Нойсу (на тот момент большой шишке маленькой компании), он всячески помогает Теду продолжить свои разработки. Японские же инженеры, постоянно навещающие Санта-Клару, ставят палки в колёса нового изобретения, не принимая дизайн и идеи Теда, параллельно разрабатывая свои микросхемы. Так отвергалось изобретение, которое в будущем будет стоять в одном ряду с двигателем внутреннего сгорания, радио и электрической.лампочкой. И тем не менее, на очередном собрании где-то в октябре 1969 года японцы понимают все преимущество идеи Теда и дают полное добро на новую разработку от Intel “компьютер на чипе”.
К тому времени помогал Теду младшему некий Стен Мэйзор. Вместе они работали над системой команд, так как в архитектурных нюансах конструирования микрочипа не сильно-то и разбирались. Злые языки даже утверждают, что Хофф и Ко. “позаимствовали” систему команд из разработок IBM и Digital.
Intel постоянно искал талантливых разработчиков, и в апреле 1970 года к группе присоединяется Федерико Фэджин. Трудолюбие его не знало предела, на протяжении девяти месяцев всё возможное время Федерико посвятил разработке новых чипов.
Первый рабочий камень сошел с конвейера в январе 1971 года. Федерико получил камень около шести часов вечера, после чего заперся в лаборатории, нацепил свой футуристический (по тем временам) защитный костюм, защитные очки и стал проводить опыты. Вышел из Intel lab он только в 3 часа ночи и, качаясь от многомесячного перенапряжения, отправился домой, где его давно ожидала всё понимающая жена Эльвия. С порога бросив: “Он работает, он работает!”, он принялся её радостно обнимать.
Однако процессор содержал несколько серьёзных ошибок, и после напряженного труда, Федерико к февралю представляет вторую, подправленную, версию.
Много позже разгорятся споры, кто же из родителей первого процессора “круче”. Интересно, что об этом думают сами изобретатели:
Стен Мазор: “… самый крутой был Фэджин. Этот парень днём и ночью сидел в лабораториях и тестировал, тестировал, тестировал новое детище. Я сомневаюсь, что без Федерико этот чип действительно когда-либо заработал бы.”
Федерико Фэджин: “Ха-ха! Написать систему команд (фундаментальная работа Хоффа и Стена в 1971 году) мог каждый выпускник колледжа.”
Les Vadasz: “Безусловно, Федерико внёс огромный вклад в разработку. И, тем не менее, нельзя преуменьшать заслугу Теда Хоффа, ведь это он предложил концептуальную модель — новый скачок в информационных технологиях.”
Выходит так, что каждый внёс большой вклад в изобретение. Убрать из цепочки даже одного из них – и, вполне возможно, 4004 так бы и не увидел свет. Кроме того, задолго до 1969 года Нойс, когда он ещё работал в Fairchild Semiconductor, придумал напылять транзисторы на кремний, вместо того, чтобы изнурительным ручным трудом пытаться соединить каждый транзистор проводками с нарезанными треугольниками кремния.
Итак, 15 ноября 1971 года (в красный день календаря) Intel представила миру свой новый микрочип. Официальный День Рождения Процессора состоялся!
Характеристика нового чипа:
4-разрядный, 2300 р-канальных МОП-транзисторов, кристалл площадью 3,8x2,8мм, тактовая частота 108кГц.
Обеспечивал адресацию 4Кб ПЗУ и 512байт ОЗУ.--PAGE_BREAK--
Позже, в 1974 году Федерико уйдёт из Intel, основывает свою компанию Zilog которая будет напрямую конкурировать с Intel.
После его ухода роль Фэджина в создании i4004 будет всячески преуменьшаться менеджерами Intel. Имя Федерико в Санта-Кларе будет всеми силами придаваться забвению.
Производство первого процессора постоянно затягивалось, что никак не радовало Busicom. Прежде всего, из-за растущей конкуренции на рынке калькуляторов. Получилось так, что к выходу i4004 Busicom просто не имел необходимой суммы денег на оплату услуг Intel. И тогда принимается соломоново решение: Intel урезает стоимость контракта на 60 тыс. долларов, но при этом все права на новую разработку остаются у Intel.
Запатентовали новое изобретение на имя всем известной, всеми любимой троицы: Хоффа, Мазора и Фэджина.
Как ни странно, рынок далеко не сразу хорошо принял нововведение. Пройдут годы и десятилетия, прежде чем новое изобретение раскроется во всей красе. Маркетологи Intel на всевозможных форумах и выставках достижений будут рассказывать о своём изобретении и его преимуществах, в космос полетит спутник, в сердце которого будет биться 4004, заработают калькуляторы в конце концов обанкротившейся Busicom.
И, тем не менее, Intel всерьёз воспринимать не будут. Стандартное мнение середины 70-ых, главный инженер DEC:
“Intel никогда не будет представлять серьёзной угрозы. Мы не берём их в расчет”.
Пройдёт 10 лет со времени изобретения первого процессора. И тогда Intel заговорит со всеми конкурентами в полный голос.
2. Процессор и его составляющие
Но время неумолимо шло исегодняшние процессоры от Intelбыстрее своего прародителя более чем в десять тысяч раз! А любой домашний компьютер обладает мощностью и «сообразительностью» во много раз большей, чем компьютер, управлявший полетом космического корабля «Аполлон» к Луне.
Но перейдём к самому процессору и его компоненты:
1. Процессор, главное вычислительное устройство, состоящее из миллионов логических элементов — транзисторов
2. Сопроцессор — специальный блок для операций с «плавающей точкой» (или запятой). Применяется для особо точных и сложных расчетов, а также для работы с рядом графических программ.
3. Кэш-память.
Кэш-памяти в процессоре имеется двух видов.
Самая быстрая — кэш-память первого уровня (32 КБайт у процессоров Intelи до 64 КБайт — в последних моделях AMD). Существует еще чуть менее быстрая, но зато — более объемная кэш-память второго уровня — и именно ее объемом различаются различные модификации процессоров. Так, в семействе Intelсамый «богатый» кэш-памятью — мощный Xeon(2 Мбайт). У Pentiumразмер КЭШа второго уровня почти в 10 раз меньше — 256 КБайт, ну aCeleronвынужден обходиться всего 128 КБайт! А значит, при работе с программами, требовательными к объему кэш-памяти, «домашний» процессор будет работать чуть медленнее. Зато и стоимость его в два-три раза ниже: кэш-память — самый дорогой элемент в процессоре, и с увеличением ее объема стоимость кристалла возрастает в геометрической прогрессии!
Трудно поверить, что все эти устройства размещаются на кристалле площадью не более 4—6 квадратных сантиметров! Только под микроскопом мы можем разглядеть крохотные элементы, из которых состоит микропроцессор, и соединяющие их металлические «дорожки» (для их изготовления сегодня используется алюминий, однако уже через год на смену ему должна прийти медь). Их размер поражает воображение — десятые доли микрона! Например, в 1999 году большая часть процессоров производилась по 0,25-микронной технологии, в 2000 году ей на смену пришла 0,18- и даже 0,13-микронная. При этом ожидается, что в течение ближайших двух лет плотность расположения элементов на кристалле увеличится еще в 2 раза.
Впрочем, при выборе микропроцессора мы руководствуемся отнюдь не «микронностью» технологии, по которой этот процессор сделан. Существуют другие, гораздо более важные для нас характеристики процессора, которые прямо связаны с его возможностями и скоростью работы.
4.Тактовая частота.
Скорость работы — конечно же, именно на этот показатель мы обращаем внимание в первую очередь! Хотя лишь немногие пользователи понимают, что, собственно, он означает. Ведь для нас, неспециалистов, важно лишь то, насколько быстро новый процессор может работать с нужными нам программами — а как, спрашивается, оценить эту скорость?
У специалистов существует своя система измерения скорости процессора. Причем таких скоростей (измеряемых в миллионах операций в секунду — MIPS) может быть несколько — скорость работы с трехмерной графикой, скорость работы в офисных приложениях и так далее...
Не слишком удобно. Поэтому большинство пользователей, говоря о скорости процессора, подразумевает совсем другой показатель. А называется он тактовой частотой. Эта величина, измеряемая в мегагерцах (МГц), показывает, сколько инструкций способен выполнить процессор в течение секунды. Тактовая частота обозначается цифрой в названии процессора (например, Pentium4-1200, то есть процессор поколения Pentium4 с тактовой частотой 1200 МГц или 1,2 ГГц).
5.Поколения процессоров.
Отличаются друг от друга скоростью работы, архитектурой, исполнением и внешним видом… словом, буквально всем. Причем отличаются не только количественно, но и качественно. Так, при переходе от Pentiumк PentiumII и затем — к PentiumIIIбыла значительно расширена система команд (инструкций) процессора.
Будем брать за точку отсчета изделия «королевы» процессорного рынка, корпорации Intel, то за всю 27-летнюю историю процессоров этой фирмы сменилось восемь их поколений: 8088, 286, 386, 486, Pentium, PentiumII, PentiumIII, Pentium4.
6.Модификация.
В каждом поколении имеются модификации, отличающиеся друг от друга назначением и ценой. Например, в славном семействе Pentiumчислятся три «брата» — старший, Xeon, работает на мощных серверах серьезных учреждений. Средний братец, собственно Pentium, трудится на производительных настольных компьютерах, ну а симпатяга-демократ Celeronверно служит простому люду на домашних компьютерах. Схожая ситуация — и в конкурирующем с Intelсемействе процессоров AMD, Для дорогих настольных компьютеров и графических станций фирма предлагает процессоры Athlon, а для недорогих домашних ПК предназначен другой процессор — Duron.
В пределах одного поколения все ясно: чем больше тактовая частота, тем быстрее процессор. А как же быть, если на рынке имеются два процессора разных поколений, но с одинаковой тактовой частотой? Например, Celeron-800 и PentiumIII-800… Конечно, второй процессор поколения будет работать быстрее — на 10—15 %, в зависимости от задачи. Связано это с тем, что в новых процессорах часто бывают встроены новые системы команд-инструкций, оптимизирующих обработку некоторых видов информации. Например, в процессорах Intelначиная с Pentiumпоявилась новая система команд для обработки мультимедиа-информации ММХ, aPentiumIIIдополнительно оснащен новой системой инструкций SSL.
7.Частота системной шины.
Последний технологический параметр процессора, с которым нам придется столкнуться в рамках этой главы. Связан он уже с совершенно другим устройством — материнской платой. Шиной называется та аппаратная магистраль, по которой бегут от устройства к устройству данные. Чем выше частота шины — тем больше данных поступает за единицу времени к процессору. продолжение
--PAGE_BREAK--
Частота системной шины прямо связана и с частотой самого процессора через так называемый «коэффициент умножения».Процессорная частота — это и есть частота системной шины, умноженная процессором на некую заложенную в нем величину. Например, частота процессора 500 МГц — это частота системной шины в 100 МГц умноженная на коэффициент 5.
Большинство дорогих моделей процессором Intelкак раз и работает на частотах системной шины 100 и 133 МГц. А частота для старых моделей Celeron, была искусственно снижена до 66 МГц. На такой частоте медленнее работает не только процессор, но и вся система. Правда, в конце 2000 года на рынке появились новые модели Celeron(от 800 МГц), поддерживающие частоту системной шины в 100 МГц. Но и Pentium4 к этому времени перешел на новую частоту системной шины — 133 МГц, так что отставание дешевых процессоров от дорогих сохранилось.
Схожая ситуация наблюдается и у процессоров AMD— правда, последние за счет умения. Вот так и объясняется парадокс — частоты процессоров одинаковы, ну а скорости работы компьютеров отличаются на десятки процентов. Правда, частенько отчаянные умельцы принудительно заставляют процессор работать на более высокой частоте системной шины, чем та, что предназначила для них сама природа вкупе с инженерами Intel. Это издевательство называется в компьютерных кругах «разгоном» и, в случае удачи, резко повышает производительность компьютера. Так, поднятие частоты системной шины для процессора Celeron-600 (коэффициент умножения 9) с 66 до 100 МГц не только «взбадривает» скорость обмена данными по системной шине, на и повышает скорость работы самого процессора до 900 МГц! Конечно, далеко не все процессоры выдерживают «разгон» — большинство в лучшем случае откажется работать, ну а в худшем — выйдет из строя...
3. Современная микропроцессорная технология фирмы Intel
Достижения фирмы Intel в искусстве проектирования и производства полупроводников делают возможным производить мощные микропроцессоры в все более малых корпусах. Разработчики микропроцессоров в настоящее время работают с комплиментарным технологическим процессом метал – оксид полупроводник (CMOS) с разрешением менее, чем микрон.
Использование субмикронной технологии позволяет разработчикам фирмы Intel располагать больше транзисторов на каждой подложке. Это сделало возможным увеличение количества транзисторов для семейства X86 от 29,000 в 8086 процессоре до 1,2 миллионов в процессоре Intel486 DX2, с наивысшим достижением в Pentium процессоре. Выполненный по 0.8 микронной BiCMOS технологии, он содержит 3.1 миллиона транзисторов. Технология BiCMOS объединяет преимущества двух технологий: биполярной (скорость) и CMOS ( малое энергопотребление ). С помощью более, чем в два раза большего количества транзисторов Pentium процессора по сравнению с Intel486, разработчики поместили на подложке компоненты, ранее располагавшимися снаружи процессора. Наличие компонентов внутри уменьшает время доступа, что существенно увеличивает производительность. 0.8 микронная технология фирмы Intel использует трехслойный металл и имеет уровень, более высокий по сравнению с оригинальной 1.0 микронной технологией двухслойного металла, используемой в процессоре Intel486.
3.1Первые процессоры фирмы Intel
За 20-летнюю историю развития микропроцессорной техники, ведущие позиции в этой области занимает американская фирма Intel (INTegral ELectronics). До того как фирма Intel начала выпускать микрокомпьютеры, она разрабатывала и производила другие виды интегральных микросхем. Главной ее продукцией были микросхемы для калькуляторов. В 1971 г. она разработала и выпустила первый в мире 4-битный микропроцессор 4004. Фирма первоначально продавала его в качестве встроенного контроллера (что-то вроде средства управления уличным светофором или микроволновой печью). 4004 был четырехбитовым, т.е. он мог хранить, обрабатывать и записывать в память или считывать из нее четырехбитовые числа. После чипа 4004 появился 4040, но 4040 поддерживал внешние прерывания. Оба чипа имели фиксированное число внутренних индексных регистров. Это означало, что выполняемые программы были ограничены числом вложений подпрограмм до 7.
В 1972 г., т.е. спустя год после появления 4004, Intel выпустила очередной процессор 8008, но подлинный успех ей принес 8-битный микропроцессор 8080, который был объявлен в 1973 г. Этот микропроцессор получил очень широкое распространение во всем мире. Сейчас в нашей стране его аналог — микропроцессор KP580ИК80 применяется во многих бытовых персональных компьютерах и разнообразных контроллерах. С чипом 8080 также связано появление стека внешней памяти, что позволило использовать программы любой вложенности.
Процессор 8080 был основной частью первого небольшого компьютера, который получил широкое распространение в деловом мире. Операционная система для него была создана фирмой Digital Research и называлась Control Program for Microcomputers (CP/M).
3.2 Процессор 8086/88
В 1979 г. фирма Intel первой выпустила 16-битный микропроцессор 8086, возможности которого были близки к возможностям процессоров миникомпьютеров 70-х годов. Микропроцессор 8086 оказался «прародителем» целого семейства, которое называют семейством 80x86 или х86.
Hесколько позже появился микропроцессор 8088, архитектурно повторяющий микропроцессор 8086 и имеющий 16-битный внутренние регистры, но его внешняя шина данных составляет 8 бит. Широкой популярности микропроцессора способствовало его применение фирмой IBM в персональных компьютерах PC и PC/XT.
3.3 Процессор 80186/88
В 1981 г. появились микропроцессоры 80186/80188, которые сохраняли базовую архитектуру микропроцессоров 8086/8088, но содержали на кристалле контроллер прямого доступа к памяти, счетчик/таймер и контроллер прерываний. Кроме того, была несколько расширена система команд. Однако широкого распространения эти микропроцессоры (как и персональные компьютеры PCjr на их основе), не получили.
3.4 Процессор 80286
Следующим крупным шагом в разработке новых идей стал микропроцессор 80286, появившийся в 1982 году. При разработке были учтены достижения в архитектуре микрокомпьютеров и больших компьютеров. Процессор 80286 может работать в двух режимах: в режиме реального адреса он эмулирует микропроцессор 8086, а в защищенном режиме виртуального адреса (Protected Virtual Adress Mode) или P-режиме предоставляет программисту много новых возможностей и средств. Среди них можно отметить расширенное адресное пространство памяти 16 Мбайт, появление дескрипторов сегментов и дескрипторных таблиц, наличие защиты по четырем уровням привилегий, поддержку организации виртуальной памяти и мультизадачности. Процессор 80286 применяется в ПК PC/AT и младших моделях PS/2.
3.5 Процессор 80386
При разработке 32-битного процессора 80386 потребовалось решить две основные задачи — совместимость и производительность. Первая из них была решена с помощью эмуляции микропроцессора 8086 — режим реального адреса (Real Adress Mode) или R-режим.
В Р – режиме процессор 80386 может выполнять 16-битные программы (код) процессора 80286 без каких-либо дополнительных модификаций. Вместе с тем, в этом же режиме он может выполнять свои «естественные» 32-битные программы, что обеспечивает повышение производительности системы. Именно в этом режиме реализуются все новые возможности и средства процессора 80386, среди которых можно отметить масштабированную индексную адресацию памяти, ортогональное использование регистров общего назначения, новые команды, средства отладки. Адресное пространство памяти в этом режиме составляет 4 Гбайт.
Микропроцессор 80386 дает разработчику систем большое число новых и эффективных возможностей, включая производительность от 3 до 4 миллион операций в секунду, полную 32-битную архитектуру, 4 гигабитное (2 байт) физическое адресное пространство и внутреннее обеспечение работы со страничной виртуальной памятью.
Несмотря на введение в него последних достижений микропроцессорной техники, 80386 сохраняет совместимость по объектному коду с программным обеспечением, в большом количестве написанным для его предшественников, 8086 и 80286. Особый интерес представляет такое свойство 80386, как виртуальная машина, которое позволяет 80386 переключаться в выполнении программ, управляемых различными операционными системами, например, UNIX и MS-DOS. Это свойство позволяет производителям оригинальных систем непосредственно вводить прикладное программное обеспечение для 16-битных машин в системе на базе 32-битных микропроцессоров. Операционная система P-режима может создавать задачу, которая может работать в режиме виртуального процессора 8086 (Virtual 8086 Mode) или V-режим. Прикладная программа, которая выполняется в этом режиме, полагает, что она работает на процессоре 8086.
32-битная архитектура 80386 обеспечивает программные ресурсы, необходимые для поддержки «больших » систем, характеризуемых операциями с большими числами, большими структурами данных, большими программами (или большим числом программ) и т.п. Физическое адресное пространство 80386 состоит из 2 байт или 4 Гбайт; его логическое адресное пространство состоит из 2 байт или 64 терабайт (Тбайт). Восемь 32-битных общих регистров 80386 могут быть взаимозаменяемо использованы как операнды команд и как переменные различных способов адресации. Типы данных включают в себя 8-, 16- или 32-битные целые и порядковые, упакованные и неупакованные десятичные, указатели, строки бит, байтов, слов и двойных слов. Микропроцессор 80386 имеет полную систему команд для операций над этими типами данных, а также для управления выполнением программ. Способы адресации 80386 обеспечивают эффективный доступ к элементам стандартных структур данных: массивов, записей, массивов записей и записей, содержащих массивы.
Микропроцессор 80386 реализован с помощью технологии фирмы Intel CH MOSIII — технологического процесса, объединяющего в себе возможности высокого быстродействия технологии HMOS с малым потреблением технологии кмоп. Использование геометрии 1,5 мкм и слоев металлизации дает 80386 более 275000 транзисторов на кристалле. Сейчас выпускаются оба варианта 80386, работающих на частоте I2 и I6 МГц без состояний ожидания, причем вариант 80386 на 16 МГц обеспечивает скорость работы 3-4 миллиона операций в секунду.
Микропроцессор 80386 разделен внутри на 6 автономно и параллельно работающих блоков с соответствующей синхронизацией. Все внутренние шины, соединяющие эти блоки, имеют разрядность 32 бит. Конвейерная организация функциональных блоков в 80386 допускает временное наложение выполнения различных стадий команды и позволяет одновременно выполнять несколько операций. Кроме конвейерной обработки всех команд, в 80386 выполнение ряда важных операций осуществляется специальными аппаратными узлами. Блок умножения/деления 80386 может выполнять 32-битное умножение за 9-41 такт синхронизации, в зависимости от числа значащих цифр; он может разделить 32-битные операнды за 38 тактов (в случае чисел без знаков) или за 43 такта (в случае чисел со знаками). Регистр группового сдвига 80386 может за один такт сдвигать от 1 до 64 бит. Обращение к более медленной памяти (или к устройствам ввода/вывода) может производиться с использованием конвейерного формирования адреса для увеличения времени установки данных после адреса до 3 тактов при сохранении двухтактных циклов в процессоре. Вследствие внутреннего конвейерного формирования адреса при исполнении команды, 80386, как правило, вычисляет адрес и определяет следующий магистральный цикл во время текущего магистрального цикла. Узел конвейерного формирования адреса передает эту опережающую информацию в подсистему памяти, позволяя, тем самым, одному банку памяти дешифрировать следующий магистральный цикл, в то время как другой банк реагирует на текущий магистральный цикл. продолжение
--PAGE_BREAK--
3.6 Процессор 80486
В 1989 г. Intel представила первого представителя семейства 80х86, содержащего более миллиона (а точнее, 1,2 миллиона) транзисторов в чипе. Этот чип во многом сходен с 80386. Он на 100% программно совместим с микропроцессорами 386(ТМ) DX & SX. Один миллион транзисторов объединенной кэш-памяти (сверхбыстрой оперативной памяти), вместе с аппаратурой для выполнения операций с плавающей запятой и управлением памяти на одной микросхеме, тем не менее поддерживают программную совместимость с предыдущими членами семейства процессоров архитектуры 86. Часто используемые операции выполняются за один цикл, что сравнимо со скоростью выполнения RISC-команд. Восьмикилобайтный унифицированный кэш для кода и данных, соединенный с шиной пакетного обмена данными со скоростью 80/106 Мбайт/сек при частоте 25/33 Мгерц гарантируют высокую производительность системы даже с недорогими дисками (DRAM). Новые возможности расширяют многозадачность систем. Новые операции увеличивают скорость работы с семафорами в памяти. Оборудование на микросхеме гарантирует непротиворечивость кэш-памяти и поддерживает средства для реализации многоуровневого кэширования. Встроенная система тестирования проверяет микросхемную логику, кэш-память и микросхемное постраничное преобразование адресов памяти. Возможности отладки включают в себя установку ловушек контрольных точек в выполненяемом коде и при доступе к данным. Процессор i486 имеет встроенный в микросхему внутренний кэш для хранения 8Кбайт команд и данных. Кэш увеличивает быстродействие системы, отвечая на внутренние запросы чтения быстрее, чем при выполнении цикла чтения оперативной памяти по шине. Это средство уменьшает также использование процессором внешней шины. Внутренний кэш прозрачен для работающих программ. Процессор i486 может использовать внешний кэш второго уровня вне микросхемы процессора. Обычно внешний кэш позволяет увеличить быстродействие и уменьшить полосу пропускания шины, требуемую процессором i486.
3.7 Процессор i486SX
Появление нового микропроцессора i486SX фирмы Intel вполне можно считать одним из важнейших событий 1991 года. Уже
предварительные испытания показали, что компьютеры на базе i486SX с тактовой частотой 20 МГц работают быстрее (примерно на 40%) компьютеров, основанных на i80386DX с тактовой частотой 33 МГц. Микропроцессор i486SX, подобно оригинальному i486DX, содержит на кристалле и кэш-память, а вот математический сопроцессор у него заблокирован. Значительная экономия (благодаря исключению затрат на тестирование сопроцессора) позволила фирме Intel существенно снизить цены на новый микропроцессор. Надо сказать, что если микропроцессор i486DX был ориентирован на применение в сетевых серверах и рабочих станциях, то i486SX послужил отправной точкой для создания мощных настольных компьютеров. Вообще говоря, в семействе микропроцессоров i486 предусматривается несколько новых возможностей для построения мультипроцессорных систем: соответствующие команды поддерживают механизм семафоров памяти, аппаратно — реализованное выявление недостоверности строки кэш-памяти обеспечивает согласованность между несколькими модулями кэш-памяти и т.д. Для микропроцессоров семейства i486 допускается адресация физической памяти размером 64 Тбайт
3.8 Intel OverDrive процессор
Возможность постоянного совершенствования. Пользователи персональных компьютеров все чаще сталкиваются с этим по мере все возрастающих требований к микропроцессорам со стороны аппаратного и программного обеспечения. Фирма Intel уверена: лучшая стратегия совершенствования — первоначально заложенная в систему возможность модернизации, модернизации согласно вашим нуждам. Впервые в мире такая возможность предоставляется нашим потребителям. Фирма Intel приступила к выпуску Intel OverDrive процессора, открывающего новую категорию мощных сопроцессоров. После простой установки этого сопроцессора на плату резко вырастет скорость работы всей системы и прикладных программ в MS-DOS, Windows, OS/2, Windows'95 и UNIX.
С помощью этой одной-единственной микросхемы Вы сразу же сможете воспользоваться преимуществами новой стратегии фирмы Intel, заложенной в нашей продукции. Когда настанет неотвратимый момент, когда Вам потребуется производительность большая, чем у Вашего компьютера, то все, что Вам будет нужно — это вставить OverDrive процессор в Вашу систему — и пользоваться преимуществами, которые даст Вам новая микропроцессорная технология фирмы Intel. Более чем просто модернизация, OverDrive процессор — это стратегия защиты Ваших настоящих и будущих вкладов в персональные компьютеры.
Intel OverDrive процессор гарантирует Вам отвечающую стандартам и экономичную модернизацию. Всего лишь одна микросхема увеличит вычислительную мощь Вашего компьютера до требований самого современного программного обеспечения и даже тех программ, которые еще не написаны, в MS-DOS, в Windows, в PS/2, в UNIX, от AutoCAD — до WordPerfect.
Итак, наш первый микропроцессор в серии Single Chip Upgrade (Качественное улучшение — одной микросхемой) — это OverDrive процессор для систем на основе Intel i486SX. Установленный в OverDrive – разъем, этот процессор позволяет системе i486SX использовать новейшую технологию «удвоения скорости», используемую в процессоре i486DX2, и дающую общее увеличение производительности до 70%. OverDrive процессор для систем i486SX содержит модуль операций над целыми числами, модуль операций над числами с плавающей точкой, модуль управления памятью и 8К кэш-памяти на одном кристалле, работающем на частоте, в два раза превышающей тактовую частоту системной шины. Это уникальное свойство позволяет Вам удвоить тактовую частоту Вашей системы, не тратясь на покупку и установку других дополнительных компонентов. OverDrive процессор удвоит, например, внутреннюю частоту МП i486SX 25 МГц до 50 МГц.
Хотя Intel OverDrive — это совершенно новая технология качественной модернизации, в нем узнаются и фамильные черты Intel. Изготовленный и испытанный в соответствии с жесткими стандартами Intel, OverDrive отличается зарекомендовавшими себя свойствами продукции Intel: качеством и надежностью. OverDrive обеспечен постоянной гарантией и привычным сервисом и поддержкой во всем мире. OverDrive полностью совместим более чем с 50000 прикладных программ. OverDrive процессор для i486SX — только первый из наших новых процессоров. Во втором полугодии 1992 года мы выпустим OverDrive процессор для систем i486DX2, самих по себе представляющих новое поколение технологии МП. Мощный и доступный, OverDrive процессор проложит для Вас непрерывный путь к качественно новым уровням производительности персональных компьютеров.
Hекоторые результаты лабораторных испытаний Intel OverDrive процессора:
1. РаботасMicrosoft Word for Windows 6.1 всреде Windows
3.0, популярным текстовым процессором.
Тест исполнялся на системе с i486SX 20 МГц с файлом 330 КВ. WordPerfect, преобразованном в формат Windows Word, было выполнено 648 контекстных поисков и замен, проверка правописания во всем файле, затем файл был сохранен.
Время исполнения:
2. Работа с Lotus 1-2-3 Release 3.0, электронной таблице, приближающейся по возможностям к интегрированной среде, обладающей широким выбором аналитических, экономических и статистических функций.
Тест исполнялся на i486SX 20 МГц с таблицей объемом 433К на 10000 ячеек, которая была загружена и пересчитана. Кроме того, был обработан большой блок текстовых данных.
3. Работа с AutoCAD, популярной системой САПР.
Тест исполнялся на i486SX 20 МГц с трехмерным архитектурным чертежом, над которым выполнялись операции перечеркивания, панорамирования, масштабирования, удаления скрытых линий и повторной генерации файла во внешнем формате.
А вот что говорят об OverDrive процессоре те, кому уже посчастливилось поработать с ним:
Брент Грэхэм: (специалист по автоматизации офисов, US Bank, Портленд) «С теми возможностями модернизации, которые предоставляет Intel 486, я не вижу причин не использовать OverDrive процессор. Что касается его установки в систему, то с этим справится даже мой 10-летний сынишка.»
БиллЛодж:(руководительпроектнойгруппы,
Corporation, Нью – Йорк) «Я работал с Windows и OS/2 в сети Banyan Wines, используя OverDrive процессор без единой заминки. Моя усовершенствованная система с i486SX 25 МГц работает не хуже, чем системы на 50 МГц.»
Стив Симмонс: (техническийменеджер, Даллас)
«Windows визжит от счастья, когда работает с OverDrive процессором. Расчеты на электронной таблице в Excel выполняются мгновенно.»
3.9 Процессор Pentium
В то время, когда Винод Дэм делал первые наброски, начав в июне 1989 года разработку Pentium процессора, он и не подозревал, что именно этот продукт будет одним из главных достижений фирмы Intel. Как только выполнялся очередной этап проекта, сразу начинался процесс всеобъемлющего тестирования. Для тестирования была разработана специальная технология, позволившая имитировать функционирование Pentium процессора с использованием программируемых устройств, объединенных на 14 платах с помощью кабелей. Только когда были обнаружены все ошибки, процессор смог работать в реальной системе. В дополнение ко всему, в процессе разработки и тестирования Pentium процессора принимали активное участие все основные разработчики персональных компьютеров и программного обеспечения, что немало способствовало общему успеху проекта. В конце 1991 года, когда была завершен макет процессора, инженеры смогли запустить на нем программное обеспечение. Проектировщики начали изучать под микроскопом разводку и прохождение сигналов по подложке с целью оптимизации топологии и повышения эффективности работы. Проектирование в основном было завершено в феврале 1992 года. Началось всеобъемлющее тестирование опытной партии процессоров, в течение которого испытаниям подвергались все блоки и узлы. В апреле 1992 года было принято решение, что пора начинать промышленное освоение Pentium процессора. В качестве основной промышленной базы была выбрана 5 Орегонская фабрика. Более 3 миллионов транзисторов были окончательно перенесены на шаблоны. Началось промышленное освоение производства и доводка технических характеристик, завершившиеся через 10 месяцев, 22 марта 1993 года широкой презентацией Pentium процессора.
Объединяя более, чем 3.1 миллион транзисторов на одной кремниевой подложке, 32-разрядный Pentium процессор характеризуется высокой производительностью с тактовой частотой 60 и 66 МГц. Его суперскалярная архитектура использует усовершенствованные способы проектирования, которые позволяют выполнять более, чем одну команду за один период тактовой частоты, в результате чего Pentium в состоянии выполнять огромное количество PC-совместимого программного обеспечения быстрее, чем любой другой микропроцессор. Кроме существующих наработок программного обеспечения, высокопроизводительный арифметический блок с плавающей запятой Pentium процессора обеспечивает увеличение вычислительной мощности до необходимой для использования недоступных ранее технических и научных приложений, первоначально предназначенных для платформ рабочих станций.
Многочисленные нововведения — характернаяособенность
Pentium процессора в виде уникального сочетания высокой производительности, совместимости, интеграции данных и наращиваемости. Это включает: продолжение
--PAGE_BREAK--
— Суперскалярную архитектуру;
— Раздельное кэширование программного кода и данных;
— Блок предсказания правильного адреса перехода;
— Высокопроизводительный блок вычислений с плавающей запятой;
— Расширенную 64-битовую шину данных;
— Поддержку многопроцессорного режима работы;
— Средства задания размера страницы памяти;
— Средства обнаружения ошибок и функциональной избыточности;
— Управление производительностью;
— Наращиваемость с помощью IntelOverDriveпроцессора. Cуперскалярная архитектура Pentium процессора представляет
собой совместимую только с Intel двухконвейерную индустриальную архитектуру, позволяющую процессору достигать новых уровней производительности посредством выполнения более, чем одной команды за один период тактовой частоты. Термин «суперскалярная» обозначает микропроцессорную архитектуру, которая содержит более одного вычислительного блока. Эти вычислительные блоки, или конвейеры, являются узлами, где происходят все основные процессы обработки данных и команд.
Появление суперскалярной архитектуры Pentium процессора представляет собой естественное развитие предыдущего семейства процессоров с 32-битовой архитектурой фирмы Intel. Например, процессор Intel486 способен выполнять несколько своих команд за один период тактовой частоты, однако предыдущие семейства процессоров фирмы Intel требовали множество циклов тактовой частоты для выполнения одной команды.
Возможность выполнять множество команд за один период тактовой частоты существует благодаря тому, что Pentium процессор имеет два конвейера, которые могут выполнять две инструкции одновременно. Так же, как и Intel486 с одним конвейером, двойной конвейер Pentium процессора выполняет простую команду за пять этапов: предварительная подготовка, первое декодирование ( декодирование команды ), второе декодирование ( генерация адреса ), выполнение и обратная выгрузка.
В результате этих архитектурных нововведений, по сравнению с предыдущими микропроцессорами, значительно большее количество команд может быть выполнено за одно и то же время.
Другое важнейшее революционное усовершенствование, реализованное в Pentium процессоре, это введение раздельного кэширования. Кэширование увеличивает производительность посредством активизации места временного хранения для часто используемого программного кода и данных, получаемых из быстрой памяти, заменяя по возможности обращение ко внешней системной памяти для некоторых команд. Процессор Intel486, например, содержит один 8-KB блок встроенной кэш-памяти, используемой одновременно для кэширования программного кода и данных.
Проектировщики фирмы Intel обошли это ограничение использованием дополнительного контура, выполненного на 3.1 миллионах транзисторов Pentium процессора (для сравнения, Intel486 содержит 1.2 миллиона транзисторов) создающих раздельное внутреннее кэширование программного кода и данных. Это улучшает производительность посредством исключения конфликтов на шине и делает двойное кэширование доступным чаще, чем это было возможно ранее. Например, во время фазы предварительной подготовки, используется код команды, полученный из КЭШа команд. В случае наличия одного блока кэш-памяти, возможен конфликт между процессом предварительной подготовки команды и доступом к данным. Выполнение раздельного кэширования для команд и данных исключает такие конфликты, давая возможность обеим командам выполняться одновременно. Кэш-память программного кода и данных Pentium процессора содержит по 8 KB информации каждая, и каждая организована как набор двухканального ассоциативного КЭШа — предназначенная для записи только предварительно просмотренного специфицированного 32-байтного сегмента, причем быстрее, чем внешний кэш. Все эти особенности расширения производительности потребовали использования 64-битовой внутренней шины данных, которая обеспечивает возможность двойного кэширования и суперскалярной конвейерной обработки одновременно с загрузкой следующих данных. Кэш данных имеет два интерфейса, по одному для каждого из конвейеров, что позволяет ему обеспечивать данными две отдельные инструкции в течение одного машинного цикла. После того, как данные достаются из КЭШа, они записываются в главную память в режиме обратной записи. Такая техника кэширования дает лучшую производительность, чем простое кэширование с непосредственной записью, при котором процессор записывает данные одновременно в кэш и основную память. Тем не менее, Pentium процессор способен динамически конфигурироваться для поддержки кэширования с непосредственной записью.
Таким образом, кэширование данных использует два различных великолепных решения: кэш с обратной записью и алгоритм, названный MESI (модификация, исключение, распределение, освобождение) протокол. Кэш с обратной записью позволяет записывать в кэш без обращения к основной памяти в отличие от используемого до этого непосредственного простого кэширования. Эти решения увеличивают производительность посредством использования преобразованной шины и предупредительного исключения самого узкого места в системе. В свою очередь MESI-протокол позволяет данным в кэш-памяти и внешней памяти совпадать — великолепное решение в усовершенствованных мультипроцессорных системах, где различные процессоры могут использовать для работы одни и те же данные.
Блок предсказания правильного адреса перехода — это следующее великолепное решение для вычислений, увеличивающее производительность посредством полного заполнения конвейеров командами, основанное на предварительном определении правильного набора команд, которые должны быть выполнены.
Pentium процессор позволяет выполнять математические вычисления на более высоком уровне благодаря использованию усовершенствованного встроенного блока вычислений с плавающей запятой, который включает восьмитактовый конвейер и аппаратно реализованные основные математические функции. Четырехтактовые конвейерные команды вычислений с плавающей запятой дополняют четырехтактовую целочисленную конвейеризацию. Большая часть команд вычислений с плавающей запятой могут выполняться в одном целочисленном конвейере, после чего подаются в конвейер вычислений с плавающей запятой. Обычные функции вычислений с плавающей запятой, такие как сложение, умножение и деление, реализованы аппаратно с целью ускорения вычислений.
В результате этих инноваций, Pentium процессор выполняет команды вычислений с плавающей запятой в пять раз быстрее, чем 33-МГц Intel486 DX, оптимизируя их для высокоскоростных численных вычислений, являющихся неотъемлемой частью таких усовершенствованных видеоприложений, как CAD и 3D-графика.
Pentium процессор снаружи представляет собой 32-битовое устройство. Внешняя шина данных к памяти является 64-битовой, удваивая количество данных, передаваемых в течение одного шинного цикла. Pentium процессор поддерживает несколько типов шинных циклов, включая пакетный режим, в течение которого происходит порция данных из 256 бит в кэш данных и в течение одного шинного цикла.
Шина данных является главной магистралью, которая передает информацию между процессором и подсистемой памяти. Благодаря этой 64-битовой шине данных, Pentium процессор существенно повышает скорость передачи по сравнению с процессором Intel486 DX — 528 MB/сек для 66 МГц, по сравнению со 160 MB/сек для 50 МГц процессора Intel486 DX. Эта расширенная шина данных способствует высокоскоростным вычислениям благодаря поддержке одновременной подпитки командами и данными процессорного блока суперскалярных вычислений, благодаря чему достигается еще большая общая производительность Pentium процессора по сравнению с процессором Intel486 DX.
Давая возможность разработчикам проектировать системы с управлением энергопотреблением, защитой и другими свойствами, Pentium процессор поддерживаем режим управления системой (SMM), подобный режиму архитектуры Intel SL.
Вместе со всем, что сделано нового для 32-битовой микропроцессорной архитектуры фирмы Intel, Pentium процессор сконструирован для легкой наращиваемости с использованием архитектуры наращивания фирмы Intel. Эти нововведения защищают инвестиции пользователей посредством наращивания производительности, которая помогает поддерживать уровень продуктивности систем, основанных на архитектуре процессоров фирмы Intel, больше, чем продолжительность жизни отдельных компонентов. Технология наращивания делает возможным использовать преимущества большинства процессоров усовершенствованной технологи в уже существующих системах с помощью простой инсталляции средства однокристального наращивания производительности. Например, первое средство наращивания — это OverDrive процессор, разработанный для процессоров Intel486 SX и Intel486 DX, использующий технологию простого удвоения тактовой частоты, использованную при разработке микропроцессоров Intel486 DX2.
Первые модели процессора Pentium работали на частоте 60 и 66 МГц и общались со своей внешней кэш-памятью второго уровня по 64-битовой шине данных, работающей на полной скорости процессорного ядра. Hо если скорость процессора Pentium растет, то системному разработчику все труднее и дороже обходится его согласование с материнской платой. Поэтому быстрые процессоры Pentium используют делитель частоты для синхронизации внешней шины с помощью меньшей частоты. Hапример, у 100 МГц процессора Pentium внешняя шина работает на 66 МГц, а у 90 МГц — на 60 МГц. Процессор Pentium использует одну и ту же шину для доступа к основной памяти и к периферийным подсистемам, таким как схемы PCI.
3.10 Процессор Pentium Pro
Общее описание.
Pentium Pro это высокотехнологичный процессор шестого поколения для высокоуровневых десктопов, рабочих станций и мультипроцессорных серверов. Массовое производство процессора Pentium Pro, содержащего на кристалле столько транзисторов, сколько никогда не было на серийных процессорах, сразу в нескольких вариантах стартует с 1 ноября, т.е. с самого момента объявления. Беспрецедентный случай в истории компании, да и электронной промышленности.
Hапомним некоторые его особенности. Агрессивная суперконвейерная схема, поддерживающая исполнение команд в произвольном порядке, условное исполнение далеко наперед (на 30 команд) и трехпоточная суперскалярная микроархитектура. Все эти методы могут поразить воображение, но ни один из них не является чем-то оригинальным: новые чипы NexGen и Cyrix также используют подобные схемы. Однако, Intel обладает ключевым превосходством. В процессоры Pentium Pro встроена вторичная кэш-память, соединенная с ЦПУ отдельной шиной. Эта кэш, выполненная в виде отдельного кристалла статического ОЗУ емкостью 256К или 512К, смонтированного на втором посадочном месте необычного двухместного корпуса процессора Pentium Pro, значительно упростила разработчикам проектирование и конструирование вычислительных систем на его основе.
Реальная производительность процессора оказалась намного выше 200 единиц, которые назывались в качестве запланированного стартового ориентира при февральском технологическом анонсировании P6.
Pentium Pro это значительный шаг вперед. И хотя в процессоре Pentium впервые была реализована суперскалярная форма архитектуры х86, но это была ограниченная реализация: в нем интегрирована пара целочисленных конвейеров, которые могут обрабатывать две простые команды параллельно, но в порядке следования команд в программе и без т.н. условного исполнения (наперед). Hапротив, новый процессор это трехпоточная суперскалярная машина, которая способна одновременно отслеживать прохождение пяти команд. Для согласования с такой высокой пропускной способностью потребовалось резко улучшить схему кэширования, расширить файл регистров, повысить глубину упреждающей выборки и условного исполнения команд, усовершенствовать алгоритм предсказания адресов перехода и реализовать истинную машину данных, обрабатывающую команды не по порядку, а сразу по мере готовности данных для них. Ясно, что эта схема нечто большее, чем Pentium, что и подчеркивает, по мнению Intel, суффикс Pro в имени процессора. продолжение
--PAGE_BREAK--
Два кристалла в одном корпусе.
Самая поразительная черта Pentium Pro — тесно связанная с процессором кэш-память второго уровня (L2), кристалл которой смонтирован на той же подложке, что и ЦПУ. Именно так, Pentium Pro это два чипа в одном корпусе. Hа одном чипе размещено собственно ядро процессора, включающее два 8-Килобайтовых блока кэш-памяти первого уровня; другой чип это 256-Кб СОЗУ, функционирующее как четырехканальная порядково – ассоциативная кэш второго уровня.
Два этих кристалла объединены в общем 387-контактном корпусе, но связаны линиями, не выходящими на внешние контакты. Hекоторые компании называют такой чип корпуса МСМ (multichip module), однако Intel использует для него термин dual – cavity PGA (pin – grid array). Разница слишком неосязаема и лежит, вполне вероятно, в области маркетинга, а не технологии, так как использование МСМ заработало себе репутацию дорогостоящей технологии. Но, сравнивая цены на процессоры Pentium и Pentium Pro, можно утверждать, что новая терминология исправит положение дел, так как P6 претендует на статус массового процессора. Впервые в истории промышленности многокристальный модуль станет крупносерийным изделием.
Степень интеграции нового процессора также поражает: он содержит 5.5 млн. транзисторов, да еще 15.5 млн. входит в состав кристалла кэш-памяти. Для сравнения, последняя версия процессора Pentium состоит из 3.3 млн. транзисторов. Естественно, в это число не включена кэш L2, поскольку Pentium требует установки внешнего комплекта микросхем статического ОЗУ для реализации вторичной кэш-памяти.
Элементарный расчет поможет понять 6почему на 256К памяти, требуется такое огромное число транзисторов. Это статическое ОЗУ, которое в отличие от динамического, имеющего всего один транзистор на бит хранения и периодически регенерируемого, использует для хранения бита ячейку из шести транзисторов:
256 x 1024 х 8 бит х 6 пр – ров = 12.5 млн. транзисторов. С учетом буферов и обвязки накопителя как раз и выйдет 15.5 миллионов.
Площадь процессорного кристалла равна 306 кв. мм. (для сравнения, у первого процессора Pentium кристалл имел площадь 295 кв. мм). Кристалл статической памяти, как всякая регулярная структура, упакован намного плотнее — 202 кв. мм. Только Pentium Pro 150 MHz изготавливается по 0.6-микронной технологии. Все остальные версии нового процессора изготавливаются по 0.35-микронной BiCMOS-технологии с четырехслойной металлизацией.
Почему компания Intel пошла на двухкристалльный корпус, объединив ядро ЦПУ с вторичным КЭШем? Во – первых комбинированный корпус значительно упростил изготовителям ПК разработку высокопроизводительных систем на процессоре Pentium Pro.
Одна из главных проблем при проектировании компьютера на быстром процессоре связана с точным согласованием с процессором вторичного КЭШа по его размеру и конфигурации. Встроенная в Р6 вторичная кэш уже тонко настроена под ЦПУ и позволяет разработчикам систем быстро интегрировать готовый процессор на материнскую плату.
Во-вторых, вторичная кэш тесно связана с ядром ЦПУ с помощью выделенной шины шириной 64 бита, работающей на одинаковой с ним частоте. Если ядро синхронизируется частотой 150 МГц, то кэш должна работать на частоте 150 МГц.
Поскольку в процессоре Pentium Pro есть выделенная шина для вторичного КЭШа, это решает сразу две проблемы: обеспечивается синхронная работа двух устройств на полной скорости и отсутствие конкуренции за шину с прочими операциями ввода-вывода. Отдельная шина L2, «задняя» шина полностью отделена от наружной, «передней» шины ввода-вывода, вот почему в P6 вторичная кэш не мешает своими циклами операциям с ОЗУ и периферией. Передняя 64-битовая шина может работать с частотой, равной половине, трети или четверти скорости ядра Pentium Pro. «Задняя» шина продолжает работать независимо, на полной скорости.
Такая реализация представляет серьезный шаг вперед по сравнению с организацией шины процессора pentium и других процессоров х86. Только NexGen приближенно напоминает такую схему. Хотя в процессоре Nx586 нет КЭШа L2, зато встроен ее контроллер и полноскоростная шина для связи с внешней кэш-памятью. Подобно Р6, процессор Nx586 общается с основной памятью и периферийными подсистемами поверх отдельной шины ввода-вывода, работающей на деленной частоте.
В экзотическом процессором Alpha 21164 компания Digital пошла еще дальше, интегрировав прямо на кристалле в дополнение к первичной кэш-памяти еще и 96 Кбайт вторичной. За счет вздувания площади кристалла достигнута беспрецедентная производительность кэширования. Транзисторный бюджет Альфы составляет 9.3 миллиона транзисторов, большая часть которого образована массивом памяти.
Есть одна незадача: необычный дизайн Pentium Pro, пожалуй, затруднит экспертам задачку вычисления соотношения цены и производительности. Интегрированная в процессор кэш вроде как скрыта с глаз. Pentium Pro сможет показаться более дорогим, чем его конкуренты, но для создания компьютера на других процессорах потребуется внешний набор микросхем памяти и кэш-контроллер. Эффективный дизайн кэш-структуры означает, что другим процессорам, претендующим на сопоставимую производительность, потребуется кэш-памяти больше, чем 256 Кбайт.
Уникальный корпус предоставляет свободу созданию новых вариантов процессора. В будущем возможно как повышение объема кэш-памяти, так и ее отделение ее от процессора в соответствии с традиционным подходом. Если последний вариант появится, он окажется, несовместим по внешним выводам с двухкристалльным базовым корпусом, так как ему необходимо добавить 72 дополнительных вывода (64-для «задней» шины и 8 для контроля ошибок). Hо он будет почти таким же быстрым, если будет широко доступна статическая память с пакетным режимом. По мнению инженеров Intel, подключение внешних микросхем памяти к «передней» шине Pentium Pro с целью реализации кэш-памяти третьего уровня, вряд ли оправдано. Отправной точкой для такой убежденности служат результаты натурного моделирования прототипа системы, которая в следствии высокой эффективности интерфейса кэш L2-процессор, практически до теоретического предела загружает вычислительные ресурсы ядра. Процессор Alpha 21164, напротив, спроектирован с учетом необходимости кэш L3.
Значения тестов для некоторых чипов фирмы Intel.
Processor
Benchmarks
IntelPentium
ProProcessor
(200MHz)
IntelPentium
ProProcessor
(180MHz)
IntelPentium
ProProcessor
(166MHz)
w/512K L2
IntelPentium
ProProcessor
(150MHz)
IntelPentium
Processor(133MHz)
UNIX
SPEC95
SPECint95
SPECint_base95
SPECfp95
SPECfp_base95
8.09
8.09 продолжение
--PAGE_BREAK--
6.75
5.99 --PAGE_BREAK--
нет
нет
нет
Системная шина
Системная шина
Системная шина
Системная шина
800 МГц (при такотовой частоте процессора 3,20 ГГц) 533 МГц (при такотовой частоте процессора 3.06 ГГц)
До 533МГц
До 133МГц
До 100 МГц
Кэш-память
Кэш-память
Кэш-память
Кэш-память
Кэш-память второго уровня с улучшенной передачей данных 512 KБ
Кэш-память второго уровня с улучшенной передачей данных 512 KБ (0,13 микрон). Кэш-память с улучшенной передачей данных 256 KБ (0,18 микрон)
Унифицированная неблокируемая кэш-память второго уровня объемом 512 КБ либо интегрированная кэш-память с улучшенной передачей данных объемом 256 КБ
Встроенная кэш-память второго уровня объемом 512 Кб работающая на половинной частоте процессора
Системная плата
Системная плата
Системная плата
Системная плата
Системные платы Intel®, совместимые с процессором Pentium®
Системные платы Intel®, совместимые с процессором Pentium® 4
Системные платы Intel®, совместимые с процессором Pentium® III
Системные платы Intel®,
Оперативная память
Оперативная память
Оперативная память
Оперативная память
Двухканальная память DDR 400/333 Двухканальная RDRAM PC 1066/800 DDR 333/266/200 SDRAM
Двухканальная память DDR 400/333 Двухканальная RDRAM 1066/800
DDR 333/266/200
RDRAM PC800/700/600
SDRAM PC133/100/66
SDRAM, PC100/66
Микроархитектура
Микроархитектура
Микроархитектура
Микроархитектура
Технология Intel® Netburst™
Технология Intel® Netburst™
Архитектура динамического исполнения P6
Архитектура динамического исполнения P6
Набор микросхем
Набор микросхем
Набор микросхем
Набор микросхем
совместимые с процессором Pentium® 4
совместимые с процессором Pentium® 4
для разных платформ
для разных платформ
Технология изготовления
Технология изготовления
Технология изготовления
Технология изготовления
0.13 микрон
До 0.13 микрон
До 0.13 микрон
0.25 микрон
Для реализации технологии Hyper-Threading необходима вычислительная система на базе процессора Intel® Pentium® 4 с поддержкой технологии HT, набора микросхем, BIOS и операционной системы, поддерживающих эту технологию. Реальные значения производительности могут изменяться в зависимости от конфигурации и настроек аппаратных средств и программного обеспечения.
3.12 Hyper-Threading: зачем она нужна
Попробуем понять, что же такое нам предлагает Intel и как к этому следует относиться. Эта компания, если внимательно посмотреть, никогда не отличалась абсолютнымсовершенством своих продуктов, более того — вариации на те же темы от других производителей подчас получались гораздо более интересными и концептуально стройными. Однако, как оказалось, абсолютно все делать совершенным и не нужно — главное чтобы чип олицетворял собой какую-то идею, и идея эта приходилась очень вовремя и к месту. И еще — чтобы ее просто не было у других.
Так было с Pentium, когда Intel противопоставила весьма шустрому в «целочисленке» AMD Am5x86 мощный FPU. Так было с Pentium II, который получил толстую шину и быстрый кэш второго уровня, благодаря чему за ним так и не смогли угнаться все процессоры Socket 7. Так было (ну, по крайней мере, я считаю это свершившимся фактом) и с Pentium 4, который противопоставил всем остальным наличие поддержки SSE2 и быстрый рост частоты — и тоже де-факто выиграл. Сейчас Intel предлагает нам Hyper-Threading. И мы отнюдь не призываем в священной истерике биться лбом о стенку и кричать «господи помилуй», «аллах велик» или «Intel rulez forever». Нет, мы просто предлагаем задуматься — почему производитель, известный грамотностью своих инженеров (ни слова про маркетологов! :)) и громадными суммами, которые он тратит на исследования, предлагает нам эту технологию.
Объявить Hyper-Threading «очередной маркетинговой штучкой», конечно, проще простого. Однако не стоит забывать, что это технология, она требует исследований, денег на разработку, времени, сил… Не проще ли было нанять за меньшую сумму еще одну сотню PR-менеджеров или сделать еще десяток красивых рекламных роликов? Видимо, не проще. А значит, «что-то в этом есть». Вот мы сейчас и попытаемся понять даже не то, что получилось в результате, а то, чем руководствовались разработчики IAG (Intel Architecture Group), когда принимали решение (а такое решение наверняка принималось!) — разрабатывать «эту интересную мысль» дальше, или отложить в сундук для идей забавных, но бесполезных.
Как ни странно, для того чтобы понять как функционирует Hyper-Threading, вполне достаточно понимать как работает… любая многозадачная операционная система. И действительно — ну ведь исполняет же каким-то образом одинпроцессор сразу десятки задач? Этот «секрет» всем уже давно известен — на самом деле одновременно все равно выполняется только одна (на однопроцессорной системе), просто переключение между кусками кода разных задач выполняется настолько быстро, что создается иллюзия одновременной работы большого количества приложений.
По сути, Hyper-Threading предлагает нам то же самое, но реализована аппаратно, внутри самого CPU. Есть некоторое количество различных исполняющих блоков (ALU, MMU, FPU, SIMD), и есть два «одновременно» исполняемых фрагмента кода. Специальный блок отслеживает, какие команды из каждого фрагмента необходимо выполнить в данный момент, после чего проверяет, загружены ли работой всеисполняющие блоки процессора. Если один из них простаивает, и именно он может исполнить эту команду— ему она и передается. Естественно, существует и механизм принудительного «посыла» команды на выполнение — в противном случае один процесс мог бы захватить весь процессор (все исполняющие блоки) и исполнение второго участка кода (исполняемого на втором «виртуальном CPU») было бы прервано. Насколько мы поняли, данный механизм (пока?) не является интеллектуальным т. е. не способен оперировать различнымиприоритетами, а просто чередует команды из двух разных цепочек в порядке живой очереди т. е. просто по принципу «я твою команду исполнил — теперь уступи место другому потоку». Если, конечно, не возникает ситуации, когда команды одной цепочки по исполняющим блокам нигде не конкурируют с командами другой. В этом случае мы получаем действительно на 100% параллельное исполнение двух фрагментов кода. продолжение
--PAGE_BREAK--
Теперь давайте подумаем, чем Hyper-Threading потенциально хороша, и чем — нет. Самое очевидное следствие ее применения — повышение коэффициента полезного действия процессора. Действительно — если одна из программ использует в основном целочисленную арифметику, а вторая — выполняет вычисления с плавающей точкой, то во время исполнения первой FPU просто ничего не делает, а во время исполнения второй — наоборот, ничего не делает ALU. Казалось бы, на этом можно закончить. Однако мы рассмотрели лишь идеальный (с точки зрения применения Hyper-Threading) вариант. Давайте теперь рассмотрим другой: обе программы задействуют одни и те же блоки процессора. Понятно, что ускорить выполнение в данном случае довольно сложно — ибо физическое количество исполняющих блоков от «виртуализации» не изменилось. А вот не замедлится ли оно? Давайте разберемся. В случае с процессором без Hyper-Threading мы имеем просто «честное» поочередное выполнение двух программ на одном ядре с арбитром в виде операционной системы (которая сама представляет собой еще одну программу), и общее время их работы определяется:
временем выполнения кода программы №1
временем выполнения кода программы №2
временными издержками на переключение между фрагментами кода программ №1 и №2
Что мы имеем в случае с Hyper-Threading? Схема становится немного другой:
время выполнения программы №1 на процессоре №1 (виртуальном)
время выполнения программы №2 на процессоре №2 (виртуальном)
время на переключение одного физического ядра (как набора требуемых обеим программам исполняющих блоков) между двумя эмулируемыми «виртуальными CPU»
Остается признать, что и тут Intel поступает вполне логично: конкурируют между собой по быстродействию у нас только пункты за номером три, и если в первом случае действие выполняется программно-аппаратно (ОС управляет переключением между потоками, задействуя для этого функции процессора), то во втором случае мы фактически имеем полностью аппаратное решение— процессор все делает сам. Теоретически, аппаратное решение всегда оказывается быстрее. Подчеркнем — теоретически. Но и это еще не все. Также одним из серьезнейших неприятных моментов является то, что команды, увы, не исполняются в безвоздушном пространстве, но вместо этого Pentium 4 приходится иметь дело с классическим x86-кодом, в котором активно используется прямое адресование ячеек и даже целых массивов, находящихся за пределами процессора — в ОЗУ. Да и вообще, к слову, большинство обрабатываемых данных чаще всего находится там :). Поэтому «драться» между собой наши виртуальные CPU будут не только за регистры, но и за общую для обоих процессорную шину, минуя которую данные в CPU попасть просто не могут. Однако тут есть один тонкий момент: на сегодняшний день «честные» двухпроцессорные системы на Pentium III и Xeon находятся в точно такой же ситуации! Ибо наша старая добрая шина AGTL+, доставшаяся в наследство всем сегодняшним процессорам Intel от знаменитого Pentium Pro (в дальнейшем ее лишь подвергали модификациям, но идеологию практически не трогали) — ВСЕГДА ОДНА, сколько бы CPU ни было установлено в системе. Вот такой вот «процессорный коаксиал» :). Отойти от этой схемы на x86 попробовала только AMD со своим Athlon MP — у AMD 760MP/760MPX от каждого процессора к северному мосту чипсета идет отдельнаяшина. Впрочем, даже в таком «продвинутом» варианте мы все равно убегаем от проблем не очень далеко — ибо уж что-что, а шина памяти у нас точно одна— причем вот в этом случае уже везде (напоминаем, разговор идет про x86-системы).
Однако нет худа без добра, и даже из этого в общем-то не очень приятного момента Hyper-Threading может помочь извлечь какую-то пользу. Дело в том, что по идее мы должны будем наблюдать существенный прирост производительности не только в случае с несколькими задачами, использующими разные функциональные блоки процессора, но и в том случае, если задачи по-разному работают с данными, находящимися в ОЗУ. Возвращаясь к старому примеру в новом качестве — если одно приложение у нас что-то усиленно считает «внутри себя», другое же — постоянно подкачивает данные из ОЗУ, то общее время выполнения их в случае использования Hyper-Threading по идее должно уменьшиться даже если они используют одинаковые блоки исполнения инструкций — хотя бы потому, что команды на чтение данных из памяти смогут обрабатываться в то время, пока наше первое приложение будет что-то усиленно считать.
Итак, подведем итог: технология Hyper-Threading с теоретической точки зрения выглядит весьма неплохо и, мы бы сказали, «адекватно», т. е. соответствует реалиям сегодняшнего дня. Уже довольно редко можно застать пользователя с одним сиротливо открытым окном на экране — всем хочется одновременно и музыку слушать, и по Internet бродить, и диски с любимыми MP3 записывать, а может даже, и поиграть на этом фоне в какую-нибудь стрелялку или стратегию, которые, как известно, процессор «любят» ну просто со страшной силой. С другой стороны, общеизвестно, что конкретная реализация способна иногда своей «кривизной» убить любую самую превосходную идею, и с этим мы тоже не раз встречались на практике.
3.13. Pentium 5
Итак, сегодня компания Intel выпустила, по всей видимости, последний процессор семейства Pentium 4, теперь всему миру остается ждать появления Intel Pentium 5 Prescott. Насколько нам известно, сегодняшний Intel Pentium 4 3.20 GHz будет последним процессором линейки собранным по 130 нм техпроцессу. Intel, как известно, будет выпускать процессоры Prescott по 90 нм технологии, а со следующего года поменяет и собственно процессорный разъем. Нынешние Pentium 4, с технологией Netbust, тем не менее, будут производиться еще около года, Netbust останется и в Pentium 5.
4. AMD
AMD — мировой поставщик интегральных микросхем для рынка персональных и сетевых компьютеров и коммуникаций, чьи производственные мощности расположены в Соединенных Штатах, Европе, Японии и Азии. AMD производит микропроцессоры, устройства флэш-памяти и вспомогательные микросхемы для коммуникационных и сетевых приложений. Компания AMD, основанная в 1969 году со штаб-квартирой в г. Саннивейл (шт. Калифорния), в 2000 году имела оборот 4,6 млрд. долл. (NYSE: AMD).
Первым процессором, который AMD разрабатывала самостоятельно, был K5, выпущенный в 1996 году. Сейчас о нем уже мало кто помнит, правда и помнить там особо нечего. Как всегда, опоздав с выпуском этого кристалла, отставая по тактовой частоте и производительности, AMD не смогла тогда завоевать расположения пользователей.
После этого провала AMD приобрела забытую сейчас фирму NexGen, еще одного независимого разработчика x86 процессоров, который обладал передовой на то время технологией и в небольших количествах выпускал кристаллы без арифметического сопроцессора. Используя эти наработки, AMD спроектировала новое поколение своих CPU — K6. По операциям с целыми числами эти процессоры стали превосходить аналоги от Intel, однако блок операций с плавающей точкой все еще оставлял желать лучшего.
AMD не сдавалась и для нужд компьютерных игр предложила использовать не сопроцессор, а специально спроектированный набор SIMD-инструкций 3DNow!.. Так появился процессор AMD K6-2, в котором к обычному ядру K6 добавился еще один блок операций с числами одинарной точности с плавающей точкой. Благодаря тому, что он мог выполнять однотипные вычисления с четырьмя парами операндов одновременно, на специально оптимизированных под 3DNow! приложениях K6-2 показывал неплохую производительность.
В скоре AMD к своему процессору K6-2 добавила интегрированный в ядро кеш второго уровня, работающий на частоте кристалла. Это спасло производительность — полученный K6-III мог успешно конкурировать с аналогами.
Находясь в состоянии ценовой войны, Intel и AMD пришли к тому, что самые дешевые Intel Celeron продаются практически по себестоимости, если не ниже, а на рынке дорогих процессоров обосновался другой продукт от Intel — Pentium III. Единственный оставшийся шанс выжить для измотанной и порастерявшей в борьбе свои капиталы AMD — вылезти на рынок дорогих и производительных процессоров. Причем, закрепиться на нем не за счет цены — этим оружием в совершенстве владеет Intel, который может сбрасывать цены значительно сильнее AMD, а за счет быстродействия. Именно это и попыталась сделать AMD, выбросив на рынок процессор нового поколения — Athlon.
4.1 Развитие семейства K-6
/>
AMD K6
Clock speeds (MHz)166, 200, 233
Level one (L1) cache 32K instruction, 32K data
Level two (L2) cacheControlled by chip set
L2 cache speed Same as bus
Type of bus Socket 7
Bus speed (MHz) 66
Instructions per clock cycle 2
MMX units 1
Pipelined FPU N
Out-of-order executionY
Process technology0.35µ CMOS
Die size 162 mm2
Transistors 8.8 million
AMD K6-2
Этот процессор является логическим продолжением линейки K6 и отличается от предшественника только добавленным в ядро нового модуля, обрабатывающего «3D-инструкции» и носящего название 3DNow!.. По сути — это еще один сопроцессор по типу MMX, но умеющий выполнять 21 новую инструкцию. Эти новые инструкции призваны, прежде всего, ускорить обработку данных, связанных с трехмерной графикой. Поэтому в набор инструкций 3DNow! включены команды, работающие с вещественночисленными аргументами одинарной точности. Именно поэтому, технология ММХ не пошла в жизнь — ММХ работает с целыми числами, а при расчете трехмерных сцен оперировать приходится с вещественными. Как и ММХ, 3DNow! использует те же регистры, что и сопроцессор, это связано с тем, что операционные системы должны сохранять и сбрасывать все регистры процессора при переключении задач. продолжение
--PAGE_BREAK--
Теоретически, 3DNow! должен заменить сопроцессор при расчетах трехмерной геометрии и существенно ускорить выполнение этих вычислений. Модуль 3DNow! может выполнять до четырех SIMD (Single Instruction Multiple Data) инструкций (из своего 21-командного набора) параллельно, что при грамотном использовании может дать небывалый прирост производительности. Хорошей иллюстрацией этого тезиса может послужить Quake2, работающий на процессорах K6 в полтора раза медленней, чем на Pentium той же частоты. Однако, вопреки распространенному мнению, это связано не с тормознутостью AMD-шного сопроцессора, а с тем что Intel реализовал в своем кристалле возможность параллельной работы процессора с арифметическим сопроцессором. В Quake2, код оптимизирован с учетом этой особенности, поэтому если процессорные и сопроцессорные инструкции не могут выполняться одновременно (как на AMD K6), производительность получается крайне низкая. K6-2 должен решить эту проблему, но другим путем — за счет конвейеризации 3D вычислений в модуле 3DNow! Однако, вопрос распараллеливания вычислений должен решаться программистом, что вызывает определенные трудности при реализации алгоритмов, тем более, что процесс вычисления геометрии 3D-сцен далеко не линейный. Поэтому, теоретическая производительность К6-2, значительно превышающая скорость всех современных PII-процессоров, достигнута быть не может.
Таким образом, чтобы от 3DNow! был хоть какой-то эффект, необходимо, чтобы приложение использовало те самые 21 инструкцию. Причем не как-нибудь, а с учетом конвейерной структуры этого модуля процессора.
AMD K6-2 3DNow!
AMD вновь надеется сократить отрыв от Intel'а, на этот раз с помощью технологий высокого уровня и заточенных под процессор 3D драйверов. Названная «K6-2 3DNow!», эта серия процессоров должна разбить иллюзию, что пользователи должны покупать процессоры Intel Pentium II для достижения максимально возможного 3D быстродействия.
Выйдя в 300 и 333Мгц версиях, линия K6-2 содержит некоторые улучшения, по сравнению с уже знакомой пользователям линии K6. Улучшенный сопроцессор, более высокие скорости работы ядра, поддержка 100Мгц кэша 2 уровня, и набор инструкций, известный как 3Dnow!, — вот качества, вознесшие K6-2 на вершину предлагаемых AMD процессоров.
3DNow!, говоря человеческим языком, — это улучшенный процесс вычислений, ускоряющий обсчитывание сцены для 3D графики. Cyrellis уже раньше упоминал, что одним из главных препятствий для ускорителей 3D графики является конфликт между медленным созданием сцены типичным процессором Intel/AMD и возможностями родного процессора 3D карты. Видеокарта должна дождаться, пока CPU завершит свою работу, и только тогда ее 3D-процессор будет в состоянии выжать требуемое нам количество кадров в секунду. 3DNow! обещает изменить такое положение вещей, проносясь сквозь генерацию сцены на максимальной скорости, тем самым значительно повышая производительность.
Вот как это выглядит:
/>
Как вы видите, процессор загружен работой, даже если 3D-ускоритель берет на себя генерацию треугольников, как например это делает чипсет Voodoo2.
4.2 Технология 3DNow
Технология 3DNow!, предложенная AMD в своем новом процессоре K6-2 (кодовое имя было K6 3D), представляет собой развитие применяемой повсеместно технологии MMX. MMX — это дополнительные 57 инструкций процессора и 8 дополнительных регистров, которые призваны увеличить производительность мультимедийных приложений. Если программа использует эти возможности, то это вносит немалый вклад в скорость ее выполнения. MMX была введена в процессорах фирмы Intel, но к настоящему моменту все x86-процессоры, включая AMD, IDT и Cyrix, поддерживают ее. Однако, несмотря на повсеместную поддержку, MMX используется недостаточным числом приложений, поэтому преимущества от наличия поддержки MMX пока невелики.
После внедрения MMX, инициатива по внедрению новых инструкций неожиданно перешла к AMD. Правда, в ответ на этот шаг, Intel анонсировал набор команд MMX2, который появился в процессоре Katmai. Дополнительная система команд от AMD, названная 3DNow! (кодовое имя было AMD-3D Technology), представляет собой набор инструкций для ускорения операций трехмерной графики. Этот набор включает, в частности, быстрое деление вещественных чисел, выполняемое за 3 такта процессора, и вычисление обратной величины к квадратному корню, выполняемое также за 3 такта. По мнению AMD, использование в 3D-играх технологии 3DNow! позволит 300-мегагерцовому K6-2 догнать по производительности Pentium II 400 МГц.
AMDK6-III
Вслед за выходом очередного процессора от Intel, Pentium III, появилась новинка и от AMD — процессор K6-III. Этот процессор должен был позволить AMD подняться из ниши дешевых систем и начать конкуренцию с Intel на рынке более дорогих машин, подготавливая почву для нанесения решающего удара по позициям микропроцессорного гиганта блокбастером K7. Долгое ожидание, чтение спецификаций и первые впечатления от AMD K6-III давали все основания для того, чтобы надеяться на то, что позиции Intel пошатнутся. Но, традиционно, AMD выступает в роли догоняющего, а для победы в этом случае, согласно военной тактике, требуется немалое превосходство в силе. Но, тем не менее, новый раунд сражения AMD против Intel, Socket7 против Slot1, Давид против Голиафа, начался.
Вот технические данные процессора AMD K6-III:
Чип, производимый по технологии 0.25 мкм;
Ядро CXT, представляющее собой обычное ядро K6-2 с возможностью пакетной записи;
Работает в Socket-7-системных платах, но требует обновления BIOS;
Кэш первого уровня — 64 Кбайта, по 32 Кбайта на код и данные;
Имеет встроенный кэш второго уровня объемом 256 Кбайт;
Кэш материнской платы работает как кэш третьего уровня;
Напряжение питания 2.3-2.5В (есть разные партии);
Набор из 21 SIMD-команды 3DNow! Имеется 2 конвейера, оперирующие с двумя парами вещественных чисел одинарной точности;
Частоты — 350, 400, 450 и 475 МГц. Системная шина 100 МГц (для модели 475 МГц — 95 МГц). Возможна работа и на 66МГц системной шине;
3DNow! поддерживается в DirectX 6.0 и выше.
Как видно из спецификации, AMD K6-III — это AMD K6-2 плюс 256 Кбайт кэша второго уровня, интегрированного в ядро и работающего на его частоте. Помня, какие чудеса производительности показывает Intel Celeron, от AMD K6-III ожидается также немалый прирост в быстродействии, тем более, что шина памяти — главное узкое место в системе, хоть она и работает на частоте 100 МГц. К тому же L2 кэш e К6-III имеет размер в два раза больший, чем у Celeron и в два раза более быстрый (хотя и вдвое меньший), чем у Pentium II. Не следует к тому же забывать и про кэш, установленный на материнской плате — он становится кэшем третьего уровня и добавляет еще несколько процентов производительности.
Надо уделить внимание и еще одному факту, а именно буквам CXT в названии ядра. Это ядро появилось в процессорах K6-2 совсем недавно и отличается от предшествующего наличием функции пакетной записи в память Write Allocate. То есть, новое ядро позволяет передавать данные по шине не как придется, а по мере накопления 8-ми байтовыми пакетами, что дает небольшой выигрыш в производительности при передаче данных по 64-битной шине. Правда, новой эту функцию назвать нельзя, так как Write Allocate имеется и в интеловских процессорах еще со времен Pentium Pro.
Что касается 3DNow!, то тут по сравнению K6-2 все осталось совсем без изменений. Однако, надо констатировать, что приложений использующих эту технологию на рынке не много, а поддержка 3DNow! в драйверах видеокарт и DirectX не дает практически ничего. Также как и в случае с SSE, для получения значимого прироста в быстродействии, необходимо использование SIMD-инструкций при расчете геометрии 3D-сцены, так как функции, оптимизированные в DirectX работают недостаточно быстро и не используются разработчиками.
Отметим тот факт, что для поддержки новых K6-III подойдут и старые Socket7 системные платы, для которых есть BIOS с поддержкой ядра CXT и имеющие возможность выставления напряжения питания ядра 2.3-2.5В. Однако, если в руководстве к системной плате не указан способ выставления этих напряжений, отчаиваться рано. В большинстве случаев существуют недокументированные установки для такого напряжения питания.
AMDK7
К7 — первый из семейства микропроцессоров х86 7-го поколения, в котором присутствуют конструктивные решения, до сих пор не применявшиеся в процессорах архитектуры х86 и сулящие выигрыш в быстродействии даже при одинаковых тактовых частотах. Наиболее впечатляющим из них является, конечно, 200-мегагерцовая системная шина, однако есть и другие, менее заметные на первый взгляд новшества, ставящие К7 выше процессоров 6-го поколения.
Новая архитектура узла вычислений с плавающей точкой (fpu). К7 содержит 3 узла вычислений с плавающей точкой (fpu), любой из которых способен принимать на вход инструкции каждый такт работы процессора. При этом один узел предназначен исключительно для выполнения команды FSTORE! Назначение этого узла — обеспечивать обмен между регистрами и памятью в то время, как процессор выполняет другие инструкции. Такой подход, хотя и не повышает пиковую производительность, позволяет достичь более высокой средней производительности, что во многих случаях важнее. Остальные два fpu состоят из блока сложения (adder) и блока умножения (multiplier). Оба блока используют конвейеры (fully pipelined). Архитектура каждого fpu такова, что он может принимать на вход каждый такт одну инструкцию сложения и одну умножения, что дает пиковую производительность 1000MFLOPS при 500МГц. Ближайшим аналогом с точки зрения архитектуры является Pentium II, у которого также присутствуют adder и multiplier. Однако существуют два основных отличия. Во-первых, у PII только adder является полностью конвейеризованным (fully pipelined), multiplier же может принимать инструкцию на вход только каждый второй такт. Во-вторых, каждый узел fpu PII может принимать только одну инструкцию за такт, таким образом, пиковая производительность составляет 500MFLOPS при 500МГц. Вышесказанное ни в коем случае не является нападками на достойную архитектуру семейства Р6, которое до сих пор остается единственным семейством процессоров с конвейерным fpu. Да, чуть не забыл… Rise mP6, возможно, будет иметь архитектуру fpu, похожую на ту, что используется в К7 (как во всем, что связано с компанией Rise, здесь полно тумана, но компания уверенно заявляет, что fpu их процессора способен выполнять 2 инструкции х87 за такт), однако максимальная тактовая частота в 200МГц не позволяет этому процессору претендовать на место не только в «высшем обществе», но даже и в «среднем классе», поэтому сравнивать mP6 с К7 некорректно. продолжение
--PAGE_BREAK--
Огромный кэш L1. Если помните, Pentium MMX-166 показывал такую же производительность на приложениях, не использующих инструкции ММХ, как и классический Pentium-200. В чем причина? А причина в том, что чип ММХ имел в 2 раза больше кэша L1 (32К против 16К). Это также объясняет, почему К6-200 приблизительно равен по производительности Pentium MMX-233 — он имеет 64К кэша. К чему это я? К тому, что в К7 кэш L1 увеличился еще в 2 раза — до 128К. Это еще не гарантирует эффективного роста производительности процессора с увеличением тактовой частоты, но, по крайней мере, устраняет опасность простоя, из-за обмена с памятью.
Модернизируемый кэш L2. У К7 кэш L2 будет размещен, по примеру PII, в картридже, а не интегрирован в кристалл, как у К6-3. Результатом этого является возможность «модернизации» кэша. Первоначально его частота будет составлять 1/3 частоты процессора. В дальнейшем планируется выпуск версий с кэшем L2, работающим на частоте процессора, и, возможно, на половинной частоте. То же и с размером. К7 может нести кэш L2 размером от 512К в «нижних» моделях до 8МВ в серверных моделях «high-end» (впечатляюще, Xeon на сегодня имеет до 2МВ, но цена...).
4.3 AMD Duron 650
В то время, когда популярность Socket 7 платформ находилась на самом пике, и оба крупнейших микропроцессорных производителя и Intel, и AMD делали процессоры под этот разъем, мы привыкли к тому что AMD предлагала менее производительные, но и более дешевые решения. Однако, год назад это положение коренным образом изменилось. Анонсировав Athlon, который архитектурно превосходит Intel Pentium III, AMD удалось на какое-то время захватить лидерство в производительности процессоров. И хотя Intel впоследствии удалось усовершенствовать ядро своих процессоров, в которое был добавлен встроенный кеш второго уровня, AMD прочно обосновалась на рынке скоростных CPU, где и по сей день продолжает укреплять свои позиции.
В настоящий момент AMD применяет против Intel два средства. Первое — агрессивная ценовая политика, в результате которой процессоры Athlon оказались намного дешевле своих соперников, Intel Pentium III, работающих на аналогичной частоте. И второе — благодаря своей архитектуре AMD удается повышать частоту своих процессоров несколько легче, чем Intel. В результате, на настоящий момент, например, AMD уже серийно продает свои гигагерцовые CPU.
Однако, есть у AMD и проблемы. Самая большая головная боль с Athlon — это кеш второго уровня, выполненный в виде микросхем SRAM, которые до недавнего времени располагались на процессорной плате и производились сторонними производителями. Младшие модели Athlon имели L2-кеш, работающий на половинной частоте ядра процессора, однако по мере роста частот производители SRAM не поспевали за AMD и не могли обеспечить поставки микросхем кеша, работающих на 1/2 частоты процессора. В результате, начиная с частоты 750 МГц Athlon стал снабжаться кеш-памятью, работающей на 2/5 частоты процессора, а начиная с частоты 900 МГц — и вовсе работающей на 1/3 частоты. Таким образом, получилась парадоксальная ситуация, когда самый быстрый L2-кеш оказался у 700-мегагерцового Athlon. AMD же, естественно, такая ситуация устроить не могла, так как медленная кеш-память второго уровня начала сдерживать рост производительности процессоров.
Поэтому, решение наконец-то переместить L2-кеш AMD Athlon с внешней процессорной платы внутрь ядра выглядит вполне логично. Тем более, что оба завода AMD и в Остине и в Дрездене успешно освоили технологию 0.18 мкм, что позволило при переходе со старой 0.25 мкм технологии уменьшить площадь ядра Athlon на 82 кв.мм.
В результате, линейка AMD Athlon получила продолжение в лице процессоров на ядре Thunderbird, имеющих кеш первого уровня размером 128Кбайт и 256-килобайтный интегрированный в ядро кеш второго уровня, работающий на полной частоте CPU. Это семейство новых AMD Athlon с частотой 750 МГц и выше было анонсировано более двух недель назад.
Однако, этим AMD не ограничилась. Еще год назад при представлении Athlon компания заявила о намерении производства различных модификаций своего CPU, рассчитанных на различные сектора рынка. И вот, наконец, теперь она начала осуществлять свои планы, представив и семейство процессоров AMD Duron ориентированное на low-end сектор и являющееся прямым конкурентом Intel Celeron.
Итак, посмотрим, что же представляют из себя процессоры Duron с точки зрения их основных характеристик:
Чип, производимый по технологии 0.18 мкм с использованием медных соединений
Ядро Spitfire, основанное на архитектуре Athlon. Содержит 25 млн. транзисторов и имеет площадь 100 кв.мм
Работает в специальных материнских платах с 462-контактным процессорным разъемом Socket A
Использует высокопроизводительную 100 МГц DDR системную шину EV6
Кеш первого уровня 128 Кбайт — по 64 Кбайта на код и на данные
Интегрированный кеш второго уровня 64 Кбайта. Работает на полной частоте ядра
Напряжение питания — 1.5В
Набор SIMD-инструкций 3DNow!
Выпускаются версии с частотами 600, 650, 700 МГц
Итак, с точки зрения архитектуры, Duron ничем не отличается от обычного Athlon, кроме встроенного в ядро 64-Кбайтного кеша второго уровня. Если же сравнить Duron с новыми Athlon на ядре Thunderbird, то различия между ними будут заключаться в размере интегрированного L2 кеша (у Thunderbird он 256 Кбайт против 64 Кбайт у Duron) и в частотах (Thunderbird выпускаются с частотами начиная с 750МГц, а Duron — с частотами до 700 МГц). В остальном же, архитектурно и старые и новые Athlon и Duron ничем не отличаются. При этом, все же необходимо иметь в виду, что все же новые процессоры Duron и Thunderbird имеют обновленное и технологически усовершенствованное ядро, выпускаемое по технологии 0.18 мкм. В результате, например, даже получается, что ядро Duron с встроенным L2-кешем по площади даже меньше, чем ядро K75 (0.18 мкм Athlon).
И отдельно хочется коснуться нового форм-фактора и процессорного разъема, который теперь использует AMD для своих CPU. Поскольку микросхем SRAM, используемых для внешнего L2-кеша у новых процессоров Duron и Thunderbird теперь нет, AMD вслед за Intel вновь обратила внимание на процессорный разъем типа socket. Это не только более выгодно из экономических соображений (нет необходимости в процессорной плате, картридже и т.п.), но и более рационально с точки зрения организации лучшего охлаждения. В качестве такого разъема AMD решила использовать 462-контактный Socket A, который по своим размерам, да и по внешнему виду похож как на Socket 7, так и на Socket 370. Поэтому, с Socket A процессорами AMD можно использовать старые Socket 7 и Socket 370 кулеры. Единственное, не следует при этом забывать, что тепловыделение Duron несколько превосходит количество тепла, отдаваемое Celeron, поэтому они нуждаются в несколько лучшем охлаждении. Например, Duron 650 выделяет тепла примерно столько же, сколько и Intel Pentium III 733.
У AMD Duron с системной шиной все в порядке. Поскольку этот процессор, как и остальные из семейства Athlon использует 100-мегагерцовую DDR шину EV6, пропускная способность этого звена оказывается 1,6 Гбайт/с. Кеш первого уровня Duron со времен выпуска первых Athlon не претерпел никаких изменений — его размер составляет 128 Кбайт. Кеш первого уровня Duron делится на две части — для кеширования данных и для кеширования инструкций.
Что же касается кеша второго уровня, то тут нас ждет небольшой сюрприз. Нетрудно заметить, что у Duron он в два раза меньше чем L1 кеш. Зачам он тогда нужен? Ответ на этот вопрос кроется в алгоритме работы L2 кеша Duron и, кстати, Thunderbird. Кеш второго уровня этих процессоров является эксклюзивным, что означает, что данные, хранящиеся в L1 кеше в нем не дублируются. Такой метод работы L2 кеша реализован пока только в новых процессорах AMD, все же интеловские процессоры имеют обычный inclusive L2 кеш, данные из L1 кеша в котором дублируются. Поэтому общий объем эффективной кеш-памяти у AMD Duron составляет 128+64=192 Кбайта, в то время как у Celeron он всего 128 Кбайт (32 Кбайта L2 кеша занято копией данных, имеющихся в L1 кеше).
Чтобы проиллюстрировать все вышесказанное приведу графики, показывающие скорость записи в память блоков данных различного размера для процессоров AMD Duron 650:
/>
Процессор AMD Duron удался. Это можно сказать определенно. Его производительность находится на достаточно высоком уровне, чтобы не только обогнать конкурирующий Intel Celeron, но и вообще не оставить ему никаких шансов в штатном режиме. Производительность AMD Duron 650 всего на несколько процентов меньше скорости AMD Athlon 650 и примерно соответствует производительности Intel Pentium III 600EB. Таким образом, выход Duron, если Intel не предпримет никаких действий для улучшения производительности своего low-end процессора, означает смерть Celeron.
4.4 AMD Athlon
Если подойти к архитектуре AMD Athlon поверхностно, то основные его параметры можно обрисовать следующим образом:
Чип, производимый по технологии 0.25 мкм
Ядро нового поколения с кодовым именем Argon, содержащее 22 млн. транзисторов
Работает в специальных материнских платах с процессорным разъемом Slot A
Использует высокопроизводительную системную шину Alpha EV6, лицензированную у DEC
Кеш первого уровня 128 Кбайт — по 64 Кбайта на код и на данные
Кеш второго уровня 512 Кбайт. Расположен вне процессорного ядра, но в процессорном картридже. Работает на половинной частоте ядра
Напряжение питания — 1.6В
Набор SIMD-инструкций 3DNow!, расширенный дополнительными командами. Всего 45 команд
Выпускаются версии с частотами 500, 550, 600 и 650 МГц. Версия с частотой 700 МГц появится в ближайшее время
Однако таким простым процессор AMD Athlon кажется только лишь на первый взгляд. На самом же деле за этими несколькими строками скрываются многочисленные архитектурные инновации, которые мы рассмотрим позднее. Однако и простые характеристики AMD Athlon впечатляют. Например, как нетрудно заметить, Athlon превосходит Intel не только по максимальной тактовой частоте (у Intel Pentium III она 600 МГц, да и к тому же при этом он работает на повышенном до 2.05В напряжении ядра), но и по размеру кеша первого уровня, который у Intel Pentium III всего 32 Кбайта. продолжение
--PAGE_BREAK--
Перейдем же к более подробному рассмотрению архитектуры AMD Athlon.
Системная шина
Прежде чем углубляться в сам процессор, посмотрим, чем же отличается системная шина EV6, примененная AMD, от привычной интеловской GTL+. Внешнее сходство бывает обманчиво. Хотя процессорный разъем Slot A на системных платах для процессора AMD Athlon выглядит также как и Slot 1, перевернутый на 180 градусов, шинные протоколы и назначения контактов у Intel Pentium III и AMD Athlon совершенно различны. Более того, различно даже число задействованных сигналов — Athlon использует примерно половину из 242 контактов, в то время как Pentium III всего четверть. Внешняя похожесть вызвана тем, что AMD просто хотела облегчить жизнь производителям системных плат, которым не придется покупать особенные разъемы для установки на Slot A системные платы. Только и всего.
На самом же деле, хоть EV6 и работает на частоте 100 МГц, передача данных по ней, в отличие от GTL+ ведется на обоих фронтах сигнала, потому фактическая частота передачи данных составляет 200 МГц. Если учесть тот факт, что ширина шины EV6 — 72 бита, 8 из которых используется под ECC (контрольную сумму), то получаем скорость передачи данных 64бита х 200 МГц = 1,6 Гбайт/с. Напомню, что пропускная способность GTL+, работающей на 100 МГц в два раза меньше — 800 Мбайт/с. Повышение частоты GTL+ до 133 МГц дает увеличение пропускной способности при этом только до 1,06 Гбайт/с. Казалось бы, как в случае с GTL+, так и с EV6 получаются внушительные значения пропускной способности. Однако, только современная PC100 память может отожрать от нее до 800 Мбайт/с, а AGP, работающий в режиме 2x — до 528 Мбайт/с. Не говоря уже о PCI и всякой другой мелочевке. Получается, что GTL+ уже сейчас может не справляться с передаваемыми объемами данных. У EV6 же в этом случае все в порядке, потому эта шина более перспективна.
При этом, как частота GTL+ может быть увеличена со 100 до 133 МГц, планируется, что и частота EV6 также впоследствии достигнет значения 133 (266), а затем и 200 (400) МГц. Однако планы эти могут и не осуществиться — реализовать работу на материнской плате EV6, требующую большего количества контактных дорожек, несколько сложнее, особенно на больших частотах. Хотя если у AMD все получится, пропускная способность системной шины может достичь 2.1 и 3.2 Гбайта/с соответственно, что позволит беспрепятственно применять в Athlon-системах, например, высокопроизводительную 266-мегагерцовую DDR SDRAM.
Кеш
Прежде чем переходить непосредственно к функционированию AMD Athlon, хочется затронуть тему L1 и L2 кешей.
Что касается кеша L1 в AMD Athlon, то его размер 128 Кбайт превосходит размер L1 кеша в Intel Pentium III аж в 4 раза, не только подкрепляя высокую производительность Athlon, но и обеспечивая его эффективную работу на высоких частотах. В частности, одна из проблем используемой Intel архитектуры Katmai, которая, похоже, уже не позволяет наращивать быстродействие простым увеличением тактовой частоты, как раз заключается в малом объеме L1 кеша, который начинает захлебываться при частотах, приближающихся к гигагерцу. AMD Athlon лишен этого недостатка.
Что же касается кеша L2, то и тут AMD оказалось на высоте. Во-первых, интегрированный в ядро tag для L2-кеша поддерживает его размеры от 512 Кбайт до 16 Мбайт. Pentium III, как известно, имеет внешнюю Tag-RAM, подерживающую только 512-килобайтный кеш второго уровня. К тому же, Athlon может использовать различные делители для скорости L2-кеша: 1:1, 1:2, 2:3 и 1:3. Такое разнообразие делителей позволяет AMD не зависеть от поставщиков SRAM определенной скорости, особенно при выпуске более быстрых моделей.
Благодаря возможности варьировать размеры и скорости кеша второго уровня AMD собирается выпускать четыре семейства процессоров Athlon, ориентированных на разные рынки.
Архитектура. Общие положения
Вот мы и подошли к рассказу о том, как же, собственно, работает Athlon. Как и процессоры от Intel с ядром, унаследованным от Pentium Pro, процессоры Athlon имеют внутреннюю RISC-архитектуру. Это означает, что все CISC-команды, обрабатываемые процессором, сначала раскладываются на простые RISC-операции, а потом только начинают обрабатываться в вычислительных устройствах CPU. Казалось бы, зачем усложнять себе жизнь? Оказывается, есть зачем. Сравнительно простые RISC-инструкции могут выполняться процессором по несколько штук одновременно и намного облегчают предсказание переходов, тем самым позволяя наращивать производительность за счет большего параллелизма. Говоря более просто, тот производитель, который сделает более «параллельный» процессор, имеет шанс добиться превосходства в производительности гораздо меньшими усилиями. AMD при проектировании Athlon, по-видимому, руководствовалась и этим принципом.
Однако перед тем, как начать работу над параллельными потоками инструкций, процессор должен их откуда-то получить. Для этого в AMD Athlon, как впрочем и в Intel Pentium III, применяется дешифратор команд (декодер), который преобразует поступающий на вход процессора код. Дешифратор в AMD Athlon может раскладывать на RISC-составляющие до трех входящих CISC-команд одновременно. Современные интеловские процессоры могут также обрабатывать до трех команд, однако если для Athlon совершенно все равно, какие команды он расщепляет, Pentium III хочет, чтобы две из трех инструкций были простыми и только одна — сложной. Это приводит к тому, что если Athlon за каждый процессорный такт может переварить три инструкции независимо ни от чего, то у Pentium III отдельные части дешифратора могут простаивать из-за неоптимизированного кода.
Перед тем, как попасть в соответствующий вычислительный блок, поступающий поток RISC-команд задерживается в небольшом буфере (Instruction Control Unit), который, что уже неудивительно, у AMD Athlon расчитан на 72 инструкции против 20 у Pentium III. Увеличивая этот буфер, AMD попыталась добиться того, чтобы дешифратор команд не простаивал из-за переполнения Instruction Control Unit.
Еще один момент, заслуживающий внимания — вчетверо большая, чем у Pentium III, таблица предсказания переходов размером 2048 ячеек, в которой сохраняются предыдущие результаты выполнения логических операций. На основании этих данных процессор прогнозирует их результаты при их повторном выполнении. Благодаря этой технике AMD Athlon правильно предсказывает результаты ветвлений где-то в 95% случаев, что очень даже неплохо, если учесть, что аналогичная характеристика у Intel Pentium III всего 90%.
Посмотрим теперь, что же происходит в Athlon, когда дело доходит непосредственно до вычислений.
Целочисленные операции
С целочисленными операциями у процессоров от AMD всегда все было в порядке. Со времен AMD K6 процессоры от Intel проигрывали именно в скорости целочисленных вычислений. Тем не менее, в Athlon AMD напрочь отказалась от старого наследия.
Благодаря наличию трех конвейерных блоков исполнения целочисленных команд (Integer Execution Unit) AMD Athlon может выполнять три целочисленные инструкции одновременно. Что же касается Pentium III, то его возможности ограничиваются одновременным выполнением только двух команд.
Отдельно хочется затронуть вопрос конвейеров. Оптимальной глубиной конвейера для процессоров с современными скоростями считается 9 стадий. Увеличение этого числа приводит к ускорению процесса обработки команд, так как скорость работы конвейера определяется работой самой медленной его стадии. Однако, в случае слишком большого конвейера при ошибках в предсказании переходов оказывается что большая часть работы по исполнению команд, уже вошедших на конвейер выполнена напрасно. Его приходится очищать и начинать процесс заново.
Потому в AMD Athlon глубина целочисленных конвейеров составляет 10 стадий, что близко к оптимуму. К сожалению, поклонники продукции Intel снова не услышат ничего утешительного, так как конвейер в Pentium III состоит из 12-17 стадий в зависимости от типа исполняемой инструкции.
Вещественные операции
С замиранием сердца обращаем наш взгляд на блок FPU, встроенный в Athlon. Как мы все хорошо помним, для предыдущих процессоров AMD операции с плавающей точкой были настоящей ахиллесовой пятой. Главной проблемой было то, что блок FPU в K6, K6-2 и K6-III был неконвейеризированый. Это приводило к тому, что хотя многие операции с плавающей точкой в FPU от AMD выполнялись за меньшее число тактов, чем на интеловских процессорах, общая производительность была катастрофически низкой, так как следующая вещественная операция не могла начать выполняться до завершения предыдущей. А что-то менять в своем FPU AMD в то время не хотела, призывая разработчиков к отказу от его использования в пользу 3DNow!.
Но, похоже, прошлый опыт научил AMD. В Athlon арифметический сопроцессор имеет конвейер глубиной 15 стадий против 25 у Pentium III. Не следует забывать, что, как уже говорилось выше, более длинный конвейер не всегда обеспечивает лучшую производительность. К тому же, существенным недостатком Intel Pentium III, которого в Athlon, естественно нет, является неконвейерезируемость операций FMUL и FDIV.
FPU в Athlon объединяет в себе три блока: один для выполнения простых операций типа сложения, второй — для сложных операций типа умножения и третий — для операций с данными. Благодаря такому разделению работы Athlon может выполнять одновременно по две вещественночисленные инструкциии. А ведь такого не умеет даже Intel Pentium III — он выполняет инструкции только последовательно!
Так что, как это ни странно, FPU интеловских процессоров оказался не таким уж замечательным, как это принято было считать ранее.
MMX
На первый взгляд с выполнением MMX-операций у Athlon по сравнению с K6-III изменений не произошло. Однако это не совсем так. Хотя и MMX-инструкции используются в крайне небольшом числе приложений, AMD добавила в этот набор еще несколько инструкций, которые также появились в MMX-блоке процессора Pentium III. В их число вошли нахождение среднего, максимума и минимума и изощренные пересылки данных.
Если обратить внимание на архитектурные особенности, то в AMD Athlon имеется по два блока MMX, потому на обоих процессорах — и на Athlon, и на Pentium III — может выполняться одновременно пара MMX-инструкций. Однако, MMX-блоки в AMD Athlon имеют большую, чем у Pentium III латентность, что теоретически должно приводить к отставанию этого CPU в MMX-приложениях.
3DNow!
Блока 3DNow! в AMD Athlon коснулись сильные изменения. Хотя его архитектура и осталась неизменной — два конвейера обрабатывают инструкции, работающие с 64-битными регистрами, в которых лежат пары вещественных чисел одинарной точности, в сам набор команд было добавлено 24 новинки. Новые операции должны не только позволить увеличить скорость обработки данных, но и позволить задействовать технологию 3DNow! в таких областях, как распознавание звука и видео, а также интернет :) Кроме этого, по аналогии с SSE были добавлены и инструкции для работы с данными, находящимися в кеше. Поддержка обновленного набора 3DNow! уже встроена в Windows 98 SE и в DirectX 6.2.
Таким образом, в набор 3DNow! входит теперь 45 команд, против 71 инструкции в SSE от Intel. Причем, судя по всему, использование новых команд должно дать еще больший эффект от 3DNow! В доказательство этого факта AMD распространила дополнительный DLL для известного теста 3DMark 99 MAX, задействующий новые возможности процессора. продолжение
--PAGE_BREAK--
Специально для оценки эффективности процессора в 3D-играх, 3DMark 99 MAX предлагает индекс CPU 3DМark, просчитывающий 3D-сцены, но не выводящий их не экран. Таким образом, получается результат, зависящий только от возможностей процессора по обработке 3D-графики и от пропускной способности основной памяти.
4.5 Чипсеты
/>
Прекратив разрабатывать процессоры под гнездо Super 7 и начав продвигать собственный Slot A и системную шину EV6, AMD оказалась отрезана от всех интеловских наработок на поприще чипсетов и системных плат. Теперь AMD придется самой создавать необходимую инфраструктуру, чтобы мы могли приобрести не только процессор, но и системную плату, оборудованную Slot A.
И, судя по первым успехам, ей это удалось. На первое время компания разработала собственный набор логики AMD 750, имеющий кодовое имя Irongate, а также собственный дизайн системной платы — Fester, который был растиражирован рядом тайваньских производителей.
Сам чипсет AMD 750 не представляет собой ничего особенного — по возможностям он аналогичен i440BX. Но большего, в принципе, и не надо. AMD Athlon, как мы видели, и так работает нормально и даже обгоняет по производительности конкурирующие продукты.
AMD 750 имеет традиционую архитектуру и состоит из северного моста AMD 751 и южного AMD 756. Северный мост обеспечивает взаимодействие посредством шины EV6 процессора с памятью и шинами PCI и AGP, поддерживая до 768 Мбайт оперативной памяти PC100 в не более чем трех модулях, AGP 2x и 6 PCI bus maser устройств. Южный мост, осуществляющий интерфейс со всей периферией, кроме обычных функций, умеет работать с UltraDMA/66 IDE-устройствами.
4.6 AMD Athlon (Thunderbird) 800
Итак, взвесив все плюсы и минусы L2-кеша на ядре, AMD, пришла к выводу о необходимости переноса кеша на ядро. Тем более, что оба завода AMD, находящиеся в Дрездене и Остине вполне успешно освоили технологию 0.18 мкм, по которой, кстати, некоторое время уже выпускались старшие модели обычных AMD Athlon. Так появился новый старый AMD Athlon с кодовым именем Thunderbird, архитектурно отличающийся от старого Athlon наличием интегрированной кеш-памяти второго уровня размером 256 Кбайт вместо внешнего 512-килобайтного L2-кеша. Посмотрим на его спецификацию:
Чип, производимый по технологии 0.18 мкм с использованием алюминиевых или медных соединений
Ядро Thunderbird, основанное на архитектуре Athlon. Содержит 37 млн. транзисторов и имеет площадь 120 кв.мм
Работает в специальных материнских платах с 462-контактным процессорным разъемом Socket A (Slot A версии доступны в ограниченных количествах только OEM)
Использует высокопроизводительную 100 МГц DDR системную шину EV6
Кеш первого уровня 128 Кбайт — по 64 Кбайта на код и на данные
Интегрированный кеш второго уровня 256 Кбайт. Работает на полной частоте ядра
Напряжение питания при частоте до 850МГц — 1.7В, при больших частотах — 1.75В
Набор SIMD-инструкций 3DNow!
Выпускаются версии с частотами 750, 800, 850, 900, 950 и 1000 МГц
Итак, с точки зрения архитектуры, Thunderbird ничем не отличается от обычного Athlon, кроме встроенного в ядро 256-Кбайтного кеша второго уровня. Несмотря на сокращение размера кеша вдвое по сравнению с обычным Athlon, быстродействие от этого упасть не должно — ведь новый кеш работает гораздо быстрее старого — на полной частоте ядра процессора. Да и к тому же благодаря более близкому его расположению к ядру латентность кеша у Thunderbird на 45% меньше, чем аналогичная характеристика у кеша старого Athlon. В остальном же, архитектурно и старые и новые Athlon ничем не отличаются, поэтому подробности о строении ядра этих CPU можно почерпнуть из обзора AMD Athlon 600. При этом, все же необходимо иметь в виду, что все же Thunderbird имеют обновленное и технологически усовершенствованное ядро, выпускаемое по технологии 0.18 мкм. В результате, например, даже получается, что ядро Thunderbird со встроенным L2-кешем по площади ненамного больше, чем ядро K75 (0.18 мкм Athlon) и даже значительно меньше, чем старое ядро K7, выполненное по технологии 0.25 мкм.
Вторым и не менее важным отличием старых и новых Athlon является то, что поскольку необходимость в процессорной плате отпала, они используют новый процессорный разъем типа socket, а не slot — Socket A. Хотя, конечно, некоторое время Slot A Thunderbird на рынке присутствовать будут, основным форм-фактором для этих CPU следует считать 462-контактный Socket A.
AMD выпускает Thunderbird на двух заводах — в Остине и в Дрездене, по двум различным технологиям — с использованием алюминиевых соединений и медных соединений. Тем не менее, обе эти модификации, похоже, между собой ни чем не отличаются, кроме … цвета. Дрезденские Thunderbird имеют синий цвет кристалла, в то время как Остинские — зеленый.
Что же касается видимых отличий старых и новых Athlon производимых в Slot A варианте, то тут найти отличие будет не так просто, так как оба они имеют одинаковый внешний вид картриджа и что более забавно, одинаковую цену. Однако отличить их все-таки возможно как по маркировке (старые Athlon маркируются как AMD-K7XXX, в то время как новые имеют маркировку AMD-AXXXX) так и заглянув внутрь картриджа со стороны процессорного разъема — у новых Athlon отсутствуют микросхемы SRAM, расположенные по обе стороны от ядра, в то время как у старых Athlon они есть.
До сих пор мы восхищались новыми Thunderbird и их интегрированным L2-кешем. Теперь пришло время немного огорчить фанатов AMD. Тем более, что сделать это будет нетрудно, если сравнить кеш Thunderbird и Coppermine.
Единственным преимуществом L2-кеша Thunderbird с этой точки зрения может являться его эксклюзивность. То есть, алгоритм работы L2 кеша у Thunderbird таков, что данные, хранящиеся в L1-кеше, в L2-кеше не дублируются. Это значит, что суммарный объем эффективной кеш-памяти новых Athlon равен 128+256 = 384Кбайта. В случае же с Coppermine 32Кбайта L2-кеша всегда занято копией содержимого кеш-памяти первого уровня и эффективный объем кешей у этого CPU составляет всего 256Кбайт.
Что же касается недостатков, то просто напросто кеш Thunderbird медленнее чем кеш Coppermine. Причины этого кроются как в меньшей латентности кеша Intel Pentium III так и в том, что инженеры AMD поленились переделать шину соединяющую ядро и L2 кеш, после того как перенесли последний внутрь процессорного ядра. В результате, она так и осталась 64-битной, в то время как шина кеша Coppermine в четыре раза шире.
4.7 AMD Athlon XP 1800+ (1533 MHz)
Вот мы и дождались. Дождались процессора, который нам обещали довольно длительное время. А именно — десктопного варианта процессора AMD Athlon, построенного на новом ядре Palomino.
На самом деле, само ядро присутствовало на рынке уже достаточно давно, но политика компании AMD по выпуску процессоров на его основе выглядела несколько оригинальной. Привычной уже стала схема, при которой на новом ядре выпускается сначала высокоуровневый процессор, спустя какое-то время выходит его несколько урезанный тем или иным образом бюджетный вариант, а затем появляется мобильный. Все логично и понятно, сначала снимается максимально возможное количество сливок с high-end сегмента рынка, а затем новинка продвигается в массы.
В случае же с Palomino все произошло несколько иначе, если не сказать «с точностью до наоборот». AMD начала, что называется, с конца цепочки. Сначала увидел свет мобильный вариант Palomino — Athlon 4, затем AMD Athlon MP, рассчитанный на работу в двухпроцессорных системах. Ладно, пока что ситуация забавная, но не экстраординарная. А вот затем AMD делает очень оригинальный шаг — вопреки всем ожиданиям, на рынок выходит не десктопный Palomino, а AMD Duron, основанный на ядре Morgan. Т.е., low-end процессор! Причем выходит без особой помпы, тихо и незаметно. Изначально вообще было не ясно, а Palomino ли это? Как оказалось — таки да, Palomino, только называется Morgan и кэш у него поменьше.
И лишь после этого на сцене появляется настольный Palomino, переименованный к этому времени в Athlon XP (реверанс в сторону Microsoft?), получивший вместо привычной керамической одежки пластиковую (OPGA, Organic Pin Grid Array) и… реанимированный Pentium Rating.
Если упаковка нового процессора в пластиковый конструктив шаг вполне логичный и обоснованный (керамический корпус гораздо дороже), то возвращение PR, пусть и несколько изменившегося — достаточно спорное решение.
Документ первый: QuantiSpeed™ Architecture
Итак, что же представляет из себя «новая архитектура» процессоров Athlon XP?
Nine-issue, superscalar, fully pipelined micro-architecture
Основной упор в описании своего ядра AMD делает на то, что количество ступеней конвейера у него меньше, чем у Pentium 4 (что и обуславливает меньшую частоту работы ядра при одинаковом техпроцессе), но зато количество одновременно исполняемых (за один такт) инструкций — больше.
Superscalar, fully pipelined Floating Point Unit (FPU)
Еще один плюс своих процессоров, который AMD решила показать в описании QuantiSpeed Architecture — это их знаменитый FPU. Он действительно мощный — три независимых конвейера для исполнения стандартных FPU-инструкций всего семейства x86, плюс инструкции из фирменного набора AMD 3DNow!, плюс (начиная с ядра Palomino) полная поддержка всего набора Intel SSE (к сожалению, пока еще только «первого» SSE). Фактически, ни для кого не секрет, что это похоже действительно самый мощный x86 FPU — даже у Pentium 4 он слабее. Однако… опять «плюс на минус» — все это правда, но все это было еще даже в ядре K7 (за исключением поддержки SSE).
Hardware data prefetch продолжение
--PAGE_BREAK--
В Athlon XP используется механизм предварительной (опережающей) загрузки инструкций в L1 cache. Примечательно следующее: во-первых — именно инструкцийт.е. только исполняемого кода, а не данных. Во-вторых — именно в кэшпервого уровня т.е. — минуя L2. Впринципе, учитываяразмерL1 уAthlon XP (128 KB)
Exclusive and speculative Translation Look-aside Buffers (TLBs)
TLB имеют практически все «сложные» современные процессоры. Фактически, это еще один подвид кэша, только кэшируются в нем не сами команды и данные, а их адреса. В Thunderbird двухуровневый TLB имел емкость 24/32 (24 адреса инструкций и 32 данных) и 256/256. Основное нововведение Palomino — расширенный L1 TLB, который теперь может хранить 40 адресов данных. Кстати, заметим — если Hardware Prefetch оптимизирует загрузку команд, то при усовершенствовании TLB AMD большее внимание уделила именно данным. Кроме того, «эксклюзивность» кэша (фирменная «фича» AMD, когда кэш второго уровня не дублирует в себе содержимое кэша первого уровня) теперь распространяется и на TLB. В общем, нам трудно будет судить насколько велик вклад нового Translation Look-aside Buffer в общую производительность Athlon XP т.к. нет возможности вычленить именно его вклад, но плюс мы все же поставим — это нечто действительно новое.
4.8 Athlon XP 3200+
Athlon XP 3200+ получился значительно лучше своего предшественника. Хотя вроде бы не так уж и много изменилось: подняли до 2200 МГц частоту ядра (раньше было 2167, т. е. всего на 33 МГц ниже), да еще 33 МГц «накинули» на шину — теперь она работает на 400 МГц (200 МГц DDR). Итого: все тот же Barton (3000+), только увеличили частоту ядра и шины. Однако, как ни странно, похоже, мы наблюдаем то самое явление «перехода количества в качество», о котором так любили в тему и не в тему говорить большевики.
Маркировка — смотрите, не ошибитесь при покупке
Но что-то совершенно непонятное творится у AMD, и в особенности у ее «придворных» изготовителей чипсетов, с поддержкой новых частот шин. Мало того, что сама AMD в этом вопросе хранит гордое молчание почти до последнего момента, так еще и производители чипсетов добавляют и убирают новые частоты в/из спецификаций, как Бог на душу положит. То у нас nForce2 был первым чипсетом, поддерживающим не только 333 МГц, но и 400 МГц FSB, а то уже 400 МГц официально вроде бы поддерживают только новые nForce 400/nForce 400 Ultra (последний из которых фактически является просто новой ревизией северного моста nForce2)…
/>
У нас на плате вроде бы уже nForce2 Ultra 400, но… даже маркировка старая. Впрочем, процессор плата определяет уже правильно.
У VIA чипсет Apollo KT400 сначала, на момент анонса, поддерживает DDR400, потом — нет (JEDEC отклонил ее стандартизацию), потом все-таки поддерживает (все заявили поддержку, а мы чем хуже?), а теперь вот снова не поддерживает (ну надо же как-то объяснять, чем от него KT400A отличается!). Учитывая, что FSB 400 МГц он тоже не поддерживает, становится немного непонятно — откуда в его названии вообще взялась цифра «400»?! И что означает «600» в названии следующего чипсета этой компании? Очень не хотелось бы и в этой области сваливания в «3D-маразм» со всеми этими GeForce4 Ti 4800(SE) и Radeon 9100. Зачем SiS свой 746FX выпускала — вроде бы было понятно… но ровно до тех пор, пока не оказалось, что и он со всеми новыми частотами FSB/DDR не совместим, в связи с чем был срочно выпущен 748, отличающийся от него исключительно тем, что поддерживает эту самую пресловутую 400 МГц FSB. Возникает впечатление, что то ли AMD сама толком не знает, что она собирается завтра выпускать, то ли она не информирует об этом своих партнеров, то ли они все вместе старательно делают вид, что каждая новая частота на них нисходит, как откровение свыше. Партнеры, однако, исправно клепают «новые» чипсеты, как горячие пирожки, сшибая деньгу с энтузиастов, которых немало среди пользователей платформы Socket .
5. Многопроцессорные системы. (SMP)
Представим как работает классическая SMP(Symmetric Multi-Processor)-система с точки зрения обычной логики. Нужно это хотя бы потому, что не так уж велико количество пользователей, хорошо себе представляющих как работает SMP-система, и в каких случаях от использования двух процессоров вместо одного можно ожидать реального увеличения быстродействия, а в каких — нет. Итак, представим, что у нас есть, к примеру, два процессора (остановимся на этом, самом простом примере) вместо одного. Что это нам дает?
В общем-то… ничего. Потому что в дополнение к этому нам нужна еще и операционная система, умеющая эти два процессора задействовать. Система эта должна быть по определению многозадачной (иначе никакого смысла в наличии двух CPU просто быть не может), но кроме этого, ее ядро должно уметь распараллеливать вычисления на несколько CPU. Классическим примером многозадачной ОС, которая этого делать не умеет, являются все ОС от Microsoft, называемые обычно для краткости «Windows 9x» — 95, 95OSR2, 98, 98SE, Me. Они просто-напросто не могут определить наличие более чем одного процессора в системе… ну и, собственно, дальше объяснять уже нечего :). Поддержкой SMP обладают ОС этого же производителя, построенные на ядре NT: Windows NT 4, Windows 2000, Windows XP. Также в силу своих корней, этой поддержкой обладают все ОС, основанные на идеологии Unix — всевозможные Free- Net- BSD, коммерческие Unix (такие как Solaris, HP-UX, AIX), и многочисленные разновидности Linux. Да, к слову — MS DOS многопроцессорность в общем случае тоже «не понимает» :).
Если же два процессора все же определились системой, то дальнейший механизм их задействования в общем-то (на «логическом», подчеркнем, уровне!) довольно-таки прост. Если в данный момент времени исполняется одно приложение — то все ресурсы одного процессора будут отданы ему, второй же будет просто простаивать. Если приложений стало два — второе будет отдано на исполнение второму CPU, так что по идее скорость выполнения первого уменьшиться не должна вообще никак. Это в примитиве. Однако на самом деле все сложнее. Для начала: исполняемое пользовательское приложение у нас может быть запущено всего одно, но количество процессов (т. е. фрагментов машинного кода, предназначенных для выполнения некой задачи) в многозадачной ОС всегда намного больше. Начнем с того, что сама ОС — это тоже приложение… ну и не будем углубляться — логика понятна. Поэтому на самом деле второй CPU способен немного «помочь» даже одиночной задаче, взяв на себя обслуживание процессов, порожденных операционной системой. Опять-таки, к слову об упрощениях — именно так, идеально, разделить CPU между пользовательским приложением и ОС, конечно, все равно не получится, но, по крайней мере, процессор, занятый исполнением «полезной» задачи, будет меньше отвлекаться.
Кроме того, даже одно приложение может порождать потоки (threads), которые при наличии нескольких CPU могут исполняться на них по отдельности. Так, например, поступают почти все программы рендеринга — они специально писались с учетом возможности работы на многопроцессорных системах. Поэтому в случае использования потоков выигрыш от SMP иногда довольно весом даже в «однозадачной» ситуации. По сути, поток отличается от процесса только двумя вещами — он во-первых никогда не порождается пользователем (процесс может запустить как система, так и человек, в последнем случае процесс = приложение; появление потока инициируется исключительно запущенным процессом), и во-вторых — поток умирает вместе с родительским процессом независимо от своего желания — к примеру, если родительский процесс «глюкнул и упал» — все порожденные им потоки ОС считает бесхозными и «прибивает» уже сама, автоматически.
Также не стоит забывать, что в классической SMP-системе оба процессора работают каждый со своим кэшем и набором регистров, но память у них общая. Поэтому если две задачи одновременно работают с ОЗУ, мешать они друг другу будут все равно, даже если CPU у каждой «свой собственный». Ну и наконец последнее: в реальности мы имеем дело не с одним, не с двумя, и даже не с тремя процессами. На приведенном коллаже (это действительно коллаж, потому что со скриншота Task Manager были удалены все пользовательские процессы, т. е. приложения, запускаемые «для работы») хорошо видно, что «голая» Windows XP, сама по себе, не запустив еще ни одного приложения, уже породила 12 процессов, причем многие из них к тому же еще и многопоточные, и общее количество потоков достигает двухсот восьми штук (!!!).
/>
Поэтому рассчитывать на то, что нам удастся прийти к схеме «по собственному CPU на каждую задачу» совершенно не приходится, и переключаться между фрагментами кода процессоры будут все равно — и физические, и виртуальные, и будь они хоть виртуальные в квадрате и по 10 штук на каждое физическое ядро :). Впрочем, на самом деле все не так грустно — при грамотно написанном коде ничего в данный момент не делающий процесс (или поток) процессорного времени практически не занимает.
5.1 Многопроцессорные системы. Opteron
Очень интересная для нас ситуация сложилась с многопроцессорными системами на Opteron. С одной стороны, по распределению памяти — ну совершенно типичная NUMA архитектура (с неравномерным доступом к памяти), даже спорить не о чем. Ибо время доступа к памяти будет зависеть от того, локальная это память, или нет — а если не локальная, то какого именно процессора. С другой стороны, AMD буквально настаивает, что с точки зрения программной модели это SMP — и ничего более. Даже название придумала — SUMO. Как же разобраться в этом хитросплетении терминов?
Для начала давайте подумаем, чем же для программиста отличаются эти две программные модели? В общем случае, для того, чтобы программа исполнялась эффективно, необходимо следить за ее распределением в памяти в случае NUMA архитектуры, и нет такой необходимости в случае SMP архитектуры. Происходит это потому, что времена доступа к памяти различных иерархий в архитектуре NUMA обычно отличаются на порядки — и, соответственно, неправильное размещение программы в памяти приводит к падению производительности в десятки раз. Если же время доступа к памяти для разных процессоров одинаково, или отличается несущественно — то, с точки зрения программирования, мы имеем программную модель SMP. Она гораздо проще и практически весь софт для многопроцессорных архитектур х86 разработан именно для такой программной модели. Вот таким упрощенным образом можно вкратце описать различия между этими программными моделями. Естественно, различия на этом не заканчиваются. продолжение
--PAGE_BREAK--
Теперь, когда мы сформулировали критерий, надо каким-то образом добыть данные о временах доступа в многопроцессорных Opteron системах…. Нарисуем, что такое hop, чтобы не путаться с терминами:
/>
Видно, что обращение к памяти называется hop-ом. При этом обращение к своей локальной памяти — 0-hop. Обращение к памяти соседнего процессора, до которого надо путешествовать по шине Hyper Transport один раз — 1-hop. То же самое, но к процессору, до которого два путешествия по Hyper Transport — называется 2-hop.
А теперь посмотрим еще и на эти цифры (тестовая система — Opteron 2 GHz, 128 bit memory DDR333, CL 2.5, Hyper Transport 6.4 GB/sec).
Время доступа для:
Однопроцессорной системы: порядка 45 нс
Двухпроцессорной системы: 0-hop — 69 нс, 1-hop — 117 нс.
4-х процессорной системы: 0-hop — 100 нс, 1-hop — 118 нс, 2-hop — 136 нс.
Теперь видно, что в случае, когда процессоров 4, все времена доступа подтягиваются к среднему времени около 93 нс для двухпроцессорной системы и около 118 нс для 4-х процессорной. Последняя цифра, кстати, соответствует времени доступа хорошего однопроцессорного чипсета. Но здесь у нас общее время складывается из собственно времени доступа в память и времени передачи его по шине Hyper Transport (один или два раза)! Так что подобный результат можно признать вполне удовлетворительным.
Теперь вернемся к нашему предыдущему вопросу — так NUMA это, или SMP? Говоря формально, все-таки NUMA — 40% разницы не дают возможности назвать эту модель памяти SMP. А можно ли пользоваться моделью для SMP? Можно. Данная разница, хоть и заметна, под нагрузкой будет сглажена — у нас нет «твердых» цифр, но судя по некоторым данным, при нагрузке к этим временам надо добавить порядка 40 нс… Тогда эта разница превращается в 140 нс против 180 нс — а это уже другое соотношение. Таким образом, можно считать, что название SMP для данной системы вполне можно употреблять — и, соответственно, вполне можно программировать как для «классического SMP», без оглядки на действительную архитектуру системы (NUMA). Впрочем, мы не исключаем, что в дальнейшем ОС будут отслеживать распределение памяти в подобных системах — благодаря этому можно будет рассчитывать еще процентов на 10% прироста быстродействия. Почти наверняка найдется некоторое количество пользователей, которые привыкли выжимать всю производительность из систем. Опять — же, напомним, что сама AMD для наименования этой «переходной» архитектуры использует термин SUMO.
Теперь напомним вкратце, каково устройство многопроцессорных систем на архитектуре Hammer.
Система на 2 процессорах:
Система на 2 процессорах:
/>
Система на 4-х процессорах:
110/>
Кстати, если сделать не 4 канала ввода/вывода, а 2 — то две высвободившиеся связи Hyper Transport можно соединить друг с другом, вот так:
/>
Тогда средневзвешенная скорость памяти составит 19,2 GB/sec вместо 12,8 GB/sec в классическом варианте, а средний «диаметр» системы (средняя длина пересылок данных в hop-ах) составит 1.17 hops, а не 1.33. В свою очередь, это приведет еще и к снижению задержек. Автору подобный вариант даже больше нравится, нежели классический симметричный — редко когда в действительности для ввода/вывода необходимо больше, чем 2 канала Hyper Transport суммарной производительностью более 12 гигабайт в секунду. А поэтому такой вариант будет даже более интересен.
Кроме всего прочего, архитектура Hammer позволяет строить и 8-ми процессорные системы. При этом у крайних 4-х процессоров по одной шине Hyper Transport отдано для ввода/вывода, а у центральных — все три задействованы в качестве межпроцессорных связей. Правда, надо отметить, что, по-видимому, задержки в такой системе сильно увеличатся — впрочем, поскольку точные данные у автора отсутствуют, все сказанное суть только наше предположение. «Классический» вариант такой системы выглядит так:
/>
Теперь применим такую же идею — пару связей Hyper Transport, задействованных для ввода/вывода, соединим друг с другом. Задействуем диагональные крайние процессоры. Получаем средневзвешенную скорость памяти 32 GB/sec вместо 25,6 GB/sec в классическом варианте, а средний «диаметр» системы 1.64 hops, а не 1.71. Приятная прибавка, не правда ли?
Правда, есть некоторые сведения, что все три шины Hyper Transport не могут быть когерентными — только две. Если так, то в 4-х процессорной архитектуре несимметричный вариант невозможен, а в 8-ми процессорной не будет связей между центральными процессорами, что резко увеличит среднее число hop-ов между процессорами, и, как следствие, сильно увеличит латентность. Автор надеется, что этот пессимистический слух не оправдается — к тому же в других источниках прямо указано, что один из контроллеров может переключаться между режимами coherent и non-coherent Hyper Transport.
Нельзя не заметить, что 4-х и 8-ми процессорным архитектурам отчаянно не хватает пропускной способности именно межпроцессорных связей — и с ускорением шины Hyper Transport производительность многопроцессорных систем сделает новый рывок. Но это дело уже будущих модификаций Hammer — мы не испытываем ни малейшего сомнения, что данная архитектура еще неоднократно будет модифицироваться и улучшаться. Как очевидный вариант, к тому же косвенно подтвержденный AMD — следующая модификация ядра Hammer будет поддерживать память DDRII (это, кстати, по оценкам автора, должно дать довольно значительный прирост производительности). Так что есть твердая уверенность в том, что данная статья об ожидаемых процессорах AMD — не последняя :-). Теперь, когда многопроцессорная архитектура AMD озвучена, дело за рынком — дальше именно он решит успешность/неуспех архитектуры.
Интересно, а можно ли сделать больше, нежели 8 процессоров? Оказывается, можно! Правда, теперь не удастся обойтись средствами только процессоров, необходимы еще и коммутаторы Hyper Transport. При их помощи систему можно сделать поистине гигантской…. Впрочем, судите сами:
/>
Подобные Hyper Transport switch уже существуют и доступны (на четыре шины). Объявлены также коммутаторы на 8 шин. Осталось понять, что это за Interconnect Fabric…. Но стоп — пора бы и остановиться :-). Тем более, что здесь самое время вспомнить, что не кто иная, как компания Cray объявила сравнительно недавно о том, что она будет строить суперкомпьютер производительностью порядка 36 TFlops на процессорах Opteron (с возможностью увеличения производительности до 54 TFlops позднее). Интересно, будет ли архитектура суперкомпьютера похожа на эту картинку? :-) Довольно долгое время мы сможем об этом только догадываться. Но возможности архитектуры действительно впечатляют. Кроме того, ходят слухи, которые автор не берется ни подтвердить, ни опровергнуть. Но слухи интересные: говорят, что для фирмы Cray AMD будет производить специальную версию Opteron — с 4-мя линками Hyper Transport. Процессоры вроде бы будут составлять трехмерную сеть. Собственно, принципиальных сложностей для добавления 4-го линка вроде бы нет — но тогда непонятно, в каком же форм-факторе будут производиться эти процессоры. Фото 4-х процессорной материнской платы с Opteron-ами.
/>
6.Советы по выбору процессора Intel и AMD
Кодексы даты.
Просите у продавца кодексы даты прежде, чем Вы купите процессор. Все ЦПУ имеют дату выпуска, которая проставляется на корпусе. Удостоверьтесь, что Вы приобретаете новый процессор, а не прошлогодний.
Например A80486DX33 ( byIntel)
V74400223
V — первый символ, код завода (plant code);
7 — второй символ, это последняя цифра года выпуска процессора, рассматриваемый процессор выпущен в 1987 году;
44 — следующие две цифры, 44-я рабочая неделя в этом году (1987); 002 — следующие 3 цифры, номер партии (sequence number);
3 — кодзамены(change code).
HапримерE6 9433 DPD (on AMD CPUs)
E6 — версия реализации (version release);
9433 — выпущен на 33 рабочей неделе 1994 года;
DPD — шифрсерии(wafer number);
Версия процессора. продолжение
--PAGE_BREAK--
Просите данные о версии процессора. Сравните версию процессора, который Вам предлагают с процессорами Intel 800-468-3548 или AMD 800-222-9323, так как более ранние версии процессоров имеют ошибки и различные дефекты.
Demo-образцы.
Никогда не платите полную цену за demo-образцы. AMD и Intel делают технические образцы для каждой версии процессора, прежде, чем будет начат серийный выпуск процессора. Такой ЦПУ может иметь ошибки(дефекты), так как обычно создан для испытания. Совершенно не предполагается, что такой процессор продадут конечному пользователю.
Hапример:
Нормальнаяверсия(normal version): i486DX-33:
Разработкаобразцов(engineering samples): i486DX-33 E
Перемаркированные процессоры.
Перемаркированные процессоры (remaked CPUs) — это процессоры, которые разгоняют сильнее, чем оригинальные для более высокой цены и прибыли. Эти действия считаются незаконными. Использование такого ЦПУ всегда рискованно. Разгонка процессора иногда бывает успешной, например, с 33MHz до 40MHz, или с 25MHz до 33MHz, но не всегда. Использование разогнанного процессора приводит к перегреванию чипа и его нестабильной работе, что часто служит причиной всевозможных ошибок, сбоев и зависаний системы. Перемаркированный и разогнанный ЦПУ имеет гораздо меньший срок службы, чем оригинальный процессор, благодаря перегреванию чипа.
7. Другие фирмы-производители и некоторые процессоры этих фирм
7.1 Cyrix
6x86– наименование процессоров Cyrix. Для оценки производительности относительно процессора Pentium использовался P-Rating, показывающий частоту, на которой пришлось бы работать процессору Pentium для достижения такой же производительности. P-Rating 6x86 составлял от 120 до 200 МГц. Кэш первого уровня – 16 Кбайт. Частота шины процессора – от 50 до 75 МГц. Разъем – Socket 5 и Socket 7.
M1– то же, что и 6x86.
MediaGX– ответвление в семействе процессоров Cyrix. Первый процессор, сделанный по идеологии PC-on-a-chip. К ядру 5х86 были добавлены контроллеры памяти и PCI, в чип интегрирован видеоускоритель с кадровым буфером в основной памяти PC. В последних моделях используется ядро 6x86. В чипе-компаньоне реализован мост PCI-ISA и интегрирован звук. PR-рейтинг от 180 до 233 МГц, кэш-память L1 – 16 Кбайт. Производился по техпроцессу 0,5 мкм.
6x86MX– переработанный с целью достижения большей производительности вариант 6x86. Кэш-память L1 – до 64 Кбайт. В состав архитектуры ядра был добавлен блок MMX. Появилась поддержка раздельного питания. Частота шины процессора – от 60 до 75 МГц. PR-рейтинг – от 166 до 266 МГц. Процессоры 6х86MX делала и компания IBM. Их изделия 6х86MX имели рейтинг от 166 до 333 и были рассчитаны на частоту шину 66, 75, 83 МГц. Позднее, по маркетинговым соображениям, Cyrix переименовал свои процессоры в MII, а IBM до конца сотрудничества продавала их под маркой 6x86MX.
MII– последний процессор Cyrix, начал производиться в марте 1998 года. Кэш-память L1 – 64 Кбайт (единый), L2, как обычно для Socket 7, находится на материнской плате и имеет объем от 512 Кбайт до 2 Мбайт, работая на частоте системной шины. Поддерживаемые наборы инструкций – MMX. Использует PR-рейтинг. При производстве применялся техпроцесс 0,25 мкм.
Cayenne– кодовое наименование ядра, используемого в Gobi и MediaPC.
Gobi (MII+)– процессор, рассчитанный на платформу Socket 370. Поддерживаемые наборы инструкций – MMX, 3D Now!.. Значительно переработан блок операций с числами с плавающей запятой. Кэш-память L1 – 64 Кбайт, кэш-память L2 – 256 Кбайт на чипе, работающие на полной частоте ядра процессора.
7.2 Rise
mP6– первые процессоры компании Rise. Предназначены для ноутбуков, использующих Socket 7. Отличаются очень малым тепловыделением. Кэш-память L1 – 16 Кбайт (по 8 Кбайт для данных и инструкций), L2 – от 512 Кбайт до 2 Мбайт, расположена на материнской плате, работает на частоте шины процессора. Поддерживается дополнительный набор инструкций MMX. При оценке производительности своих процессоров Rise, как и Cyrix, использует PR-рейтинг, составляющий от 166 до 366 МГц.
mP6 II– процессоры, отличающиеся от своих предшественников mP6 тем, что в чип интегрирована кэш-память L2 объемом 256 Кбайт. Была обещана поддержка SSE, производительность от PR-200 и выше. Однако в августе 1999 было объявлено об отмене планов по выходу процессора из-за значительного удорожания после добавления L2 в чип.
Tiger– mP6 II для платформы Socket 370. Кэш-память L1 – 16 Кбайт, L2 – 256 Кбайт, работающая на тактовой частоте ядра процессора. Выпуск отменен.
7.3 Centaur
Winchip С6– процессоры, ориентированные на дешевые ПК. По производительности уступают своим конкурентам. Шина – 60, 66, 75 МГц, платформа – Socket 7. Технология – 0,35 мкм. Процессоры поддерживают набор инструкций MMX. Вышел в октябре 1997 г., работал на частотах от 180 до 240 МГц.
Winchip-2– процессоры, производимые по техпроцессу 0,25 мкм. Кэш-память L1 – 64 Кбайт (по 32 Кбайт для инструкций и данных), кэш-память L2 – 512-2048 Кбайт находится на материнской плате. Процессорами поддерживаются наборы инструкций MMX и 3DNow!.. Платформа – Socket 7. От Winchip С6 отличаются значительно ускорившейся работой с числами с плавающей запятой. Появилась поддержка частоты системной шины 100 МГц. Первый процессор появился в ноябре 1998 года, частоты от 200 до 300 МГц.
Winchip-2A– процессоры Winchip-2 с исправленной ошибкой в реализации 3DNow!.
Winchip-3– процессоры с кэш-памятью L1 объемом 64 Кбайт (по 32 Кбайт для инструкций и данных) и кэш-памятью L2 объемом 128 Кбайт на чипе, работающей на частоте ядра процессора. Кэш-память L3 – 512-2048 Кбайт, расположена на материнской плате. Планировались к выходу в первой половине 1999 г. с частотой 300 МГц и выше. В связи с покупкой Centaur фирмой VIA выход процессоров был отменен.
Winchip-4– процессоры, выпуск которых планировался в конце 1999 г. Частоты – 400-500 МГц, а при переходе на 0,18 мкм техпроцесс – 500-700 МГц.
7.4 VIA
Samuel– кодовое наименование процессоров и ядра. Основой послужило ядро Winchip-4, доставшееся VIA в наследство от Centaur. Работают на частотах 500-700 МГц. Производятся National Semiconductors и TSMC с использованием 0,18 мкм техпроцесса. Процессоры используют набор SIMD 3D Now!.. Форм-фактор – Socket-370. Кэш-память L1 – 128 Кбайт. Получили наименование Cyrix III. Тактовая частота ядра – 500-667 МГц.
C5A– то же, что и Samuel.
Samuel 2– кодовое наименование процессоров и ядра, разработанных группой Centaur. Кэш-память L2 объемом 64 Кбайт. Тактовая частота ядра – 667-800+ МГц. Частота шины процессора 100/133 МГц, форм-фактор – Socket 370.
C5B– то же, что и Samuel 2.
Matthew– кодовое наименование интегрированных процессоров. Имеют в своем составе ядро Samuel2 с интегрированным видео и компонентами North Bridge.
Ezra– кодовое наименование процессоров и ядра. Совместная разработка групп Cyrix и Centaur. Первое действительно новое ядро VIA. Процессоры с поддержкой SSE. Кэш-память L1 – 128 Кбайт, кэш-память L2 – 64 Кбайта. Технология – 0,15 мкм c переходом на 0,13 мкм. Тактовая частота ядра – 750 МГц с последующим ростом выше 1 ГГц. TSMC подтвердила информацию о том, что она изготовила процессор Ezra с частотой 1 ГГц.
C5C– то же, что и Ezra.
Ezra-T– кодовое наименование процессоров и ядра. Совместимость по уровню сигналов с Tualatin, что позволяет их использовать в материнских платах с чипсетами, созданными под Tualatin. Технологический процесс 0,13 мкм, алюминиевые соединения. Кэш память L1 – 128 Кбайт, L2 – 64 Кбайт. Имеют меньшее, по сравнению с Ezra, энергопотребление. Поддержка MMX, 3D Now!.. Тактовая частота ядра – от 800 МГц (6х133 МГц). Выпуск запланирован на конец 2001 г.
Nehemiah– кодовое наименование процессоров и ядра. Рассчитаны на работу при частотах 1,2+ ГГц. Кэш-память L1 – 128 Кбайт, кэш-память L2 – 256 Кбайт. Будут поддерживать инструкции Streaming SIMD Extensions (SSE) и 3DNow!.. Конвейер в 17 стадий, напряжение питания ядра 1,2 В, техпроцесс 0,13 мкм с использованием медных соединений, площадь кристалла – 72 кв. мм. Выход запланирован на 2002 г.
C5X– то же, что и Nehemiah.
Esther– кодовое наименование процессоров и ядра. Кэш-память L1 – 128 Кбайт, L2 – 256 Кбайт. Конвейер 17 ступеней. Тактовая частота ядра 2 ГГц. Запланирован на вторую половину 2002 года.
C5Y– то же, что и Esther.
7.5 SiS
550– базовая модель процессоров серии 550. Основой послужило ядро mP6 от Rise с интегрированным видео и компонентами чипсета.
551– модель процессора, созданная на основе SiS 550, с поддержкой флеш-карт и шифрования. продолжение
--PAGE_BREAK--
552– модель процессора, созданная на основе SiS 551, с поддержкой аудио- и видеозахвата.
7.6 Transmeta
Crusoe– линейка процессоров, ориентированных на мобильные системы. Состоит из моделей TM3200 (L2=0), TM5400 (L2=256 Кбайт), TM5500 (L2=256 Кбайт), TM5600 (L2=512 Кбайт), TM5800 (L2=512 Кбайт), имеющих в своем составе интегрированные компоненты North Bridge. Характеризуются низким энергопотреблением.
Astro– кодовое имя высокопроизводительных процессоров со сверхнизким уровнем энергопотребления. Рабочая частота достигнет 1,4 ГГц при 0,5 Вт. В основе 256-разрядная архитектура. Выпуск моделей запланирован на 2002 г.
7.7 Compaq
Alpha EV68– кодовое имя высокопроизводительных процессоров с архитектурой, отличной от традиционной х86. Техпроцесс 0,18 мкм. Базируется на ядре Alpha EV6. Более 15 млн. транзисторов. Модель 1 ГГц объявлена в 2001 г.
Alpha EV7– кодовое имя высокопроизводительных процессоров. Техпроцесс 0,18 мкм с использованием медных соединений. Базируется на ядре Alpha EV6. Более 100 млн. транзисторов, напряжение питания ядра 1,5 В, мощность тепловыделения 100 Вт, частота 1,2-1,3 ГГц, до 1,75 Мбайт L2, корпус с 1439 контактами. Возможно использование интегрированного контроллера памяти. Выпуск моделей запланирован на 2002 г. В связи с покупкой фирмой Intel в 2001 г. подразделений, патентов и технологий, связанных с процессорами Alpha EVxx, процессоры Alpha EV7 или Alpha EV8, возможно, будут последними разработками этого направления.
Alpha EV8– кодовое имя высокопроизводительных процессоров с архитектурой, отличной от традиционной х86. Техпроцесс 0,13 мкм с использованием SOI. Более 250 млн. транзисторов, суперскалярное ядро (до 8 инструкций за 1 такт), мощность тепловыделения – 150 Вт, частота от 1,4 ГГц, кэш L2 будет составлять ориентировочно 2 Мбайт, корпус с 1800 контактами. Выпуск моделей запланирован на 2004 г. Возможно, последняя разработка этого направления.
Alpha EV9– кодовое имя высокопроизводительных процессоров с архитектурой, отличной от традиционной х86. Техпроцесс 0,10 мкм, 500 млн. транзисторов, частота 2-3 ГГц. Выпуск моделей был запланирован на 2006 г.
Alpha EV10– кодовое имя высокопроизводительных процессоров с архитектурой, отличной от традиционной х86. Техпроцесс 0,07 мкм, 1,5 млрд транзисторов, частота 3-4 ГГц. Выпуск моделей был запланирован на 2008 г.
QuickBlade– серверная архитектура со сверхвысокой плотностью монтажа. В основе данной архитектуры запланировано использование процессоров Intel со сверхнизким напряжением питания.
8. Разгон процессора или overclocking
Все ниже написанное приводится только в общеобразовательных целях. Автор не несет никакой ответственности за повреждения чего (кого) бы то ни было в результате действий, о которых идет речь в этом материале.
Что нужно для разгона?
Во-первых, тщательно изучить инструкцию к имеющемуся «железу». Найти перемычки/джамперы/пункты меню BIOS, отвечающие за частоту FSB, шины памяти, коэффициента умножения, делителя для PCI и AGP. По вкусу — сходить на сайт производителя за новой версией прошивки для flashBIOS. Собственно, все — можно менять параметры в разумных пределах. Не забывая об охлаждении. Ситуация с процессорами AMD заслуживает посвящению ей отдельного пункта.
Всем ли поможет overclocking?
Не обязательно. Это зависит от конкретных программ, с которыми вы работаете. Например, для графических пакетов (особенно для 3DStudio или Maya), скорее всего, будет не хватать памяти (на 64 Mбайт, может, запускаться и будет, но работать будет невозможно, 128 Mбайт — минимальный объем для таких программ), чем тактовой частоты CPU, а для игр важнее, какой 3D-ускоритель присутствует в системе (хотя слабый процессор не сможет загрузить полностью работой современную видеокарту). Но при разгоне системной шины повышается скорость работы прочих компонентов, так что иногда это неплохо помогает.
Что может случиться с системой при разгоне?
Главный враг при разгоне компьютера — это температура. Среднестатистический процессор (не разогнанный) обычно нагревается до 40-50 градусов C, если вы не играете в Quake III. При сильном повышении частоты (особенно если при этом увеличить напряжение) температура может повыситься до 60 и больше градусов, но если учесть, что максимальная t лежит в пределах 70-90, то это еще терпимо. Так или иначе, часто подвохов следует ждать от прочих компонентов. Например, стандартные делители для шины PCI — 2, 3 и 4 (66, 100 и 133 МГц на системной шине соответственно), при установке 75 МГц (практически безболезненно переносится любым процессором) частота PCI возрастает до 37,5 — в принципе, особых возражений нет. Но вот при 83 MГц на FSB она увеличивается до 41,5, что спокойно воспринимают далеко не все платы (особенно если их много). Также возрастает частота AGP — некоторые видеокарты могут не заработать. Не стоит забывать, что встроенный IDE-контроллер тоже «висит» на PCI-bus, так что возможна потеря данных на жестком диске. Следует учесть, что «не все частоты одинаково полезны». Так, например, разгон Celeron до FSB 100 МГц на плате с чипсетом ВХ есть «личное дело процессора» (если память РС100 или лучше). В то же время, если на такой же плате разгонять Р3 до FSB 150 МГц, повышенная нагрузка ляжет на все узлы системы, ибо абсолютно все они будут работать в нестандартном режиме. В последнем случае утверждать что-либо о стабильности работы невозможно.
Бывают случаи, когда разогнанный процессор сгорает. Иногда при этом портится и материнская плата. В основном, это объясняется использованием недостаточно качественных комплектующих при сборке системы. В любом случае, в деле overclocking'а (как, впрочем, и везде ) стоит руководствоваться здравым смыслом и не пытаться получить тройное увеличение производительности. Тем более, когда дело не в скорости процессора.
Действительно ли при разгоне может «полететь» вся информация на жестком диске?
Некоторые модели IDE-дисков, поддерживающие UltraDMA, чувствительны к частоте шины PCI и при выставлении нестандартных частот иногда возможна потеря данных. При этом сам жесткий диск как правило остается работоспособным, однако, в некоторых случаях, могут «отправиться к праотцам» сервометки, после чего винчестер будет проще выбросить, чем пытаться это исправить (к счастью, вероятность этого не велика). Справиться с этим обычно можно изменением режима работы винчестера (например, заставив его работать исключительно в PIO mode).
Пути разгона, имеющиеся на сегодняшний день.
Два метода overclocking'а — это увеличение коэффициента умножения и повышение тактовой частоты шины. Цель всего этого одна — заставить процессор работать на большей внутренней частоте, чем ему было назначено производителем. Для процессоров Intel шестого поколения первый способ практически неприменим (кроме ранних моделей, но об этом ниже), все идет к тому, что и второй будет скоро недоступен. Будет или нет — поживем, увидим, а на данный момент остается только повышать частоту (с увеличением напряжения питания или без). В случае с AMD все по-другому. В процессорах Athlon и Duron на данный момент отсутствует жесткое ограничение множителя, но зато повышение частоты шины практически невозможно — используется Alpha EV6 bus, в которой данные передаются по двум фронтам сигнала, т. е. при фактической частоте 100 Мгц шина работает как бы на 200. Вся эта система очень сложна и превышение частотных параметров более чем на 5 Мгц зачастую влечет нарушение ее работы.
Что такое «зафиксированный коэффициент умножения»?
Внутренняя частота, на которой работает процессор, определяется так: частота системной шины умножается на коэффициент. Например, множитель для Celeron 400 равен 6 (6*66~400). Если раньше можно было разгонять частоту CPU повышением множителя, то теперь этой возможнсти у нас нет. Из старых процессоров умножитель закрыт у некоторых партий Pentium 120 и 133. У всех новых Pentium II коэффицент стал ограниченным сверху (т.е., например, для Pentium II 266 возможны коэффиценты до 4 включительно, но не выше). 100% заблокированы умножения у SL2W8 300 Mhz PII OEM и SL2W7 266 Mhz PII OEM. Разблокировать нельзя никак, даже с ABIT BH-6 и B21. Начиная с Celeron, все процессоры Intel выходят с жестко зафиксированным коэффициентом (при этом игнорируется значение, выставленное на материнской плате). Это также в какой-то мере препятствует и разгону по шине, т.к. нельзя, например, на том же Celeron 400 выставить режим 5*100=500 MГц (что дало бы хороший прирост быстродействия практически безболезненно для процессора). Это пока не касается процессоров AMD, в которых он зафиксирован, но может быть изменен оверклокером. Правда тут есть одно но — если это новый процессор из пробных партий, там обычно ещё не фиксируется коэффициент. Да и разгоняются такие процессоры куда лучше своих более поздних серийных собратьев.
Как можно понизить температуру «железа» при разгоне?
Есть немало способов сделать это — от снятия крышки корпуса до установки системы охлаждения на жидком азоте :). Но я перечислю наиболее доступные:
В первую очередь, нужно проверить вентилятор процессора. Возможно, в радиатор набилась пыль, а кулер шумит, как трактор, и издает странное постукивание — тогда просто необходимо принять меры, вне зависимости от того, будете ли вы разгонять свою систему или нет. Если все вышеперечисленное — правда, то снимите радиатор вместе с кулером (в большинстве случаев он крепится к разъему CPU, если это Socket, если Slot — к процессорному картриджу). Желательно снять вентилятор (для слота — крайне не рекомендуется!) и очистить его от пыли и мусора. То же самое следует проделать с радиатором. Удалите остатки старой термопасты с кристалла и радиатора, новую наносить нужно тонким слоем, чтобы она не растекалась. Затем соберите все в первоначальное состояние. Естественно, действовать нужно осторожно, не прилагая чрезмерных усилий.
Такую же операцию не помешает провести и с вентилятором блока питания, а также с кулером видеокарты (если таковой имеется).
В вашу обычную практику должна войти удаление пыли из корпуса хотя бы раз в два месяца. Особенно много ее скапливается в блоке питания, это плохо влияет на теплоотвод, так что иногда нужно и туда заглядывать.
Практически бесплатно можно достать software-cooler для своего CPU — это поможет понизить t процессора на несколько градусов.
Это, так сказать, общие меры.
Радикально поможет установка мощного радиатора и кулера, но придется потратится. При выборе cooling device нужно смотреть на количество ребер и размер радиатора (лучший вариант — игольчатый), на диаметр вентилятора. Естественно, хороший кулер не должен издавать слишком громкого шума и вибрировать. продолжение
--PAGE_BREAK--
Еще нужно учесть такую вещь, как свободное место в корпусе PC — некоторые особо монстроидальные устройства могут упереться в блок питания или еще во что-нибудь.
Для процессоров AMD Duron и Thunderbird в «новых» корпусах Socket462 охлаждающее устройство нужно выбирать ОСОБЕННО осторожно, т.к. известны случаи механического повреждения кристалла из-за слишком большого усилия зажима крепления радиатора.
Ну и совсем недешевое решение проблемы — установка водяного охлаждения. Это уже экзотика — наверное, проще купить более мощный процессор за эти деньги :)
Влияет ли тип корпуса — AT или ATX — на эффективность разгона?
В целом, да. В корпусах ATX более продуманное расположение блока питания, что позволяет понизить температуру внутри корпуса. Кроме того, на многих системных платах предусмотрена возможность автоматического выключения в случае выхода из нормы температурных параметров CPU. Хотя если у вас системный блок стандарта AT, это не значит, что его нужно выбрасывать и покупать ATX — эти преимущества, IMHO, не всегда стоят той суммы, на которую вторые дороже, чем первые.
В целом видны все положительные и отрицательные черты разгона процессора, поэтому не следует приступать к overclocking’у с горяча!!!
9. Системы охлаждения процессора
Ни для кого не секрет, что высокопроизводительные процессоры сильно нагреваются при работе, иными словами — рассеивают большую тепловую мощность. И без дополнительных средств охлаждения быстродействующее «кремниевое сердце» современного компьютера обойтись уже не может. Проблема обеспечения оптимальной рабочей температуры процессора в последние годы начинает проявлять себя в полный рост, становясь самым настоящим краеугольным камнем на пути к созданию надежной, эргономичной и высокопроизводительной компьютерной системы. Общепризнанным и наиболее распространенным средством охлаждения процессора являются на сегодня так называемые кулеры (или, говоря по научному — теплообменные аппараты принудительного воздушного охлаждения). В общем случае они являются сочетанием металлической оребренной пластины (радиатора) и воздушного насоса (вентилятора), и служат для поддержания рабочей температуры процессора в пределах допустимых нормативов, обеспечивая его правильное и надежн! ое функционирование. Что ж, давайте рассмотрим эти устройства поподробнее.
9.1 Радиаторы
По своей сути радиатор является устройством, существенно облегчающим теплообмен процессора с окружающей средой. Площадь поверхности процессорного кристалла чрезвычайно мала (на сегодня не превышает нескольких квадратных сантиметров) и недостаточна для сколько-нибудь эффективного отвода тепловой мощности, измеряемой десятками ватт. Благодаря своей оребренной поверхности, радиатор, будучи установленным на процессоре, в сотни и даже тысячи раз увеличивает площадь его теплового контакта с окружающей средой, способствуя тем самым усилению интенсивности теплообмена и кардинальному снижению рабочей температуры.
Фундаментальной технической характеристикой радиатора является термическое сопротивление относительно поверхности процессорного кристалла — величина, позволяющая оценить его эффективность в качестве охлаждающего устройства.
Термическое сопротивление выражается простым соотношением:
Rt= (Tc— Ta)/Ph, где
Rt— термическое сопротивление радиатора, Tc— температура поверхности процессорного кристалла, Ta— температура окружающей среды, Ph— тепловая мощность, рассеиваемая процессором.
Измеряется термическое сопротивление соответственно в °С/Вт. Оно показывает, насколько увеличится температура процессорного кристалла относительно температуры в компьютерном корпусе при отводе определенной тепловой мощности через данный конкретный радиатор, установленный на процессоре.
Для примера возьмем платформу VIA Eden. Типичное термическое сопротивление процессорного радиатора составляет здесь 6°С/Вт, типичная тепловая мощность процессора равняется 3 Вт, а типичная температура внутри системного блока лежит в пределах 50°C. Перемножив значения термического сопротивления радиатора и тепловой мощности процессора, мы получим 18°C. Теперь мы знаем, что температура поверхности процессорного кристалла будет превышать температуру в системном блоке на 18°C и будет держаться соответственно на уровне 68°C. В принципе, такая температура вполне соответствует «медицинским» нормативам на процессоры VIA Eden ESP, и поводов для беспокойства за его здоровье у нас нет.
Теперь давайте посмотрим другой пример. Если нам вдруг вздумается использовать радиатор от VIA Eden ESP, но уже с процессором AMD Athlon XP, тепловая мощность которого составляет порядка 40-60 Вт, то результат будет плачевным: температура процессора достигнет 300°C и более, что привет к его скоропостижной кончине от «теплового удара». Совершенно очевидно, что при такой тепловой мощности нужен радиатор (или предпочтительно — уже полноценный кулер) с гораздо меньшим термическим сопротивлением, чтобы он смог удержать температуру процессора в пределах безопасных 75-90°C.
Таким образом, для термического сопротивления действует четкий принцип «чем меньше, тем намного лучше». Зная его величину, мы сможем легко оценить целесообразность применения того или иного радиатора (или процессорного кулера в целом, но об этом чуть позднее) в наших конкретных эксплуатационных условиях. И также легко сможем избежать ошибок, которые нередко приводят к катастрофическим последствиям для компьютерной системы и кошелька пользователя.
На практике термическое сопротивление (суть тепловая эффективность) радиатора во многом зависит не только от площади оребренной поверхности, но и от его конструктивных особенностей и технологии изготовления. В настоящее время на рынке представлены пять «архетипов» радиаторов, задействованных в массовом производстве. Позвольте уделить им немного вашего драгоценного внимания.
«Экструзионные» (прессованные) радиаторы. Наиболее дешевые, общепризнанные и самые распространенные на рынке, основной материал, используемый в их производстве — алюминий. Такие радиаторы изготавливаются методом экструзии (прессования), который позволяет получить достаточно сложный профиль оребренной поверхности и достичь хороших теплоотводящих свойств.
«Складчатые» радиаторы. Отличаются довольно интересным технологическим исполнением: на базовой пластине радиатора пайкой (или с помощью адгезионных теплопроводящих паст) закрепляется тонкая металлическая лента, свернутая в гармошку, складки которой играют роль своеобразной оребренной поверхности. Основные материалы — алюминий и медь. По сравнению с экструзионными радиаторами, данная технология позволяет получать изделия более компактных размеров, но с такой же тепловой эффективностью (или даже лучшей).
«Кованые» (холоднодеформированные) радиаторы. Для их изготовления используется технология холодного прессования, которая позволяет «ваять» поверхность радиатора не только в форме стандартных прямоугольных ребер, но и в виде стрежней произвольного сечения. Основной материал — алюминий, но зачастую в основание (подошву) радиатора дополнительно интегрируют медные пластины (для улучшения его теплоотводящих свойств). Технология холодного прессования характеризуется относительно малой производительностью, поэтому «кованые» радиаторы, как правило, дороже «экструзионных» и «складчатых», но далеко не всегда лучше в плане тепловой эффективности.
«Составные» радиаторы. Во многом повторяют методику «складчатых» радиаторов, но обладают вместе с тем весьма существенным отличием: здесь оребренная поверхность формируется уже не лентой-гармошкой, а раздельными тонкими пластинами, закрепленными на подошве радиатора пайкой или стыковой сваркой. Основной используемый материал — медь. Как правило, «составные» радиаторы характеризуются более высокой тепловой эффективностью, чем «экструзионные» и «складчатые», но это наблюдается только при условии жесткого контроля качества производственных процессов.
«Точеные» радиаторы. На сегодня это самые продвинутые и наиболее дорогие изделия. Они производятся прецизионной механической обработкой монолитных заготовок (обрабатываются на специализированных высокоточных станках с ЧПУ) и отличаются наилучшей тепловой эффективностью. Основные материалы — алюминий и медь. «Точеным» радиаторам вполне по силам вытеснить с рынка все остальные «архетипы», если себестоимость такой технологии будет снижена до приемлемых значений.
Итак, радиаторы мы рассмотрели, обратимся теперь к вентиляторам.
9.2 Вентиляторы
Как уже было отмечено, современные процессоры испытывают нужду в охлаждающих устройствах с как можно более низким термическим сопротивлением. На сегодня даже самые продвинутые радиаторы не справляются с этой задачей: в условиях естественной конвекции воздуха, т.е. когда скорость движения воздушных масс мала (типичный пример — марево над асфальтом дорожного полотна в жаркий летний день), «штатной» тепловой эффективности радиаторов оказывается недостаточно для поддержания приемлемой рабочей температуры процессора. Кардинально уменьшить термическое сопротивление радиатора можно только одним способом — хорошенько его вентилировать (говоря по-научному, создать условия вынужденной конвекции теплоносителя, то бишь воздуха). Как раз для этих целей практически каждый процессорный радиатор и оборудуется вентилятором, который добросовестно продувает его внутреннее межреберное пространство.
На сегодня в процессорных кулерах находят применение в основном осевые (аксиальные) вентиляторы, формирующие воздушный поток в направлении, параллельном оси вращения пропеллера (крыльчатки).
«Ходовая» часть вентилятора может быть построена на подшипнике скольжения (sleeve bearing, наиболее дешевая и недолговечная конструкция), на комбинированном подшипнике — один подшипник скольжения плюс один подшипник качения (one sleeve -one ball bearing, наиболее распространенная конструкция), и на двух подшипниках качения (two ball bearings, самая дорогая, но в то же время очень надежная и долговечная конструкция). Ну, а электрическая часть вентилятора повсеместно представляет собой миниатюрный электродвигатель постоянного тока.
Как же оценить, насколько хорош (или плох) тот или иной вентилятор? Каковы его технические характеристики и эксплуатационные параметры? Давайте посмотрим!
Во-первых, фундаментальной характеристикой любого вентилятора является его производительность (технический термин — «расход») — величина, показывающая объемную скорость воздушного потока. Выражается она в кубических футах в минуту (cubic feet per minute, CFM). Чем больше производительность вентилятора, тем он более эффективно продувает радиатор, уменьшая термическое сопротивление последнего. Типичные значения расхода — от 10 до 80 CFM.
Во-вторых, очень важной характеристикой вентилятора является скорость вращения крыльчатки (в отечественной практике выражается в об/мин, американская единица измерения — rotations per minute, RPM). Чем быстрее вращается крыльчатка, тем выше становится производительность вентилятора. Типичные значения скорости — от 1500 до 7000 об/мин.
Ну и, в-третьих, еще одна важная характеристика вентилятора — это его типоразмер. Как правило, чем больше габариты вентилятора, тем выше его производительность. Наиболее распространенные типоразмеры — 60х60х15 мм, 60х60х20 мм, 60х60х25 мм, 70х70х15 мм, 80х80х25 мм.
Что же касается эксплуатационных параметров, то наиболее существенными из них являются уровень шума и срок службы вентилятора.
Уровень шума вентилятора выражается в децибелах и показывает, насколько громким он будет в субъективном восприятии. Значения уровня шума вентиляторов лежат в диапазоне от 20 до 50 дБА. Человеком воспринимаются в качестве тихих только те вентиляторы, уровень шума которых не превышает 30-35 дБА.
Наконец, срок службы вентилятора выражается в тысячах часов и является объективным показателем его надежности и долговечности. На практике срок службы вентиляторов на подшипниках скольжения не превышает 10-15 тыс. часов, а на подшипниках качения — 40-50 тыс. часов.