Hard

15.05.2012 Автор: Иван Савватеев Версия для печати

Видеоконтроллеры AMD Radeon

Опередив с выпуском видеоплат, поддерживающих DirectX 11, своего конкурента примерно на полгода, компания AMD продолжает выпускать «обновы» раньше Nvidia. Но если «видюхи» серии Radeon HD 6xxx появились на свет в результате доработок предыдущих моделей и не имели от них принципиальных отличий, то вышедшая под занавес 2011 г. серия Radeon HD 7xxx, традиционно начатая с топовых моделей, базируется на совершенно новой архитектуре.


Система нумерации новинок такая же, как в предыдущей серии. Топовые модели Radeon HD 7970 и 7950 заменяют собой «видюхи» Radeon HD 6970 и 6950; на смену HD 68хх и 67хх приходят HD 78хх и 77хх, причем, если верить презентации AMD, у каждой новой модели производительность будет выше, чем у ее предшественницы, но ниже, чем у ранее выпущенной модели более высокого уровня. Заметим, что замены решениям начального и «нижне-среднего» уровня (Radeon HD 66xx и младше) пока не предвидится: их выпуск будет продолжаться и далее. Что ж, это вполне разумно: реально воспользоваться новыми, да и не очень новыми фичами на таком слабом «железе» все равно невозможно, поэтому поддержка даже DirectX 10.1 там присутствует больше для галочки.

Как водится, первыми широкой публике были представлены (и поступили в продажу) две самые мощные видеоплаты — Radeon HD 7970 и 7950. В их основе лежит новый графический процессор с кодовым именем Tahiti, впервые в отрасли выполненный по 28-нм технологии. Заметим, что на ее основе начат выпуск и других процессоров AMD, объединенных названием Southern Islands («Южные острова»). Кроме топового «Таити» в семейство входят Pitcairn (о. Питкэрн, как и Таити, расположен в Тихом океане) и Verde (вероятно, имеются в виду атлантические острова Зеленого мыса) — последние два процессора являются основой плат серий Radeon HD 78xx и 77xx соответственно.

Переход на новый техпроцесс позволил резко повысить количество транзисторов (AMD приводит точную цифру — 4 312 711 873 шт., что на 63% больше, чем в Cayman, и почти на 44% больше, чем в Nvidia GF110), оставив в разумных пределах площадь кристалла и энергопотребление. Характеристики новичка и его прямого предшественника, а также (пока еще) топового кристалла от Nvidia даны в табл. 1, а участвовавших в данном тестировании видеоконтроллеров — в табл. 2.

 

Особенности архитектуры GCN

Архитектура графических процессоров под названием GCN (Graphics Core Next) является действительно новой, а не сравнительно небольшой переработкой предыдущей версии. Одной из основных причин, вызвавших ее появление, стала необходимость существенно повысить эффективность графического процессора на неграфических вычислениях. Хотя предыдущие ГП AMD по пиковой вычислительной мощности превосходили своих конкурентов от Nvidia, в реальных задачах они из-за некоторых особенностей архитектуры зачастую проигрывали. Кроме того, требовалось повысить эффективность тесселяции в «тяжелых» режимах, где AMD очень сильно проигрывала своему сопернику, и, естественно, улучшить остальные характеристики, желательно сообразно с общим увеличением числа транзисторов.

Основным «кирпичиком» в новой архитектуре стал блок, также носящий название GCN. Разрабатывая новый процессор, AMD впервые отказалась от так называемых очень длинных команд (VLIW), которые хорошо подходят для графических задач, но оказываются куда хуже для задач вычислительных, поскольку не позволяют достаточно плотно загрузить работой все исполнительные блоки процессора. Нынешний GCN состоит из векторных и скалярных вычислительных блоков, векторных и скалярных регистров (емкостью 4 х 64 и 4 Кбайт соответственно), локальной разделяемой памятью объемом 64 Кбайт, а также четырьмя блоками выборки и фильтрации текстур, с которыми связан кэш первого уровня объемом 16 Кбайт, работающий не только на чтение, но и на запись.

Самым важным является, однако, то, что каждый GCN располагает собственным планировщиком, позволяющим в каждом из векторных блоков исполнять свой поток команд (они называются у AMD «ядрами» — kernel). Потоки могут пользоваться и скалярным блоком, основное назначение которого состоит в выполнении операций, управляющих обменом данными, вычислением указателей и т.д. Это обеспечивает улучшение загрузки вычислительных устройств (меньше простоев из-за неготовности данных и т.п. проблем), а также упрощает написание компиляторов, что повышает качество генерируемого ими кода и поэтому способствует росту производительности.

По имеющимся данным, в старших моделях новой архитектуры скорость выполнения операций с плавающей запятой двойной точности (именно такие числа используются в изрядной части неграфических вычислений) составляет четверть от таковой для чисел одинарной точности, а в младших — всего 1/16. Понятно, что такой подход принят для упрощения и удешевления решений начального и, надо полагать, среднего уровней: рекордов скорости от них никто особо не ждет, а вот совместимость с топовыми кристаллами обеспечивается полная (т.е. одна и та же программа будет успешно выполняться и на самом мощном, и на самом слабом ГП, только время ее работы может различаться в разы).

Существенной переработке подверглась кэш-память процессора. Как уже упоминалось, каждый GCN имеет 16 Кбайт кэша первого уровня, что в сумме дает 512 Кбайт. Помимо него имеется 768 Кбайт кэша второго уровня — по 256 Кбайт на каждый из трех двухканальных контроллеров памяти (всего имеется шесть 64-разрядных каналов). В сумме объем кэша на 50% больше, чем у Cayman, вдобавок он стал более функциональным: годится не только для чтения, но и для записи данных. Наполовину возросла и пропускная способность кэшей: за один такт каждый блок GCN может получить или выдать 64 байта данных; на такой же «подвиг» способен и каждый из разделов кэша второго уровня. В сумме получаем скорость обмена до 2 Тбайт/с для первого и 700 Гбайт/с для второго уровня кэш-памяти.

Всего в топовом процессоре AMD имеется 32 блока GCN, что в сумме дает 128 векторных и 32 скалярных вычислительных блоков. Поскольку каждый векторный блок обрабатывает 16 чисел сразу, в итоге получаем 2048 «единичных» ALU в векторных блоках — это число фигурирует в таб- лицах как количество потоковых или вычислительных процессоров в составе ГП, поскольку именно эти блоки и выполняют основной объем расчетной работы.

Неграфическими вычислениями заведуют два асинхронных вычислительных «движка» (ACE, Asynchronous Compute Engine). Они работают совместно с графическим обработчиком команд (Command Processor) и распределяют задачи между GCN. Благодаря наличию трех управляющих блоков (двух вычислительных и одного графического) новые ГП способны выполнять три полностью независимых потока команд.

Каждый GCN имеет 16 текстурных блоков, что в сумме дает 128 блоков на процессор — на четверть больше, чем было в Cayman, и наполовину больше, чем у конкурента.

Очередным существенным новшеством стало «перемещение» блоков растровых операций (ROP): если раньше они были прямо связаны с контроллерами памяти, то сейчас привязаны к GCN. Общее их число — 32 в восьми укрупненных блоках RBE — осталось неизменным. Теоретически «алгоритмическая» скорость записи в буфер кадра не изменилась — 32 точки за такт, однако на практике, как заявляет AMD, новая архитектура куда ближе к этому пределу, чем Cayman (на практике он был способен записывать лишь 23 точки за такт из-за недостаточной пропускной способности памяти).

Что касается собственно геометрических, а не универсальных вычислительных блоков, то их общее число не изменилось: две штуки. Каждый блок включает собственно геометрический «движок» (выборка вершин и других геометрических данных и тесселяция) и растеризатор.

Теоретически каждый блок обрабатывает за такт одну вершину, однако практически производительность выросла сильнее, чем поднялась тактовая частота, поскольку стало меньше простоев благодаря улучшенной буферизации данных, увеличению объема кэшей и повторному использованию информации о вершинах. Как утверждает производитель, фактический прирост скорости тесселяции по сравнению с Radeon HD 6970 может достигать 400%, причем большой прирост заметен в первую очередь при «тяжелой» тесселяции, то есть там, где позиции AMD были откровенно слабы.

Из других аппаратных улучшений отметим поддержку ECC для подключаемых к процессору модулей памяти, что потенциально увеличивает стабильность ее работы (сбои одиночных разрядов, вызванные очень высокой частотой, будут не просто обнаруживаться, но и корректироваться). Нельзя не обратить внимание и на шину PCI Express x16 третьей версии, благодаря которой пропускная способность теоретически возрастает с 5 до 8 Гтранзакций/с.

Борьба за экономию энергии не сводится к простому переходу на 28-нм техпроцесс: улучшена ранее внедренная технология PowerTune, также появилась новая — ZeroCore. Вместе они направлены на снижение энергопотребления — как за счет уменьшения частоты, когда высокая производительность не требуется, так и отключения неиспользуемых блоков процессора, а также остановки вентилятора в режиме 2D. Кроме того, PowerTune позволяет поддерживать высокую частоту до тех пор, пока процессору не грозит перегрев из-за реально высокой нагрузки (обычно достигаемой лишь в специальных тестах). Без этой технологии пришлось бы ограничивать частоту искусственно, рассчитывая на самый худший случай. Наконец, была усовершенствована и получила следующий номер версии технология вывода изображений на несколько мониторов Eyefinity, обеспечивающая вывод стереоизображений и раздельного звука для каждого монитора.

С декодированием видео никаких заметных изменений не произошло, но они и не нужны. Процессор по-прежнему включает ставший уже привычным блок UVD, который успешно справляется с любыми современными видеоформатами. А вот для обратной процедуры, то есть кодирования видео, предназначен новый блок VCE (Video Codec Engine), обеспечивающий кодирование в формат 1080p при скорости выше 60 кадр./с. Правда, эту «железяку» пока никто не поддерживает, но, вероятно, уже скоро появятся первые программы, использующие преимущества аппаратного кодирования.

 

Результаты испытаний

Теперь проверим новинку в деле. Тестирование видеокарт проводилось на материнской плате Intel DP67BG с процессором Intel Core i7-2600K, 8-Гбайт ОЗУ (4 DDR3-модуля Kingston с эффективной частотой 1600 МГц и таймингами 9-9-9-27) и жестким диском Western Digital WD1002FAEX. Применялись драйверы версий 12.2 (AMD) и 296.10 (Nvidia). Тестирование проходило на максимальных настройках качества, за исключением полноэкранного сглаживания, ограниченного величиной 4х. Результаты представлены в статье про Nvidia GTX 680.

Как видим, даже «обрезанная» видеоплата Radeon HD 7950 на малом разрешении (1280 х 1024 точки) по производительности соответствует лидеру предыдущего поколения — «видюхе» GeForce GTX 580. Полноценный Radeon HD 7970 в тех же условиях превосходит конкурента на 15%, а своего прямого предшественника — Radeon HD 6970 — и вовсе на 45%. С ростом разрешения преимущество решений AMD над Nvidia становится все более очевидным, при разрешении 2560 х 1600 точек достигая 10% и почти 30% для Radeon HD 7950 и 7970 соответственно. Правда, аналогичная тенденция имела место и ранее, так что ничего нового мы не открыли. Попутно заметим, что само по себе даже такое большое превосходство, как 30%, не означает автоматически, что новым «видюхам» любая задача по плечу. Например, на максимальных настройках качества в разрешении 2560 х 1600 поиграть в Metro 2033 не удастся, да и превосходство над Nvidia в этом случае не так велико, как «в среднем по больнице», — 20%. Тем не менее при такой разнице в числе транзисторов результаты соревнований заведомо известны: «новички» побили «старичков», пускай и не в разы.

C некоторыми синтетическими тестами ситуация заметно интереснее (см. диаграммы). Для начала обратимся к цифрам, полученным в так называемых Feature Tests («тестах возможностей») пакета Futuremark 3DMark Vantage. Radeon HD 7970 во всех случаях существенно опередил своего прямого предшественника, Radeon HD 6970, что было вполне ожидаемо. А вот расправиться вчистую с конкурентом у AMD не получилось: в двух из шести случаев GeForce GTX 580 по-прежнему впереди (заметим, что ранее, в сравнении с Radeon HD 6970, «невидия» лидировала в трех тестах). Один из неудачных для AMD тестов, четвертый по счету, рассчитывает физические взаимодействия (имитирует ткани). В нем на итоговую цифру влияет скорость исполнения вершинных и геометрических шейдеров, а также потокового вывода для передачи информации от одного прохода вычислений к следующему. Этот тест чувствителен к скорости обработки геометрии (пускай и без тесселяции: 3DMark Vantage, напомним, опирается на DirectX 10, а потому не может ее использовать), и, как мы видим, Nvidia в этом плане по-прежнему сильнее конкурента. Еще хуже результат у AMD в пятом тесте. Здесь рассчитывается система частиц, причем скорость обработки геометрии стала еще более важной — отсюда и результат.

С тесселяцией еще интереснее. Первые два теста (Detail Tessellation и PNTriangles), входящие в состав DirectX SDK, были разработаны специально для графических процессоров AMD и создают сравнительно небольшую нагрузку на тесселяторы. Как видим, Radeon HD 7970, безусловно, превосходит своего предшественника на любых режимах в обоих тестах и находится на равных с GeForce GTX 580 во втором тесте, опережая его в первом. А вот третий тест этой группы, Realistic Water Terrain (известен также под названием Island), заметно более приближенный к реальным играм и по-настоящему серьезно использующий тесселяцию, в очередной раз демонстрирует преимущество GeForce как обработчика геометрических данных: если при минимальной тесселяции Radeon HD 7970 уверенно выходит вперед, то при максимальном уровне сложности отстает от конкурента в два раза. Правда, его предшественник, Radeon HD 6970, в этом тесте проигрывает вообще в пять с лишним раз, то есть серьезное улучшение тесселятора в новой архитектуре AMD налицо, но… Факт остается фактом: первое же поколение тесселяторов от Nvidia остается эффективнее, чем уже девятое от ATI/AMD.

■■■

Итак, на момент написания статьи, когда о появлении видеокарт Nvidia GeForce GTX 680 еще не было официально объявлено, новые видеоплаты от AMD хотя и не превзошли по всем параметрам предыдущие модели главного конкурента, тем не менее являлись безусловными лидерами по производительности в играх. Но с появлением графических адаптеров на архитектуре Kepler борьба развернулась с новой силой, о чем красноречиво свидетельствуют результаты проведенных нами испытаний Nvidia GeForce GTX 680


Назад в раздел

Текст сообщения*
Защита от автоматических сообщений

Читайте также