Клеммные колодки Keen Side
РадиоЛоцман - Все об электронике

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson

Рассмотрены архитектуры центральных процессоров для ускорения работы с искусственными нейронными сетями. Приведены примеры отечественных вычислительных модулей и блоков для решения задач машинного зрения, видеоаналитики и оптической навигации.

Введение

В настоящее время одной из самых популярных встраиваемых аппаратных платформ для задач искусственного интеллекта (ИИ), машинного зрения и видеонаналитики являются компьютерные модули Nvidia семейства Jetson [1].

Nvidia Jetson представляет собой линейку встраиваемых компьютерных модулей (SOM – System on module) на базе графических процессоров, специально разработанных для работы с системами искусственного интеллекта (ИИ) и Edge Computing

Популярность Nvidia Jetson обусловлена высокой производительностью, легкостью использования и поддержкой сообществом разработчиков.

Несмотря на свою популярность, использование технологий Nvidia имеет некоторые сложности, связанные с международной политической обстановкой и санкциями, введенными против некоторых стран. В условиях ограниченного доступа к технологиям Nvidia разработчики и компании вынуждены искать альтернативные решения, такие как платформы на базе ARM-процессоров с интегрированными ядрами-ускорителями, например, RockChip, Hailo, НТЦ Модуль, LinQ.

Каждая из этих альтернатив имеет свои сильные и слабые стороны, поэтому выбор зависит от требований к производительности, стоимости, энергопотреблению и специфике применения.

GPU, NPU, TPU

Современные процессоры по своей архитектуре являются системами на кристалле (SoC – System on Chip) объединяя на одном кристалле несколько компонентов вычислительной системы. Это позволяет уменьшить количество отдельных микросхем и сделать устройство более компактным и экономичным с точки зрения потребления энергии.

В процессорах, предназначенных для работы с нейронными сетями и обработки видео, помимо ядер центрального процессора (CPU – Central Processing Unit), присутствуют специализированные ядра процессоров для ускорения ряда трудоемких задач, например кодирования и декодирования, сжатия данных и т.п. К таким специализированным ядрам относятся GPU, TPU и NPU – это три типа процессорных архитектур, наиболее пригодных для выполнения различных задач в области параллельных вычислений, связанных с обработкой графической информации, ускорением нейронных сетей и машинным обучением.

Следует отметить, что в качестве ускорителей нейросетей можно использовать и классические центральные процессоры CPU, объединив их в процессорный кластер, тем самым обеспечив ускорение операций с векторами и массивами чисел.

GPU (Graphics Processing Unit). Графический процессор разрабатывался изначально для ускорения обработки графики и рендеринга изображений. Архитектура включает множество ядер, способных выполнять параллельные вычисления, что делает GPU идеальными для параллельной обработки больших массивов данных, как это необходимо в графических приложениях и в задачах машинного обучения.

GPU-процессоры могут содержать тысячи простых ядер, что позволяет им обрабатывать большие потоки данных. Высокий уровень параллелизма, позволяет GPU-процессорам эффективно справляться с задачами, которые могут быть разбиты на множество мелких подзадач, таких как обработка изображений, инференс и обучение нейронных сетей.

TPU (Tensor Processing Unit). Тензорный процессор – это ещё один тип специализированного процессора, разработанный для ускорения и обучения нейронных сетей.

TPU используют систолические массивы, обеспечивая быстрое исполнение высокопроизводительных операций умножения и сложения матриц.

В отличие от центральных процессоров общего назначения (CPU) или графических процессоров (GPU), TPU предназначены для ускорения задач и рабочих нагрузок ИИ, таких как операции со слоями нейронной сети, состоящих из скалярной, векторной и тензорной математики.

NPU (Neural Processing Unit). Нейронный процессор – это тип специализированного аппаратного ускорителя с архитектурой, имитирующей нейронные сети человеческого мозга. По назначению и принципу работы NPU и TPU очень схожи.

Довольно часто термин NPU выступает как общее название для акселераторов нейросетей.

В качестве примера на Рисунке 1 представлена структура ядра TPU процессоров одного из китайских производителей. Как показано на Рисунке 1, TPU разработан с несколькими вычислительными ядрами, каждое из которых называется NPU. TPU основан на архитектуре Single Instruction Multiple Data – SIMD (одиночный поток команд, множественный поток данных, ОКМД) и имеет многоядерную конструкцию. Он состоит из BDC (контроллера широковещательных данных) и GDMA (глобального прямого доступа к памяти).

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 1.

В этой архитектуре TPU выполняет вычисления по принципу SIMD, то есть в любой момент времени все NPU выполняют одну и ту же вычислительную инструкцию, но каждый NPU работает с разными данными.

TPU исключительно хорошо справляется с крупномасштабными задачами глубокого обучения, особенно в сценариях, требующих высокой пропускной способности и низкой задержки.

Обычно ядра NPU/TPU используются с центральным процессором (CPU) для обеспечения дополнительной вычислительной мощности.

Китайские процессоры с интегрированными NPU/TPU ускорителями

Процессоры ряда китайских производителей могут рассматриваться как альтернативы Nvidia для устройств в области обработки нейронных сетей, видеоаналитики и компьютерного зрения. Одними из самых популярных в России являются процессоры компании RockChip.

RockChip – это китайский производитель процессоров, который предлагает широкий спектр чипов для встраиваемых систем, мобильных устройств и IoT-решений. Некоторые из их моделей, такие как RK3568, RK3588, оснащены NPU для ускорения задач ИИ.

Среди процессоров RockChip можно выделить RK3588. Модули на базе данного ЦП могут представлять собой интересные альтернативы платформам Nvidia Jetson, особенно для задач, связанных с искусственным интеллектом и обработкой видеоданных.

Примеры модулей и блоков

В настоящее время на российском рынке достаточно широко представлены встраиваемые вычислители на базе процессоров из континентального Китая. В качестве примера рассмотрим компьютерные модули производства НПК «АТРОНИК».

В номенклатуре компании имеются встраиваемые компьютерные модули на ARM-процессорах с интегрированными ядрами NPU/TPU. В Таблице 1 приведен сравнительный анализ модулей SMARC производства НПК АТРОНИК [2].

Таблица 1.
  МЦП1502 МЦП1503 МЦП1504
Фото
Форм-фактор SMARC 2.1 SMARC 2.1 SMARC 2.1
Центральный процессор 4 ядра ARM Cortex-A55
1,4ГГц
8 ядер (4×Cortex-A76+4×
Cortex-A55), 2 ГГц.
8 ядер Cortex-A53 1.6 ГГц
Ускоритель NPU, 1 Tops NPU, 6 Tops TPU, 16 Tops
Объем ОЗУ DDR4 4 Гб с ECC LPDDR4 16 Гб LPDDR4 16 Гб
Объем ПЗУ (eMMC) 32 Гб 64/128 Гб 64/128 Гб
Производительность
Tops (INT8)
0,8 6 16
HDMI v.2.0 v.2.1 v.2.1
Потребляемая
мощность, Вт
до 7 до 20 до 20
Рабочий температурный
диапазон
–40…+85 °С –40…+85 °С –40…+85 °С
Поддерживаемые
операционные системы
Linux Ubuntu, AstraLinux,
ЗОСРВ Нейтрино
Linux Debian, AltLinux Linux

Дублированные коммуникационные интерфейсы (Ethernet, CAN, RS-232/422/485), система коррекции ошибок памяти (ECC), промышленный температурный диапазон эксплуатации обеспечивают эффективное использование модулей НПК «Атроник» при создании надежных компьютерных систем.

На Рисунке 2 приведено сравнение производительности представленных компьютерных модулей Атроник с аналогами от Nvidia при работе с популярными наборами нейронных сетей.

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 2.

Также на рынке представлен модуль SM9 16-ENC-A3 на базе китайского процессора с интегрированным TPU-ускорителем (Рисунок 3)

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 3.

Модуль SM9 16-ENC-A3 выполнен в форм-факторе Nvidia Jetson Orin Nano и обеспечивает высокую производительность. Благодаря мощности 16 трлн. операций в секунду и специализированной архитектуре процессора модуль SM9 обеспечивает параллельную работу нескольких нейронных сетей и обработку данных с нескольких датчиков высокого разрешения, что необходимо для систем ИИ.

Модуль отличается низким энергопотреблением, высокой вычислительной мощностью и богатым набором интерфейсов. SM9 поддерживает различные режимы вычислений INT4/INT8/FP16/BF16/FP32 и позволяет обрабатывать 16-каналов HD видео в реальном времени.

Модуль SM9 16-ENC-A3 можно применять для анализа изображений, голоса и естественного языка, а также интегрировать в такие продукты, как интеллектуальные вычислительные серверы, периферийные вычислительные блоки, промышленные управляющие компьютеры, дроны и устройства AIOT.

На базе представленных компьютерных модулей могут быть созданы ИИ-видеосерверы, интеллектуальные камеры видеонаблюдения, системы интеллектуального мониторинга и управления беспилотным транспортом и другие высокопроизводительные вычислительные устройства с низким энергопотреблением. Благодаря поддержке режима сопроцессора модули могут использоваться в качестве внешнего нейросетевого ускорителя.

Далее показано несколько примеров вычислительных устройств, разработанных на базе компьютерных модулей НПК «Атроник».

Бортовая Доверенная Вычислительная Платформа (Рисунок 4) представляет собой встраиваемый вычислитель для создания устройств видеоаналитики на основе нейронных сетей с возможностью криптографической защиты данных и каналов управления. Платформа может использоваться в качестве интеллектуального вычислителя различных робототехнических комплектов и беспилотных транспортных средств, а также на стационарных наземных объектах в составе интеллектуальных видеокамер и многопоточных AI EDGE серверов.

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 4.

Бортовой компьютер (Рисунок 5) системы оптической навигации (СОН). Система позволяет определять местоположение и ориентацию беспилотного воздушного судна (БВС) в пространстве, автономно осуществлять навигацию, выполнять миссии и задачи в условиях отсутствия сигналов ГНСС с помощью методов визуальной одометрии. Бортовой компьютер обрабатывает входящую информацию и выдает координаты расположения БВС на местности.

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 5.

Интеллектуальная IP видеокамера со встроенной аналитикой и средствами кибербезопасности (Рисунок 6). Камера обеспечивает установку и исполнение нейронных сетей пользователя, непрерывное кибербезопасное видеонаблюдение за объектом в условиях размещения видеокамеры вне защищенного периметра и в условиях нестабильного энергообеспечения и каналов связи. Фиксирует юридически значимые события и добавляет электронную цифровую подпись на зафиксированные кадры.

Компьютерные модули с тензорными сопроцессорами как альтернатива Nvidia Jetson
Рисунок 6.

Заключение

Выбор между Nvidia Jetson или аналогом зависит от конкретных требований проекта, включая производительность, поддержку фреймворков, энергопотребление и бюджет. Если нужна высокая производительность для сложных AI-задач, Nvidia Jetson может быть лучшим выбором. Если же необходимы доступные решения для менее требовательных приложений, RK3588 и другие процессоры с интегрированными NPU/TPU ускорителями могут стать хорошими альтернативами.

Библиографический список

  1. NVIDIA Celebrates 1 Million Jetson Developers Worldwide at GTC
  2. Медведев А.В. «Компьютерные модули формата SMARC от НПК «Атроник» // CONTROL ENGINEERING Россия. – 2023. – №4. – С.32-36.
ТМ Электроникс. Электронные компоненты и приборы. Скидки, кэшбэк и бесплатная доставка
Для комментирования материалов с сайта и получения полного доступа к нашему форуму Вам необходимо зарегистрироваться.
Имя