Тренды ИИ: что происходит в сфере искусственного интеллекта в 2021 году

Аналитический центр red_mad_robot и разработчик ИИ-решений RDL by red_mad_robot собрали важные тренды этого года: NLP, компьютерное зрение, беспилотники и многое другое. Прокомментировали новости эксперты «Тинькофф», «Полиметалл», «Яндекс», Lisa Device, «Сбер» и BestDoctor

Если посмотреть на картину в целом, то ML-вычисления дешевеют, регулирование сферы ИИ становится прозрачнее, а многие решения на основе больших данных и нейросетей выходят на плато эффективности. Всё это приводит к росту инвестиций, увеличению числа компаний и команд и появлению большего числа Open Source-моделей. Но главное — к реальному влиянию технологий из области искусственного интеллекта на жизни людей и работу компаний.
Какие направления ИИ будут менять мир сильнее в ближайшее время?

NLP: уже роботы шутят над людьми, а не наоборот

Пожалуй, самый горячий ИИ-тренд 2021-го, а возможно, и нескольких следующих лет — технологии NLP. И это не псевдонаучная теория о манипуляции сознанием человека, а Natural Language Processing — обработка естественного языка. К этому направлению относится всё, что касается речевой аналитики, обработки и синтеза речи. Говоря проще — то, что позволяет людям и машинам общаться и взаимодействовать без посредников.

Зачем это нужно? NLP — базовая технология, на основе которой можно создавать цифровые продукты. «Умный» спам-фильтр, классификатор сообщений, оценка пользовательских отзывов и запросов, чат-боты, Siri, «Алиса» и «умные» предметы обихода, управляемые голосом, — это всё работает благодаря NLP-технологиям.

В последние годы NLP-технологии получили дополнительную динамику. ИИ-вычисления постоянно дешевеют, большие компании «дозрели» до вложений в эту область, а практические успехи уже позволяют применять наработки в продуктах и создают позитивный новостной фон. Всё это положительно сказывается на оценке рынка NLP-решений. Так, в 2019 Research and Markets прогнозировалирост объёма данного рынка к 2026 году до $28,6 млрд, а в 2021 они же скорректировали этот свой прогноз уже до $35,1 млрд.

История вопроса. В 2018 Google AI показала миру BERT (Bidirectional Encoder Representations from Transformers) — инструмент для обработки естественного языка на основе нейросетей. BERT тренировали на статьях «Википедии» и научили работать со 104 языками! Довольно продолжительный период именно BERT был state of the art или главным ориентиром, который показывал лучшие результаты на тестах по работе с естественным языком.

Если опускать технологические ноу-хау, то секрет успеха BERT — обучение модели на бОльшем количестве данных и дольше (ведь ценник на вычисления упал, а скорость обработки данных выросла). Потом была череда других моделей, разработчики которых действовали по тому же принципу, «ещё больше текстовых корпусов и времени для обучения»: SpanBERT, XLNet, RoBERTa (Facebook), ERNIE 2.0(Baidu).

Лидер в NLP-гонке 2020. Конечно, NLP-модели были и до BERT. Да и BERT — это усовершенствованный вариант другой сети, GPT от компании OpenAI. И в мае 2020 ребята из OpenAI нанесли ответный удар с помощью GPT-3 — новой языковой модели, которая на текущий момент является лучшей в своём классе.
GPT-3 одна из самых «натренированных» сетей, но, помимо этого, у неё 175 миллиардов параметров для настройки, что говорит о вычислительной мощности и точности результатов при решении задач. Для сравнения, самая крупная версия GPT-2 включала 1,5 миллиардов параметров, а предыдущая крупнейшая нейросеть от Microsoft — 17 миллиардов параметров.
Цена вопроса. Стоимость обучения GPT-3 оценивается от $3,8 миллиона до $12 миллионов. Сложности подсчетам добавляют условно «неизвестные» параметры. Например, точные затраты на вычислительные ресурсы или затраты на подготовку корпусов текстов для обучения.
Почём NLP для народа? BERT от Google бесплатный и есть в свободном доступе — можно брать его и дообучать под свои, узкоспециализированные задачи. OpenAI же держит GPT-3 под контролем, предоставляя доступ только избранным лицам и лицензируя свое ПО, — записаться в лист ожидания на доступ к API можно тут. Для задач на русском языке можно попробовать модели DeepPavlov или ruGPT-3 от Сбера.

Microsoft и NLP. Ребята из Редмонда давно занимаются NLP-проектами, но в последние годы привлекли к себе дополнительное внимание:

Инвестиции в OpenAI. Летом 2019 Microsoft рассказала, что вложит $1 млрд в разработчика NLP-решений в рамках партнёрства. Выгода Microsoft — доступ к продвинутым технологиям и прокачка Azure AI новым конкурентным преимуществом, по сравнению с облаками от Google, Amazon и других. OpenAI в рамках соглашения получил льготный доступ к серверам MS Azure — в 2017 году четверть расходов проекта ($7,9 млн) приходилась на инфраструктуру для облачных вычислений, и за последние годы эти затраты только возросли.
Тогда же, в июне 2019, партнёры заявили, что займутся разработкой AGI (Artificial General Intelligence) — это такой ИИ на стероидах. Зарабатывать на этой технологии также будут вместе.

Эксклюзивная лицензия на GPT-3. В сентябре 2020 стало известно, что Microsoft получила эксклюзивную лицензию на созданный в OpenAI нейросетевой алгоритм генерации текста GPT-3. Это возмутило Илона Маска, одного из сооснователей OpenAI, который оставилорганизацию из-за конфликта интересов с Tesla.
Покупка за $16 млрд Nuance Communications — одного из самых известных в мире разработчиков технологий в области распознавания речи. Именно технологии Nuance были базой для создания Siri. У Nuance и Microsoft много общих корпоративных клиентов в здравоохранении, финансовом секторе и ряде других — это упростит интеграцию их решений.

Что дальше? Пока NLP-технологии позволяют решать сложные, но всё ещё довольно приземлённые задачи. Продвинутые голосовые помощники, пусть даже имитирующиечеловеческую речь, чат-боты, классификаторы информации и умный поиск по документам, генерация контента и создание простых веб-макетов по описанию, а также пранки пользователей (куда же без них) — это хорошо, но ожидания от этого направления гораздо выше.
Например, одно из больших ожиданий игроков рынка, что NLP-технологии станут основой для новых интерфейсов взаимодействия людей и машин. И, конечно, качество реализации и уровень удобства для пользователей должны обеспечить этим интерфейсам максимально широкое распространение, наравне с используемыми повсеместно графическими интерфейсами.
P.S. Некоторые примеры NLP-технологий могут ввести в заблуждение, что алгоритмы «понимают текст, делают логические выводы» и «настоящий» ИИ где-то рядом. Но мы вынуждены разочаровать: если упрощать, то система руководствуется правилами построения предложений и математически вычисляет подходимость каких-то слов для соседних слов, исходя из примеров, на которых её обучили и т.д. Именно по этой причине NLP-модели могут выдавать смешные или несуразные для людей ответы, когда область применения, контекст оказываются для них слишком большими. Это подтверждают и в OpenAI:
Искусственный интеллект изменит мир, но GPT-3 — это лишь очень ранний проблеск. Нам ещё многое нужно понять.
Сэм Альтман, Twitter сооснователя OpenAI.

Компьютерное зрение и системы распознавания на его основе

Компьютерное зрение — это обнаружение, отслеживание и классификация объектов с помощью обработки изображений или визуальных данных.
Люди уже давно применяют технологии компьютерного зрения. Первый товар по штрихкоду продали в магазине в 1974 году, а автоматическая сортировка писем на основе распознавания почтового индекса в СССР появилась ещё в 60-е годы и, пусть с доработками и улучшениями, применяется в России до сих пор. Развитие каналов связи и облачной инфраструктуры, а также одновременный рост и удешевление вычислительной мощности позволили решать задачи с помощью компьютерного зрения совершенно на другом уровне.
Факты. По оценкам Grand View Research, рынок систем компьютерного зрения к 2027 году достигнет $19 млрд. Вероятно, сейчас у многих людей это направление ИИ ассоциируется с системами распознавания лиц. Но, по данным тех же аналитиков, в 2019-м больше 50% рынка систем Computer Vision приходилось на решения для промышленности.
Например, недавно RDL by red_mad_robot совместно с компанией «Полиметалл» закончили внедрение системы на основе компьютерного зрения на перерабатывающем предприятии.

Похожий проект также сделали RDL by red_mad_robot вместе с ERG (Евразийская группа) — внедрилипредиктивные модели на производство, которые прогнозируют гранулометрический состав сырья, в том числе часть, которая находится в нижнем невидимом слое.
Компьютерное зрение применяют и для охраны промышленных и других объектов, как это сделалагоскорпорация «Ростех». Интеллектуальная система мониторинга в режиме реального времени обеспечивает поддержку принятия решений для операторов и должностных лиц. На основе видеоаналитики и прогнозирования.

Кто и как ещё применяет этот класс технологий?

Какие-то компании и государства используют системы распознавания лиц, какие-то — отказываются, но технология точно находится на пути развития. Поэтому даже те, кто говорят, что отказываются, нет-нет, да и применят технологию в частных случаях.
Пример: в штате Миннеаполис (США) запретили использовать системы распознавания лиц — жители США вообще против использования распознавания лиц властями и особенно силами правопорядка, — но для поиска людей, участвовавших в штурме Конгресса, технологию применяли.

Конечно, разные страны выбирают различные стратегии. В Китае система распознавания лиц — это один из важных компонентов системы социального рейтинга.
В России власти решились на использование подобных систем: Департамент информационных технологий (ДИТ) Москвы приобрел у компании NtechLab (входит в госкорпорацию «Ростех») технологию поиска лица в видеопотоке.
В МВД ведут разработку системы камер, способных распознавать человека с помощью анализа не только его лица, но и голоса, радужной оболочки глаза и походки. Это поможет искать преступников и находящихся в розыске подозреваемых.
При этом отношение людей к системам распознавания лиц достаточно лояльное: сторонников (47%) больше противников (42%) (социологическое исследование проводили в Москве — прим.)
Вообще, распознавание по «косвенным» признакам довольно «популярная» технология. Распознавание по походке применяется в Китае, технологии распознавания по татуировке есть в США. Кроме того, не стоит забывать и о распознавании по тепловой маске лица.

Компьютерное зрение в ретейле

Ретейл — ещё одна сфера, в которой активно применяются системы компьютерного зрения. Например, российский ИИ-стартап Intelligence Retail недавно привлек $1,5 млн инвестиций. Компания разработала технологию распознавания изображений на базе ИИ для FMCG и ретейла. Если проще, то платформа с помощью компьютерного зрения распознает ассортимент, что снижает трудозатраты персонала.
На сегодняшний день системы видеоаналитики с элементами ИИ — это насущная необходимость любой более-менее развитой торговой сети. И ретейлерам не обязательно в срочном порядке нанимать штат разработчиков — они вполне могут воспользоваться готовым решением, например, от Ivideon.
Системы, которые предлагает компания, в режиме реального времени анализируют очереди, активность касс и нагрузку кассиров. Можно ещё добавить мониторинг действий покупателей: выделять паттерны покупок или предотвращатькражи, особенно на кассах самостоятельного обслуживания.
С последним поможет проект компании Sequence Enforcement, который X5 Retail Group запустил в петербургских супермаркетах сети. В торговых и кассовых зонах скоро появятся камеры, следящие за возможным недобросовестным поведением покупателей. Так, если система увидит, что покупатель спрятал товар в карман, то сможет отследить траекторию его перемещения. Это решение на основе искусственного интеллекта различает до 15 вид краж.

Алгоритмы на дорогах

Еще один вариант применения компьютерного зрения — поддержание дорожной инфраструктуры. В Британии власти используют искусственный интеллект для отслеживания качества дорог. Алгоритмы анализируют спутниковые снимки: участки дороги, требующие ремонта, помечаются цветом, коммунальным службам остается лишь добраться до них и приступить к ремонту. Похожие системы запущены в Индии и в России.

Но безопасность на дорогах — это не только про отсутствие ям и снега. Компания VisionLabs (аффилирована со «Сбербанком» и Sistema VC) помогла «Яндекс.Такси» создать и внедрить систему для мониторинга усталости водителей. С помощью инфракрасной камеры она будет следить по 68 точками на лице, определяя степень усталости водителя: по частоте и длительности моргания, зевкам и наклонам головы. Если система поймет, что человек за рулём устал, она ограничит возможность принимать заказы.

Как ещё

Парочка неочевидных примеров, как применяют компьютерное зрение. Alphabet, компания, владеющая Google, научила алгоритмы распознавать рыб. Такую систему применяют на рыбных фермах, чтобы отслеживать показатели здоровья особей.

А в Google создали «умные» очки, которые помогают слабовидящим и незрячим ориентироваться в пространстве. Гаджет анализирует происходящее вокруг пользователя и рассказывает ему об этом.
Facebook разработал алгоритм, определяющий по видео предметы и области, с которыми может взаимодействовать человек. Нейросеть «понимает», что человек сделает с книгой, как возьмётся за ручку двери или нажмёт на кнопку.
«Потенциально интерактивные» области обозначаются в виде специальных областей взаимодействия. Так сеть фактически учится в той или иной мере предугадывать действия человека и, как следствие, предсказывать его поведение.

Компьютерное зрение успешно применяется и в спорте: команды Национальной футбольной лиги США используют ИИ-системы для выбора новичков на драфте, а НФЛ использует алгоритмы, чтобы анализировать игру футболистов по видео.
Что будет дальше? Компьютерное зрение и решения в этой области чаще всего становятся источником данных или основой для рекомендательных или управляющих систем. А они, в свою очередь, способны учитывать показания других «внешних» систем. Такие сложные схемы используются, например, в беспилотниках.
Сейчас камеры становятся всё меньше и пыле/взрыво/шумозащищённее, показатели качества съёмки улучшаются. Да и сами алгоритмы позволяют улучшать и восстанавливать изображения, чтобы снижать нагрузку с каналов передачи данных. А поскольку большая часть решений на основе компьютерного зрения даёт относительно предсказуемый экономический эффект, число вариантов применения будет только расти.
Стоит отметить, что и в распознавании звуков происходят не менее интересные вещи. Просто их не так...«видно».

Куда же без беспилотников

Ещё одна важная тема 2020-го — беспилотный транспорт — активно развивается и в 2021.
На данный момент рынок готов к консолидации: Amazon купила Zoox, а Uber продал беспилотное подразделение стартапу Aurora, в который уже вложились Amazon и Sequoia Capital (общий объем привлеченных инвестиций — $690 миллионов). А Woven Planet, «дочка» Toyota, приобрела подразделение Lyft, которое специализировалось на беспилотных автомобилях, за $550 миллионов.
Уже в начале этого года несколько изданий сообщали о партнерстве Apple и Hyundai по вопросам создания беспилотных электромобилей. Но переговоры приостановились из-за утечки информации со стороны корейского производителя. При этом Apple, разумеется, не планирует сворачивать производство — компания параллельно ведёт переговоры с шестью японскими автопроизводителями.
Почему компании объединяются?Основная причина — высокая сложность реализации автономного беспилотного автомобиля или других транспортных средств. Да, скачок в технологиях, беспроводной связи и вычислительных мощностях позволил сделать прорыв в реализации. Но одного энтузиазма и текущих успехов мало, кажется, нужно ещё время для разработок и исследований.
Как компании, так и люди уже вложив в исследования немаленькие суммы, понимают, что этот забег будет гораздо длиннее марафонского и потребует ещё больших инвестиций. Для понимания, по итогам 2019-го, в сегменте беспилотных автомобилей компании инвестировали 10,4 млрд долларов более чем в 140 сделках.
Законодательные ограничения. Чтобы беспилотные автомобили могли свободно (насколько это возможно) передвигаться по общим дорогам, необходимо разработать стандарты, регулирующие их передвижение. Этим уже занимаются страны ООН: они планируют пересмотреть Конвенцию о дорожном движении. Государства предлагают добавить в неё понятие «автоматизированной системы вождения» — комплекса, который осуществляет контроль за машиной. Также страны хотят признать водителем автоматизированную систему, если транспортное средство соответствует требованиям признавших поправки государств.
В это же время NHTSA (Национальное управление безопасностью движения на трассах) начало разработку стандартов для беспилотных автомобилей. Ожидается, что работа над одним из проектов будет завершена к концу 2021 года (или хотя бы в 2022 году).
Также в этом году правительство РФ планирует разрешить беспилотникам ездить по дорогам без страхующего водителя.

Остается надежда, что страны, в которых есть компании-разработчики беспилотников (в том числе Россия), начнут более организованно действовать на международной арене, чтобы быстрее убрать барьеры для развития технологии.

Какие беспилотники ждут нас в ближайшем будущем?

В личных автомобилях будут и дальше развиваться более продвинутые системы помощи вождения, но полноценной беспилотности скорее всего в ближайшие годы ждать не стоит.
Грузовые автоперевозки, особенно междугородние, с бОльшей долей вероятности получат более продвинутые, а возможно, и какие-то гибридные системы, соединяющие беспилотный модуль и удалённого оператора, который сможет вмешаться в случае необходимости.
Автономная техника — от комбайнов до самосвалов и другой колёсной или летающей спецтехники — для эксплуатации в условиях бездорожья и замкнутых систем или маршрутов должна появиться гораздо раньше.
Беспилотники на закрытых территориях или маршрутах. Велика вероятность появления беспилотных авто, в том числе такси, или спецтехники, поездов или техники для перевозки грузов на закрытых и подконтрольных территориях: заводах, аэропортах, при разработке месторождений или в каких-то парках и так далее. Например, на закрытой/контролируемой, ограниченной территории можно запустить и беспилотное такси. Маршрут движения замкнутый, и логика организации движения хорошо контролируется.
Роверы-доставщики. Эта тенденция закономерно вытекает из 2020 года. Например, в период пандемии несколько компаний запустили роботов-доставщиков для передвижения в спальных районах. В Китае такой доставкой занялись JD.com, Meituan Dianping и Ele.me. В России технологию пока тестирует «Яндекс», который, кстати, в апреле 2021-го подключил свои «Яндекс.Роверы» к доставке из сторонних магазинов и ресторанов в московском районе Хамовники.

В общем в ближайшем будущем нас ждут инвестиции в развитие технологии, альянсы, слияния и поглощения разработчиков беспилотников технологическими компаниями и автопроизводителями, которые тоже не хотят превращаться в производителей «подставок для умных гаджетов».

Источник - vc.ru