Разделы

ПО Цифровизация ИТ в госсекторе

ФНС отказалась от российского ПО для больших данных. 900 млн будут потрачены на зарубежный софт

ФНС готова потратить порядка 900 млн руб. на программно-аппаратный комплекс для аналитики больших данных. Конкретные вендоры «железа» и софта в техзадании не прописаны, однако в документах приводится подробное обоснование невозможности использования отечественного ПО.

ПАК ФНС для анализа больших данных

На создание программно-аппаратного комплекса (ПАК) аналитической подсистемы своей АИС для работы с большими данными Федеральная налоговая служба (ФНС) выделила p897,3 млн. Именно эта сумма заявлена стартовой ценой контракта ведомства в электронном аукционе на поставку оборудования, передачу прав на ПО и выполнение работ по созданию ПАКа.

Прием заявок от потенциальных подрядчиков продлится до 5 июня 2017 г. Торги намечены на 9 июня. Все работы победителю предстоит завершить до 25 января 2018 г. Судя по техзаданию, ПАК будет размещен в ЦОДе ФНС, базирующемся в Городце в Нижегородской области.

Непосредственным заказчиком работ выступает Федеральное казенное учреждение «Налог-сервис» ФНС в Москве. На момент публикации материала в организации не ответили CNews на вопрос о том, что именно (какого рода данные) станет анализировать закупаемый ПАК.

Какое оборудование и ПО закупается

Номенклатура поставки ПАКа включает пять северов на базе процессоров с архитектурой x86-64 с возможностью работы с 64-разрядными приложениями на аппаратном уровне. В каждом сервере подразумевается использование не менее 32 процессоров, имеющих не менее 24 ядер, работающих на частоте не ниже 2,2 ГГц при частоте внешней шины не ниже 2133 МГц.

ФНС потратит 900 млн на аналитику больших данных на зарубежном ПО

Также для ПАКа требуются девять коммутаторов InfiniBand, две СХД, четыре коммутатора ядра, два коммутатора доступа, восемь коммутаторов управления, два межсетевых экрана, два маршрутизатора.

Что касается ПО, то контракт предполагает поставку 960 комплектов ОС серверов, одного комплекта ПО управления средой виртуализации, восьми комплектов ПО виртуализации серверов, 264 СУБД двух типов, 200 модулей извлечения лингвистических сущностей,

12 платформ построения распределенных приложений для массово-параллельной обработки.

Отказ от российского ПО

В документации, выложенной на сайте госзакупок, в отношении требующегося для ПАКа «железа» и ПО конкретные наименования вендоров не прописаны. Однако заказчик приводит подробное обоснование невозможности соблюдения запрета на допуск к госзакупкам зарубежного софта.

Ведомство по каждому из видов ПО приводит полный список российских программ того же класса из Реестра отечественного софта, курируемого Минкомсвязи, но везде неизменно делает вывод о неприемлемости его использования. «По совокупности функциональных, технических и (или) эксплуатационных характеристик программное обеспечение, сведения о котором включены в реестр, не соответствует установленным госзаказчиком требованиям», — гласит формулировка «Налог-сервиса» в каждом из случаев.

Таким образом, ведомству не подошла, например, ни одна из российских серверных ОС, включая «Альт Линукс», Astra Linux, Kraftway Terminal Linux, «Роса», «Базальт», «Альфа», «Эльбрус» и др., и ни одна отечественная СУБД, в том числе Postgres Pro, «Ред база данных», «Линтер», «Гослинукса», «Синтез» и пр.

Большие данные для анализа

В приведенных в техзадании требованиях к модулю ПАКа для извлечения так называемых лингвистических сущностей прописана обработка не менее 20 млн. символов в час.

Также указывается, что ПАКом должно обеспечиваться выделение не менее трех классов сущностей. Первый из них касается персон, организаций, географических объектов и пр., обозначаемых в тексте с использованием имен собственных. «Программа должна отождествить такие обозначения одной персоны как Владимир Петрович Штырь, Владимир, Штырь, он, отличив по контексту город Владимир от человека Владимира и человека с фамилией Штырь от цилиндрического стержня», — говорится в ТЗ.

Второй класс касается неименованных сущностей, обозначенных в тексте словами основных частей речи: нарицательными именами существительными, прилагательными, нестроевыми глаголами и пр. «Имена таких сущностей должны определяться на основании синтаксического анализа текста и правил русского языка. Так, от каждого упоминания имени существительного в тексте должны строиться нормальные формы всех именных групп, главным словом которых выступает данное существительное. Например, если в тексте упоминается китайские космические грузовик и лаборатория, то должно быть обеспечено получение имен всех неодушевленных предметов, о которых шла речь: китайские космические грузовик и лаборатория, китайский космический грузовик, китайская космическая лаборатория, космический грузовик, космическая лаборатория, китайский грузовик, китайская лаборатория, грузовик, лаборатория», — отмечается в документе.

Третий класс — специальные сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы, идентификационные данные персон и организаций и т. п. «Такие конструкции должны распознаваться посредством формальных правил. Должна быть обеспечена возможность добавления (исправления, удаления) для выявления новых типов специальных сущностей», — гласит ТЗ.

Денис Воейков