Институт искусственного интеллекта и цифровых наук ФКН ВШЭ представил сервис обезличивания табличных данных, предназначенный для подготовки корпоративных датасетов к использованию в аналитических и ИИ-сервисах.
Реальные данные нужны для обучения и тестирования моделей, но использовать их напрямую нельзя из-за опасности раскрытия личной информации. Сервис НИУ ВШЭ решает эту задачу благодаря реестру замен и воспроизводимой модели обезличивания: он находит ПДн в таблицах и создаёт вместо них артефакты для дальнейшего использования в защищённых контурах.
«Для одинаковых входных данных система формирует предсказуемый результат, что важно для повторяемости экспериментов, проверки качества данных и последующего аудита. Такой подход позволяет сохранить структуру набора данных и его пригодность для аналитических задач и ИИ-сценариев», — пояснили в НИУ ВШЭ.
Разработка соответствует требованиям законодательства о ПДн. В архитектуре предусмотрено раздельное хранение исходной информации и артефактов, управление правилами замены, разграничение доступа, контроль целостности и реестр замен. Всё это даёт возможность включать сервис в управляемый жизненный цикл данных для ИИ.
Сейчас система действует на платформе SmartMLOps НИУ ВШЭ для обработки университетских корпоративных данных. Решение планируют адаптировать для закрытых контуров в образовании, медицине, промышленности, финансах и госорганах. В работе также находится версия для неструктурированных данных (тексты, договоры, обращения).

