Изменения в законах — в одном дашборде: ИИ‑анализ НПА 24/7

Мониторинг и анализ нормативно-правовых актов с помощью ИИ

Общая информация

Корпоративная группа, занимающаяся производством и передачей электрической и тепловой энергии, горячим водоснабжением и водоотведением, должна постоянно отслеживать изменения в нормативно‑правовой базе (НПА). В функциональных требованиях проекта указывается, что сегодня процесс мониторинга и анализа выполняется вручную: специалисты регулярно просматривают федеральные порталы (regulation.gov.ru, publication.pravo.gov.ru), сайты ФОИВ (ФАС, Минэнерго, Минстрой, Минэкономразвития), площадки досудебных и судебных разногласий и скачивают тексты НПА; затем они оценивают влияние каждого документа на деятельность компании, выделяют риски, готовят аналитическую справку в формате Word или PDF и передают её ответственным подразделениям.

Такой подход требует больших трудовых затрат и не гарантирует оперативной реакции на изменения. Подчёркивается, что целью проекта является автоматизация и оптимизация этих процессов: от поиска документов до формирования аналитической справки.

Поиск, сбор и предварительная обработка документов

  • Поиск и сбор документов
    Задача: Регулярно получать новые нормативные акты и проекты изменений с официальных сайтов (портал проектов НПА, сайты министерств и судов) и сохранять их в хранилище с разбивкой по датам и темам.
    Решение: Использовать web-скраперы (например, Scrapy, BeautifulSoup), которые ежедневно посещают ресурсы, скачивают новые документы (PDF, DOCX, HTML) и извлекают метаданные (название, дата, орган принятия), сохраняя их в репозитории.
  • Извлечение структурированных реквизитов
    После получения текста выделите ключевые поля: реквизиты НПА (номер, дата, орган), область регулирования, статус и т.д., используя NER. В русскоязычной практике эффективны модели spaCy (ru_core_news_lg) или DeepPavlov NER, которые можно дообучить на примерах НПА. Дополняют NER регулярные выражения для поиска стандартных паттернов, таких как «Постановление № 1234-Р от 12.12.2025». Полученные сущности используются для индексации и поиска внутренних документов (подробнее в разделе «Интеграция с 1С»).
  • Распознавание и извлечение текста
    НПА бывают в форматах PDF, DOCX и сканы. Перед анализом структурируем их.
    PDF/DOCX: Используем pdfminer.six или python-docx для выделения текста.
    Сканы: Применяем OCR. Для русскоязычных документов подходят Tesseract с lang='rus+eng' или PaddleOCR
  • Краулинг
    Краулинг собирает сырой материал. Затем извлекаются текст и метаданные для индексации и поиска внутренних документов (см. раздел «Интеграция с 1С»).
    Для устойчивости краулинга:
    • Проверяем доступность источника и наличие новых номеров.
    • Загружаем документы по дате и номеру, сохраняя их в структурированных папках.
    • Для сложных порталов используем Selenium, Playwright или сервисы цифрового сбора данных

Классификация и категоризация документов

Задача. Определить, к какой тематике (электроэнергетика, теплоснабжение, водоснабжение) относится документ и насколько он актуален для компании.
Используемые модели. Лучшими результатами в юридической предметной области обладают языковые модели на базе трансформеров. Адаптация модели BERT под юридические тексты требует обработки длинных документов (до 1600 токенов) и предобучения на тематических корпусах; отсутствие такой адаптации приводит к падению качества. Необходимо специально обучать модель на юридических данных и применять техники разбиения текста на части, что улучшает точность классификации. LegalBERT и Longformer в свою очередь, предобученные на судебных решениях, дают прирост точности классификации по сравнению с обычным BERT и повышают показатели ROUGE при суммаризации.
Для русских НПА подойдёт RuBERT (разработан Сбером) или DeepPavlov/rubert-base-cased, дообученные на корпусе законодательных актов.

Алгоритм классификации

Преобразование текста

Текст документа преобразуется в вектор с помощью выбранной модели (BERT, LegalBERT, RuBERT)
Обучение классификатора

Поверх трансформера обучается классификатор (Linear/Softmax или SVM), который выдаёт вероятность принадлежности документу к определённой теме и типу (закон, приказ, постановление, проект)
Порог вероятности
Порог вероятности позволяет фильтровать не относящиеся документы.
Дообучение
Модель периодически дообучается на новых размеченных примерах, чтобы учитывать изменения в структуре нормативных актов

Суммаризация и аналитика

Задача. Составить краткое содержание документа и выделить ключевые положения, влияющие на деятельность компании, для включения в аналитическую справку.

Согласно исследованиям, юридические документы отличаются большим объёмом и сложной структурой, поэтому сравниваются различные методы суммаризации: от простых извлечений предложений (LexRank, PacSum) до современных трансформеров (BERTSUM, T5, Longformer). Эксперименты по суммаризации судебных дел показывают, что современные модели требуют приспособления к длинным входам.

В прикладном решении можно использовать два подхода:Наш путь к автоматизации не обошелся без препятствий, но каждая сложность дала толчок к эффективным решениям.
  • Извлекательная суммаризация
    Выделяются наиболее информативные предложения с помощью алгоритмов TF‑IDF + SVM, TextRank или PacSum. Этот подход прост и легко интерпретируем: предложения, содержащие слова «вступает в силу», «тарифы», «обязан», «право», будут иметь высокий вес
  • Абстрактивная суммаризация
    Генерируется новый текст, сохраняющий смысл, но сокращающий объём документа. Для длинных НПА подходят модели вроде LongformerEncoderDecoder (LED), PEGASUS или RuT5. Обучение производится на размеченной выборке: оригинальный документ и его ручной конспект. Практика показывает, что обучение на юридическом корпусе повышает показатели ROUGE.

Выводы и заключение

Опытная эксплуатация доказала работоспособность и выявила точки роста.
  • Главный итог
    Мы не просто автоматизировали процесс — мы создали, протестировали и внедрили в промышленную эксплуатацию целостное ИИ-решение, интегрированное с 1С
  • Доказанная ценность
    Решение работает и уже сейчас приносит измеримый эффект, освобождая время сотрудников от рутины
  • Масштабируемость
    Готовая модель для автоматизации других документов: договоры, заявки
  • Промышленное внедрение
    Целостное ИИ-решение успешно интегрировано с 1С и работает в продакшене
Итоговый эффект:
  • Ускорение оплаты счетов
  • Скорость подписания акта при постоплате влияет на оплату
  • Счет не запускается без подписанного акта
  • Быстрая обработка большого количества актов в моменте в сжатые сроки
  • 300+
    Актов обработано
    За первые 3 недели работы системы
  • 20
    Документов ежедневно
    Обрабатывается с высокой точностью
  • 90%
    Автоматизация к 2026
    Доля актов с автообработкой
  • 30%
    Сокращение труда
    Уменьшение ручной работы
Ответственность до конца
Доводим систему до запуска и результата.
Мы управляем внедрением как проектом — с прогнозируемыми этапами, прозрачными процессами и гарантией результата.
Консультация
Почему компании выбирают Райс
Прозрачные процессы
Этапы и сроки понятны всем участникам.
Минимум рисков
Внедрение предсказуемое и под контролем.