После группировки статей создают единый комментарий с помощью многодокументного суммирования (MDS). Модели MDS ограничены длиной текста и плохо справляются с длинными отчетами. Используют иерархические методы и комбинацию извлекательных и генеративных подходов. Для консолидации комментариев применяют два подхода.
- Алгоритмы LexRank/TextRank извлекают ключевые предложения из множества комментариев без изменения формулировок, что обеспечивает точность и возможность ссылаться на оригинальные слова.
- Абстрактивное суммирование. Модели на базе трансформеров (BART, Pegasus, Llama 3) создают новые фразы, передающие общий смысл исходных комментариев, устраняя повторения и структурируя текст, но требуют проверки фактов.
GPT‑5 охватывает менее половины разнообразной информации при суммировании большого количества текстов. Рекомендуется комбинировать извлекательные и генеративные методы: сначала выделять ключевые предложения, затем переформулировать их с проверкой фактов. Для управления контекстом используют RAG: из векторной базы выбирают релевантные предложения, а LLM создаёт текст с отсылками на них.