Автоматическое выделение ключевых выражений и аннотирование: современные теоретические подходы и практические решения для работы с текстом и речью
Экспоненциальный рост объёмов текстовой и аудиовизуальной информации значительно повышает значимость задачи автоматического выделения ключевых выражений. В данной статье представлен всесторонний анализ современных теоретических подходов и практических решений для автоматического выделения ключевых выражений как в текстовой, так и в речевой модальностях. Основной вклад работы заключается в систематическом синтезе этих зачастую разрозненных направлений исследований в рамках единой аналитической структуры, демонстрирующей эволюцию области от статистических методов к большим языковым моделям и сквозной обработке речи. Мы рассматриваем этапы автоматического выделения ключевых выражений, характеристики ключевых выражений в письменной и устной речи, а также терминологические нюансы. Подробно обсуждаются и анализируются различные методы автоматического выделения ключевых выражений: статистические, гибридные, основанные на машинном обучении и структурные. В обзоре значительное внимание уделено новым парадигмам, включая генерацию ключевых выражений с использованием больших языковых моделей, а также представлен детальный обзор методологий и проблем автоматической аннотации корпусов. Кроме того, мы анализируем текущие направления и трудности, присущие задаче автоматического выделения ключевых выражений из устной речи, и сравниваем подходы, основанные на расшифровке и сквозном акустическом анализе. Этот синтез позволяет сделать вывод о переходе области к более интегрированной, контекстно-ориентированной парадигме. Дальнейший прогресс будет зависеть от решения ключевых задач, таких как нехватка данных для малоресурсных языков, эффективное мультимодальное объединение и тонкая оценка генеративных систем автоматического выделения ключевых выражений.


















Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
Список использованной литературы появится позже.
Исследование выполнено при поддержке СПбГУ, шифр проекта 123042000068-8