DOI: 10.18413/2313-8912-2024-10-3-0-7

Новый графовый подход к генерации текстов узкой предметной области на естественном языке

Виктория Игоревна Фирсанова (Санкт-Петербургский государственный университет, Санкт-Петербург, Россия)

Обработка естественного языка на основе графов в последние годы становится актуальной благодаря развитию больших языковых моделей и генерации, дополненной информационным поиском. Большие языковые модели – это сложные алгоритмы, которые распознают многочисленные задачи обработки естественного языка путем анализа инструкций пользователей на естественном языке. Однако их промышленное использование вызывает сомнения из-за таких этических проблем, как создание ложной информации, высокого риска утечки данных и авторских заимствований. В статье представлена новая архитектура для обработки естественного языка, поблочная генерация на основе графов, которая использует самые современные методы глубокого обучения, возможности механизмов внимания, дистрибутивной семантики, информационного поиска на основе графов и децентрализованные сети. Модель кодирует запросы пользователя для снижения риска утечки данных, извлекает релевантную информацию из базы знаний графа и формирует блок для обусловленного моделирования языка с использованием больших языковых моделей. Модель направлена на разрешение ситуации недостатка данных для обучения полноценной модели машинного обучения. Исследование представляет новый набор данных на основе графов. Набор данных задает признаки уязвимых персональных данных для кодирования и текстовую информацию закрытой предметной области для информационного поиска. Он используется для обучения и оценки модели поблочной генерации на основе графов, впервые представленной в данной статье. Модель позволяет сократить объем обучающих данных более чем в 100 раз, достигная значения метрики оценки перплексии ~6,51 в задаче генерации естественного языка и F1-меры ~90,3 в задаче извлечения информации, что сопоставимо с большинством современных языковых моделей. Результаты экспериментов доказывают эффективность предлагаемого метода и вносят вклад в разработку алгоритмических подходов к снижению рисков использования больших языковых моделей в промышленности.

Ключевые слова: Генерация естественного языка, Понимание естественного языка, Генеративный искусственный интеллект, Большие языковые модели, Децентрализованные сети, Кодирование данных, Дистрибутивная семантика, Закрытая предметная область.

Количество просмотров: 772 (смотреть статистику)

Количество скачиваний: 1716

Полный текст (HTML)Полный текст (PDF)К списку статей

Информация для цитирования:

Фирсанова В. И. Новый графовый подход к генерации текстов узкой предметной области на естественном языке // Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 3. С. 135-167.

Комментарии
Список литературы

Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.

Andriushchenko M., Flammarion N. Does Refusal Training in LLMs Generalize to the Past Tense? arXiv preprint arXiv:2407.11969. 2024. P. 16. DOI: 10.48550/arXiv.2407.11969

Anthropic. Claude 3.5 Sonnet Model Card Addendum, 2024. URL: https://www-cdn.anthropic.com/fed9cc193a14b84131812372d8d5857f8f304c52/Model_Card_Claude_3_Addendum.pdf (дата обращения: 06.09.2024).

Ayyamperumal S. G., Ge L. Current state of LLM Risks and AI Guardrails. arXiv preprint arXiv:2406.12934. 2024. P. 9. DOI: 10.48550/arXiv.2406.12934

Choi E. Prompt injection: Parameterization of fixed inputs / Choi E., Jo Y., Jang J., Seo M. arXiv preprint arXiv:2206.11349. 2022. DOI: 10.48550/arXiv.2206.11349

Christiano P. F. Deep reinforcement learning from human preferences / P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, D. Amodei // Advances in neural information processing systems. 2017. V. 30. Pp. 1–9. DOI: 10.5555/3294996.3295184

Dettmers T. QLoRA: Efficient finetuning of quantized LLMs / Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. // Advances in Neural Information Processing Systems. 2024. V. 36. Pp. 1–28. DOI: 10.48550/arXiv.2305.14314

Devlin J. BERT: Pre-training of deep bidirectional transformers for language understanding / Devlin J., Chang M. W., Lee K., Toutanova K. // Proceedings of NAACL-HLT. 2019. Pp. 4171–4186. DOI: 10.48550/arXiv.1810.04805

Dong Y. Building Guardrails for Large Language Models / Dong Y., Mu R., Jin G., Qi Y., Hu J., Zhao X., Meng J., Ruan W. and Huang X. // arXiv preprint arXiv:2402.01822. 2024. DOI: 10.48550/arXiv.2402.01822

Firsanova V. Towards building a mobile app for people on the spectrum // Companion Proceedings of the ACM Web Conference 2023. 2023. Pp. 555–559. DOI: 10.1145/3543873.3587533

Firsanova V. The advantages of human evaluation of sociomedical question answering systems // International Journal of Open Information Technologies. 2021. V. 9. № 12. Pp. 53–59. DOI: 10.25559/INJOIT.2307-8162.09.202112.53-59

Gage P. A new algorithm for data compression // The C Users Journal. 1994. V. 12. №. 2. Pp. 23–38.

Gao J., Galley M., Li L. Neural approaches to conversational AI // The 41st international ACM SIGIR conference on research & development in information retrieval. 2018. Pp. 1371–1374. DOI: 10.1145/3209978.3210183

Goodfellow I., Bengio Y., Courville A. Deep learning. MIT press, 2016. P. 781.

Google Cloud. Cloud Computing Services, 2024. URL: https://cloud.google.com/ (дата обращения: 06.09.2024).

Guu K. Retrieval augmented language model pre-training / Guu L., Lee K, Tung Z, Pasupat P, Chang M. // InInternational conference on machine learning. Pp. 3929–3938.

Hendrycks D. Measuring massive multitask language understanding / Hendrycks D., Burns C., Basart S., Zou A., Mazeika M., Song D., Steinhardt J. arXiv preprint arXiv:2009.03300. 2020. P. 27. DOI: 10.48550/arXiv.2009.03300

Hewitt J., Manning P. D. A structural probe for finding syntax in word representations // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019. Pp. 4129–4138. DOI: 10.18653/v1/N19-1419

Hu E. J. Lora: Low-rank adaptation of large language models / Hu E. J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. arXiv preprint arXiv:2106.09685. 2021. P. 26. DOI: 10.48550/arXiv.2106.09685

Jacob B. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference / Jacob B., Kligys S., Chen B., Zhu M., Tang M., Howard A., Adam H., Kalenichenko D. arXiv preprint arXiv:1712.05877. 2018. P. 14. DOI: 10.48550/arXiv.1712.05877

Ji, Z. Survey of hallucination in natural language generation / Ji Z., Lee N., Frieske R., Yu T., Su D., Xu Y., Ishii E., Bang Y., Chen D., Dai W., Chan H. S., Madotto A., Fung P. // ACM Computing Surveys. 2023. V. 55. № 12. Pp. 1–38.

Jiang A. Q. Mistral 7B / Jiang A. Q., Sablayrolles A., Mensch A., Bamford C., Chaplot D. S., Casas D. D., Bressand F., Lengyel G., Lample G., Saulnier L., Lavaud L. R. arXiv preprint arXiv:2310.06825. 2023. P. 9. DOI: 10.48550/arXiv.2310.06825

Jelinek F. Perplexity – a measure of the difficulty of speech recognition tasks / Jelinek F., Mercer R. L., Bahl L. R., Baker J. K. // The Journal of the Acoustical Society of America. 1977. V. 62. №. S1. Pp. S63–S63.

Jurafsky D., Martin J. H. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Stanford University, University of Colorado at Boulder. 2023. P. 577.

LM Studio. LM Studio Documentation, 2024. URL: https://lmstudio.ai/docs/welcome (дата обращения: 06.09.2024).

Luo H., Luo J., Vasilakos A. V. BC4LLM: Trusted artificial intelligence when blockchain meets large language model. arXiv preprint arXiv:2310.06278. 2023. P. 42. DOI: 10.48550/arXiv.2310.06278

McCarthy J. Generality in artificial intelligence // Communications of the ACM. 1987. V. 30. № 12. Pp. 1030–1035.

Meister C., Cotterell R. Language Model Evaluation Beyond Perplexity // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021. Pp. 5328–5339.

Mikolov T. Efficient estimation of word representations in vector space / T. Mikolov, Chen K., Corrado G., Dean J. arXiv preprint arXiv:1301.3781. 2013. P. 12. DOI: 10.48550/arXiv.1301.3781

Mistral. Mistral Large 2, 2024. URL: https://mistral.ai/news/mistral-large-2407/ (дата обращения: 06.09.2024).

Morris, J., Hirst, G. Lexical Cohesion Computed by Thesaural relations as an indicator of the structure of text // Computational Linguistics. 1991. V. 17. № 1. Pp. 21–48.

Ouyang L. Training language models to follow instructions with human feedback / Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., Schulman J. // Advances in Neural Information Processing Systems. 2022. V. 35. Pp. 27730-27744. DOI: 10.48550/arXiv.2203.02155

OpenAI. GPT-4o mini: advancing cost-efficient intelligence, 2024. URL: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/ (дата обращения: 06.09.2024).

OpenAI API. Open AI API, 2024. URL: https://openai.com/index/openai-api/ (дата обращения: 06.09.2024).

Polyzotis N., Zaharia M. What can data-centric AI learn from data and ML engineering? arXiv preprint arXiv:2112.06439. 2021. P. 5.

Priest, G. Logic: A Very Short Introduction. Oxford University Press. 2000. P. 160.

Raffel C. Exploring the limits of transfer learning with a unified text-to-text transformer / Raffel C., Shazeer N., Roberts A., Lee K., Narang S., Matena M., Zhou Y., Li W., Liu P. J. // Journal of machine learning research. 2020. V. 21. №. 140. Pp. 1–67.

Rajpurkar P. SQuAD: 100,000+ questions for machine comprehension of text / Rajpurkar P., Zhang J., Lopyrev K., Liang P. arXiv preprint arXiv:1606.05250. 2016. P. 10. DOI: 10.48550/arXiv.1606.05250

Rajpurkar P., Jia R., Liang P. Know what you don't know: Unanswerable questions for SQuAD. arXiv preprint arXiv:1806.03822. 2018. P. 9. DOI: 10.48550/arXiv.1806.03822

Ruder S. Neural transfer learning for natural language processing. NUI Galway. 2019. P. 330.

Schmidhuber J. Evolutionary principles in self-referential learning, or on learning how to learn. Technische Universität München. 1987. P. 64.

Talmor A. Commonsenseqa: A question answering challenge targeting commonsense knowledge / Talmor A., Herzig J., Lourie N., Berant J. arXiv preprint arXiv:1811.00937. 2018. P. 10. DOI: 10.48550/arXiv.1811.00937

Thakur N. Beir: A heterogenous benchmark for zero-shot evaluation of information retrieval models / Thakur N., Reimers N., Rücklé A., Srivastava A., Gurevych I. arXiv preprint arXiv:2104.08663. P. 24. DOI: 10.48550/arXiv.2104.08663bs/2104.08663

Van Rijsbergen P. J. Information Retrieval. London: Butterworths. 1979. P. 147.

Vaswani A. Attention is all you need / Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N. // Advances in neural information processing systems. 2017. Т. 30. Pp. 261–272. DOI: 10.48550/arXiv.1706.03762

Wolf T. HuggingFace's Transformers: State-of-the-art natural language processing / Wolf T., Debut L., Sanh V., Chaumond J., Delangue C., Moi A., Cistac P., Rault T., Louf R., Funtowicz M., Davison J. arXiv preprint arXiv:1910.03771. 2019. P. 8. DOI: 10.48550/arXiv.1910.03771

Zhang P. Retrieve anything to augment large language models. / Zhang P., Xiao S., Liu Z., Dou Z., Nie J. Y. arXiv preprint arXiv:2310.07554. 2023. P. 16. DOI: 10.48550/arXiv.2310.07554

Zhong W. AGIEval: A human-centric benchmark for evaluating foundation models / Zhong W., Cui R., Guo Y., Liang Y., Lu S., Wang Y., Saied A., Chen W., Duan N. arXiv preprint arXiv:2304.06364. 2023. P. 22. DOI: 10.48550/arXiv.2304.06364

Все журналы

Отправить статью

Научный результат. Вопросы теоретической и прикладной лингвистики включен в научную базу РИНЦ (лицензионный договор № 765-12/2014 от 08.12.2014).

Журнал включен в перечень рецензируемых научных изданий, рекомендуемых ВАК

Журнал индексируется следующими научными базами и платформами

Научный результат. Научный результат. Вопросы теоретической и прикладной лингвистики (ISSN 2313-8912)

The journal materials and website are licensed under Creative Commons «Attribution» 4.0 International.

Учредитель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Издатель: федеральное государственное автономное образовательное учреждение высшего образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»). Адрес: 308015, Белгородская область, г. Белгород, ул. Победы, 85.

Редакция: главный редактор Ольга Витальевна Дехнич, e-mail: RR_Linguistics@bsuedu.ru, тел.: (4722) 301254.

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор)

Свидетельство СМИ

Устав редакции средства массовой информации «Научный результат. Вопросы теоретической и прикладной лингвистики»

Приказ № 636-ОД от 30.06.2023 "Об утверждении Уставов редакций средств массовой информации научных журналов НИУ «БелГУ»

Приказ № 1097-ОД от 15.11.2023 "Об утверждении Регламента издания научных журналов НИУ «БелГУ»"

Остались вопросы?
Можете написать нам:

✉ Ответственный cекретарь

✉ Администратор сайта

✉ Контент менеджер