Источник изображения: Olga Kovalski/Unsplash
Нашел интересную информацию Анжелла Марина на сайте 3dnews:
Большие языковые ИИ-модели не могут справиться с подсчётом букв в слове «клубника» на английском
Несмотря на впечатляющие возможности больших языковых моделей (LLM), таких как GPT-4o и Claude, в написании эссе и решении уравнений за считанные секунды, они всё ещё несовершенны. Последний пример, ставший вирусным мемом, демонстрирует, что эти, казалось бы, всезнающие ИИ, не могут правильно посчитать количество букв «r» в английском слове «strawberry» (клубника).
Проблема кроется в архитектуре LLM, которая основана на трансформерах. Они разбивают текст на токены, которые могут быть полными словами, слогами или буквами, в зависимости от модели. «LLM основаны на этой архитектуре трансформеров, которая, по сути, не читает текст. Когда вы вводите запрос, он преобразуется в кодировку», — объясняет Мэтью Гуздиал (Matthew Guzdial), исследователь искусственного интеллекта и доцент Университета Альберты, в интервью TechCrunch. То есть, когда модель видит артикль «the», у неё есть только одно кодирование значения «the», но она ничего не знает о каждой из этих трёх букв по отдельности.
Трансформеры не могут эффективно обрабатывать и выводить фактический текст. Вместо этого текст преобразуется в числовые представления, которые затем контекстуализируются, чтобы помочь ИИ создать логичный ответ. Другими словами, ИИ может знать, что токены «straw» и «berry» составляют «strawberry», но не понимает порядок букв в этом слове и не может посчитать их количество. Если задать ChatGPT вопрос, «сколько раз встречается буква R в слове strawberry», бот выдаст ответ «дважды».
«Сложно определить, что именно должно считаться словом для языковой модели, и даже если бы мы собрали экспертов, чтобы согласовать идеальный словарь токенов, модели, вероятно, всё равно считали бы полезным разбивать слова на ещё более мелкие части, — объясняет Шеридан Фойхт (Sheridan Feucht), аспирант Северо-восточного университета (Массачусетс, США), изучающий интерпретируемость LLM. — Я думаю, что идеального токенизатора не существует из-за этой нечёткости». Фойхт считает, что лучше позволить моделям напрямую анализировать символы без навязывания токенизации, однако отмечает, что сейчас это просто невыполнимо для трансформеров в вычислительном плане.
Всё становится ещё более сложным, когда LLM изучает несколько языков. Например, некоторые методы токенизации могут предполагать, что пробел в предложении всегда предшествует новому слову, но многие языки, такие как китайский, японский, тайский, лаосский, корейский, кхмерский и другие, не используют пробелы для разделения слов. Разработчик из Google DeepMind Йенни Джун (Yennie Jun) обнаружил в исследовании 2023 года, что некоторым языкам требуется в 10 раз больше токенов, чем английскому, чтобы передать то же значение.
В то время как в интернете распространяются мемы о том, что многие модели ИИ не могут правильно написать или посчитать количество «r» в английском слове strawberry, компания OpenAI работает над новым ИИ-продуктом под кодовым названием Strawberry, который, как предполагается, окажется ещё более умелым в рассуждениях и сможет решать кроссворды The New York Times, которые требуют творческого мышления, а также решать сверхсложные математические уравнения.
И я вспомнил научную работу, которые провели участники Якутской Межрегиональной Исследовательской школы в июле 2024 года — Проект «Концепт «Якутский язык/ Саха тыла» в сознании носителей языка».
Темя исследования напрямую коррелирует с созданием искусственного интеллекта на якутском языке…
Посты о якутском языке и культуре:
20-летие Википедии. Википедия по якутски!
Изучение якутского языка в интернете! Скоро новый портал!
Саха норуотун оҕону иитэр үөрүйэхтэрэ
Саха национальнай гимназиятыгар буукубаардыын быраһаайдаһыы!
Төрөөбүт тыл уонна сурук-бичик күнүнэн! С днем якутского языка и письменности!
Сегодня Международный день родного языка!
Былатыан Ойуунускай – XXI-с үйэ дьонугар сахалыы тыыны тутар дьаакыр, сайдар суолу ыйар маяк
Өксөкүлээх — сахаларга этиитэ.
Саха оскуолата элбииригэр үтүөтэ сүҥкэн
Якутский язык впервые становится доступным мировому сообществу разработчиков машинного перевода
Пионеру цифровизации якутского языка Василию Мигалкину — 70 лет
Якутская клавиатура: Краткий обзор приложений для смартфонов
Саха тылын уонна литературатын учууталлара Өрөспүүбүлүкэтээҕи сийиэскэ муһуннулар
Саха тылын уонна литературатын учууталларын сийиэһэ түмүктэннэ
Саха тылын, литературатын уонна култууратын учууталларын II сийиэһин кэнниттэн…
Учим якутский язык: видеоуроки на Youtube и Яндекс Алиса!
Выступление Умита Шахина, Турция, на конференции «Николаевские чтения» о якутском языке
Возможности Центра цифровизации языкового и культурного наследия народов Якутии!
Трагическая картина народа саха…
О комментах на мой пост «Трагическая картина народа саха…»
«Мы родители 203 микрорайона не были против Айыы кыһата, тем более не против национальной культуры.»
Дмитрий Тимофеев о треугольной структуре народа саха!
Культура Республики Саха в Казахстане! Гастроли Бриллиантового Цирка РС (Я) и Дни якутского кино!
Нам улууһугар Саха Республикатын народнай суруйааччытын Николай Лугинов үбүлүөйэ
Как якутская поэзия спасла турецкую речь
День Олонхо 25 ноября 2023 года! Вспоминая первую постановку спектакля олонхо за рубежом…
С Днем Рождения, Андрей Саввич!
Культурный код народа в формировании стратегической цели нации.
Поразили данные о татарском языке с сайта «Национальный акцент»
Круглый стол «Возвращаясь к истокам. Ийэ тылга эргиллэн» (17.02.2024)
“Якутский язык в современных реалиях”: круглый стол движения “Саха тыла 400”
Аан дойду сахаларыгар «Ийэ тыл — 2024» форум кыттыылаахтарын Ыҥырыы суруга.
Якутский быырпах вошел в топ-10 необычных напитков России
Хаҥаластар өрөгөй ырыаларын 25 сылын көрсө! 25 лет гимну хангаласцев!
Голосуем за нашу землячку Миру Аргунову на народном голосовании!
Приглашаем на концерт «Мин Дойдум» (Родина моя)
«Пресс-чай» в Филармонии Якутии
Дни Республики Саха в Казахстане. Дайджест казахских СМИ
Первый форум «Говорим на языке саха»: Дню Республики Саха (Якутия) посвящается
В «Гугл Переводчик» добавили 110 языков: среди них языки регионов России
Мой сайт: https://nikbara.ru/ — блог о разных интересных событиях
Сайт об усадебном хозяйстве в Якутии https://usadbaykt.ru/
Мой канал в «Яндекс Дзен» — NikBara
Мой блог в “Блогах Якутии” https://blogi.nlrs.ru/author/88287 — архив моих постов в Дневниках Якт.ру и новые посты о культурных событиях.
Просьба подписаться на мой канал «Николай Барамыгин» на Ютуб!
И на мои аккаунты в социальных сетях!
«Одноклассниках» https://ok.ru/profile/500676253992
«В контакте» https://vk.com/nbaramygin
Мой канал в «Телеграм» https://t.me/nikbaraykt