
Про що ви дізнаєтесь:
- З чим працюють мовні моделі
- Як працює штучний інтелект
Великі мовні моделі (ВММ або LLM), такі як ChatGPT, Gemini, Claude, стали символом революції у сфері штучного інтелекту. Вони можуть не лише відповідати на запитання, а й писати есе, створювати програмний код, перекладати мови та навіть генерувати творчі тексти, які практично неможливо відрізнити від людських.Простіше кажучи, LLM – це високоінтелектуальний механізм автозавершення тексту, навчений на величезній кількості текстових даних, який працює за принципом прогнозування наступного слова в послідовності. Вони не мислять, не мають свідомості чи переконань, проте генерують відповіді, ґрунтуючись на складних статистичних закономірностях, вивчених із мільярдів прикладів людської мови. Главред розповість більш детально.
Трансформація слова в число
Як розповідають на каналі "Хмаринка Science", моделі штучного інтелекту безпосередньо зі словами працювати не можуть. Перше, що вони роблять, – перетворюють кожне слово на числовий формат.
Токенізація
Текст розбивається на токени – це може бути ціле слово, префікс, суфікс або навіть окремий символ.
Ембединг
Кожен токен асоціюється з довгим переліком чисел, який називається вектором або ембединґом. Ці числа розташовуються в багатовимірному просторі.
Фіксація сенсу
Чим ближче у цьому векторному просторі розташовані два ембединги, тим більш схожими за значенням вони вважаються. Отже, LLM працює не з самим словом, а з його сенсом і контекстуальним зв’язком з іншими словами.
Архітектура трансформера
Ключовий елемент, який дозволив LLM досягти такого прогресу, – архітектура трансформера, розроблена компанією Google. Головна її відмінність від старих нейронних мереж – механізм уваги (attention).
Паралельна обробка
На відміну від попередніх моделей, які послідовно читали текст, трансформер одночасно, паралельно обробляє увесь вхідний текст.
Розуміння контексту
Механізм уваги дає змогу моделі зрозуміти, як різні слова у реченні взаємопов’язані та наскільки важливі для визначення сенсу. Коли модель передбачає наступне слово, вона враховує значення всіх попередніх слів і їхню позицію в тексті.
Відео про роботу мовних систем можна переглянути тут:
Навчання та тонке налаштування
LLM навчаються у два етапи на основі великих масивів немаркованого тексту.
Попереднє навчання
На цьому етапі модель працює за принципом самокерованого навчання. Їй подають уривок тексту й просять спрогнозувати наступне слово. Таке навчання є універсальним і дає змогу моделі вивчити граматику, синтаксис та стилістику мови, а також створити складну карту взаємозв’язків між мільярдами слів і понять.
Тонке налаштування
Після попереднього навчання універсальна LLM стає "ерудованим провидцем", проте вона ще не знає, як спілкуватися з людиною. Для цього застосовується контрольоване навчання та навчання з підкріпленням (RLHF).
Контрольоване навчання: моделі надають конкретні інструкції та якісні приклади відповідей, навчаючи її реагувати на запити, а не просто передбачати наступне слово.
RLHF: модель навчається відповідати очікуванням людей, генеруючи відповіді, які є більш корисними, правдивими та безпечними.
Обмеження
Варто пам’ятати, що LLM – несвідомі системи. Вони генерують відповіді, які є статистично найімовірнішими на основі навчальних даних, а не результатом знань чи досвіду.Оскільки модель лише передбачає наступне слово, вона може "вигадувати" або поєднувати непоєднувані факти, які звучать правдоподібно, але є помилковими. Таке явище називається галюцинацією.
LLM не здатні розуміти емоції, не усвідомлюють своєї відповідальності й не мають переконань. Вони просто імітують людську мову, використовуючи шаблони, засвоєні з даних.
Вас може зацікавити:
- Інерція проти людства: що буде, коли Земля перестане обертатися
- Космічний прорив: місія на Місяць розкриє неймовірну загадку цивілізації
- Вчені відкрили новий спосіб вимірювання часу - що змінюється
Про джерело: канал "Хмаринка Science"
Канал "Хмаринка Science" є великим науково-популярним та пізнавальним україномовним ресурсом із понад 227 тисячами підписників. Його місія — популяризація світової науки та технологій, що робить складні знання доступними для широкої аудиторії. Основний контент включає переклади лекцій відомих науковців, а також відео про актуальні досягнення, винаходи та технології майбутнього. Канал охоплює такі теми, як космічні дослідження, фізика та загальні наукові новини.
Наші стандарти: Редакційна політика сайту Главред