Обучение ИИ на своей базе - Программирование

Обучение ИИ на своей базе 28 окт, 11:00 3309342 В конец треда | Веб

Короче есть такая задача - есть одна очень узкоспециализированная хуита со своим ЯП, по которой инфы в инете не особо много, соответственно все ИИ с вопросами по ней тоже жидко обсираются.
Но есть охуенная дока страниц на 1500 в ПДФе с картинками и текстом.
Что я могу использовать, чтобы в какую нибудь ИИ запихнуть эту доку и может пару примеров кода итд, чтобы он выучил эту хуиту и мог нормально отвечать на вопросы по ней и писать код за меня? Платно или бесплатно похуй, наверно даже лучше платно, чтобы умней была.
Вроде как Гугл гемени умеет изучать документацию и отвечать по ней. Но насколько я понял это в контексте одного чата - то есть я закидываю доку, он изучает и может ответить на вопрос по ней, ну и соответственно видимо написать код.
А можно ли там создать свою модель, которую я обучу на этой доке? Ну чтобы не сидеть в контексте одного чата постоянно. Вертекс там какой-то у Гугла есть и аи студио, эт не оно случайно?

Ответы09460 09601

2 28 окт, 13:11 3309460

>>09342 (OP)
-> /ai/
Обучить можно, но это дорого, чревато галюнами и тебе не нужно.
Тебе нужен RAG или любой подобный костыль который сводится к :
1) индексируем тем или иным образом базу знаний (по FTS, эмбеддингам, извлечённым сущностям, тэгам и т.д)
2) при помощи LLM конвертим фразу живого человека в поисковый запрос к этой базе знаний
3) кладём найденные документы в контекст LLM, генерим ответ

Такие костыли активно обсуждаются, например, тут: https://t.me/llm_under_hood

Ответы09468

# OP 3 28 окт, 13:33 3309468

>>09460
Спасибо за инфу, изучу. Только не очень понятно ты говоришь, что это очень дорого?
Сейчас в Google AI Studio скормил свой 25 мегабайтный пдф с документацией, Гугл оценил это в 300к токенов, то если это в платной версии было бы толи бакс, толи 2.

4 28 окт, 16:09 3309601

>>09342 (OP)
https://docs.anthropic.com/en/docs/about-claude/use-case-guides/legal-summarization

Ответы09651 09686

# OP 5 28 окт, 17:02 3309651

>>09601
А, так по сути это не обучение нейронки выходит, а тупо суммаризация

Ответы09886

6 28 окт, 17:48 3309686

>>09601

>anthropic

Я читал что они банят за ВПН, так гугл не делают и openai, а ещё единственные просят номер телефона.

Ответы09886

# OP 7 28 окт, 18:55 3309759

Короче сам все нагуглил, все есть и все работает, называется fine tuning и модель будет отвечать в контексте данных, которым ее обучили

8 28 окт, 23:41 3309886

>>09651

>А, так по сути это не обучение нейронки выходит, а тупо суммаризация

Мне лень расписывать, там есть проекты https://www.anthropic.com/news/projects где скидываешь файлы и он дальше с ними работает. Задаёшь вопросы и так далее. Суммаризация здесь вообще нихуя не причём. Промпт может быть любой, суммаризация это просто как пример. Какой функционал ты сам вложишь, так он и будет работать. Если ты скажешь "навестать страницу", он будет верстать. Скажешь "нарисовать график", он нарисует.

Ничё дешевле и лучше claude нет. Он плюс-минус как gpt-4o, в чём-то лучше и стоит дешевле. 300к токенов обойдётся в $0.9 ($0.003/за 1к токенов).

>>09686

>единственные просят номер телефона

Бля вот так трагедия из трагедий! В гугле вообще не вариант набрать "смс для активации", заплатить 15 рублей и пользоваться.

>Я читал что они банят за ВПН

Хз.

Ответы09891 10964

# OP 9 28 окт, 23:54 3309891

>>09886
За ссылочку спасибо, изучу

# OP 10 30 окт, 00:03 3310964

>>09886
Нашел, что у чатагпт есть аналогичная тема - Knowledge, поддерживает бОльший объём файлов для своей базы

Ответы11011

11 30 окт, 01:15 3311011

>>10964

>поддерживает бОльший объём файлов

Да эт хуйня. При желании фикситься через rag и прочие langchain'ы https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/ Единственное что имеет значение - это качество ответов. А остальное - это свистелки и перделки.

Ответы11123

# OP 12 30 окт, 08:19 3311123

>>11011
РАГом доучить можно чатгпт или клауде тоже?

Ответы11794

13 30 окт, 19:35 3311794

>>11123
Вообще похуям. Хоть жпт. Хоть клауд. Хоть джамба. Хоть комманд. Хоть хаггинг фейс бесплатная модель. Это просто техника такая, она не зависит от модели.

Обновить тред