Это копия, сохраненная 12 мая 2021 года.
Скачать тред: только с превью, с превью и прикрепленными файлами.
Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах. Подробнее
Если вам полезен архив М.Двача, пожертвуйте на оплату сервера.
Я ничего не понимаю, что делать?
Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu/ (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему такой фокус на нейронки?
Потому что остальные чистят вилкой данные в банках с помощью LGBTboost и им некогда предлагать обновления в шапку
Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus
Как работает градиентный спуск?
https://cs231n.github.io/optimization-2/
Почему python?
Исторически сложилось
Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет
Что почитать для вкатывания?
http://www.deeplearningbook.org/
Николенко "Глубокое обучение" - на русском, есть примеры, но меньше охват материала
Франсуа Шолле - Глубокое обучение на Python
https://d2l.ai/index.html
В чем практиковаться нубу?
http://www.deeplearning.net/tutorial/
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials
Где набрать первый самостоятельный опыт?
https://www.kaggle.com/ | http://mltrainings.ru/
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел
Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой
Где узнать последние новости?
https://www.reddit.com/r/MachineLearning/
http://www.datatau.com/
https://twitter.com/ylecun
На реддите также есть хороший FAQ для вкатывающихся
Где посмотреть последние статьи?
http://www.arxiv-sanity.com/
https://paperswithcode.com/
https://openreview.net/
Версии для зумеров (Килхер): https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где посмотреть must read статьи?
https://github.com/ChristosChristofidis/awesome-deep-learning#papers
https://huggingface.co/transformers/index.html
То, что обозревает Килхер тоже зачастую must read
Где ещё можно поговорить про анализ данных?
http://ods.ai/
Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь
Когда уже изобретут AI и он нас всех поработит?
На текущем железе - никогда, тред не об этом
Кто нибудь использовал машоб для трейдинга?
Никто не использовал, ты первый такое придумал. Готовь камаз для бабла.
Список дедовских книг для серьёзных людей:
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: http://libgen.io/
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
Предыдущие:
https://2ch.hk/pr/res/1902462.html (М)
https://2ch.hk/pr/res/1881607.html (М)
https://2ch.hk/pr/res/1868191.html (М)
https://2ch.hk/pr/res/1847673.html (М)
https://2ch.hk/pr/res/1832580.html (М)
https://2ch.hk/pr/res/1817320.html (М)
https://2ch.hk/pr/res/1785952.html (М)
https://2ch.hk/pr/res/1758961.html (М)
https://2ch.hk/pr/res/1734710.html (М)
https://2ch.hk/pr/res/1704037.html (М)
https://2ch.hk/pr/res/1665515.html (М)
Этой математики достаточно, если в кликере работать планируешь.
Тервер заканчивается на матожидании и дисперсии, линал - на умножении матриц.
Этой математики достаточно, чтобы понять что к чему в алгоритмах машобчика и использовать их хотя бы не методом тыка. Т.е. 100% пользователей, особенно всяким вкатышам, этого за глаза.
Этой математики достаточно, но освоить ее по одной книжке нереально. Надо поебать мозги задачками
Вкатышам - только за щеку
Да. Хорошие девочки-отличницы учили статистику и матан. Хули им делать еще в декрете?
>Все чаще нахожу инфу, что пока решения очень сырые
Дедоотрицания. Всё работает. За сетками будущее.
а какая из них считается норм для такой задачи?
короче у меня задача типа определить есть ли объект на картинке или нет, а также его положение
нужна ли мне в таком случае нейронка? или дедовские методы ок справятся? по сути ведь тут нет никакой многоклассовости и пр
Надо ли шкалировать и признаки, и метки? Или только признаки? А если после шкалирования только признаков они с метками различаются на порядки?
увидел, короче, такую тему как озон мастерс - аля ШАД короче
и возник вопрос
действительно ли такие места дают сильный буст? Действительно ли дело обстоит так, что, если ты не из МФТИ/ШАД/Вышка/ВМК, то тебе нечего делать в областях, связанных в даса сайенсом (нлп, цв, мл и пр)? Я просто работаю в своем маня стартапе цвшником, и думаю, что из-за отсутствия чистого дата саенс образования на рынке труда буду сосать хуй
Нужны серьезные обоснования чтобы object detection в 2021 решать дедовскими методами. В 99% тебе нужна нейронка, а там смотри на yolo/ssd/faster rcnn/efficientdet.
>>21166
Возьми градиентный бустинг и всё должно заработать из коробки, без шкалирования. Если у предсказываемых значений очень всратые распределения, то можешь попробовать предсказывать их логарифм, но обычно это не нужно.
да нет, в целом то
тем более цв - это не совсем классический дс - тут нужно и прогать хорошо, и знать именно алгоритмы. А быть генинем матана не обязательно (хотя хорошую базу иметь надо)
> Нужны серьезные обоснования чтобы object detection в 2021 решать дедовскими методами.
И чо терь, чтобы найти белое гавно на черном фоне, нейронку обучать?
Большая половина статей по рекомендациям с использованием диплёрнинга не воспроизводятся, а те что воспроизводятся побились обычными эвристиками и дедовскими методами https://arxiv.org/pdf/1907.06902.pdf
>Возьми градиентный бустинг и всё должно заработать из коробки, без шкалирования.
Получилась какая-то херня.
инб4: ленивый дебил вкатышь
Весь современный машоб это либо прямо достижение дедов из 50-60х, либо их развитие. Бустинг это теория статистического обучения, сверточные сети, и весь диплернинх таким образом, это структура по типу зрительной коры кошки, Нобелевская премия Хьюбела и Визеля, мультихед аттеншен это кернел регрессия Надарайи - Уотсона на максималках, трансформеры это дальнейшее развитие сетей Хопфилда итд. Градиентный спуск туда же. Все это - середина прошлого века.
то есть есть и реально крутая хуйня, а не эти сверточные распознавалки?, ну я догадывался конечно, хуево это как то, тем более у корпораций такие ебанутые мощности вычислительные.
Умножение и сложение - древние египтяне. Весь машоб - достижения 5000летней давности
> Умножение и сложение - древние египтяне. Весь машоб - достижения 5000летней давности
Так глубоко копать смысла нет. Я и не об этом. История машобчика идёт по спирали, одни и те же идеи воплощаются на разных уровнях развития железа и софта. Поэтому, кукареканья "Х - устаревшее дедовское говно" есть бред. Просто пока применения не нашлось / ньюфаги не знают, олдфаги забыли / т.д и всё. Никуда от теорем Жопеншмульцера не уйти. Сойбои - дебилы, в отличие от дедов, поэтому ничего нового создать не способны. Я уже говорил, в 60е этой темой занимались академики, сейчас - всякий сброд с петушиными бородами. Итог немного предсказуем.
>История машобчика идёт по спирали, одни и те же идеи воплощаются...
Только если натягивать сову на глобус.
>Итог немного предсказуем.
Итог - ты копротивляешься и орёшь "ваш прогресс не прогресс, ганы изобрели в 1963"
>ваш прогресс не прогресс, ганы изобрели в 1963
Тот анон прав, наш прогресс это какие то всратые котики и дипфейки, где что нибуть практическое и полезное хотя бы уровня MYCIN?
>практическое и полезное
>хотя бы уровня mycin
Если оно настолько практическое и полезное, то почему про него забыли буквально через пару лет. Литералли ничем не отличается от какого-нибудь IBM watson.
От DLSS больше практичности и пользы будет.
>то почему про него забыли
Потому, что медикипедики прихуели и начали торпедировать проджек, ты почитал бы как у докторов пердаки подорвало от того что их могут пидорнуть на мороз
Хуйня это всё. Можешь ты представить, чтобы медики или вообще кто угодно мог хотя бы требовать прикрыть гпт3, 4? Это бред ебучий.
> гпт3, 4?
Так это говно никому конкуренцию не составляет, помнишь как чувак на коленке написал приложуху которая составляет типовые судебные иски и как разорвало пердаки у пендоюристов?
короче 4 года работал байтоебом в цв (писал на микроконтроллерах зрение промышленного софта - в основном в задачах object detection дедовскими методами)
Сейчас хочу перекатиться в современный цв с сетками и блекджеками
Прошел курс от самсунга по зрению (и по обработке текстов), так что приблизительно понимаю о чем речь, но нужна хорошая практика
Отсюда вопрос: посоветуйте плз, какой проект по зрению можно запилить, чтобы лучше прочуствовать нейроночки (а то на котиках да мнисте итак все понятно), да и чтобы работодателю было бы интересно со мной поговорить
Алсо, если сможете такой же совет дать по nlp, то буду благодарен) тк, несмотря на бекграунд, тема тоже интересная
спасибо)
я тот чел, который уже писал про задачу распознавания в облаке точек кубиков
короче тема такая: я реализовал определение ориентации облака точек (напомню, что у меня камера стоит сверху и снимает кубики\прямоугольники) через РСА
но чет задумался: а собственные вектора ковариационной матрицы прям честно дают мне локальные х у и з кластера? По идее ведь ничего общего с внешней системой координат х у и з эти оси не имеют, тк они всего лишь вектора, на которые дисперсия максимальна
Значит по идее, я ведь не могу их считать полноценными осями ориентации объекта? А то что заработало, выходит, не более чем удачный набор данных
Я прав?
>Нужно обрабатывать предложение и разбирать его на части речи, частицы и все прочее.
Соснешь, тебе нужен морфологический анализатор хуяндекса https://yandex.ru/dev/mystem/
Ну или васянский PyMorphy
Литералли любые seq2seq. Для русского предобученную придется поискать, но английский берт для pos-теггинга ищется за 3 секунды.
https://huggingface.co/vblagoje/bert-english-uncased-finetuned-pos
очевидный kaggle, сейчас там есть несколько сорев по CV
>нлп в следующие лет 5-10
Оч туманные, нейроговно с ним не справляется, а все типа
https://www.link.cs.cmu.edu/link/
не модно
Идет целенаправленной отвод прогрессивных разработок, который заменяется модными и хайповыми штуками. Иллюзия.
> то что заработало, выходит, не более чем удачный набор данных
Ну кубик как раз и есть удачный набор данных.
Если бы у тебя были шестиугольники, то PCA бы уже не помог
>Отсюда вопрос: посоветуйте плз, какой проект по зрению можно запилить, чтобы лучше прочуствовать нейроночки
super resolution с помощью собственного датасета
>Алсо, если сможете такой же совет дать по nlp, то буду благодарен
зафайнтюнь что-нибудь
У меня ситуация следующая. Работаю маркетолухом, нет, не дрочилой яндекс-метрики в хипстерском стартапе. В нашей нише вообще контекстной рекламы и таргета нет. Тут дедовский маркетинг с наружной рекламой, мерчом и акциями 2 говна по цене 3.
Люблю копаться в циферках, постоянно ковыряю эксель. Умею в панды, склерн, все вот эти катбусты, более менее в статистику, когда-то мог поворочать датасетами и модельками на R, но уже все забыл. В нейросети пока не могу (да и не хочу особо). Хочу намекнуть кабанчику, что можно взять большие данные и на их основе делать выводы. Но пока руководитель отдела не дает этим заниматься и постоянно грузит какой-то хуйней, начиная от "посмотри акции конкурентов" и заканчивая "надо коробки в архив отнести".
С чего у вас в компании начиналось внедрение аналитики? В какую сторону смотреть в первую очередь и какие мл-инструменты в первую очередь реализуют в бизнесе. Из подручных средств есть разраб, занимающийся сайтами, но много чего помимо веба умеющий. Ну и говнобаза на 1С.
тебе такое в ods надо
Сап
Подскажите есть ли универсальные гайды по работе с дейтой любой?
Допустим у нас есть пара таблиц числовых данных (не важно что это за данные). Что можно с ними сделать использую питон, пандус и прочие библиотеки. Мне на ум приходит только корреляция каждого из столбов друг с другом.
Цель - из набора цифр получить данные.
Вопрос именно про работу с дейтой, не про нейронки и модели.
Так открой хаггинфейс и посмотри, что ещё есть
Тебе нужен data mining. Гугли, конкретных алгоритмов полно, как и готовых инструментов.
Это местный шизик, не обращай внимание
>>23197
>>23209
Представь таблицу с данными. В ней 4 столбца (или колонки) - a,b,c,d. В каждом из них floats, то бишь числа. И ты хочешь из этого непонять чего найти что-то интересное. Например вдруг окажется что a(d) на промежутке от [n,k]. Я о таких вещах.
>>23254
Ебанул тебе регрессий по башке.
> Например вдруг окажется что a(d) на промежутке от [n,k]. Я о таких вещах.
И как ты это себе представляешь для произвольного датасета? Чтобы выявить что y = f(x), нужно ко всем парам элементов датасета применить все возможные f с оценкой каждого результата. Не считая того, что возможны варианты с композициями функций, тогда придется считать что-то типа y = fn(fn-1(...(f(x)...) + как-то сортировать результаты, короче, ты какую-то неведомую хуйню хочешь с запредельной вычислительной сложностью.
Присылай датасет, будем ковырять всем форумом
Кокие там в ИИ достижения в 2021?
Ну это сильно зависит от твоего босса. Работал в финансах и околофинансах. На одной из моих позиций босс запрещала использовать VBA, потому что мол "ты съебешь, а поддерживать это никто не сможет, много работы - передай на подчиненных" не говоря уже про BI-системы, более серьезную автоматизацию и моделирование. В таком случае я просто не афишировал, а просто делал для себя - если видел, что могу сэкономить время свое / коллег, например, или извлечь еще какую-то ценность. А в другом месте боссу самому были интересны такие приколы и он меня дергал, мол "а можешь вот наших клиентов на кластеры разбить, есть же алгоритмы специальные".
Т.е. в определенных случаях, даже если ты сможешь продемонстрировать ценность чего-то (моделирования \ автоматизиции \ интерактивных отчетов), человек на это не пойдет из-за
1. собственного консерватизма
2. нежелания самому потом хотя бы поверхностно разбираться в том, что ты там наворотил (потому что руководитель должен)
3. опасений, что ты съебешь и придется прикрыть эту активность из-за того, что в команде не найдется тех, кто будет в этом шарить и придется упразднить какую-то связанную с этим активность / отчет, к которым вышестоящее начальство успеет привыкнуть. Соответственно твоему руководителю придется держать ответ за это или искать человека со скиллами, которых у самого твоего руководителя нету - соотвественно при найме ему будет трудно их оценить у претендента на должность
DALL-E
Нашли ошибку в реализации алгоритма 2013 года.
Новая сота на imagenet с использованием мета-псевдолейблинга на неразмеченных данных, лучше предыдущей sota и по качеству, и по времени сходимости.
Это только за январь.
Для голоса самое важное это желание голосоделов. Несколько часов гоблопидора на руках, теперь надо обучить
4 недели ещё не прошло, ты о чём?
Заполнять наны очевидно, и в train и в test.
Иногда ты можешь грубо прикинуть какое именно значение в нанах - если хорошо знаешь данные с которыми работаешь (например, помнишь, что до года n столбец m не заполнялся - и тупо заполняешь годом n-1).
Иногда ты можешь понять из датасета или особенностей сферы (в каких-то случаях, например, nan корректно заменить на 0).
Можешь попробовать заполнять построив по модельке для каждого столбца с наном, даже тупо регрессией.
Или поставить какое-нибудь чиловое значение (если это числовой столбец), которое будет явно экстремальным для данного столбца - GLM это бы поднасрало, а для всяких деревьев решений и бустингов будет приемлимо.
ну и пиздец. и ведь постоянно кто-то пишет советы уровня нейросети.
Раз времени мало, может ты и есть идеальный клиент для Orange и Knime ?
в Orange есть простой виджет outliers - загрузил клиентов - вот тебе и первая выгода (c)
Любой классификатор позволяет вычислить расхождение с предсказанием - это быстрая выборка нестандартных клиентов/контрагентов - вот и вторая выгода.
Тексты сайтов-доноров рекламы спарсил, загнал в bag of words, прикрепил эффективность по логистической регрессии, посмотрел важные слова - вот и третья выгода (но откровенно говоря, выглядит очень уж наивной моделью)
Тут местные илитарии не любят Orange, потому что он обесценивает их макакичную работу по копированию питон-мануалов из Гугла. Но ты то должен понимать суть.
>Тут местные илитарии не любят Orange, потому что он обесценивает их макакичную работу по копированию питон-мануалов из Гугла
Шиз, опять ты выходишь на связь? Orange, как и любое GUI-говно, создает больше проблем, чем решает.
тебе при трудоустройстве создает больше проблем. И конфузирует новичков-вкатывальщиков.
А людям Orange строить и жить помогает!
Учи инглиш
вообще-то дохрена книг переводится.
Но давай чтобы не провоцировать илитариев, предложу
читать Николенко. Ведь это единственный российский ученый написавший книгу , которая, очевидно, не могла быть испорчена переводом.
> вообще-то дохрена книг переводится.
Проблема в том, что они устаревают быстрее, чем переводятся. Предметная область такая, ничего не поделаешь. Единственный путь тут - постоянно обновляемые онлайн учебники типа https://d2l.ai/index.html В 2021 не знаешь англюсика = официально неграмотный, без вариантов.
>Единственный путь тут - постоянно обновляемые онлайн учебники
По ссылке "современные сверточные сети" заканчиваюся на densenet (16 год). Ничем не отличается от любого другого учебника того же времени.
>Проблема в том, что они устаревают быстрее, чем переводятся.
Ты кого тут ебать собрался?
И кого же наш гипотетический вкатывальщик, не понимающий азов статистики, собрался обгонять? Пятерочку и гарвардских профессоров?
это моя свалка, но вот Шпигелхалтер и Уэс Маккини 2020 реально полезные и охуенные.
Спасибо за подгон
Вроде недавно общели FPGA трансфоремеры?
В том числе и SaE.
Ещё split-transform-merge (resnext), depthwise separable convolutions (мобайлнет), архитектурный поиск (efficientnet).
>split-transform-merge (resnext)
Хуитка
> depthwise separable convolutions
Топчик
>efficientnet
Хуита теоретическая
В целом по мне эти вещи не достойны учебника. Так, пару параграфов может.
Вообще по мне изучать лучше UNet и производные fully convolutional сети, а классификаторы уже унылы и в целом уже на этапе resnet довольно неплохие
Анон, у тебя получилось что по эмбеддингам? Хочу попробовать с DETR OCR модель сделать.
Так еще у себя в видео Антоха Мальцев говорил (не знаю, катируется ли он на двачах или нет)
Это так или знакомым по ебалу за такую дезу дать?
>работа в цв это просто "ну вот у нас модель работает на 80 процентов точность, накидай еще данных шоб повысить" и так все время. Будешь делать что угодно, кроме самого цв, а моделька будет та, которую деды выбрали лет 10 назад и менять ее не нужно
Не понимаю проблемы. Ты можешь параллельно подбирать другую модель даже если тебе не говорили это делать. Получишь точность лучше - придешь к своему тимлиду, покажешь модель, и скорее всего ее запустят в прод. Только вот я тебе гарантирую, что через год работы у тебя пропадет весь энтузиазм, и ты будешь работать по минимуму.
че?
Что нравится, туда и вкатывайся. Всё равно будешь в итоге другим заниматься.
Что за говно происходит? "Будущие значения по прошлым через градиентный бустинг"?
В чем твоя идея? Что на что похоже?
Какие были выбраны фичи и какой y?
Пиздец, элитарные трясуны в худшем виде. Термины увидел и сразу их в код написал и получил мусор?
Да, это работает. Но как тогда разработку ведут в крупных компаниях? Читал еще, что удаленный интерпреттор подключают по тому же ssh к pyCharm, но он за деньги, а пиратить не хочется.
В общем, пока что для экспериментов тунель ssh + Жупитер , а для долговременных вычислений: засовывание модели в .py . Но геморно это все как-то, должно быть готовое решение.
Vnc/rdp/nomachine-nx/teamviewer/etc
> Но как тогда разработку ведут в крупных компаниях?
комп включил оставленным и пошел. назавта пришел. как, как, блять...
tensorboard какой-нибудь еще есть.
Да по сути это и не разработка, а черновой поиск решений. Разработку кодомакаки ведут.
есть запусти man screen, если дружишь с консолью и ipython
нет, конечно. О чем мне общаться с фейкопрограммистом?
Иди, блядь, снимай ролики о том как ты вкатываешься и имитируйте там вместе датасаспенс в камертах.
Люди делом заняты.
Тебе просто написал кто-то довольно общее (и верное) замечание, о том, что градиентный бустинг не требует шкалирования. Никто не обещал что что-то получится.
Извини, пропустил на треде табличку "Только для опытных датасаентистов, чье ЧСВ не пролазит в тред".
>Люди делом заняты.
Как скажешь.
Не забудь вовремя поливать дерево, на котором специалисты растут.
Всего хорошего.
>Не забудь вовремя поливать дерево, на котором специалисты растут.
а я и поливаю:
выкладывай всю историю своих страданий публично чтобы тебе могли помочь публично и чтобы опытные датасаентисты повысили свое ЧСВ.
нахрена им твоя фейкопочта?
>выкладывай всю историю
Подразумевая, что тут же появятся толпы желающих помочь.
>нахрена им твоя фейкопочта?
Потому что итт заняты по большей частью мерянием пиписьками старые технологии/новые технологии, предсказанием где будет машобчик через 5 лет и вопросами типа "сап, решил вкатитья в машоб".
Не особо хочется разбавлять эту атмосферу своими проблемами и вопросами.
а было бы неплохо.
заебали своим SOTA от Жопеншмульцера.
Конкретная задача (предположительно) решаемая градиентными деревьями показывает из чего на самом деле состоит машоб.
У меня есть набор временных рядов (пик1).
Признаки я почистил, посмотрел корреляцию, выделил значимые, проверил на стационарность тестом Дики-Фуллера, убрал у некоторых нестационарность, посмотрел автокорреляцию, добавил новых признаков в виде лагов (пик 2). Где значения 900+ - это целевой результат.
Поделил данные через TimeSeriesSplit, засунул в линейную регрессию, случайный лес, xgboost, а у меня везде примерно получается пик3. А должен быть пик4.
Что может быть не так?
Погуглил оранж. Это вообще законно?
>не любят Orange, потому что он обесценивает их макакичную работу
РИСОВАТЬ РАНДОМФОРЕСТЫ В ТЕТРАДКЕ ВАЖНО
ЭТО ДРУГОЕ
Суть я более-менее понимаю, не могу именно вытянуть полезное для бизнеса. Посчитать и модель построить я могу, не знаю вот только нахуя
А в Единственном русскоязычном курсе по Оранж об этом рассказывают. Рассказываю нахуя. Начинают с CRISP-DM. Дают всякие исторические примеры и тд. Представляешь?
А у Жопенцмуллеров сразу питон и керас.
Спасибо, анон. Теперь хоть знаю, в какую сторону гуглить. А то вокруг одни душные деды с их матаном
Это тот которого обоссали настолько, что он вынужден был переснимать курс в прошлом году? Ну такой себе совет
За что был обоссан, кроме ЦПТ?
> У меня есть набор временных рядов (пик1).
Ну так и сделай pip install fbprophet.
Вообще плохо понимаю как ты мыслишь и с чего тут xgboost должен был дать что-то полезное кроме шума.
У prophet нет признаков. Он на основе сезонности себя рисует ряд.
> Суть я более-менее понимаю, не могу именно вытянуть полезное для бизнеса. Посчитать и модель построить я могу, не знаю вот только нахуя
А ты не пиздишь? Не понятно как такие люди возникают. Ты математик в вакууме?
>Вообще плохо понимаю как ты мыслишь и с чего тут xgboost должен был дать что-то полезное кроме шума.
Какава примерама такава решенияма.
Вот тут, например, регрессии используются для решения схожих задач:
https://towardsdatascience.com/5-machine-learning-techniques-for-sales-forecasting-598e4984b109
И вот тут, как не посмотришь, регрессии с randomforest'ами, xgboost'aми и прочими LGBM'ами:
https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting/code
https://www.kaggle.com/c/competitive-data-science-predict-future-sales/notebooks
>prophet
Т.е. baseline не нужен? Делать так?
От стационарности тоже отказаться?
Научили так. Хуевертить фичами и моделями умею, сделать полезно нет
>Вот тут, например, регрессии используются для решения схожих задач:
https://towardsdatascience.com/5-machine-learning-techniques-for-sales-forecasting-598e4984b109
И закончили они на дедовской ARIMA, которая и выигрывает.
И ты ееможешь в prophet получить.
по поводу остального не знаю и не готов за тебя вычитывать насколько хорошо повторил Кагл.
Ты уже можешь больше 80% треда
> машиннообучаторы называют математикой, к математике имеет мало отношения.
Ты модульный петух чтоле? Математика это, успокойся да выпей ещё этих таблеток.
Импортировать катбуст для решения титаника на кагле это не математика
Для вката достаточно, остальное сам нагуглит. Отличать нормальное распределение от слона в удаве можно научиться и у Карпова. Тут не надо иметь глубинные знания о решениях уравнений по теореме Пьера д'Ачелло-Сосницкого
Задрачивай статистику. Можешь еще пару видосов про линал посмотреть, чтобы знать, что такое вектор.
на самом деле, значительная часть терминов во всей этой хуйне, который мы занимаемся - это матеша за 10-11 класс, но длинными умными словами
> Посочувствуйте курс или книжку по статистике (не Жопеншмульцера)
Какая тебе статистика, зумер, ты шапку осилить не можешь. https://d2l.ai/index.html первый appendix. Там все, нужное для машоба, не только статистика.
>>27224
>>27559
Ноунейм параша без задач.
Да там и "прикладной" математики не особо.
иду через неделю на собес по зрению
что могут спросить? На какие моменты обратить внимание?
мань, по порядку
1) поинтересовать какие вопросы могут быть на собесе - это не "наивный" подход. Почему-то в ods нормально отвечают на такие вопросы, хотя они тоже варятся в этой (о боже) сложнейшей области за пределами человеческого понимания
ты там не МФТИ заканчивал? У них все, как и ты, ассоциальные
Можно просто написать пару примеров что у тебя лично спрашивали или что спрашивали у друзей и не выебваться (или помолчать)
2) > довольно сложной области
тебе либо 15, либо ты просто зарвавшийся какой-то
в программировании все области сложные. Я абсолютно уверен, что написание многопоточных прилог на с++ не сильно проще клепания моделей в жупитере
мимо не ОП вопроса
Анончик, очень сложно подсказать тебе, если ты боишься конкретно сказать, что у тебя за данные и что за задача. Вот например нихуя непонятно, что ты хотел сказать под "А должен быть пик4." - пик 4 это твой таргет?
Судя по твоим постам, ты пытаешься предсказывать некие временные ряды с некоторым количеством внешних переменных. Хорошо, что ты сделал тесты на стационарность и смотрел автокорреляцию. Для бейслайна я бы предложил тебе SARIMAX из statsmodels, закинешь туда нужный порядок, возможную сезонность, ну и внешние данные.
Хуя рванулась манюня "не автор вопроса" которой не подскачили тут же кабанчиком варианты накидывать забесплатно.
>Я абсолютно уверен, что написание многопоточных прилог на с++
Вот тебе совет для собеса : не пытайся делать вид , что написание типовых прог на хуевом языке - вершина Айти и что ты якобы познал все.
ОЙ ВСЬО
Иногда данные из задачи - это просто данные из задачи.
бля, там под видом невротъебенных возможностей просто надувают число подписоты
за исключением нескольких грамотных людей, большая часть этих типа спецов, которые ведут вебинары, - просто напонтованные пустышки. как собственно и сам этот чел, за счёт супер навыков самопрезентации и нетворкинга добравшийся до вот уже микрософта.
>поливать дерево, на котором специалисты растут
>сап двач, а как какать
Такое дерево в индустрии не нужно
А на чем тогда "специалистов" вешать? Как без дерева то?
Алсо, если расписываете, упоминаете ли пэт-проекты не связанные непосредственно с анализом данных / ML?
Попроси два комплексных числа умножить
Неужели все это модное говно работает только на интернет-магазинах с фалосами или заводах с ебанутейшим оборудованием, в которое можно запихать компьютер вижн?
проблема в том, что кабанчики даже не начали накапливать данные.
Даже не пытались анализировать данные с помощью людей, чтобы потом на основе их знаний, сделать следующий шаг.
Но это постепенно меняется.
Ну рассказывай, Михал Палыч, че там с рогами?
ах да, вторая ступень - данные накопили, но они все еще поддаются анализу офисным быдлом. Кое-как в экселе повертели и готово решение.
С этой точки зрения, становится понятно как именно Пятерочка стала школой МЛ - их данные просто ни в один эксель не помещались. Пришлось что-то писать и упорядочивать.
Может помочь "простому быдлобизнесу" или нет зависит от его простоты, очевидно. Совсем простому наверное нет, другое дело что сам простой быдлобизнес экономике не очень-то и нужен.
> Как все выше обсуждаемое может помочь ему, простому быдлобизнесу, стоящему на кабанчиках, где твой основной продукт – это цена на твое барахло, ведь у твоих конкурентов оно точно такое же.
Никак. Суть того наебизнеса, о котором ты пишешь - связи и знакомства в теме такого наебизнеса. Грубо говоря, Вася с улицы купит бульдозер и останется при своих интересах. А Петр Иванович, проработавший в этой теме 20 лет, и знающий всех в городе, с таким же бульдозером легко будет получать тендеры и контракты как подрядчик. Машобчик в таких схемах не решает ничего.
вот пока ты так думаешь, так и будешь кошкодевочек раздевать и в кагл дрочить.
Ну да. На начальных этапах уж точно. Выучил стандартные решения стандартных задач и вперёд. Даже нормально кодить уметь не надо. Для второго-третьего курса говновуза самое то.
Авотхуй. Лично знаю несколько примеров, которые, нихуя по сути не понимая ни в программировании, ни в дотасаентистской «математике», устраивались на работу в дота саенс. Это тебе не пхд в области интеллектуального анализа данных в нормальном вузе, а работка в типичном бизнесе.
Датасаентисту, который связан с бизнесом нужно быть больше бизнес-аналитиком. Модели все написаны, успевай только импортировать модули, а вот присобачить эти модули к бизнесу, чтобы они профит приносили - это самое сложное и необходимое бизнесу. Чтобы понимать бизнес, нужно понимать менеджеров и потребителей, т. е. необходимы вкачанные софтскиллы, которые у самок обычно лучше развиты.
бывает, что навыки софт-скиллз, умение достигать целей и глубокое погружение в бизнес-часть ценятся больше, чем пресловутое умение кодить
ДА
>Чтобы понимать бизнес, нужно понимать менеджеров и потребителей, т. е. необходимы вкачанные софтскиллы, которые у самок обычно лучше развиты.
Так это просто не дата-саентист, а даун-аутист.
Как можно изучить нейронки, не изучив сути ?
Для кого во всех этих датасетах пишут подробные описания данных?
В том-то и суть. Нужно самому для себя сделать исчерпывающее описание для датасета, который сам же и собираешь. Чтобы потом уже фит-предикт сделать.
тогда что это за тред профнепригодных ?
Аааа ну возможно. Я таких знаю штук 6 минимум, 5 из них тянки.
лучший переводчик этого треда!
РДЖ?
ии ага, назвали бы реалистичней системы таргетной рекламы, как всучить вам товар порелевантнее
Ну это ты так думаешь. Много кому нужны простые быстрые модельки на один раз, а я еще и код нормальный писать умею. У меня уже был похожий опыт, но здесь, не догадался перенести его на все.
Что скажете по этому поводу?
где текстовый конспект высера? тезисы? с чем именно не согласен ?
вообще, ты как к вечно занятой илите айти обращаешься?
А что, слабо написать нейронку которая тебе краткий конспект видео составит раз ты такой ленивый?
> ты как к вечно занятой илите айти обращаешься?
Ахахаха посрал тебе за воротник, илитка ты наша.
Как вкатился? Программист, математик? Какой опыт?
Есть тут люди, мутившие небольшие стартапы в мл и дс?
Антоха Мальцев чем-то таким занимается
У меня затык на первой стадии. Я не могу сам себе задач нарезать.
работаю в чистом ML пару лет, но хочу перейти в NLP или CV - ну нравятся мне эти области
если отбросить "ну куда больше нравится туда и иди" (потому что привлекает оба варианта, а поработать год там - год там не очень хотелось бы), то куда бы вы посоветовали пойти?
С точки зрения перспектив / количества вакансии / амбициозности задач какое из направлений лучше?
Также вопрос: в случае чего насколько сложно совершить перекать из одного в другое?
Поделки делал и там и там, так что о чем области примерно понимаю, но если есть серьезные дяди тут, то интересно послушать ваг опыт
Нажимает кнопку "Регрессия" в экселе, наверное
Это много или мало?
Наверное потому что крутится вокруг эвристики if (тут пятно) then деталь_упала()
для чего нужно просто писать на c++.
Хадуп и все виды беспорядочно накапливаемых данных, которые мы пока не знаем как обработать, а тимплид требует 300 в мес
Т.е. фактически там никакого машоба и нет, что ли?
Точнее, оно там есть лишь в виде готовых библиотек обученных моделей распознавания образов на картиночках, а ты фактически работаешь как обычный программист?
ну фифти фифти
есть иногда очень замудренные задачи, для которых либо сетки в целом не нужны, либо их переучивать надо
Уважаемые, используется ли еще сейчас классический машоб, или все везде давно на разных продвинутых нейронках?
Нейронки в CV в основном. И для них с++ очень желательно знать. В других местах помимо навыка перебора гиперпараметров нужно быть бизнес-аналитиком, или дата-инженером-девопсом для регулярно падающего хадупа.
https://www.youtube.com/watch?v=Cs3ae65tmKA
Работаю в одной из консервативных забюрократизированных сфер, где словосочетание "data science" редко используется неиронично, используем в основном дедовский generalized linear model с табличными данными из-за его максимальной интерпретируемости в сравнении с другими моделями. В редких NLP задачах DL тоже не используем, только более явные и понятные методы типа cosine similarity. CV проекты отсутствуют в принципе.
Вообще если, например, пойдешь рисковиком в банк и другие подобные места - в основном будешь работать именно с самыми консервативными из дедовских методов, хотя сейчас у многих банков появляются позиции DS для, в том числе, CV проектов, + есть микрокредиты, где обычно более лояльно относятся к более прогрессивным технологиям, так что и в консервативных сферах типа финансовой помимо дедовских методов надодится место и всяким новомодным вещам. Вообще, гораздо больше мест, где используются дедовские методы, просто обычно они не называются модными словосочетаниями типа data scientist.
С++ не нужен бизнес-аналитикам, которым софт-скиллы важнее понимания машоба, а для нормального МЛ разработчика это вообще основной язык.
ну ты людей то не пугай
все от поля деятельности зависит
вон, тот же Антоха Мальцев говорил, что они почти не пишут на крестах. Хотя его команда пилила 3д сканирование с помощью ЮАРОВ (робот такой промышленный)
Также в ОДС часто спрашивали насколько нужен с++ для зрения, и ответ тоже не то что бы был однозначным - большенство как раз-таки сошлись на мнении, что он нахуй не нужон
алсо друган устроится цвшников на питоне
короче я вижу так: где нужная какая-то прям дико оптимальная хутиа - там кресты (правда вопрос, занимаются ли цвшники оптимизацией на крестах - все таки тоже огромная область). В остальных случаях - может вытянуть питон (может си шарп)
в любом случае нормальный программист хотя бы 1 си подобный язык должен примерно знать
и ты, прежде чем бросать такие фразы, хоть пруфани, а
еще раз
я не говорю о том, что все так делают
если есть такие конторы, и у них все ок ( а у некоторых и правда все ок) просто закупая видюхи и напиливая продукт дальше - то это НОРМАЛЬНО, как бы твой манямирок не сопротивлялся, дедуль
как будто идея закупать доп видюхи для цв (как и сервера для классического проганья) это что то новое и вообще зумеры заебали лезут к нам ууу ряяя какой я злой раньше было лучше
лично я , конечно же, за подход - цвшники делают алгоритмы (оптимальные с точки зрения алгоритма) - прогеры их оптимизируют (с токи зрения кода\архитектуры и пр)
но опять же ничего не имею против первых
подумать, точно ли ты хочешь перекат в мл
также подумать, чего ты ждешь от работы
глянь видос выше, там неплохо это рассказывают
если ты прям кодируешь, а не лабы делаешь, то твои скилы уж точно в мире данных пригодятся
а если кратко: учи вышмат питон и эскюэль - на степике все есть
>подумать, точно ли ты хочешь перекат в мл
Ну конечно. Перспективная сфера же.
>питон
Читал что на нём ничего сложнее бота для шахмат не написать.
Нет, 2 видюхи примерно на 60%, а не на 100% быстрее чем одна, из-за оверхеда на пересылку данных по шине.
Но памяти побольше будет
ну я вот его смотрю и мне збс
не чувствую НЕОПТИМАЛЬНОСТИ их кода
ве быстро и круто
и ты, дед, сиди и дальше байты еби
>для нормального МЛ разработчика это вообще основной язык
Тензорфлоу написан на крестах и оптимизирован до максимума, так что лучше ты все равно не напишешь. Всякие библиотеки для CV и работы с данными тоже сделаны на крестах, и могут быть использованы в многопоточном режиме. Подсчет метрик, построение графиков и прочее производительности не требует. Ну и зачем машобщику кресты?
плюсую молодому человек (или человекине)
>Зачем машобщику математика?
Чтобы уметь воспроизводить модели из SOTA пейперов и использовать их для решения задач бизнеса.
Я предвидел это!
>где словосочетание "data science" редко используется неиронично
А в научном сообществе вообще всегда это звучит иронично. Потому что дота саенс не наука.
Для моделей в пандасе не нужен, а в OpenCV очень даже нужен. Питон, хоть и оперирует либами на С, но однопоточный GIL никто не отменял.
Это как посмотреть.
Чистая математика находится на границе познаваемого, далее начинается философия, в которой уже нет никаких критериев истинности.
Ну а вообще да, они связаны, наверное.
Забавно, что согласно критерию Поппера математика наукой не является.
А они реально что-то умеют? Или нужно искать барина на постоянной основе.
Посмотрел заказы. То, что я с двумя такими же джунами делал 3 месяца хотят купить за 45к рублей. Это буржуйская народная забава такая, покупать и продавать говно?
Гит, лол
Как же он заебал. В последних видосах уже прямо говорит, что не знает о чем снимать и просто про все говорит.
Философия пытается, но у неё нихрена не получается.
Естественные науки философию не используют, только математику.
В общественных и гуманитарных, да, философия нужна, однако, вполне возможно, только до тех пор, пока использование математики в них затруднительно.
Для использования математики нужны базовые экспериментальные постулаты, которые можно было бы положить в основание теории в качестве аксиом, иначе польза от математики может быть только локальной. Например, как теория аукционов в экономике, при этом сама современная экономика имеет вид скорее кулинарной книги с кучей рецептов, чем цельной теории.
В общественных науках воспроизводимые эксперименты ставить не получается (по крайней мере, пока), поэтому и теорию не построить, именно поэтому приходится обращаться к домысливанию, т.е. к философии.
Лично я думаю, что прорыв в теоретических разработках общественных наук будет возможен только после глобальной цифровизации всего общества, и когда в этой огромной мешанине бигдаты будут найдены некоторые инварианты общественных отношений (если они вообще существуют), которые и будут положены в основание теории как аксиомы.
Чувствую, математика там будет совершенно упоротая.
Пиздец, вот же где машоб развернётся на всю катушку.
Ну тут опять смотря что считать наукой.
По Попперу научная теория должна быть принципиально опровержимой, а в математике теоремы это не предмет споров. Теорема это теорема, и всё тут.
>только математику.
Перестань, никто твою математику не использует, это она плетется и подбирает все что придумывают для решения прикладных задач
>глобальной цифровизации всего общества,
Говно без задач, даже твои кампутепы до 2021 не совершили никакого общечеловеческого прогресса и не совершат.
Кто придумывает?
>компухтеры не совершили прогересса
Как там КПД ДВС двигателей выше 40% стал? Или может жечь жижу перестали?
Философия, что в гуманитарных, что в технических науках - первородная наука, из которого произрастает методология научных исследований + букет социальных наук типа социологии, психологии и т.д. Без философии в естественных науках не будешь понимать некоторые вещи в методологии научных исследований, а без адекватной методологии не сможешь эффективно провести исследование, правильно оформить все, опубликовать результаты, и не быть обоссаным редакцией и научным сообществом. Т.е. можно обойтись и без именно философии, но некоторые вещи будут хуже восприниматься.
Вне науки, в прикладных сферах, применения ей вообще нету, ну кроме удовольствия от знания разве что.
А, ну тогда ладно.
Ну хрен знает. С одной стороны вроде и правильно, а с другой...
>Вне науки, в прикладных сферах, применения ей вообще нету, ну кроме удовольствия от знания разве что.
Это, очевидно, верно.
Аноны, поясните за топологический анализ данных. Эта тема уже вошла в индустрию, или еще только на уровне научных наработок?
Ты не ту философию учил. В вузах есть отдельный курс " Философия науки".
Видел этого шиза в пораше. Возможно это бот
А то диплом надо писать, а в голову нихуя не идёт вообще
>диплом надо писать
>придумайте мне пожалуйста задачу
блин, твой диплом это уровень детишек с лопатками в песочнице
>писать то всё равно его надо
Генератор времени лекция для сдутепедерастов, ну что бы время с разными группами не пересекалось, что бы преподы могли кофе попить и всем было удобно.
https://thisanimedoesnotexist.ai/
Какие то пиздоглазые уебища
>>32798
>>32807
А кто такие жопеншмульцер, битерлессон и вапникошиз, которых тут вечно форсят? И почему между ними вечный срач?
Жопеншмульцер - пародия на термины (конкретно - на фамилии учёных, в честь которых эти термины названы), которые современные машобообезьяны не знают.
Bitter lesson - статья какого-то жопеншмульцера о том, что нужно не пытаться добавить к модели знания о предметной области, а собрать побольше данных и настакать слоёв.
Вапник - древний дед, один из разработчиков теории Вапника-Червоненкиса, ещё из тех времён, когда в машобе доказывали теоремы, а не просто гоняли модели на датасетах и хвастались, что побили сота.
Спасибо!
Про теорию Вапника-Червоненкиса я знаю.
А вапникошиз, получается, это тип, который форсит эту теорию и вообще научный подход в машобе?
А остальные ему в ответ: «Пишол нахой, ябучий учонодед»?
Методологию исследования придумывают всё же никак не профессиональные философы, а всё те же учёные.
Поддерживаю. Философы, фактически, просто констатируют методологию, которая складывается в научном сообществе.
>Философы, фактически, просто констатируют методологию, которая складывается в научном сообществе
Ну так и математики то же самое делают. Математика сорт философии.
Спасибо.
>а их логарифмы
Они не стационарны. Равно как и их квадраты/квадратные корни.
Проблемы засунуть оригинальные признаки в модель нет.
Проблема в том, что полученные стационарные признаки дают на выходе какую-то шнягую.
Вот и вопрос, что делать.
Лул. Нет же.
Где искать-то работу джуну?
последний курс, выбираю между беком и нейроночками
Нужно по стажировкам метаться кабанчиком и молиться, чтобы после стажировки оставили.
Посоны подскажите с чего начать? Я в этом полный ноль.
Я хочу написать игрового бота для FAF используя нейросети, что бы бот самообучался и все лучше играл в игру как например AlphaStar играет в StarCraft 2.
Библиотеку хочу использовать TensorFlow.
Меня интересует какие данные нужны для такой нейросети, допустим я подключился к API игры и достал оттуда координаты юнита, действия которые этот юнит может делать, например переместится в заданную точку, как мне все это передать в нейросеть и как заставить нейросеть сделать так что бы юнит двинулся к материи и построил там экстрактор материи?
Насколько это сложно сделать?
И что в теории мне нужно сделать?
По каким словам кроме data scientist искать вакансии вообще?
И есть ли какой-то профит в платных курсах типа skillbox, которые обещают трудоустройство лучшим ученикам? У меня все-таки есть преимущество перед васянами, которые увидели рекламу и пошли за изи мани, в виде диплома по компуктерным наукам и пары нейронок по курсовым работам. Или это развод всё?
>Я от каждого угла слышу, что сейчас всем нужны дата сциентисты
Я не слышал, ты там поди в пузыре гугля перемогаешь?
>Питон, хоть и оперирует либами на С, но однопоточный GIL никто не отменял.
отменял.
причем, второе как следствие первого.
Аноны, как думаете, GPT-4 уничтожит программистов, если его на всём гитхабе обучат? И кто такой этот ваш transformer? Почему именно он показывает такие охренительные результаты?
Преобразуй боксом-коксом. Избавься от сезонности/тренда. Возьми разницу единичного сдвига. Почисти данные от выбросов.
Проблема в том, что даже если получится стационарный ряд (по DF-тесту), то с настройкой какой-нибудь аримы ты будешь ебаться примерно столько же, если вообще она заведётся.
Тестил какой-нибудь стандартный регрессор (линейный или бустинг) на простых выделенных фичах? Если он работает не лучше чем "предсказывать предыдущее значение", то может задача просто не решается?
>Проблема в том, что полученные стационарные признаки дают на выходе какую-то шнягую.
мусор на входе - мусор на выходе.
Что, если тебя просто в самих данных нет никаких оригинального "сигнала", а лишь шум сигнала, искаженный через кучу кучей фичей?
В стандартной схеме ты должен был бы "добавить фичей". Желательно чтобы модель понимала временной лаг.
Но мусор есть мусор.
>Посоны подскажите с чего начать?
Пройди курс по DL и RL. С последним можешь быстро ознакомиться тут https://github.com/FortsAndMills/RL-Theory-book/
>Меня интересует какие данные нужны для такой нейросети
В 99.9% тебе будет нужна какая-то награда от среды, причем это должно быть что-то более плотное чем исход матча. В зависимости от алгоритма тебе будут нужны либо траектории эпизодов, либо четвёрки state-action-reward-state'.
>как мне все это передать в нейросеть
Так, как это всё делается в твоём любимом DL-фреймворке.
>как заставить нейросеть сделать так что бы юнит двинулся к материи и построил там экстрактор материи
Как действия векторизируешь, так и заставляй. Например, 0 - стоять афк, 1 - двинуться к материи и построить экстрактор, 2 - сдаться.
>Насколько это сложно сделать?
Советую не лезть сюда. Лучше уж на ифах, потенциальных полях и fsm'ах.
>>33918
У кода на гитхабе нет контекста. Ты по импортам не поймешь, что от тебя требуют написать.
>Избавься от сезонности/тренда.
Промежуток не указан. Т.е. можно взять период в тысячи измерений, и даже что-то осмысленное можно получить. Вопрос, почему именно эти тысячи, а не другие.
>Возьми разницу единичного сдвига.
С ней как раз херня получается, как на картинке 3.
>Почисти данные от выбросов.
Там выбросов не особо.
>Тестил какой-нибудь стандартный регрессор (линейный или бустинг) на простых выделенных фичах?
С просто фичами или фичами, преобразованными через квадраты/логарифмы, работает. Потому что они не стационарны. А вот со стационарными( это желательно по условию задачи) - есть вопросы.
>>33646
>мусор на входе - мусор на выходе.
Там не мусор, просто временные ряды через равные промежутки времени. Но промежутки эти - не указаны. Может быть это секунды, может минуты, может часы, может дни. Не поймёшь.
>В стандартной схеме ты должен был бы "добавить фичей". >Желательно чтобы модель понимала временной лаг.
Давай уточним, что есть стандартная схема?
У нас есть фичи, мы их преобразуем в новые и новые же используем, не касаясь старых?
могу скинуть изыскания и данные
>Но промежутки эти - не указаны. Может быть это секунды, может минуты, может часы, может дни. Не поймёшь.
Подбери на кросс-валидации.
Аноны, нужен хелп
Есть задача на диплом - реализовать размытие/замену фона на вебкамере, используя СНС, т.е. по факту это семантическая сегментация изображения. Есть три вопроса:
1. Какая архитектура больше всего подходит для этого (UNet, Enet, SegNet)?
2. Можно ли использовать COCO датасет с различными сущностями (машины, люди, животные, дорожные знаки) или лучше использовать LiP датасет, в котором онли люди?
3. Стоит ли сразу делать размытие/замену фона на вебкамере или лучше чуток попрактиковаться на изображениях/видео?
Заранее спасибо
>Давай уточним, что есть стандартная схема?
предположение, что существует еще более точная фича-предиктор, которая отражается на те, которые сейчас есть и неудовлетворительны.
>Там не мусор, просто временные ряды через равные промежутки времени.
вот сразу бы так и начал. А то приплел каких-то графиков ебанутых.
это должно дедовскими SARIMA-и прилично решаться.
>могу скинуть изыскания и данные
Мамке своей скинь.
>Два пика/периода поголы не сделают.
>временные ряды через равные промежутки времени. Но промежутки эти - не указаны.
У меня сомнения, что у подобной оригинальной фичи - два периода.
Анон, ты ещё тут? Или ты >>34071 ?
>это должно дедовскими SARIMA-и прилично решаться.
Пробовал, подобрать коээфициенты авто-аримой, потом засунуть в SARIMAХ - результат не идеальный.
>Мамке своей скинь.
Не она же решает задачу.
Алсо, наглядное представление быстрее поможет, чем перекидывание фразами и вопросами пол-треда.
да почему ты не смиришься с тем, что данные лежат за пределами выборки? ты сам как человек можешь решить эту задачу?
Если не можешь, то и от машины не жди.
вот тут недавно нашел хорошую ссылочку куда следует всех форекских шизов в машобе:
https://ru.qaz.wiki/wiki/Efficient-market_hypothesis
>Гипотеза эффективного рынка ( EMH ) - это гипотеза финансовой экономики, которая утверждает, что цены на активы отражают всю доступную информацию. Прямое следствие состоит в том, что невозможно постоянно «обыгрывать рынок» с поправкой на риск, поскольку рыночные цены должны реагировать только на новую информацию. Гипотеза эффективного рынка - https://ru.qaz.wiki/wiki/Efficient-market_hypothesis
>ты сам как человек можешь решить эту задачу?
Со стационарными признаками затрудняюсь. С оригинальными это точно решаемо.
Вот, например, признаки, полученные через diff() и через shift(10000), т.е. со смещением в 1 и 10тыс.
Вопрос, можно ли эти 10тыс. как-то обосновать? Или это всё экспериментально берётся?
Как по мне - какая-то хуйня со слишком большой ошибкой.
>форекских шизов в машобе
Тебе ж говорили, это просто обезличенные данные, а не рубли, не курс валюты, не цены на золото или нефть.
> Тебе ж говорили, это просто обезличенные данные, а не рубли, не курс валюты, не цены на золото или нефть.
Это противоречит философии прогнозирования. Так что иди нахуй, шиз форексовский.
Нет, ты.
Можно построить физическую модель в виде системы дифференциальных уравнений и решить ее. Подставив потом начальные данные в нее можно будет прогнозировать их изменение.
Машоб нормального человека.
Юзай только людей раз и сначала научись кадр правильно сегментировать, а потом уже видео покадрово разбирай. Так проще
Найс рофл!
Ок. Так и сделаю. Спасибо
Можно битерлессон почитать и не лезть своим матанопетушинным рылом в нейронный ряд
Котятки кто отвечает за эту Шайтан машину? Напишите в какой компании вы работаете и мы поможем отмазать её и вы может даже на мороз не попадете или под клеймо разведки США что с вами никто в европе здороваться не будет
Только не врите, хотя наверное полиси в новых санкции будет по всему сектору, но у вас есть шанс, особенно после jetbrains
Если вы из этой шараги которая помогает ментам - бегите прямо щас иначе блэклист карьеры пожизненно
То есть смысл санкций в том чтоб толковые специалисты не бежали с рашки помогая делать западную экономику ещё могущественнее а оставались и совершенствовали российские пыточные вундервафли? Я знаю что у либералов российских конечно со стратегическим мышлением не очень, но не перестаю каждый раз удивляться.
> Нас несколько включая юриста международника.
Скорей бы уже статью о госизмене дополнили для вас.
Ты думаешь режим стагнирующей 1.7% мирового ВВП тоталитарной дыры проживет ещё 10 лет?
ватный AIшник лол,
тебе пизда гнида
>западных API, облаков, лицензий
Делать бабло или удовлетворять претензии полутора окатышей? Хммм, что же выбрать..
Ну да давай поделай под пожизненным отрезанием от бакса.
Будет как с Роскосмосом который обложили санкциями ему пиздец
>Будет как с Роскосмосом который обложили санкциями
А как же свободный срыночек и копетоглизм?
>Там где ai рядом с государством там это и так запрещено
Так сектарально же, будет написано полиси об malicious activity и пошли нахуй все, Иранцев вообще от ГитХаба отрубили к хуям.
Буит весело))))
>А как же свободный срыночек и копетоглизм?
Россия сегодня антилиберальное говно вроде Ирана, пока гитхаб, API и прочее, будет как в Иране или Крыму.
>пошли нахуй все
Ну и пойдут нахуй все кроме государственной слежки и впк, то есть браво мистер биден.
>Ну и пойдут нахуй все кроме государственной слежки и впк
Ну то есть кормовая база для слежки и впк, меньше денех и данных двойного назначения гражданского сектора у режима - быстрее конец
Война она всегда тотальная.
доооо))) так нормально, что на гражданах США живут как на прокладках, такой скулеж был в свиттере прошлой зимой
Нет, иранское айти в агонии, режим вот вот падёт.
> Пишу из Крыма, купил впн муллвад, захожу на гитхаб и ему похуй вообще. Привет.
Куколаб можно полноценно использовать через ВПН?
>Пишу из Крыма, купил впн муллвад, захожу на гитхаб и ему похуй вообще. Привет.
Ну попробуй поработать на fortune 500 с маняпаспортом и из под впн)))
Детский Сад.
Простой, уже есть коммьюнити и инфраструктура.
Твое обывательское мнение в целом нас не ебет.
Мы зарабатываем не на Доте, а на предсказаниях и автоматизации более скучных вещей.
И много заработали своим ctrl-c ctrl-v?
https://contest.com/docs/dc2021-r1
Ты не понимаешь, у них калмьюнити и синтезация идей!1!
Что не так с ботом для дерьмодоты 2? Если смешно исковеркать название игры, то это перестаёт быть каким-то достижением?
Ну как тебе сказать. В мире 21 века где может случиться вирус тупо парализующий жизнь на год и в мире где порядка 20% населения не имеет доступа к питьевой воде и еде сидеть и потеть годами над проектом чтобы несколько кк прыщей посидело с открытым ртом или пилить автопилот для машины и выставлять это чем-то ТАКИМ ГРАНДИОЗНЫМ, ТАКИМ ПРОРЫВНЫМ! Как минимум заставляет задуматься над адекватностью таких людей и людей которые хавают подобное.
Даже без ВПН позволяет. Скажу больше - Гитлаб работает без ВПН. Охуеть, да? Это потому что дебилы-леваки типа персонажа выше >>34798 не понимают что такое санкции и зачем их вообще применяют.
>>35071
>fortune 500
Работают здесь на твои форчун 500 некоторые, у всех фирмы зареганы в Москве просто. Привет.
>они не делают то, что я считаю важным, поэтому они неадекватные
Окей. Тогда про уайлса или перельмана тебе лучше не знать.
>ТАКИМ ГРАНДИОЗНЫМ, ТАКИМ ПРОРЫВНЫМ!
А оно не прорывное?
У тебя баттхерт, кресты реально не нужны, когда у тебя дата саентисты, которые должны шарить в соответствующем матане и не более - нахуярили мвп на скриптоговне и ладно.
>ссылка
Нужно с нуля машобный алгоритм настрочить? Или какой-нибудь торч все-таки можно использовать? В чем смысл?
x1 - население
x2-x5 - региональная популярность из яндекс-вордстата, по ключевым фразам
х6 - количество магазов в нашей нише
у, соответственно, средняя выручка за три месяца
Имеет ли смысл на этом тренить, или нарезать еще фичей?
Температуру предсказывать? Ага, конечно.
На ум вообще ничего не лезет. Может ещё какие фичи добавить?
Типо того. В университете есть база данных с этими показаниями, она в открытом доступе, а я как раз МЛ изучаю, хотя больше нейронки на PyTorch пишу.
Препод есть, который горит всей этой идеей (сборкой этих приборчиков, рисованием графиков, и так далее. Хочет такую большую систему создать), и я хочу, так сказать, подлизаться + получить практический опыт.
Я тоже об этом подумывал, но что-то не понял: а что вообще сделать? Что кластеризовать?
Есть множество показаний с разных приборов и... что?
Линейную регрессию на температуру наложи. Потепление климата будет показывать.
так может ты у него и спросишь что ему нужно?
Совершенно дебильная идея делать что-то без цели. Она не несет азарта.
Плохо, конечно, когда азартная идея слишком сложна и не решается. Но ведь препод точно знает лучше чем ему загрузить студентов на долгие годы вперед.
Собери ЕЩЕ каких-нибудь данных типа обезличенной успеваемости из Мудла (у вас есть Мудл?) и проведи параллели.
В чистом виде от температуры мало полезного.
Ну вот в этом пространстве твоих измерений и кластеризуй, если так получится что там несколько явных скоплений а остальное шум можно попробовать проанализировать что это за состояния что такое разделение вызывают, чем отличаются итп. Если размерность большая, пробуй уменьшать всеми популярными и не очень методами. Исследуй, ёпта.
Есть ли какой-нибудь алгоритм на :ython: для кластеризации облаков точек, который плюс-минус будет приближен к риалтайму? Размер облака примерно 70к точек (понятно, что можно уменьшить размер). Данные не с лидара, а с ргбд камеры.
Пробовал dbscan из sklearn.cluster, но хотелось бы еще быстрее
если у него dbscan не вывозит, то что еще остается?
вроде это и так современный и быстрый считается.
Керас это надстройка над слесарьпловом.
спасибо, чел
>habr.com
>С результатами, если честно, туго :). Дальше экспериментов дело не пошло, настало время защиты, и нормальных результатов нет.
Я понимаю, что швабропидоры говноеды по определению, но давать ссылку уважаемым двачерам не только на швабропапашу, но и на высер прыщавого студераста которы там посмотрел пару видяво на ютубчике это уж слишком
> В системах быстрого реагирования типа скальпинга
Ты название треда читал? Какой скальпинг, але. Алсо, на пистоне слишком много написано, да чего там, 100% актуального машоба это пистон. Никто все это переписывать не будет.
> Почему петухон?
Сто раз объясняли же уже: господам ресёрчерам и аналитикам слишком много и быстро нужно проверять свои идеи, дрочиться с быстродействием, "чистым кодом" и прочими идеями фикс программисточеляди процесс только замедлит.
>В системах быстрого реагирования типа скальпинга
У команд которые занимаются игрой на фондовых рынках отдельные люди занимаются созданием торговых алгоритмов и сигналов и делают они это на чём хотят, а другие оптимизируют эти придуманные алгоритмы под быстродействие и сеть (вот там и сишка, и даже глубже в полный рост).
>Держи в курсе.
Если ты хоть раз называл работодателя "человеком от бизнеса", то можешь и не пытаться продолжать
Ctrl-C, Ctrl-V обезьянка, успокойся, а?
>в школе сказали?
оно и видно
фанбоем крестов в 2k21 может быть разве что восторженный школьник, верующий в НАСТАЯЩЕЕ ПЫГРАМИРАВАНИЕ, не зная даже рынка труда
Могу позволить себе стабильно её оплачивать не имея постоянной работы прогером. Ещё вопросы?
"В системах быстрого реагирования типа скальпинга" важнее всего не твой ко-ко-код, а скорость канала связи
>Я почти всё собираюсь с 0 писать.
Это нормально если ты учишься. Я когда был студентом тоже любил писать велосипеды, в том числе нейронки без использования библиотек. Но со временем понимаешь, что это никому нахуй не нужно, и лучше решать задачи бизнеса и получать за это деньги.
>>36935
>господин можеть позволить себе закрыть ипотеку за 2 года?
Причем здесь питон и вообще машоб? Чтобы закрыть ипотеку за два года надо быть директором в крупной компании.
>Могу, но на кой даунгрейдиться?
А куда ты будешь даунгрейдиться? Ты же не в петухон-разработчики собрался, а в дота саентисты.
А дота саентисты промышленный код не пишут, они быстро собирают модели и проверяют гипотезы. Простой скриптовый петухон для этого как раз подходит.
>Мало ебёт. Я почти всё собираюсь с 0 писать.
На работе на дядю за монеты ты этого делать не будешь.
>>36815
>В системах быстрого реагирования типа скальпинга
Не поверишь, дота саентисты и там петухон юзают.
PS я уже программировал свою собственную многослойную нейронку обратного распространения без использования Tensorflow и пр
МЛ алгоритм или что?
как эти абстракции заебали. абстракции теряют важную информацию. оптимизация заключается в использовании важных не вполне видимых возможностей. Ты же не на матеше.
вывод : тебе никак не ускорить.
Ага, а в комментах толпы дрочеров практически ей в любви признаются.
Ну глянь питон, потом уже матан смотри. И не матан, а математика.
Для обычной работы в датасайенсе достаточно базовой технической математики. То есть формулы и несложные базовые концепции (особенно из статистики, чтобы тестировать гипотезы).
Питон тоже базовый, скриптописание, не промышленный код.
Хиромантия хйня.
Стейсуха в дотасаенс!
Слушай, ну вот серьезно? Освоил программирование, написал свою нейронку без всего и не освою ML? Ну вот ты хоть себе не ври, а тем более не пытайся опускать других.
Это не отрицает того факта, что я благодарен тебе за то что тыкнул меня носом в ссылку. Мне по началу показалось, что в посте ссылки только на занудные абстракции с минимумом практики. Оказался неправ
Сначала на питоне пишут. Если модель сидит на потоке данных, то переписывают на плюсы. Также как сначала делают восковую модель будущей статуэтки, а потом закапывают ее в песок и заливают бронзой. Можно сразу из бронзы делать, но эффективнее двухступенчатый метод.
Физический ввод с клавы - это ведь весьма медленный процесс, если сравнивать его со скоростью мысли.
Есть одна идейка как научить ИИ воспринимать речь и переводить ее в код, не каждую букву или слово диктовать, а именно паттерны.
Функция с замыканием, возвращает переменную со значением..
Типо так нагаваривать.
>Физический ввод с клавы - это ведь весьма медленный процесс, если сравнивать его со скоростью мысли.
Вряд ли машинистки что-то перепечатывающие согласятся.
>Функция с замыканием, возвращает переменную со значением..
Так чтобы такое сказать это надо блоксхему какую-то делать или ещё что-то да и если удалить что-то надо, то как? Целыми блоками? Или попробовать?
@
ФУУ НЕ БУДУ Я ПРИМЕНЯТЬ КАКОЕ-ТО СТАРОЕ СОВКОВОЕ ГОВНО
@
ВООБЩЕ-ТО ЭТО RIDGE REGRESSION
@
ОМ НОМ НОМ ММ VERY DATA MUCH SCIENCE
Да, типичный дотасаенс.
В чём суть трансформеров?
Так над этим и хихикаем же
Сказано же, потому что в туториале соевым про тихонова написали, а про жопеншмульцера не написали.
По закону тождества.
Жопеншмульцер никому не нужен, кроме местного шизика. Поэтому он и натягивает его на всё подряд. Про тихонова же знает любая собака, умеющая нажимать shift+tab.
Внимание, вопрос: насколько такой опыт будет релевентен в будущем? Если я год отработаю на этом проекте, скажем, занимаясь по сути самообучением, смогу ли потом устроится джуном-саентистом в другую фирму? Или без опытного ментора это вообще гиблое дело?
питон знаю, имею базовые представления о мл
>nlp
Самое слодное в дс. Для полноценного понимания речи нужен контекст на который нейросети пока не способны. НЛП работает только в очень конкретных случаях типа техподдержки.
>смогу ли потом устроится джуном-саентистом в другую фирму
Сможешь, по сути твой вариант этот тот о котором все айтишники вкатуны в дс мечтают.
Я не обозначил, что сам человек тоже не сильно шарит и только учится хотя сам по себе он опытный программист. Разве все вкатуны не мечтают о менторе?
Просто я боюсь, что в итоге будем делать хуёвый проект самыми базовыми методами, ни про тонкости не узнаю, не про фишки какие то, а в других компаниях тебя будут считать джуном только если ты год работал под чьим-то надзором
Ну зато в резюме у тебя nlp.
И кто сказал что классика на bag of words плоха, если она справляется?
не знаю. На собесах же будут спрашивать про более сложные вещи, наверное в нашем проекте сейчас tf-idf, лол
Эх джуны-джунчики. Берёшь и без задней мысли говоришь что вовсю наворачивали gpt с бертами, информацию общего плана и детали учишь гуглением, на более тонкие моменты говоришь что ты всё таки джун и этим занимались более прошаренные чуваки. Проверять никто не будет.
> Trevor Hastie et al. "The Elements of Statistical Learning"
> Christopher M. Bishop "Pattern Recognition and Machine Learning"
Наверняка есть те кто читал или пытался. Осилю ли я что-то из этого если до этого никогда не читал книг на англе, только тексты небольшого размера регулярно подглядывая перевод незнакомых слов? С одной стороны понимаю, что слаб достаточно в англе, с другой, техническая литература читается попроще художественный. Если считаете что не осилю прямо сейчас, то дайте совет как прокачаться в англе чтобы в среднесрочной перспективе смочь прочитать талмуд по млу в оригинале?
Теперь такая хуйня, скатывается в локальный минимум, как лечить?
Обычно локальные минимумы достаточно хороши, чтобы можно было не искать глобальный.
Поменяй архитектуру, добавь данных, настрой параметры lr.
>Поменяй архитектуру
я сначала задачу решил на логических операциях - xor, and, or и т.д.
потом перенес на нейроны и ручками расставил веса - заработало.
потом расставил веса рандомно, обучил и тоже заработало.
архитектура подобрана идеально, меньше не взлетит, больше - избыточно.
и вот эта сука иногда не учится совсем!
>>39309
не существует метода обучить xor? чо за хуйня?
>архитектура подобрана идеально
Покажи, кстати.
>больше - избыточно
Похуй. У тебя почти во всех задачах непонятно, где это "избыточно" начинается.
Нахуя тебе 9 выходов?
Потому что видимо это и есть норм решение
Как вообще связаны сообщения >>39160 и >>39352?
>не существует метода обучить xor? чо за хуйня?
Чтобы реализовать XOR, достаточно взять три нейрона, два в первом слое и один во втором (полносвязно). Либо же один нейрон, но с третьим входом в виде произведения операндов.
И чего там в одном XOR обучать вообще, блеать? Впиши веса руками сразу, алкаш. Кумыса выпей.
Что скажете про ML.NET? Годнота или нет?
Ничего про дотнет не знаю, но если ты хочешь вкатываться в мл всерьёз и надолго, то питон один хер придётся учить.
>Чтобы реализовать XOR, достаточно взять три нейрона, два в первом слое и один во втором (полносвязно).
а у меня сколько?
>И чего там в одном XOR обучать вообще, блеать?
ебанутый?
Такого я еще не видел. Христианская наука о данных!
>Чтобы реализовать XOR, достаточно взять три нейрона, два в первом слое и один во втором (полносвязно).
ебать ты наверное умный.
вот это иногда не хочет учится. у меня тоже.
С этим можно боротся, кроме как перезапуском?
Можно изучить ml.net и найти себе место в низкоконкурентной области...пока ты все проебываешь с SOTA в биржевых предсказаниях, например.
> ебать ты наверное умный.
А ты так вообще титан мысли, доктор Манхэттен нахуй. Посмотри на картинку, что ты принес, ты там 9 выходов видишь, зумерша с тиктока?
Наверное, можно. Я просто к тому это сказал, что питон основной язык индустрии, и все новые разработки на гитхаб выкладывают на питоне.
>Как там вообще можно додуматься до 9 выходов
это 9 xor, мне так нужно.
чому ты такой ебанутый?
>Что за прога?
http://synset.com/ai/ru/nn/NeuroNet2D.html
>Почему сеть не учится?
иногда попадает в глобальные минимумы
>и найти
или не найти
низкоконкурентная - значит нахуй никому не нужная
и вообще, назовёшь такую область или это лишь твои фантазии?
>для своих целей
каких целей? набросать прототип быстрее и проще на петухоне, зачем ебаться ещё и с майковским говноделием
Заводик в Хуево-Кукуево во встающем колен дотационном российском сельском хозяйстве. Деньги навозом не пахнут.
зачем на заводике мышиное облучение
но это ладно
а щоб було
главный вопрос - почему обязательно дотнет?
Потому что программист мог не знать ничего другого.
Кстати, в sql вроде подвезли всю классику дедовскую давно.
Открою тебе страшную тайну: любая задача машинного обучения сводится к задаче оптимизации. Так что и проблемы теории оптимизации перетекают в проблемы машоба.
Градиентный спуск в принципе не может гарантировать достижение искомого глобального минимума, потому что использует только локальную информацию о поверхности, представляющей оптимизируемый функционал. Соответственно, алгоритм обратного распространения тоже.
Далее начинаются танцы с бубном. Эвристики.
Танцы с бубном для нейронок заключаются в выборе конкретного градиентного метода и в выборе структуры самой сети, а также в выборе начальных значений весов. По каждому пункту существует куча рекомендаций, и при этом нет никакой теории. Потому что танцы с бубном.
Перезапуск, кстати, и относится к выбору начальных значений весов.
Короче, танцуй с бубном.
Быть может, тебе тоже кумыса налить?
https://colab.research.google.com/drive/15SWvQeO5tJziKdyh8ISJNMvGAZyr_zun?usp=sharing
Книг этих я не читал. Но как человек, имеющий некоторое отношение к математике, скажу вот что.
Техническая (или математическая) литература действительно читается проще художественной, причём гораздо проще, особенно, если у тебя уже есть некоторое представление о предмете.
Так что на самом деле тут вопрос не столько в английском, сколько в математике. Если ты в целом хоть что-то соображаешь в той математике, о которой собираешься читать, будет довольно не сложно. Конечно, даже в сухом математическом тексте бывают неочевидные синтаксические конструкции, но их довольно мало.
Я, например, научился читать (и понимать) математические книги гораздо быстрее, чем хоть как-то говорить.
А книги твои, как тут говорят, "дедовские", так что там явно должна быть математика, в отличие от современных книг по машобу для программистов. С другой стороны, программистские книги читать еще проще.
Короче, думай не о том, осилишь ли ты английский, а скорее о том, осилишь ли ты математику. Такие дела.
Могу еще посоветовать очень годную книгу на эту тему.
короче я перекатываюсь к вам из геймдева (хочу в мл инжениринг - который больше про проганье, чем матешу и юпитер)
скажите, при условии, что для вкатывания с математикой все ок и что знаю питон, на какие вещи, с точки зрения api и прочих тулзов нужно обратить внимание для вката?
Я просто в гугле совершенно разную инфу нахожу и не могу более-менее структурированный список составить, чтобы покрыть какой-то процент вакансий.
pyspark? hadoop?
подскажите плиз
Если ты спрашиваешь конкретно про библиотеки, то я бы рекомендовал учить вот это (в перечисленном порядке): numpy, pandas, opencv, matplotlib, scipy, tensorflow, keras. Ну и не забывай про стандартную библиотеку питона, в ней тоже много чего интересного.
Судя по всему, он спрашивал скорее про инфраструктурные вещи типа hadoop, mapreduce, нереляционных датабаз, распределённых вычислений и т.д.
>Судя по всему, он спрашивал скорее про инфраструктурные вещи типа hadoop, mapreduce, нереляционных датабаз, распределённых вычислений и т.д.
Это все из биг даты и к машобу отношения не имеет.
d2l.ai самая годнота.
Смысл в шапке, если это просто набор информации, книги на категории бы поделили, какие для вкатывальщиков, какие для математиков.
Дедовские для математиков, остальные для вкатывальщиков.
>К МЛ инженерии это как раз имеет отношение.
МЛ инженер - это гибрид машобщика, программиста и девопса. Он должен уметь абсолютно все, начиная от теории и прототипирования модели, заканчивая настройкой пайплайнов, написания нормального кода и выката системы в прод. Биг дата же является отдельным направлением, которое может пересекаться с машобом, но очень редко. Большинство датасетов для машоба меньше терабайта и не являются биг датой.
Теоретик ты наш, а с какой же тогда целью эта бигдата собирается?
Это нормально, что BoW на сырых словах работает не особо хуже чем BoW после лемматизации (через яндепсовский mystem)?
С tf-idf различие также минимально.
Нужно знать SQL в первую очередь. Синтаксис взаимодействия с хадупом напоминает SQL (spark), либо прямо эмулирует его (Hive). Но это в общем-то несложная часть. Сложность в том, что хадуп - опенсорс, который постоянно ложится из-за своей недоработанности. При этом он написан на джаве. А спарк - на скале. Также же еще нужно быть девопсом, так как хадуп - это операционная система для сети из компов.
Потому что это дедовское говно в принципе не очень работает, так что никаких трюки адхоковские не помогают.
на самом деле нечасто можно увидеть вканутов которые не "ЫЫЫЫ ХОЧУ ДЕЛАТЬ ЛИНЕЙНЫЕ РЕГРЕСИИ ФРОМ СКЛЕРН ИМПОРТ СУПЕРМОДЕЛ - СУПЕРМОДЕЛ.ФИТ"
и прочее говно из курсов. А если не секрет, ты чего решил перекатываться именно в мл инжениринг? деньги?
Нормально они работали в письменный век. Перестали работать в век зумерских эмодзи .
Просто ты "твиты" скорее всего пытаешься обработать. Короткие сообщение где вся информация скрывается в контексте и значении слов.
Нужны нейросетевые эмбединги.
не понял
ну, вообще, причин много
1) да, деньги. В игродеве платят не очень много, а в датка области зп выше, иногда ГОРАЗДО
2) мл инжениринг хочу, тк не уверен, что по матеше смогу конкурировать со всякими МФТИшниками, ШАДовцами и прочими ребятами - я ведь из бомонки, у нас не так дрочат этот матан. Хоть мне и все это интересно. А прогать я умею - у меня много опыта в шарпе и в геймдеве
3) Сейчас весь ИТ сегмент крутится либо вокруг диких байтоебов, либо вокрут машинного обучения. В таком контексте не попробоваться влиться - глупо. Даже если через пару лет придется перекатиться
А вообще, конечно, хочется прийти к матешке - уж нравится она мне
скажите, насколько нужно реально задротить матан, чтобы стать специалистом, а не макакой очередной?
Учеба в шаде или мфти действительно дает такой бесконечный разрыв? я просто очень редко вижу наличие бомонки как "желательно" в вакансиях: в основном мфти/шад/вмк/вшэ
По-моему все крутится вокруг вэба.
Какой вариант раскидывания res связей лучше и почему?
Популярнее как я посмотрел второй вариант но почему, параметров же больше а суть та же?
Я всегда думал, что ресерчерами с потолка не становятся
Думал, что ресерчер это после сеньера
Блин как сложно на самом то деле разобраться кто у вас в дата саенсе что делает
>шад
Поясните для ВПЛ, туда реально самостоятельно вкатиться после курсов на ютубе/курсере/едХ и МФТИ на степпике?
https://stepik.org/course/91156/info
МФТИ уже второй год делает бесплатные курсы для Machine learning.
https://yandex.ru/jobs/vacancies/interns/intern_researcher/
>>40820
Вкатиться реально, курсы не помогут. Читай материалы, которые они советуют поступающим. Решай codeforces и демидовича.
Вроде ещё как добавилось недавно что-то про анализ данных во вступительные, хз какие требования.
Сеньор и ресерчер это вещи из разных измерений.
Ресерчер - это, по-хорошему, PhD, ну или условный аспирант. Короче говоря, это научная тема. По сути тот же ученый, только корпоративный, а не академический.
С индустрийной градацией джун-миддл-сеньор это напрямую не связано.
и где трава зеленее? у научников или индустрии
вообще бля я теперь точно нихуя не понимаю
пришел сюда с желанием понять что учить, а ушел с тотальным непониманием куда вкатиться, кто чем занимается и куда перспективнее
Рекомендательные системы, табличные данные. Задачи, где важна интерпретируемость (кредитный скоринг). Задачи, где важна скорость и качество нужно только в первом приближении (спам-фильтры). В компьютерном зрении - если структура данных постоянна и просто устроена, например, снимаются коробки с одного и того же ракурса.
Почти весь реальный unsupervised.
>alphaGo 2014
Она же была в 15. А ли седоля вообще в 16 только обыграли. Найс обсёр по фактам. Может ещё где-то проебались с датами, это только то что вспомнил.
>нет дармутского семинара
Хоть его больше связывают с AI, имхо, тут тоже нужен.
>нет alexnet'а в 2012
Ну это позор просто
А. Б. Сосинский "Mathematical English. Учебник английского для математиков" и его же более старая "Как написать математическую статью по-английски".
Книги похожи, иногда очень похожи, что неудивительно. Рекомендую начать с первой. На ней же можно и остановиться.
Книги эти написаны математиком для математиков. Цель книг - научить писать математические статьи (и книги).
Подразумевается, что читатель владеет только базовой лексикой, терминологией, умеет в целом понимать прочитанный английский математический текст и, главное, обладает желанием активно использовать именно математические способности, а не гуманитарные привычки (выработанные при изучении языка). Это почти цитата из предисловия.
Более того, автор утверждает, что хорошее знание языка, выработанное обычным гуманитарным способом в школе и универе, даже будет мешать. Будет лучше, если ты плохо знаешь язык - не придётся переучиваться.
Так вот, цель книги - научить писать статьи на английском, при этом требуется среднее умение их читать.
Твоя цель - научиться читать эти написанные статьи.
И здесь нет противоречия. Книга может тебе помочь.
Потому что, фактически, это мануал, который можно развернуть в обратную сторону. Идти не от русского к английскому, а наоборот.
Книга содержит практически все основные языковые конструкции, используемые для написания математических статей.
По сути, это шаблоны, в которые остается лишь подставлять свои слова.
Вещь очень годная.
Если ты хорошо проработаешь эту книгу, она в математическом плане заменит тебе несколько лет стандартного изучения английского в школе и универе. Благо, в ней всего 90 страниц (в старой немного больше).
Короче, ты можешь использовать все шаблоны из этой книги в обратном направлении, от англ к рус, и таким образом сможешь прочитать (и понять) даже сложные конструкции.
Вообще, это не учебник математического (и тем более обычного) английского, а именно мануал по переводу матстатей. Я бы даже сказал, фреймворк.
Но, как я уже говорил, для использования этого мануала нужно базовое понимание той математики, о которой ты хочешь читать или писать.
И да, там даже есть примеры специфических конструкций из теорвера и матстата.
Такие дела. Дерзай.
>>40228
Наверное. Но я не об этом.
>>20026 (OP)
Предлагаю поместить эту книгу в шапку треда рядом с оригинальными статьями и/или с дедовскими книгами.
А. Б. Сосинский "Mathematical English. Учебник английского для математиков" и его же более старая "Как написать математическую статью по-английски".
Книги похожи, иногда очень похожи, что неудивительно. Рекомендую начать с первой. На ней же можно и остановиться.
Книги эти написаны математиком для математиков. Цель книг - научить писать математические статьи (и книги).
Подразумевается, что читатель владеет только базовой лексикой, терминологией, умеет в целом понимать прочитанный английский математический текст и, главное, обладает желанием активно использовать именно математические способности, а не гуманитарные привычки (выработанные при изучении языка). Это почти цитата из предисловия.
Более того, автор утверждает, что хорошее знание языка, выработанное обычным гуманитарным способом в школе и универе, даже будет мешать. Будет лучше, если ты плохо знаешь язык - не придётся переучиваться.
Так вот, цель книги - научить писать статьи на английском, при этом требуется среднее умение их читать.
Твоя цель - научиться читать эти написанные статьи.
И здесь нет противоречия. Книга может тебе помочь.
Потому что, фактически, это мануал, который можно развернуть в обратную сторону. Идти не от русского к английскому, а наоборот.
Книга содержит практически все основные языковые конструкции, используемые для написания математических статей.
По сути, это шаблоны, в которые остается лишь подставлять свои слова.
Вещь очень годная.
Если ты хорошо проработаешь эту книгу, она в математическом плане заменит тебе несколько лет стандартного изучения английского в школе и универе. Благо, в ней всего 90 страниц (в старой немного больше).
Короче, ты можешь использовать все шаблоны из этой книги в обратном направлении, от англ к рус, и таким образом сможешь прочитать (и понять) даже сложные конструкции.
Вообще, это не учебник математического (и тем более обычного) английского, а именно мануал по переводу матстатей. Я бы даже сказал, фреймворк.
Но, как я уже говорил, для использования этого мануала нужно базовое понимание той математики, о которой ты хочешь читать или писать.
И да, там даже есть примеры специфических конструкций из теорвера и матстата.
Такие дела. Дерзай.
>>40228
Наверное. Но я не об этом.
>>20026 (OP)
Предлагаю поместить эту книгу в шапку треда рядом с оригинальными статьями и/или с дедовскими книгами.
>и где трава зеленее? у научников или индустрии
Макакой в индустрии выгоднее всего. Ресерчер в индустрии получает больше, но прибавка к начальной зарплате не стоит времени, затраченного на пхд. Ресерчер вне индустрии получает гроши.
А вообще, лучше всего работать в жирных компаниях вроде гугла, независимо от должности.
брат, ситуация полностью противоположная, хочу отсюда перекатиться в геймдев, какой роудмап посоветуешь? Знаю всю матешу шейдерную с матрицами, опенжл впрнц, но хочу ебаться на чуть более высоком уровне, мм?
Первый анон был прав, макакой выгоднее всего.
Идти в аспирантуру и получать степень имеет смысл, только если ты без этого не можешь. Если тебе нужны интересные сложные исследовательские задачи, а не стандартные индустриально-бизнесовые.
Причём идти нужно в вуз, хотя бы, немного выше среднего. В хреновом вузе в аспирантуре делать вообще нечего.
То есть для этого нужно быть шизоидом, для которого важен интерес к решаемой задаче, а не деньги. Таким, как я, прям.
В академической науке даже на западе часто даже профессора математики/физики/компнаук/итд получают не сильно больше (если не меньше), чем вчерашние студенты-программисты в индустрии.
Так профессором еще стать надо. А для этого нужно иметь недюжинные мозги и такую же усердность, нужно быть упоротым трудоголиком, думать о своих исследованиях 24/7.
А быть трудоголиком в научных исследованиях гораздо сложнее, чем быть трудоголиком в индустрии.
В ИТ индустрии PhD обычно зарабатывают больше, но не сильно, и оно того не стоит.
Однако, есть еще одна причина, по которой много кто сваливает за бугор в аспу: это один из самых простых способов свалить за бугор.
иди выебывайся в свой двор.
концепция "читай только формулы к книгах по машобу" подходит только тебе.
А вот и у гуманитария-машиннообучатора жопа подорвалась. Найс.
Можно даже очные курсы по переквалификации дс2
Слышал, что гибрейнс, скиллфактори и прочие скиллбоксы - гавнище полное.
Что скажите за яндекс.практикум?
я не вкатыш, на работе попросили заняться дс и сказали, что оплатят курсы, поэтому хочу выбрать реально полезный курс
По Яндекс.практикуму в треде мнения разделились.
> Слышал, что гибрейнс, скиллфактори и прочие скиллбоксы - гавнище полное.
Правильно.
> Аноны, посоветуйте реально годные курсы по дата саенсу и, в частности, по математической статистики.
d2l.ai. Инфоцыгане не нужны.
>d2l.ai. Инфоцыгане не нужны.
Выглядит просто как голопом по европам, ещё и на английском, блин
> , ещё и на английском, блин
А тебе на каком надо? Там ещё на китайском есть.
> голопом по европам,
Чего там нет из того что тебе нужно?
>А тебе на каком надо? Там ещё на китайском есть.
на русском конеш
>Чего там нет из того что тебе нужно?
Хорошего погружения в мат. стат. Насколько я понимаю, без него в дс никуда
ну смотри, я ебался с юнити, поэтому буду говорить с позиции юнити разраба
для ебли на высоком уровне особо ничего не надо, кроме знания ангема. Но его, в целом, можешь не повторять даже тк задачи не особо сложные с математической точки зрения (ну еще посоветую повторить кватернионы немножко)
в остальном нужно качать умение прогать: solid, ооп, code smells и прочие вещи именно прогерские
если хочешь по безопасному пути, то очень советую посмотреть пару курсов на plurasight (он вроде немного стоит). Там правда топовые курсы, строящиеся по правилу (самому лучшему правлу построения курсов) степика: много небольших курсов на разные темы. Причем курсы качественные
Советую также не размениваться первое время на чистый Си шарп, тк в движках, как правило, все прелести языка не используются
после того, как немного освоишься в юнити и поймешь что как создавать объекты, как работать с ассетами, как реализовывать взаимодействие между объектами (физика) и пр, то пробуй реализвать свои игоры (как бы страшно не было видеть пустой экран) - благо идей для игр у всех полно
Ну а после того, как в соляну все потыкаешь, при условии начиля бекграунда в МЛ, можешь начать искать работу. Обязательно иметь при этому хоть каку-то демку игры
От себя могу добавить, что знания шейдеров - хороший буст. Как правило это самые высокооплачиваемые ребята
я по классике наебашил орфографических ошибок - соре
какие посоветуете пет проекты, чтобы я показал работодателю и он такой "о норм, можно поговорить" и алсо немного прокачаться?
я себе до смены работы выделил месяца 2-3. По идее, за это время можно запилить что-то более менее неплохое
Если не привязываться к цв нлп и пр - что можно запилить?
Сделай что-нибудь геймдевовское раз уж игродел. Мл в геймдеве пока не особо, но года через 2-3 наверное попрёт.
а вот у меня есть проект, которым я пару месяцев занимался на работе
короче нужно было из набора объектов найти позицию определнного
юзал облака точек, но без всяких нейросеток - только классический матан: PCA, RANSAC и пр - ну мы там ЭЙАР игрулю делали (но не взлетело)
это совсем не релеватно для области?
алсо еще вопрос
я часто вижу хуйню типа: знание SQL, Mongo Reddis и пр
я с ними нихуя не работал
скажите плез, насколько сложная хуйня? нужно ли тратить время на курсы по этому или достаточно немного потыкать?
Для CV SQL не нужен, зато плюсы нужны. Для тех, которые ближе к бизнес-аналитике SQL нужен, зато плюсы не нужны.
>зато плюсы нужны
Шиз, опять ты выходишь на связь? Абсолютному большинству машинлернеров плюсы не нужны.
а чем плох мл?
в дотнете нужно знать еще джабускрипт и прочее фронтэнд говно
а платят немного
вот и скажи, послать это удовольствие нахуй это или сразу в пизду?
ну ему, скорее, в комп зрение лучше
Хорошо там платят. Больше чем МЛ.
Просто нужно проект достаточно большой и энтерпрайзный найти чтобы слоеное говнище было настолько сложно, чтобы 25 летние хипстеры с него убегали бы.
ну тут скорее
есть ведь именно чуваки которые делают алгоритмы
а есть ребята, которые это все упаковывают в код
я хочу, скорее, ко вторым
ну потому что для норм рнд я туповат, да и прогерство больше по душе
а бэк че? курды пилить? ну ебать мне интересно конечно макакить так
>есть ведь именно чуваки которые делают алгоритмы
Таких буквально один на сотню. Остальные бездумно трясут ящик.
>а бэк че? курды пилить? ну ебать мне интересно конечно макакить так
В машобе будет аналогичный макакинг, даже если ты будешь работать непосредственно с моделями.
>да бля, я как посмотрю в одс вакансии - охуеваю
>200к, 250 300
Ты впервые видишь пиздешь в вакансиях? Пойдешь на собеседование - тебя опустят и предложат в два раза ниже.
>я в своем гейдеве больше 120 не видел ни разу - только лиды (я мидл 2 года опыта)
Для двух лет опыта это нормальная зарплата для ДС, а вне ДС так вообще отличная.
Что это? this<...>doуsnotexist?
> Для двух лет опыта это нормальная зарплата для ДС, а вне ДС так вообще отлична
ну да, но все - таки геймдев - это про геймдев, а не про технологии
сейчас же вся туса в мл - хочу стать часть этого
> Ты впервые видишь пиздешь в вакансиях?
впервые) я два со второго по 5 курс работал за бесплатно в рога и копыта, и с 5 по окончание уника в гейдеве с конторке другана
даже на собесе ни разу не был
>а не про технологии
а машинлернинг дохуя про технологии? импорт слесарьплов ас сп и в продакшн
ну вот с тобой я соглашусь
не знаю, чуваки
хочется делать интересные задачи, чтобы удовольствие от процесса было
если это не расхайпованный мл, то что?
И снова не пизди. Я же сказал - КРАЙНЮЮ, а ты пролистал на 4 вверх, чтобы найти приятные цифры
вот ты блин душный конечно
ладно, твоя взяла
и вообще бля, раз у вас все так хуево в мл, хули вы тут работаете?
Никуда больше не берут т.к. по сути программировать не умеем
да не
я люболю проганье
но "брать данные из таблички А и помещать их в табличку Б" не совсем то
люди беспилотники делают, роботов, ракеты - это топ
а в рашке хуи сосать только и таблички делать
>смотри, брат, это называется "боязнь конкуренции"
>готовы себя говном облить, лишь бы +1 вканут не был
Да причем тут вообще это. Вкатуны все равно не вкатятся, а если и вкатятся, то не составят конкуренцию ставшим к тому времени сеньорами.
ну выглядит так
- у нас тут так хуево вообще пиздец ТАК ХУЕВО лучше байтоебом иди или игродело и зп у нас размером с небольшой хуй
- а чего сами не перейдете?
- ну эээээ мы прогать не умеем
серьзно? прогать не умеем? а вы тогда вообще кем работаете? model.fit(x) пишете целый день?
>у нас тут так хуево вообще пиздец ТАК ХУЕВО лучше байтоебом иди или игродело и зп у нас размером с небольшой хуй
Этого никто не говорил. В машобе зарплаты не сильно отличаются от других сфер айти.
>- а чего сами не перейдете?
>- ну эээээ мы прогать не умеем
Перекатываться в тот же веб имеет смысл. Столько же денег, но меньше стресса. Не перекатываются в основном потому, что не хотят учиться ничему новому. Ну и довольно большая часть машобщиков - это как раз макаки, которые вкатились из-за хайпа и кроме model.fit ничего не умеют.
Про дип лёрнинг в 1971 конечно же забыли.
>А почему работа стрессовая?
Невозможно предугадать результат - можешь и год безрезультатно трясти ящик. Из-за этого будешь постоянно волноваться, не выпиздят ли тебя завтра на мороз.
И что?
в треде питона говорят что "ебать питон это скучно и мл сейчас топ"
в треде мл говорят насколько хуево в мл и как бы они хотели в бэк
в треде крестов тоже выбеываются
такое ощущение, что жизнью довольны только шарписты
есть ли инфа по адекватным конторам, занимающимися комп зрением? меняю работу и не хочу попасть в просак в компашку из черного списка
алсо, если есть те, кто более-менее толерантен к перекатунам из бекенда, тоже буду признателен
коллега-бэкендер говорил, чтоб я не перекатывался в бэк, а советовал девопс.
коллега-девопс говорил, чтоб я не перекатывался в девопс, а катился в дата саенз и биг дату.
коллега-ios developer говорил, что разработка под яблоко заебись, а в андроиде куча говна
держу в курсе
условно черного
есть же компании - ебанаты
а есть такие, которые анон может пруфанут как збсшные
Подъебать мелкобукву - святое дело
использую для этого zbar
но работает крайне хуево - углы и освещения могу очень легко наебнуть
а вот в прилоге тинькова охуеная распознавалка
вопрос
где-то на свете есть более хорошие решения? или есть смысл самому запилить?
Нормально же сидим. Илитный скрытый тренд. Как и его содержимое
ГДЕ
ПЕРЕКОТ
МУДИЛО
ЭМ?
Что думаете насчет этого? Блядь ТРИЛЛИОН параметров! В опенсорсе!
Но это дело поправимое, так-то.
> а у меня миллиард пораметров!
> а у меня трилеон!
> а у меня тогда бесконечность!
> а у меня бесконечностью плюс один!
Коротко о "ресёрче" в индустрии, кто там выше туда хотел?
Количество параметров напрямую определяет качество сети. Тут параметров, как в твоем мозге. Это предел мечтаний.
> Современные ИНС очень косвенное отношение имеют к мозгу.
ИИ вообще будет иметь отношение к человеческому мозгу, как самолет к птице. Но меняет это что-либо? Кстати, обучить Switch Transformer дешевле, чем GPT.
>а у меня телескоп с зеркалом 10 метров!
>а у меня 100!
>а у меня тогда бесконечность!
>а у меня тогда бесконечность плюс один!
>коротко о "ресёрче" в астрономии
> OpenAI GPT-3, пожалуй, самая известная модель глубокого обучения, созданная за последние несколько лет. Одна из вещей, которая больше всего впечатляет в GPT-3, - это его размер. В некотором контексте GPT-3 - это не что иное, как GPT-2 с множеством дополнительных параметров. Имея 175 миллиардов параметров, GPT-3 был примерно в четыре раза больше своего крупнейшего предшественника.
> Зная это, как бы вы тогда относились к модели, которая в 6 раз больше GPT-3? Именно этого добилась команда из Google Research с их новой архитектурой Switch Transformer . Новая модель имеет непостижимые 1,6 триллиона параметров, что делает ее в шесть раз больше, чем GPT-3.
> Благодаря новым оптимизациям, Google смог обучить модель Switch Transformer поразительным 1,6 триллионам параметров! Скорость обучения увеличилась до семи раз по сравнению с предыдущими архитектурами.
https://www.kdnuggets.com/2021/01/google-trillion-parameter-switch-transformer-model.html#:~:text=This is precisely what a,times larger than GPT-3.
Будто ты что-то лучше можешь предложить. Да, подход "наебенить побольше слоев и параметров" пока что самый лучший, благо еще и закон Мура позволяет.
саттон.жпг
>>44320
>Это я про то, что в этой фразе смысла довольно мало.
Нормально там смысла. У человека в мозгу параметров больше, чем в мозгу червя, соответственно, возможностей у человека больше. В нейроночках это работает так же.
>У человека в мозгу параметров больше, чем в мозгу червя, соответственно, возможностей у человека больше.
Проблема как раз в "соответственно". Нет никаких адекватных доказательств, что здесь из А В следует.
Мозг слишком плохо изучен, чтоб говорить, что единственное (или по крайней мере ведущее) его преимущество перед "мозгами" червя, это количество нейронов или даже архитектура сети.
>У человека в мозгу параметров больше, чем в мозгу червя, соответственно, возможностей у человека больше.
Проблема как раз в "соответственно". Нет никаких адекватных доказательств, что здесь из А В следует.
Мозг слишком плохо изучен, чтоб говорить, что единственное (или по крайней мере ведущее) его преимущество перед "мозгами" червя, это количество нейронов или даже архитектура сети. Это просто принятая у машобов нулевая гипотеза.
> Проблема как раз в "соответственно". Нет никаких адекватных доказательств, что здесь из А В следует.
Есть. Нейроночки могут отвечать на вопросы, человек тоже. Как в случае птицы и самолёта, главное- что и то и другое летает. Остальное в практическом плане несущественно.
>Количество параметров напрямую определяет качество сети.
>>44329
>подход "наебенить побольше слоев и параметров" пока что самый лучший
Жалко только что качество сети напрямую определяемое самым лучшим из подходов в итоге результат даёт не лучше марковских цепей из нулевых и прочих программируемых эвристик без триллиардов параметров.
Говно тоже летает при набросе на вентилятор.
У вас плохо с импликациями, ну или со статистическим выводом, уважаемый.
Двач, помоги разобраться: есть камера видео наблюдения, которая следит за бариста(пидоры, которые продают и пиздят кофе). Я хочу, что бы нейронка в реальном времени считала количество проданных стаканчиков с кофе. Насколько это сложная задача? А если я хочу, что бы нейросеть сортировала стаканчики по объёму? (Понятно, что потом я хочу сравнить показатели с количеством израсходованных материалов и выявлять воровство). Сколько может стоит разработка такой штуки? Сам обычный дотнет чик с горе малым бизнесом в довесок.
Угомонись, эль кабаньеро, никто у тебя ничё не пиздит, а если даже и пиздит то ничего ты не сделаешь, пидорнёшь одного, к тебе другой люмпен за твои гроши придёт и так же воровать начнёт от бедности. Не с того конца ты проблему решаешь.
плюсую
такая параша
1) везде говорят основные концепции - в тех же книгах намного лучше
2) этот вот принцип "мы тут для тебя все подготовили, напиши строчку" - просто ебала
пару раз так сделал - а как наебенить модель с нуля так и не понимаешь
к чему бугурт? я так и не понял, как мне подлить свои данные
в курсах через url качают - ок, понял
а мне хули сделать? у меня на компе прон и хочу сиськи классифицировать - мне типа отдельный скрипт писать или есть
import boobs_from_pc_loader ?
> мне типа отдельный скрипт писать
Писать, одна (может и самая) нетривиальная часть мля - где взять данные и как их выдрать оттуда где они есть.
сорри, бампану.
> хуйню сделяль
> ррреее, ниработаит
Дэбил, хоспаде... Я же постил ссылку как дистилберт отвечает на вопросы. Но там вручную контекст надо указывать. А вот haystack'у вручную загружает текстовые файлы, просто неразмеченный текст, и оно само под заданный вопрос ещё и контекст подбирает.
ну я так понимаю, что этот вот дата инжиниринг это целая песня
бампю
>Мне не очень важно твоё мнение
>отвечай на мой ответ
Поэтому у тебя ничего и не получится. Пожалуй вам не стоит заниматься бизнесом.
Хуя у тебя маеямирок, 17к, лол. Зумеры за такую зп не пернут даже.
В общем, идите на хуй, долбаебы, со своими цены и бизнес советами.
ну ты хоть в гугл сходи:
https://www.dssl.ru/products/moduli-i-potrassir/
разработка тебе не светит, конечно, но ведь много чего продается готового и твои стаканчики коррелируют с другими показателями.
а, слушай, я придумал:
ставишь камеру и ПУСКАЕШЬ СЛУХ что заказал на фрилансе нейросетевую аналитику!
Сам первые две недели вручную просматриваешь камеры и пиздишь всех.
Таким образом задача будет решена.
В астрономии телескопы - лишь экспериментальные инструменты исследований, и чем больше твои телескопы, тем больше всего ты можешь открыть. А есть еще и теория, которая постоянно обобщает опытные факты.
В дотасаенс-индустрии нейронки - уже продукт исследований. Теории в индустрии уже практически никакой нет, вся в прошлом веке закончилась. А тех ученых теперь Жопеншмульцерами называют.
Но я лично с тем аноном не вполне согласен. Всё же кроме наращивания количества нейронов, в новых продуктах еще и различные оптимизации архитектуры проводятся (разной степени теоретичности или тыкания пальцем в небо). Так что там есть исследования, но главным образом околоэкспериментальные.
Теория хоть и развивается, но она довольно далеко от индустрии.
Хуита твоя аналогия.
>>44821
как ты, такой долбаеб, вообще что-то открыл? приходишь к нам на двач и без уважения говоришь, что мы пидоры? иди жысоны перекладывай, дотнетчик - бизнесмен ебучий
>>44864
топ решение, но с этим дебиком даже нехуй базарить
все у него виноваты, все воруют а он один молодец
взбесил блять, уебок
> в новых продуктах еще и различные оптимизации архитектуры проводятся (разной степени теоретичности или тыкания пальцем в небо).
Нет там никакого тыканья пальцем в небо. Все решения обоснованы теоретически, более того, основаны на работах тех самых Жопеншмульцеров из середины прошлого века, о которых тут принято говорить в пренебрежительном тоне. Наследие дедов охватывает всё, до чего вообще можно додуматься в машобе, более того, далеко не всё это наследие пока должным образом осмыслено. Ни одна технология машоба, сколь угодно топовая и новая, не придумана с нуля в наше время, все они корнями уходят в работы Жопеншмульцеров.
>Все решения обоснованы теоретически, более того, основаны на работах тех самых Жопеншмульцеров из середины прошлого века, о которых тут принято говорить в пренебрежительном тоне.
Да, макаки всегда будут говорить о них в пренебрежительном тоне.
Берешь и проводишь через FFT, сверху фильтр гауса, вот тебе и нормальные углы. Это дедовская-оброботка сигналов, нахуй тут нейронка?
братишь, я про нейронку и не заикался то
мне просто интересно, это выглядит как мега просто стандартная задача
почему тогда у одиних супер охуено а у других супер хуево
https://developers.google.com/ml-kit/vision/barcode-scanning
Мы за тебя все гуглить должны?
Тот который тормозит, очевидно на яве написан
Градиенты не прокинутся
Ясно, что в анализе какое-то время надо на то, чтобы вникнуть в домен, так что тут ожидают более продолжительных трудовых отношений в сравнении с разработкой. Интересно мнение и опыт анона.
Опять же, я не МЛ инженер, а больше в сторону аналитики
>Я спрашивал нормально ли будет вкатываться на js`e или нет
Нет, не нормально. Хочешь заниматься машобом - учи питон.
А я то думал машоб это умение алгоритмы писать а язык всего-лишь инструмент.
>А я то думал машоб это умение алгоритмы писать а язык всего-лишь инструмент.
Для каждой задачи свой язык. Ты же не пытаешься писать фронт на питоне?
Почему в таком случае любая мало-мальски долгоживущая система переписывается на что-то производительнее типа плюсов?
>Почему в таком случае любая мало-мальски долгоживущая система переписывается на что-то производительнее типа плюсов?
Все машоб библиотеки, в которых необходима производительность, и так написаны на плюсах. На питоне лишь удобная обертка.
>Тогда зачем мне питон если все серьёзные вещи делают на плюсах?
Ровно затем, зачем тебе нужен вью/реакт вместо стандартного жс.
>умение алгоритмы писать
Жопеншмульцер, ты? Алгоритмы давно уже написаны людьми поумней тебя, а в дата сосаенсе гораздо важнее уметь получать и правильно обрабатывать данные
> хуйню сделяль
https://sbercloud.ru/ru/warp/gpt-3
> Но там вручную контекст надо указывать. А вот haystack'у вручную загружает текстовые файлы, просто неразмеченный текст
Да, если нахуярить побольше данных без разбора содержат они утечки или нет то внезапно всё заработает. С другими алгоритмами дедовскими такое нельзя!
> гпт3 лардж
> 780м параметров
Сберкасса не может не наебать, даже гпт2 лардж это уже 1580м или около того параметров вообще-то. Гпт3 самая большая вроде 175 миллиардов параметров... Они бы лучше тот гугловский свичтрансформер обучили, который 1.6 трлн параметров.
> С другими алгоритмами дедовскими такое нельзя!
Теоретически, можно. Даже во времена Жопеншмульцеров было известно, что чем больше данных, тем лучше результат (у того же Вапника это описано как асимптотические методы). Просто тогда вычислительные мощности не позволяли эффективно использовать такой путь улучшения результатов, да и датасетов на терабайты никто не создавал. Поэтому от варианта "настакать побольше слоев да накидать побольше данных" до относительно недавнего времени отказывались. А потом закон Мура порешал.
>нахуярить побольше данных без разбора содержат они утечки или нет
Что такое утечка в данных? Я только утечку памяти в погромировании знаю.
> Вкатывайся тогда на пауэрпоинте, он тоже тьюринг-полный.
Мб ты эксель имел в виду? В пауэрпоинте же только презенташки делать.
Мне тоже так показалось.
>Learnability can be undecidable
>Abstract
>The mathematical foundations of machine learning play a key role in the development of the field. They improve our understanding and provide tools for designing new learning paradigms. The advantages of mathematics, however, sometimes come with a cost. Gödel and Cohen showed, in a nutshell, that not everything is provable. Here we show that machine learning shares this fate. We describe simple scenarios where learnability cannot be proved nor refuted using the standard axioms of mathematics. Our proof is based on the fact the continuum hypothesis cannot be proved nor refuted. We show that, in some cases, a solution to the ‘estimating the maximum’ problem is equivalent to the continuum hypothesis. The main idea is to prove an equivalence between learnability and compression.
Теория Вапника-Червоненкиса рулит!
В том что нет притока ньюфагоф, тред медленно умирает и остаются только упоротые Жопошмульцеры
Self organized maps
>>47106
https://youtu.be/uNjxe8ShM-8
Кому надо, тот сделает в пауэрпоинте. Главное уметь писать алгоритмы, а инструмент не важен.
Слабо? Хуевый из тебя программист в таком случае.
тем более это статьи. А новости и пр?
>можно ли стать успешным или твердым середнячком, если не выпускник физтеха или мгу?
Можно. Но это не точно.
Что бы тебе тут не говорили, в дотасаенсе математики мало, во-первых, а во-вторых, и главное, она вся тупо на техническом уровне.
То есть нужны тупо формулы и общее понимание некоторых (несложных) идей. Собственно в математике разбираться не нужно. Естественно, я говорю про обычную работу в индустрии, а не науку.
Ты же не собираешься научными исследованиями заниматься и диссертацию писать?
На обычной работе достаточно минимума общей математики и конкретных вещей из машоба и анализа данных - фактически, линейная алгебра, матстат, теорвер и методы оптимизации (потому что любая задача машоба сводится к задаче оптимизации), ну и основные модели и алгоритмы машоба, которые строятся на основе этих разделов математики.
При желании всё это можно с полного нуля выучить самостоятельно. Сложно сказать, конечно, сколько времени тебе на это понадобится. Некоторые вкатывальщики в интернетах утверждают, что за полгода можно дойти до собеседований, ну уж за год точно.
На питоне кодить научись.
Ну и технический диплом нужен, хоть и от говновуза.
Главное - найти первую работу, дальше всё путём будет.
Проблема в том, однако, что вакансий в дотасаенсе если и не мало, то уж точно не много, не смотря на весь хайп.
>>49464
Хрен знает, читай блоги какие-нибудь по теме, обзоры в твитторах и прочую херь. В шапке треда есть ссылки.
Сейчас стоит выбор во что вкатываться: .Net(C#) или же ML.
Нравится имеено писать код, но и матешу не хотелось бы забрасывать.
Следовательно вопрос: пишет ли код ML engineer или занимается тупым перебором табличек и подгадыванием коэфициентов?
Во что перспективнее вкатываться?
здравстсвуй, я уже 2 года дергаю голых баб (как выяснилось- неправильно и большую часть зря). Сейчас пересобираю архив верно, буду использовать "другую архитектуру" (ан самом деле просто давать на вход больше размеченных вручную данных в большем разрешении.) Добро пожаловать в машинное обучение.
Пройди курс яндекс-хуяндекса по питону, там возьмеш базу. В тенсорфлоу уже сможешь сам всё делать после этого.
>пишет ли код ML engineer
Пишет. Периодически даже на плюсах.
>или занимается тупым перебором табличек и подгадыванием коэфициентов?
И этим тоже может заниматься.
>>53797
Питон. Хуйней страдать можешь и на языке ассемблера.
>>54063
>Нужны ли эти перехайпаные стенфорды
Не нужны. Они для полных даунов.
Вопрос интересный, тут такое дело иди нахуй не видишь перекат был
> Нам памаХает
Вроде не явно там прям заметно.
В любом случае, она ахуенная. Ебал бы и ебал.
>>55905
Тред перекатили давно. Там спроси.
https://2ch.hk/pr/res/1947549.html (М)
из нее генерируешь power spectrum, из power spectrum делаешь amplitude spectrum присваивая рандомные фазы. Ну и обратное FFT
Ну как-то не очень. Иногда выходит достаточно близко, иногда пикрил 1. Попробовал так, попробовал еще вариант через многомерное нормально распределение (https://stats.stackexchange.com/a/29240), но результат такой же нестабильный, пикрил 2. Нашел вариант сделать это через авторегрессию, но пока не проверил.
https://pastebin.com/brXWPUw1
вот это что?
> np.fft.fft(np.sqrt(corr))
может корень надо извлечь после FFT?
> ax2.plot(out_corr / max(out_corr))
Хороший график из одного сампла? Нужно усреднить по тысяче самплов, как минимум
Кстати, если применять правильные формулы, нормализацию и не надо делать
>может корень надо извлечь после FFT?
Да, надо конечно, но результат еще хуже получается. Хотя я уже поменял эту строчку на scipy.signal.lfilter(np.sqrt(corr), 1, np.fft.ifft(noise)).
так: А(-o)=A*(o)
Параллельных, всмысле независимых. Т.е. одна сеть - болезни, другая - вид, третья - рост. Я понимаю, что, скажем при правильной оценке веса, нужно учитывать не просто размеры, но и тот же вид растения, но как у сети сделать одновременно и вывод "коэфицента веса" и еще с десяток выводов под виды, я не понимаю (сделать это адекватно, эффективно и без костылей).
для резюме*
Как накидать офлайн распознавалку рукописного текста?
без регистрации и смс
Зачем тебе пет проект и кагглы для стажера? Ты сразу в Дип Майнд хочешь? Учишь базы теории, методов и библиотек. Идешь на hhru пишешь что Дата Сайентист и знаешь pytorch, numpy, scikit, pandas.
1) Тебе пишут.
2) Идешь на собес. Просишь от 80000 руб.
3) Нет успеха - репит.
У меня так и было. Дата сайентистом не работал до того. Писали активно. Твои пет проекты помогут только тебе лично запомнить библиотеки.
да я хоть куда нибудь хочу.
и 80 слишком жирно лол. везде по 50-60к платят (до вычета налогов) стажёрам. джунам уже больше конечно.
мне пет прожект нужен чтобы хоть чем нибудь резюме заполнить.
можно было бы сказать что у меня в универе норм успехи, но это не так.
поэтому хоть как-нибудь продемонстрировать что я что-то умею нужно.
Ну смотри, если вузик топовый - уже хорошо. Хотя если бы был топовый ты бы тут не спрашивал и уже имел бы опыт.
Далее, можешь упомянуть соревнования. И вообще на каггле можно практиковаться хорошо и датасеты качать для начала.
Пет-проекты, опять же, имеет значение если годная идея и релизовано грамотно. Но т.к. ты уже здесь спрашиваешь, значит идей нет, то можешь тупо гуглить варианты идей и реализовывать сам. Ясное дело тогда куча людей уже это сделали, но хотя бы практика и видно будет что айкью не ниже 80.
Можно курсы указать, но тогда нужно с сертификатом и платные (т.к. у них хоть какое-то минимальное ревью есть). Легче всего курсера какая-нибудь - не слишком дорого, долго, сложно + известный бренд. Т.е. опять хоть что-то.
Все это, кончено не имееет смысла если уже был хоть какой-то опыт, даже за еду.
Ну для стажера 60к в ДС хорошо наверное, в Зап. Европке в районе 1к ЕВР платят при чуть более дорогой жизни.
вузик, конечно, топовый, но я мегараздолбай.
сертификаты мне не нужны думаю. нужно, наверное, хоть что-нибудь на каггле на бронзу попробовать накатать, одно соревнованьице. думаю припотеть можно и сделать.
но в целом спасибо.
Можно сказать уже сдал вводный предмет по ИИ в тех. вузе.
осоветуйте что лучше изучать если я еще не понял что конкретно меня интересует.
машинное обучение, нейронные сети, глубокое обучение или что то другое?
Ты на верном пути, для разных задач используй разные детекторы одной нйронкой это оче тяжкая задача, не неразрешимая, но обучение и интерференс будут долгими и не всегда нужно опознавать болезнь ведь, просто узнать вид например.. Как вариант аутпут детектора вида растений подавать на вход к распознаватель болезней. Датасет нужен ебический, это самое сложное будет.
Хочу сделать чат-бота на паскале. В обычные алгоритмы могу, но обычными алгоритмами чат-бот не получается. Простой нейрон могу закодировать, могу объединить в сеть. Но что дальше с этими нейронами делать - не понимаю. Какие-то циферки ввожу и вывожу, а как из этого бота сделать? Вот реально тёмный лес какой-то, что с нейроном делать? Куда подключать? Как символы из строки вводить в нейрон, чтобы он мне сказал, какие символы получил? Не понимаю...
у НИКОЛАЮОУСА ВИРТА на стене висит картина (НЕ МАСПОМ) с карандашиками разной длины, толщины и прочих параметров (МАНЯФОЛД) и подпись снизу (на АНГЛИЙСКОМ): "world best word processors". Поводм всем нам ЗАДУМАТЬСЯ
Чего?
плюсуют и минусуют в классах коррекции за охраняемым школьным периметром
пока вы не научитесь грамотно изъясняться, вам здесь нечего делать.
Это копия, сохраненная 12 мая 2021 года.
Скачать тред: только с превью, с превью и прикрепленными файлами.
Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах. Подробнее
Если вам полезен архив М.Двача, пожертвуйте на оплату сервера.