16 Кб, 740x282
Я не могу понять что за t' в функции. Вот как мне обойти форумы и самостоятельно найти объяснение (и желательно в развёрнутом виде)?
>>264 (OP)
t' может означать что угодно. Пояснения должны быть в том источнике, в котором тебе встретилась формула.
Сокращение tf, возможно, обозначает transformation, преобразование.
t' может означать что угодно. Пояснения должны быть в том источнике, в котором тебе встретилась формула.
Сокращение tf, возможно, обозначает transformation, преобразование.
>>265
Да, наверное всё зависит от контекста. Я попробовал через OCR (Mathpix) и он мне вообще обозначил это как t^.
https://en.wikipedia.org/wiki/Tf–idf#Term_frequency_2
Например, как тут искать пояснение?
> что угодно
Да, наверное всё зависит от контекста. Я попробовал через OCR (Mathpix) и он мне вообще обозначил это как t^.
> Пояснения должны быть в том источнике
https://en.wikipedia.org/wiki/Tf–idf#Term_frequency_2
Например, как тут искать пояснение?
>>266
Там написано, что ft,d означает количество появлений терма t в документе d. В таком смысле знак Σft' ∈ d означает суммирование по всем термам, встречающимся в документе d. Здесь t' - немой символ, который пробегает множество всех термов. Вообще, когда под сигмой (или под П, или под max, или под min) написано выражение вроде "i ∈ Q", то имеется в виду, что i пробегает множество Q.
Соответственно, Σft' ∈ d ft',d означает: для каждого терма, встречающегося в d, написать его количество вхождений, а затем просуммировать эти количества".
Штрих тут не означает какую-то отдельную операцию. t' - это цельный символ, атомарная буква. Вместо t' можно было бы написать букву p или букву w'''''. Автор выбрал t', потому что таковы его эстетические предпочтения.
Там написано, что ft,d означает количество появлений терма t в документе d. В таком смысле знак Σft' ∈ d означает суммирование по всем термам, встречающимся в документе d. Здесь t' - немой символ, который пробегает множество всех термов. Вообще, когда под сигмой (или под П, или под max, или под min) написано выражение вроде "i ∈ Q", то имеется в виду, что i пробегает множество Q.
Соответственно, Σft' ∈ d ft',d означает: для каждого терма, встречающегося в d, написать его количество вхождений, а затем просуммировать эти количества".
Штрих тут не означает какую-то отдельную операцию. t' - это цельный символ, атомарная буква. Вместо t' можно было бы написать букву p или букву w'''''. Автор выбрал t', потому что таковы его эстетические предпочтения.
>>264 (OP)
сумма всех элементов вида $f_{t',d}$, где $t'$ пробегают множество $t'$.
т.е. каждому элементу множества отвечает своё слагаемое (зависящее от этого элемента)
если $d$ - бесконечное множество, понятие суммы требует пояснения (например, оно осмысленно, если лишь конечное число элементов $f_{t',d}$ отлично от нуля)
сумма всех элементов вида $f_{t',d}$, где $t'$ пробегают множество $t'$.
т.е. каждому элементу множества отвечает своё слагаемое (зависящее от этого элемента)
если $d$ - бесконечное множество, понятие суммы требует пояснения (например, оно осмысленно, если лишь конечное число элементов $f_{t',d}$ отлично от нуля)
>>265
>>267
>>268
>>270
Вау. Спасибо за развёрнутый ответ!
То есть для каждого идентичного t в наборе d?
А зачем вообще в математике эти дубликаты? И так же понятно что что суммируем идентичные t' входящие в d.
И почему нельзя просто написать Σt' ∈ d?
И можно ли над знаком суммирования налепить доп абстракций (переписать иначе), типа:
t∈T∈d
Σtn
n=t
Если у вас пошла кровь из глаз и маты изо рта - соррян. Я только учус.
Дополнительно суммируем все t элементы?
Я осознал свои трудности - у меня диссонанс из-за такого применения. Очень похоже на сам вид функции f(t,d).
Хм, интересно. А где об этом можно почитать поподробнее? Именно про такие упрощения. Потому-что ньюфага вроде меня они капец как сбивают. Я то привык что там степень, а внизу (in) нумерация. То есть от математики ждёшь всегда какой-то строгости, бюрократии, который контролирует процесс написания мат символов в определённом месте. Как это всё не путать? Где у него там степень, или просто символ такой атомарный или вовсе что-то иное, о чём я не в курсе?
P.S. вопрос треда остаётся открытым. Не могу же я каждый раз двачеров напрягать своими тупыми вопросами.
>>267
>>268
>>270
Вау. Спасибо за развёрнутый ответ!
> по всем термам
То есть для каждого идентичного t в наборе d?
> ft',d
А зачем вообще в математике эти дубликаты? И так же понятно что что суммируем идентичные t' входящие в d.
И почему нельзя просто написать Σt' ∈ d?
И можно ли над знаком суммирования налепить доп абстракций (переписать иначе), типа:
t∈T∈d
Σtn
n=t
Если у вас пошла кровь из глаз и маты изо рта - соррян. Я только учус.
> сумма всех элементов вида ft′,d
Дополнительно суммируем все t элементы?
Я осознал свои трудности - у меня диссонанс из-за такого применения. Очень похоже на сам вид функции f(t,d).
> t' - это цельный символ, атомарная буква. Вместо t' можно было бы написать букву p или букву w'''''. Автор выбрал t', потому что таковы его эстетические предпочтения.
Хм, интересно. А где об этом можно почитать поподробнее? Именно про такие упрощения. Потому-что ньюфага вроде меня они капец как сбивают. Я то привык что там степень, а внизу (in) нумерация. То есть от математики ждёшь всегда какой-то строгости, бюрократии, который контролирует процесс написания мат символов в определённом месте. Как это всё не путать? Где у него там степень, или просто символ такой атомарный или вовсе что-то иное, о чём я не в курсе?
P.S. вопрос треда остаётся открытым. Не могу же я каждый раз двачеров напрягать своими тупыми вопросами.
>>265
>>267
>>268
>>270
Вау. Спасибо за развёрнутый ответ!
То есть для каждого идентичного t в наборе d?
А зачем вообще в математике эти дубликаты? И так же понятно что что суммируем идентичные t' входящие в d.
И почему нельзя просто написать Σt' ∈ d?
И можно ли над знаком суммирования налепить доп абстракций (переписать иначе), типа:
t∈T∈d
Σtn
n=t
Если у вас пошла кровь из глаз и маты изо рта - соррян. Я только учус.
Дополнительно суммируем все t элементы?
Я осознал свои трудности - у меня диссонанс из-за такого применения. Очень похоже на сам вид функции f(t,d).
Хм, интересно. А где об этом можно почитать поподробнее? Именно про такие упрощения. Потому-что ньюфага вроде меня они капец как сбивают. Я то привык что там степень, а внизу (in) нумерация. То есть от математики ждёшь всегда какой-то строгости, бюрократии, который контролирует процесс написания мат символов в определённом месте. Как это всё не путать? Где у него там степень, или просто символ такой атомарный или вовсе что-то иное, о чём я не в курсе?
P.S. вопрос треда остаётся открытым. Не могу же я каждый раз двачеров напрягать своими тупыми вопросами.
>>267
>>268
>>270
Вау. Спасибо за развёрнутый ответ!
> по всем термам
То есть для каждого идентичного t в наборе d?
> ft',d
А зачем вообще в математике эти дубликаты? И так же понятно что что суммируем идентичные t' входящие в d.
И почему нельзя просто написать Σt' ∈ d?
И можно ли над знаком суммирования налепить доп абстракций (переписать иначе), типа:
t∈T∈d
Σtn
n=t
Если у вас пошла кровь из глаз и маты изо рта - соррян. Я только учус.
> сумма всех элементов вида ft′,d
Дополнительно суммируем все t элементы?
Я осознал свои трудности - у меня диссонанс из-за такого применения. Очень похоже на сам вид функции f(t,d).
> t' - это цельный символ, атомарная буква. Вместо t' можно было бы написать букву p или букву w'''''. Автор выбрал t', потому что таковы его эстетические предпочтения.
Хм, интересно. А где об этом можно почитать поподробнее? Именно про такие упрощения. Потому-что ньюфага вроде меня они капец как сбивают. Я то привык что там степень, а внизу (in) нумерация. То есть от математики ждёшь всегда какой-то строгости, бюрократии, который контролирует процесс написания мат символов в определённом месте. Как это всё не путать? Где у него там степень, или просто символ такой атомарный или вовсе что-то иное, о чём я не в курсе?
P.S. вопрос треда остаётся открытым. Не могу же я каждый раз двачеров напрягать своими тупыми вопросами.
>>278
Общий ответ такой, нужно читать прилагающийся текст. Вот в этом конкретном случае формула обильно прокомментирована до и после.
То есть уже по этому описанию понятно, как расшифорвать обозначения. Бюрократия тут такая, как автор обозначает, так и правильно (обычно он учитывает стандарты в этой области). В русской википедии, кстати, другая буква используется.
Написать сумму можно по любому выражению произвольной сложности, которое выделит некоторое множество индексов. У тебя там просто набор знаков какой-то.
Общий ответ такой, нужно читать прилагающийся текст. Вот в этом конкретном случае формула обильно прокомментирована до и после.
>TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа.
То есть уже по этому описанию понятно, как расшифорвать обозначения. Бюрократия тут такая, как автор обозначает, так и правильно (обычно он учитывает стандарты в этой области). В русской википедии, кстати, другая буква используется.
Написать сумму можно по любому выражению произвольной сложности, которое выделит некоторое множество индексов. У тебя там просто набор знаков какой-то.
>>278
По-видимому, нигде. Это слишком мелко, чтобы писать об этом тексты.
>А где об этом можно почитать поподробнее? Именно про такие упрощения.
По-видимому, нигде. Это слишком мелко, чтобы писать об этом тексты.
Обновить тред