Публикации по теме 'similarity'


Наиболее распространенные метрики сходства в Data Science
Математика и статистика | Zero Bulls * it # 1 Практическое, ясное и интуитивно понятное руководство о мерах сходства, их математических основах и применении. Введение Это самая первая статья в моей новой серии статей « Математика и статистика | Zero Bulls * it », или коротко« Математика и статистика | zbs », где я буду объяснять (пытаться объяснить) различные математические и статистические концепции как можно проще. Еще одна цель, которую я планирую достичь с помощью..

Вопросы по теме 'similarity'

Ускорение levenshtein/like_text в PHP
В настоящее время я использую similar_text для сравнения строки со списком ~ 50 000, что работает, хотя из-за количества сравнений это очень медленно. Сравнение ~500 уникальных строк занимает около 11 минут. Прежде чем запускать это, я проверяю...
4963 просмотров
schedule 03.10.2022

как вычислить сходство между двумя строками в MYSQL
если у меня есть две строки в mysql: @a="Welcome to Stack Overflow" @b=" Hello to stack overflow"; есть ли способ получить процент сходства между этими двумя строками с помощью MYSQL? здесь, например, 3 слова похожи, и, следовательно,...
36599 просмотров
schedule 14.10.2023

Подобие N-Gram, tf-idf и косинуса в Perl
Я пытаюсь сделать некоторый шаблон «добычи» в части нескольких слов в каждой строке. Я провел анализ N-грамм, используя модуль Text::Ngrams в Perl, который дает мне частоту каждого слова. Однако я совершенно запутался в поиске закономерностей в этом...
1797 просмотров
schedule 08.10.2023

R: Поиск строки SIMILAR и возврат с условным символом
Мой df имеет следующие записи: A xxx xxx xxx1 xx1x yyyy gggg Я хочу добавить символы в столбец B моего df на основе подобия столбца A на основе следующих условий. Я установил порог как = или > 75% похоже. Столбец A уже отсортирован....
2419 просмотров
schedule 24.12.2023

как реализовать сходство Jaccard в С#
У меня есть эта проблема при вычислении сходства Jaccard для наборов (бит-векторов): v1 = 10111 v2 = 10011 Размер пересечения = 3; (Как мы могли это узнать?) Размер союза = 4, (Как мы могли это узнать?) Сходство Жаккара =...
2002 просмотров
schedule 15.03.2024

Подобие списков в Python — сравнение клиентов по их характеристикам
У меня есть список клиентов и функций в следующем формате: UserID, Feature1, Feature2, Feature3, Feature4 Итак, у меня есть список, называемый «Клиенты», и он выглядит так: [ ['975676924', '1345207523', '-1953633084', '-2041119774',...
1302 просмотров
schedule 03.10.2022

Как определить, похожи ли два временных ряда?
этот вопрос беспокоит меня два дня. Теперь я сравниваю схожесть данных двух временных рядов. Подход, который я знаю до сих пор, заключается в вычислении расстояния между ними. Здесь я выбираю динамическое искажение времени (DTW), чтобы вычислить...
5196 просмотров
schedule 23.09.2022

Из вывода оператора Cross Distances Rapid Miner, как найти номер/номера строки «Набор запросов» из «Набора ссылок»
Я новичок в обучающей студии Rapid Miner и ее операторах, во время работы с Rapid Miner я застрял со странным сомнением, и проблема описана как проблема - У меня есть набор данных из 100 строк, и я ввожу этот набор в оператор «Диапазон примеров...
159 просмотров
schedule 01.03.2024

другой подход к схожести документов (LDA, LSA, косинус)
У меня есть комплект коротких документов (по 1-2 абзаца). Я использовал три разных подхода для определения подобия документов: - простое косинусное сходство на матрице tfidf - применение LDA ко всему корпусу, а затем использование модели LDA для...
1099 просмотров
schedule 09.10.2023

Сопоставление строк Python точно соответствует функции подобия Postgresql
Я использовал функцию сходства модуля pg_trgm в PostgreSQL, и теперь я ищу функцию сходства слов, аналогичную Сходству в Python. Я нашел много методов в python, например. difflib, nltk, но ни один из этих методов не дает результатов, подобных...
1560 просмотров
schedule 25.08.2022

Lucene рассчитать среднюю частоту терминов
В настоящее время я реализую модификацию стандарта Lucene Сходство BM25 , основанное на следующем статье . Реализация фактической формулы проста, но я борюсь с вычислением необходимой статистики. Мне нужны следующие две статистики: Средняя...
607 просмотров