Публикации по теме 'data-manipulation'


Почему нам нужно использовать Lodash?
Здравствуйте, сегодня я хочу поговорить о npm под названием Lodash. Прежде чем мы начнем, я думаю, мы должны упомянуть «кучу и стек». Это хранилище движка JavaScript. Стек: выделение статической памяти Стек — это структура данных, которую JavaScript использует для хранения статических данных. Статические данные — это данные, размер которых движку известен во время компиляции. В JavaScript к ним относятся примитивные значения (строки, числа, логические значения, неопределенные..

Объединение DataFrames с пандами | pd.merge ()
В этой статье вы узнаете, как объединить несколько DataFrames в Python с помощью библиотеки Pandas. Введение Слияние DataFrames - это основной процесс, который нужно начинать с анализа данных и задач машинного обучения. Это один из наборов инструментов, которым должен овладеть каждый аналитик или специалист по данным, потому что почти во всех случаях данные поступают из нескольких источников и файлов. Возможно, вам потребуется собрать все данные в одном месте с помощью какой-то..

НЛП (анализ настроений) - хинди !!!
Всем привет, НЛП (обработка естественного языка) - одна из наиболее исследуемых областей исследования в настоящее время. В повседневной жизни мы сталкиваемся со многими такими вещами, например: Google Assistant, Alexa, Cortana и т. Д. Сегодня мы собираемся обсудить НЛП, используемое в области анализа человеческих эмоций. Задача заключалась в том, чтобы провести анализ настроений задних твитов. Одна из самых сложных задач заключалась в том, чтобы получить маркированные данные для..

Вопросы по теме 'data-manipulation'

подмножество по нескольким кадрам данных в R на основе значений вектора символов
У меня есть 6 фреймов данных с 2 столбцами для «id» и «value» и разным количеством строк. Они обозначены p1, p2....p6 и выглядят так id value_p1 Jane C 9.713457e-01 Claire K 1.260160e-01 Brett F 4.933005e-0 Jen S 0.56...
462 просмотров
schedule 11.04.2024

Как правильно использовать функцию egen mean для вычисления средних разностей временных рядов?
У меня есть данные панели в формате: | идентификатор_транзакции | city_id | неделя | tr_cw | , где tr_cw — некоторая метрика, вычисляемая для каждого города за каждую неделю. Я пытаюсь вычислить средний рост показателя для каждого города,...
3212 просмотров
schedule 06.09.2022

Подмножество data.table с условием
Как отобрать подвыборку большой таблицы данных (пакет data.table )? Есть ли более элегантный способ выполнить следующее DT<- data.table(cbind(site = rep(letters[1:2], 1000), value = runif(2000))) DT[site=="a"][sample(1:nrow(DT[site=="a"]),...
3167 просмотров
schedule 02.12.2023

Эффективный способ фильтрации двоичной строки в python
У меня есть каждая длинная двоичная строка, которую я хотел бы отфильтровать по шаблону. Вот рабочий пример: x = b"\x00\x01\x02\x03\x04\x00\x01\x02\x03\x04" x[1] y = [x[i] for i in range(len(x)) if not ((i%5 == 4) or (i%5 == 3))] bytes(y) Он...
228 просмотров
schedule 18.04.2024

Как переименовать столбцы фрейма данных R на основе некоторого существующего шаблона?
У меня есть фрейм данных с большим количеством столбцов с длинными именами. Я хочу переименовать столбцы, чтобы с ними было легче работать в дальнейшем, и хочу сгруппировать их по категориям. Итак, если имена столбцов похожи на...
189 просмотров
schedule 30.06.2022

Разделить столбец данных pandas на основе количества цифр
У меня есть фреймворк данных pandas, который имеет ключ и значение двух столбцов, а значение всегда состоит из 8-значного числа, например >df1 key value 10 10000100 20 10000000 30 10100000 40 11110000 Теперь мне нужно взять столбец...
1717 просмотров

Какой самый быстрый способ удалить символы из буквенно-цифровой строки?
Скажем, у нас есть следующие строки, которые мы передаем в качестве параметров функции ниже: string sString = "S104"; string sString2 = "AS105"; string sString3 = "ASRVT106"; Я хочу иметь возможность извлекать числа из string , чтобы...
552 просмотров
schedule 15.10.2022

Расчет размеров эффекта между 3 группами для набора переменных в наборе данных
Я хотел бы рассчитать размеры эффекта от 3 процедур по 3 переменным (x1, x2, x3). Предположим, у меня есть следующий набор данных: set.seed(1234) data <- data.frame( dose=factor(c(rep(1,25), rep(2,35), rep(3,40)), labels =...
846 просмотров
schedule 29.06.2022

Перекомбинируйте переменные для разных подгрупп в Stata
У меня есть данные, по которым мне нужно выполнить некоторые вычисления для разных подгрупп, а затем их рекомбинировать. Каждая подгруппа определяется эквивалентным весом домохозяйства (шкала эквивалентного дохода ОЭСР). Каждая новая переменная,...
26 просмотров
schedule 10.05.2024

Создайте новый столбец на основе нескольких строк другого столбца
У меня есть фрейм данных, как это > df<-data.frame(index=c(1,2,3,4,5,6),value=c(2,3,5,8,11,12)) > df index value 1 1 2 2 2 3 3 3 5 4 4 8 5 5 11 6 6 12 Я хочу создать новый столбец,...
1118 просмотров
schedule 05.07.2022

Могу ли я управлять столбцом во время подмножества в R?
У меня есть фреймворк сводной статистики логистической регрессии с именами столбцов "CHR" "SNP" "BP" "A1" "TEST" "NMISS" "OR" "STAT" "P" Я хочу создать новый фрейм данных с тремя столбцами: "SNP" "A1" и "logOR"...
62 просмотров
schedule 18.03.2024

Создание групп парных записей по общим элементам
Я студент, пытаюсь проанализировать факторы, увеличивающие вероятность гибели домашнего скота от хищников в ландшафте Северной Индии. Для этого мне нужен список ковариат, который я буду использовать для моей окончательной модели логистической...
134 просмотров
schedule 06.11.2023

считать по уровням в нескольких столбцах
Это расширение здесь . Данные похоже: ID Type Problem1 Value1 Problem2 Value2 Problem3 Value3 1 A X 500 Y 1000 Z 400 2 A X 600 Z 700...
452 просмотров
schedule 12.03.2024

Bash, чтобы превратить файлы строк в CSV с n столбцами
У меня есть такие данные: A B C D E F G H I Я хочу, чтобы это выглядело так: A,B,C D,E,F G,H,I Как я могу добиться этого с помощью инструментов командной строки? В этом вопросе каждая ячейка данных находится в...
30 просмотров
schedule 12.05.2024

Объединить строки с отсутствующим значением
Это мои образцы данных. index <- c(1,2,3,4,5,6,7,8,9,10) a <- c('a','b','c',NA,'D','e',NA,'g','h','i') data <- data.frame(index,a) Я хотел бы создать новое имя столбца, в котором останутся только «a» и «b». Все остальные, такие как...
31 просмотров
schedule 12.07.2022

От длинного до широкого кадра данных с несколькими ключами и значениями
У меня есть этот длинный аккуратный фрейм данных, который я должен расширить. Обычно я решаю это с помощью функции tidyr::spread() . Но теперь мне приходится иметь дело с несколькими ключами, значениями и соглашениями об именах. Мой пример...
109 просмотров
schedule 25.07.2022

Создание нового фрейма данных о принадлежности на основе общих переменных в R
Я не знаю, правильно ли я сформулировал свой вопрос, но я опишу ниже. Учитывая кадр данных, такой как: +------+------+ | Col1 | Col2 | +------+------+ | A | z | | B | z | | C | z | | A | x | | D | x |...
37 просмотров
schedule 04.10.2023

R - Как извлечь уникальные пересечения между группами в бинарной матрице?
Уважаемые коллеги-пользователи Stackoverflow, Я новичок в использовании языка R для анализа биологических данных и столкнулся с проблемой, которую я еще не смог решить - может быть, кто-то более опытный может помочь мне в этом? У меня есть...
187 просмотров
schedule 11.02.2024

Как мутировать переменные во временном окне роллвинга группами с неравными временными расстояниями?
У меня есть большой df с примерно 40 000 000 строк, охватывающий в общей сложности период времени в 2 года и более 400 тысяч уникальных пользователей. Переменная времени имеет формат POSIXct , и у меня есть уникальный user_id для каждого...
91 просмотров

разбиение базы набора данных по определенному началу в ячейке
У меня есть набор данных, например df <- data.frame(year.id = c("2011.01","2011.02","2011.03", "2013.01","2013.02","2013.03", "2015.01","2015.02","2015.03"), values =c(20,25,30,...
27 просмотров
schedule 20.05.2024