Публикации по теме 'data-manipulation'
Почему нам нужно использовать Lodash?
Здравствуйте, сегодня я хочу поговорить о npm под названием Lodash.
Прежде чем мы начнем, я думаю, мы должны упомянуть «кучу и стек». Это хранилище движка JavaScript.
Стек: выделение статической памяти
Стек — это структура данных, которую JavaScript использует для хранения статических данных. Статические данные — это данные, размер которых движку известен во время компиляции. В JavaScript к ним относятся примитивные значения (строки, числа, логические значения, неопределенные..
Объединение DataFrames с пандами | pd.merge ()
В этой статье вы узнаете, как объединить несколько DataFrames в Python с помощью библиотеки Pandas.
Введение
Слияние DataFrames - это основной процесс, который нужно начинать с анализа данных и задач машинного обучения. Это один из наборов инструментов, которым должен овладеть каждый аналитик или специалист по данным, потому что почти во всех случаях данные поступают из нескольких источников и файлов. Возможно, вам потребуется собрать все данные в одном месте с помощью какой-то..
НЛП (анализ настроений) - хинди !!!
Всем привет, НЛП (обработка естественного языка) - одна из наиболее исследуемых областей исследования в настоящее время. В повседневной жизни мы сталкиваемся со многими такими вещами, например: Google Assistant, Alexa, Cortana и т. Д.
Сегодня мы собираемся обсудить НЛП, используемое в области анализа человеческих эмоций. Задача заключалась в том, чтобы провести анализ настроений задних твитов. Одна из самых сложных задач заключалась в том, чтобы получить маркированные данные для..
Вопросы по теме 'data-manipulation'
подмножество по нескольким кадрам данных в R на основе значений вектора символов
У меня есть 6 фреймов данных с 2 столбцами для «id» и «value» и разным количеством строк. Они обозначены p1, p2....p6 и выглядят так
id value_p1
Jane C 9.713457e-01
Claire K 1.260160e-01
Brett F 4.933005e-0
Jen S 0.56...
462 просмотров
schedule
11.04.2024
Как правильно использовать функцию egen mean для вычисления средних разностей временных рядов?
У меня есть данные панели в формате: | идентификатор_транзакции | city_id | неделя | tr_cw | , где tr_cw — некоторая метрика, вычисляемая для каждого города за каждую неделю.
Я пытаюсь вычислить средний рост показателя для каждого города,...
3212 просмотров
schedule
06.09.2022
Подмножество data.table с условием
Как отобрать подвыборку большой таблицы данных (пакет data.table )? Есть ли более элегантный способ выполнить следующее
DT<- data.table(cbind(site = rep(letters[1:2], 1000), value = runif(2000)))
DT[site=="a"][sample(1:nrow(DT[site=="a"]),...
3167 просмотров
schedule
02.12.2023
Эффективный способ фильтрации двоичной строки в python
У меня есть каждая длинная двоичная строка, которую я хотел бы отфильтровать по шаблону. Вот рабочий пример:
x = b"\x00\x01\x02\x03\x04\x00\x01\x02\x03\x04"
x[1]
y = [x[i] for i in range(len(x)) if not ((i%5 == 4) or (i%5 == 3))]
bytes(y)
Он...
228 просмотров
schedule
18.04.2024
Как переименовать столбцы фрейма данных R на основе некоторого существующего шаблона?
У меня есть фрейм данных с большим количеством столбцов с длинными именами. Я хочу переименовать столбцы, чтобы с ними было легче работать в дальнейшем, и хочу сгруппировать их по категориям.
Итак, если имена столбцов похожи на...
189 просмотров
schedule
30.06.2022
Разделить столбец данных pandas на основе количества цифр
У меня есть фреймворк данных pandas, который имеет ключ и значение двух столбцов, а значение всегда состоит из 8-значного числа, например
>df1
key value
10 10000100
20 10000000
30 10100000
40 11110000
Теперь мне нужно взять столбец...
1717 просмотров
schedule
03.03.2024
Какой самый быстрый способ удалить символы из буквенно-цифровой строки?
Скажем, у нас есть следующие строки, которые мы передаем в качестве параметров функции ниже:
string sString = "S104";
string sString2 = "AS105";
string sString3 = "ASRVT106";
Я хочу иметь возможность извлекать числа из string , чтобы...
552 просмотров
schedule
15.10.2022
Расчет размеров эффекта между 3 группами для набора переменных в наборе данных
Я хотел бы рассчитать размеры эффекта от 3 процедур по 3 переменным (x1, x2, x3). Предположим, у меня есть следующий набор данных:
set.seed(1234)
data <- data.frame(
dose=factor(c(rep(1,25), rep(2,35), rep(3,40)),
labels =...
846 просмотров
schedule
29.06.2022
Перекомбинируйте переменные для разных подгрупп в Stata
У меня есть данные, по которым мне нужно выполнить некоторые вычисления для разных подгрупп, а затем их рекомбинировать.
Каждая подгруппа определяется эквивалентным весом домохозяйства (шкала эквивалентного дохода ОЭСР).
Каждая новая переменная,...
26 просмотров
schedule
10.05.2024
Создайте новый столбец на основе нескольких строк другого столбца
У меня есть фрейм данных, как это
> df<-data.frame(index=c(1,2,3,4,5,6),value=c(2,3,5,8,11,12))
> df
index value
1 1 2
2 2 3
3 3 5
4 4 8
5 5 11
6 6 12
Я хочу создать новый столбец,...
1118 просмотров
schedule
05.07.2022
Могу ли я управлять столбцом во время подмножества в R?
У меня есть фреймворк сводной статистики логистической регрессии с именами столбцов
"CHR" "SNP" "BP" "A1" "TEST" "NMISS" "OR" "STAT" "P"
Я хочу создать новый фрейм данных с тремя столбцами:
"SNP" "A1" и "logOR"...
62 просмотров
schedule
18.03.2024
Создание групп парных записей по общим элементам
Я студент, пытаюсь проанализировать факторы, увеличивающие вероятность гибели домашнего скота от хищников в ландшафте Северной Индии. Для этого мне нужен список ковариат, который я буду использовать для моей окончательной модели логистической...
134 просмотров
schedule
06.11.2023
считать по уровням в нескольких столбцах
Это расширение здесь . Данные похоже:
ID Type Problem1 Value1 Problem2 Value2 Problem3 Value3
1 A X 500 Y 1000 Z 400
2 A X 600 Z 700...
452 просмотров
schedule
12.03.2024
Bash, чтобы превратить файлы строк в CSV с n столбцами
У меня есть такие данные:
A
B
C D
E
F
G
H I
Я хочу, чтобы это выглядело так:
A,B,C
D,E,F
G,H,I
Как я могу добиться этого с помощью инструментов командной строки?
В этом вопросе каждая ячейка данных находится в...
30 просмотров
schedule
12.05.2024
Объединить строки с отсутствующим значением
Это мои образцы данных.
index <- c(1,2,3,4,5,6,7,8,9,10)
a <- c('a','b','c',NA,'D','e',NA,'g','h','i')
data <- data.frame(index,a)
Я хотел бы создать новое имя столбца, в котором останутся только «a» и «b». Все остальные, такие как...
31 просмотров
schedule
12.07.2022
От длинного до широкого кадра данных с несколькими ключами и значениями
У меня есть этот длинный аккуратный фрейм данных, который я должен расширить. Обычно я решаю это с помощью функции tidyr::spread() . Но теперь мне приходится иметь дело с несколькими ключами, значениями и соглашениями об именах.
Мой пример...
109 просмотров
schedule
25.07.2022
Создание нового фрейма данных о принадлежности на основе общих переменных в R
Я не знаю, правильно ли я сформулировал свой вопрос, но я опишу ниже.
Учитывая кадр данных, такой как:
+------+------+
| Col1 | Col2 |
+------+------+
| A | z |
| B | z |
| C | z |
| A | x |
| D | x |...
37 просмотров
schedule
04.10.2023
R - Как извлечь уникальные пересечения между группами в бинарной матрице?
Уважаемые коллеги-пользователи Stackoverflow,
Я новичок в использовании языка R для анализа биологических данных и столкнулся с проблемой, которую я еще не смог решить - может быть, кто-то более опытный может помочь мне в этом?
У меня есть...
187 просмотров
schedule
11.02.2024
Как мутировать переменные во временном окне роллвинга группами с неравными временными расстояниями?
У меня есть большой df с примерно 40 000 000 строк, охватывающий в общей сложности период времени в 2 года и более 400 тысяч уникальных пользователей. Переменная времени имеет формат POSIXct , и у меня есть уникальный user_id для каждого...
91 просмотров
schedule
12.08.2022
разбиение базы набора данных по определенному началу в ячейке
У меня есть набор данных, например
df <- data.frame(year.id = c("2011.01","2011.02","2011.03",
"2013.01","2013.02","2013.03",
"2015.01","2015.02","2015.03"),
values =c(20,25,30,...
27 просмотров
schedule
20.05.2024