У меня есть RDD со МНОГИМИ столбцами (например, сотни), и большая часть моей работы выполняется в столбцах, например. Мне нужно создать много промежуточных переменных из разных столбцов.
Каков наиболее эффективный способ сделать это?
Я создаю RDD из файла CSV:
dataRDD = sc.textFile("/...path/*.csv").map(lambda line: line.split(",”))
Например, это даст мне RDD, как показано ниже:
123, 523, 534, ..., 893
536, 98, 1623, ..., 98472
537, 89, 83640, ..., 9265
7297, 98364, 9, ..., 735
......
29, 94, 956, ..., 758
Мне нужно создать новый столбец или переменную как calculatevalue = 2ndCol+19thCol и создать новый RDD.
123, 523, 534, ..., 893, calculatedvalue
536, 98, 1623, ..., 98472, calculatedvalue
537, 89, 83640, ..., 9265, calculatedvalue
7297, 98364, 9, ..., 735, calculatedvalue
......
29, 94, 956, ..., 758, calculatedvalue
Как лучше всего это сделать?