улучшенная копипаст версия

Для начала вам нужно получить тот замечательный инструмент t by sferik. Я сосредоточусь на проверке ваших подписчиков (людей, на которых вы подписаны) на наличие плохих учетных записей. Это может быть множество характеристик, но сейчас я проверил использование нормального клиента Twitter и избегал мошеннических сокращателей URL;), таких как bit.ly, buff.ly, ow.ly и dlvr.it.

Чтобы вытащить основной поток таймлайна со всеми метаданными через twitter stream API в файл JSON, я использую пакет streamR от R.

require(twitteR)
require(streamR)
require(RCurl)
ConsumerKey ‹- «X»
ConsumerSecret ‹- «X»
setup_twitter_oauth(consumerKey,consumerSecret, ”X”, “X”)
дата‹-формат(Sys.time(), “%m-%d-%H”)
имя‹-вставка(“.streamR”,дата, sep="")
userStream (имя файла, время ожидания = 3240, oauth = my_oauth, ответы = "все")

Пожалуйста, установите twitteR, streamR прямо с github. Требуется Rcurl.

Вам нужно настроить twitteR с вашей учетной записью. Для этого выполните эти простые шаги на github и в справке R для setup_twitter_oauth. Запустите этот сценарий R с помощью команды Rscript через crontab, измените время ожидания.

t следует›t10_

Установите t и соберите подписки в файл.

cat .streamR* |jq -c '{источник: .source,sn: .user.screen_name}'|grep -v «Twitter для планшетов Android‹»|grep -v «TweetDeck‹»|grep -v «Twitter для iPad ‹”|grep -v “Twitter для Android‹”|grep -v “Веб-клиент Twitter‹”|grep -v “Twitter для iPhone‹”|grep -iP “\”sn\”:\”.*\”” -o›tt11_

Теперь с файлами JSON вы можете использовать замечательный инструмент grep jq. Вы извлекаете только источник твита (идентификатор клиента) и псевдоним для каждого твита. Команды grep получают твиты от мошеннических клиентов. Конечным результатом являются псевдонимы, которые однажды написали в Твиттере с каким-то другим клиентом.

cat .streamR* |jq -c '{источник: .source,sn: .user.screen_name}'|grep -iP "\"sn\":\".*\"" -o›tt12_

Все псевдонимы, которые что-то написали в Твиттере.

cat .streamR* |jq -c '{пример: .entities.urls,sn: .user.screen_name}'|grep -iP «(bit.ly|ow.ly|dlvr.it|buff.ly)»|grep -iP "\"sn\":\".*\"" -o›tt13_

Все псевдонимы, которые использовали этот сокращатель URL-адресов, в основном для автоматизации твитов (см. внизу, чтобы найти тех, у кого есть t).

Теперь украшаем наши файлы. Только имя экрана должно быть в одну строку. Я использую vim и подставляю команду:

:1,$s/X//g в «vim t11_». То же самое с t12_ t13_ (вы можете написать их с помощью команды ex, например, двоичного файла vim: ex -c ‘1,$s///g’ -c ‘wq’ t11_)

sort t11_|uniq›t11__, то же самое для каждого файла: t12__ t13__

Поместите ^(регулярное выражение для начала) в начале каждой строки и $ (конечный символ) в конце:
vim t11_ с :1,$s/^/\^/g и :1,$s/$/ \$/g
Здесь тоже _ t12__ t13__ .

grep -i -f t12_ t10_›t10__ #только люди, которые твитнули

grep -i -f t11__ t10__ -v›t10___ #только люди, которые ни разу не использовали мошеннический клиент

grep -i -f t13__ t10___ -v›t10____ #только люди, которые никогда не использовали эти сокращатели ссылок

:1,300s/\n/ /g в «vim t10____» добавьте первые 300 в новый список с добавлением «t list add yournewlist» в первую строку.

Я создал свой так: newsaneclienturlshort

Советы для t:
Кто больше всего твитит:

t timeline -n800 -l |grep -Pi ‘^.*?@\w+’ -o|grep -Pi ‘@\w+’ -o|sort |uniq -c|sort -k1 -n

Это сокращатели URL:

t timeline -ld -n800 |grep -Pi '\w+\.[a-z]{2,3}' -o|sort|uniq -c|sort -k1 -n

msgbi в твиттере