← на главную
21 заметка с тегом

все эти ваши компьютеры

Забрать своё из облаков: важные видео из YouTube — 2

Спустя полгода после запуска велосипедика для автокачания и сохранения важных видосов, провёл аудит его работы и немного допилил.

Во-первых, за прошедшее время скриптом в архив было скачано несколько видосов, которые уже недоступны в интернете — часть удалили авторы, а часть сгинула вместе с каналами, удалёнными администрацией йутуба в баталиях нового чудного времени цензуры и культуры отмены. Помещать интересные (а особенно острые и потенциально скандальные) видосы в плейлист для сохранения стало привычкой.

Во-вторых, всплыла интересная особенность этого вашего СЕО и кликбейт-традиций: авторы на ютубе нередко переименовывают ролики, иногда (как например вДудь) — после добавления субтитров и других изменений, а иногда — просто чтобы новые названия привлекали внимание зрителей и обманывали алгоритмы. Так как в шаблон именования файлов я внёс название ролика, это приводило к тому что часть роликов повторялась несколько раз — а видос с одного канала (крутой по содержанию документальный фильм про советскую мультипликацию, кстати), закачался аж 6 раз, в соответствии с каждым почти ежедневным переименованием.

К счастью, в шаблон имени файла я с самого начала добавил ID ролика, и по ним дубликаты можно легко находить. Добил скрипт закачки несколькими строками, находящими в архиве файлы с одинаковыми ID внутри имён и удаляющие самые старые файлы — и дело в шляпе

В-третьих, оказалось что место видосиками жрётся весьма стремительно — а я по старой привычке выбрал для хранения максимально возможное качество. Подумал над вопросом, и решил что в подавляющем большинстве случаев содержимое вполне воспринимается и в невысоком качестве, и в качестве разумного компромисса выбрал скачивать вариант 720p. В первую ночь видосики с новыми параметрами перекачались, дубликаты удалились, выигрыш по месту вышел очень приятный.

Машины работают, человек счастлив. Вернусь к вопросу через следующие полгода

 64   1 мес   все эти ваши компьютеры   Забрать своё из облаков   КЭНК

Забрать своё из облаков: вконтакте

Как я писал в одной из первых заметок цикла, ВК не позволяет полноценно выгрузить из себя пользовательские данные. Запросив выгрузку на странице https://vk.com/data_protection, через некоторое время пользователь получает относительно небольшой zip архив, внутри которого расположен набор слинкованных html страниц без медиафайлов. Сами медиаматериалы (изображения и видео) в архив не попадают — указаны только либо ссылки на исходные объекты в ВК, либо фото (или превью видео), которые подгружаются с серверов ВК в интернете. Интересно, что при этом другого динамического или внешнего контента нет — css уже положены в папку, а из javascript внутри страниц только несколько обработчиков onclick без внешней загрузки.

Я изучил сторонние парсеры, которые опубликованы в интернете. Всё найденное страдает схожим набором недостатков. Нужно давать доступ к странице (или открыть её для всех, чего я делать не хочу). А ещё все подобные инструменты быстро устаревают в условиях постоянно меняющихся верстки сайта и механизмов авторизации — например, чудо-комбайн для загрузки видео yt-dlp в этом году несколько месяцев не мог качать видео из ВК после очередной смены алгоритмов сайта.

В общем, спустя некоторое время поисков я решил пристальней взглянуть на выгрузку, выдаваемую ВК, и обнаружил что фотографии в коде выгрузки даются прямыми ссылками на полноразмерные источники, которые ещё и работают без авторизации на сайте. А значит, пройдя по коду страниц, можно выкачать исходные фотки, и дальше сделать с этим что-то.

Пока я придумал два варианта — сгрузить фотографии на диск в каталог внутри оригинальной выгрузки и поменять ссылки в тексте страниц (фотоальбомы, чаты, стена) так, чтобы всё открывалось локально. Второй возможный вариант — сгрузить фотографии из фотоальбомов в файловую систему отдельно, повторив папками структуру исходных фотоальбомов на сайте. Первый вариант в черновом виде уже реализовал быстро на powershell, но для публикации его нужно причесать.

Также, пока работает yt-dlp, можно попробовать выкачать им видео, и заменить ссылки в дампе на скачанные файлы (это будет посложнее, будет завязано на работоспособность yt-dlp, и точно не позволит скачать часть видео без авторизации yt-dlp в ВК)

Думаю как быть дальше.

 43   1 мес   все эти ваши компьютеры   Забрать своё из облаков

Обновленный FastStone Image Viewer

В этом году в FastStone Image Viewer запилили несколько знаковых обновлений. Во-первых, базу программы проапгрейдили, теперь она помнит сикстильярд превьюшек, и главное — появился пункт меню, заставляющий программу отсканировать заданные папки и эти самые превьюшки нагенерить. Ура, мой костыль шестилетней давности больше не нужен.

Второе важное изменение — перепилили рендер для HEIC/HEIF, ибо раньше даже на серьёзном железе импортированные с айфона фоточки на компе открывались неприлично для 2022 года медленно.

Ну и третье, новая фича параллельных файловых операций с жипегом и RAW — удобно в моих сценариях обработки фоток с зеркалки.

Люто рекомендую, сам пользуюсь FastStone уже не помню сколько лет.

https://www.faststone.org/FSViewerDetail.htm

 20   5 мес   все эти ваши компьютеры

Забрать своё из облаков: важные видео из YouTube

Задача: иметь в оффлайн архиве копии важных видео из ютуба.

Понятно, что сохранять все подряд киношки смысла нет, однако встречаются видео, которые хочется иметь в любом случае. На самом деле, здесь класса видосов ровно два. Первый — прокастинаторшный: «ой какой видос обучающий/полезный/интересный, надо как-нибудь посмотреть». Такие видосы годами копятся в многочисленных туду-листах, и нет причин не сохранить их на случай, когда в чудесном постакопалиптическом мире будет нечего делать, кроме как доделывать всё отложенное и запаузенное. Второй класс — остолбенелошный: видео, которые уже просмотрены и ценны идеей, как свидетельство эпохи, или как уникальный творческий продукт. Кстати, артистам чаще других свойственно удалять свои творения по велению внутреннего цензора или при смене художественной парадигмы, и в этом плане архивация тем более важна.

Над решением задачи трудится комбайн-самокат в составе:

  • отдельного приватного плейлиста SaveMe в моём аккаунте на ютубе, куда мной добавляются для сохранения видосы. Конечно, наиболее прозрачным было бы использование плейлиста лайканых видосов, или, как вариант, встроенного плейлиста «Смотреть позже», но они принципиально не доступны наружу сервиса по политике ютюба, в отличие от плейлистов кастомных. Добавить видос в плейлист SaveMe можно из веб-интерфейса или из приложки на телефоне, это вполне удобно.
  • скрипта, запускаемого по расписанию на домашней машине, в котором стартует натравленный на плейлист SaveMe ультра-качатор yt-dlp (более продвинутый форк youtube-dl). Качатору выданы опциии именования файла по названию, каналу и дате публикации, вшивания субтитров, выбора подходящего качества, и перекладывания файла на шару на NAS.

Более красивым было бы крутить комбайн прямо внутри NAS, но первая временная версия успешно работает, будет этого не хватать — переделаю

упорядоченный беспорядок в папке закачек. Джейсоны с метадатой не нужны, но пусть будут.

Слава Роботам!

 34   7 мес   все эти ваши компьютеры   Забрать своё из облаков

Забрать своё из облаков: почта

Итак, почта. В соответствии с общей концепцией, я буду пользоваться личной почтой как и ранее, однако обеспечу себе максимально возможную локальную копию, а попутно удалю из облаков данные, которые там хранить вообще говоря не зачем (и не стоит)

Локальный почтовый архив и Крыс

Отличным решением здесь мог бы быть почтовый клиент, синхронизирующий базы с облаками по IMAP. Давным-давно я использовал The Bat, потом носил на флешке The Bat Portable. К сожалению, на текущий момент программа хоть и поддерживается, но перенести её на новый накопитель я не смог: за прошедшие десять лет url страницы на сайте производителя, на который программа перекидывает при процедуре регенерации ключа, изменился, а хакнуть id накопителя я не смог из-за смены файловой системы. К тому же, Крыс выпускается только под винду — а пёс его знает, будут ли в этом вашем пост-апокалиптическом будущем винды.

Thunderbird

Подобрано и протестировано другое отличное решение — Mozilla Thunderbird. Программа кросс-платформенная (базы из виндовой версии прекрасно подхватываются после копирования в Ubuntu, включая русский текст и вложения), бесплатная, под windows есть портабельный вариант. В Thunderbird были подключены все актуальные аккаунты веб-почты, данные синхронизированы, а после бОльшая часть почты перенесена в оффлайн архив (Local Folders в терминологии Thunderbird). В дальнейшем Thunderbird будет в постоянной синхронизации с облаками, а в рамках регулярной рутины полная копия программы с базами будет убираться в дальний архив.

Выводы по итогам переноса

Важные и полезные детали, которые вскрылись не сразу:

  • в настройках надо включить полную синхронизацию данных (а то Thunderbird будет скачивать только заголовки писем и ЕслиЧто вы останетесь без архива, на который рассчитывали).
  • переносить данные в локальный архив нужно через команду Архивирования. В настройках (аккаунт — Copies & Folders — Message Archives — Keep message Archives in — Other) можно включить отдельную архивную папку для каждого ящика, чтобы не смешивать данные
  • ярлыки gmail показываются в Thunderbird как папки, при этом если вы переносите в архив содержимое папки, письма остаются на сервере, но с них снимается соответствующий ярлык — а их у каждого письма как минимум два, AllMail и Inbox/Sent Mail, а то и больше. Важно понимать, откуда берётся куча дублей в итоге, но это решается либо снятием ярлыков заранее — либо использованием плагинов дедупликации для Thunderbird после переноса, либо например архивированием только папки AllMail и удалением писем из остальных

Почта из прошлого десятилетия

Попутно, пока архивировал и разбирал почту, славно поностальгировал по временам своего 20-30 летия: почитал старые переписки, удивился ценам на всякие железа и удовольствия, вспомнил людей и коллег, с которыми не виделся кучу лет. Письма от тех, кого давно нет рядом, и на этом свете вообще — удивительный экспириенс и телепорт.

Еще занятно видеть письма от сайтов и организаций, которых давно уже нет — от магазинов, форумов и прочей онлайн-части жизни в 2010-х. На некоторых сайтах теперь спокойно работают другие конторы (например, дилер и ритейлер Пирит), некоторые заброшены или поменяли контент, превратившись из городских diy-форумов в порталы и визитки. Кстати, надо как-нибудь рассказать про хаб для Direct Connect PtokaX и бота для него HUBBABOT (HUB’s Big Ass Bot), которым я когда-то пытался to Make the World a Better Place в плоскости пиринговых сетей и сетевого общения.

Помню что на этом шоу в Тоннах была дикая давка, я никогда не видел клуб настолько набитым. Сейчас такие концерты стоят 3-5 тысяч
Письмо от сестры — она активно осваивала эти ваши интернеты

В целом на текущий момент так

 29   7 мес   все эти ваши компьютеры   Забрать своё из облаков

Забрать своё из облаков: лошадиное рагу

Почти всё время, что я живу в прекрасном мире компьютеров, он становился открытей, мощней, лучше, наполнялся возможностями и удивительными чудесами. Однако в последние годы свободы и права собственности в этих ваших интернетах стали резко уменьшаться — теперь государства и корпорации решают, что нам можно говорить, и что нам принадлежит. До февраля 2022 это вызывало у меня некоторое недовольство, и я даже что-то неспешно делал в сторону файловой и соцсетевой независимости. Но чудное новое время внесло в ситуацию настоящие чёрно-лебединые коррективы: оказывается можно отменить целые страны, заблокировать данные, разорвать контракты без компенсации, просто руководствуясь своими собственными представлениями о добре и зле, и делать это могут тоже все — от государств до инди-разработчиков софта.

Что делать в такой ситуации, и — говоря шире — в таком мире? Я долго выбирал стратегию, уж очень не хотелось менять привычное и уютное — и в итоге понял, что, заранее и добровольно отправляться в прекрасные луддит-дали и айти-палеолит я не хочу, но к необходимости сделать это в какой-то момент без потери _своего_ надо подготовиться. Поэтому общая концепция на текущий момент сформулировaна так: я буду пользоваться привычными облачными и публичными сервисами как и раньше, сдвигая фокус на:

  • готовность к тому что прекратить работать (в целом, или для меня лично) может что угодно из них
  • возможность иметь постоянную актуальную локальную копию данных из этих сервисов
  • возможность доступа к данным из локальной копии (толку от бэкапов, которые можно только выгрузить через облако на телефон). Локальная копия должна обеспечивать доступность этих данных для использования, в идеале — с возможностью загрузки в похожие на используемые, но альтернативные сервисы
  • там где вышеперечисленное невозможно — постепенно уходить от использования таких сервисов или таких моделей доступа к данным

Примеры

  • смс в айфоне — пока не нашел решения для их выгрузки или резервного копирования. Если не найду — разово выгружу архив любым из немасштабируемых методов, и откажусь от использования смс в дальнейшем для переписок, которые хочу сохранить. В целом нового ничего ценного в смс уже не приходит, но старьё хотелось бы сохранить
  • заметки в айфоне — можно перейти на синхронизацию с любым альтернативным почтовым сервисом по IMAP, но это лишает возможности использовать расширенное форматирование текста. Здесь выбираю периодическое архивирование заметок (решение, позволяющее это реализовать на маке, подобрано). В СлучаеЧего — импортирую данные из выгрузки с потерей расширенного форматирования в альтернативный IMAP сервис или вообще перейду на другие решения, не использующие стандартный заметочный клиент телефона, например Joplin
  • мобилофоточки. Вопрос решен давно: при СлучаеЧего с любым из используемых сейчас сервисов, я буду издевательски смеяться, рассматривая картинки в одном из нескольких реализованных непрерывно актуальных архивов. Йо-хо-хо, мазафака

Направлений работы много, местами находятся или создаются интересные решения, так что буду фиксировать их тут — сам вспомню если что, а вдруг и кому-то ещё пригодится. А там и на хабр статью можно написать, чем Boomburum не шутит

Я прожил пару восхитительных десятилетий в мире облаков-белогривых лошадок, пришло время делать из них лошадиное рагу.

 27   7 мес   все эти ваши компьютеры   Забрать своё из облаков

КЭНК: выгрузка фото из iCloud на Яндекс диск — 2

В прошлой серии велосипедостроения на тему переноса фоток в Яндекс.Диск была успешно решена проблема выгрузки и переименовывания файлов из iCloud в соответствии с датой. Однако, опыт эксплуатации процедуры показал её недостаток: перенесенные таким образом файлы *.heic Ядиском не располагались по альбомам в соответствии с датой, а сваливались в одну кучу дня импортирования.

Пара вечеров была потрачена на анализ и сравнение *.heic файлов, импортированных яндексом с телефона самостоятельно, и обработанных мной вручную. К сожалению, никакого способа поправить теги даты так, чтобы яндекс их воспринял, не нашлось: изменения внесенные exiftool или гуевыми программами типа XnView или FastStone результата не давали. Я заморочился, сравнил файлы преобразованные яндексом и свои, добился полного совпадения полей в выгрузке exiftool — и всё равно роботы яндекса делать красоту отказывались. Поэтому с *.heic файлами придуман обходной путь — конвертировать их в jpeg (те же теги, пробитые в jpeg, срабатывали отлично)

Заодно кстати выяснилось, что яндексу важны метаданные в поле DateTimeOriginal: файлы с корректно заполненными DateCreated но не заполненными DateTimeOriginal он также датировал неправильно.

Так вот, конвертация из heic в jpeg. Тут мне открылся неведомый мир цветовых профилей и прочих тонкостей. Оказалось что эппле пишет heic со своим чудо-профилем, который мало кто понимает и корректно показывает. Все распространённые свободные конверторы в джипег на выходе дают гораздо более бледные и светлые картинки, при этом встроенный просмотрщик macOS эти файлы показывает в исходном красивом цвете, а вот в других программах и на других платформах случается «ой». Перелопачена уйма форумов, нужное колдунство найдено — нужно не просто конвертировать heic в jpeg, но ещё и заменять цветовой профиль, а также корректировать гамму (значение корректировки я подобрал на глаз более-менее похожим, возможно тут будут нюансы на фотках разных насыщенностей)

Вот что выходит с разными конвертациями и (что важно) при разных программах просмотра:

оригинальный heic в Preview macOS, конверченный ImageMagick jpeg без коррекции цвета в Preview macOS, он же в XnView, jpeg с коррекцией цвета в Preview macOS и в XnView

Хорош рассусоливать, что вышло-то?

Итоговая на текущий момент процедура конвертации такова:

  • перегнать все heic в jpeg при помощи ImageMagick, заменяя цветовой профиль на sRGB.icc и цветовое пространство на sRGB и корректируя гамму, стереть оригиналы
  • пробить во все экспортированные файлы (и в том числе в джипеги, конвертированные из heic) метаданные из *.xmp
  • видосикам пробить FileModifyDate из TrackCreateDate и переименовать
  • там где у картинок DateTimeOriginal задан — переименовать файлы в соответствии с датой
  • там где у картинок DateTimeOriginal не задан — пробить его из DateCreated и переименовать файлы в соответствии с датой

Обработанные таким образом медиаматериалы корректно раскладываются яндекс диском в альбомы по времени и геолокации. Косяки и нюансы

  • не раскладываются по датам PNG (у меня это на 100% скриншоты) — ну да от них участия в генерации памятных сторис и прочей красоты не требуется.
  • heic с Live Photos внутри конвертируются в два файла: картинка с дефолтным кадром и микро-mp4 с полной анимацией. Не парит опять же.

В полном соответствии с методологией КЭНК и принципами Hobby-as-Code процедура собрана в shell скрипт, ознакомиться с которым можно на github (уберите от консоли беременных детей и женщин): https://github.com/alexbatishchev/kenk-yadisk-photomaster

КЭНК!
Слава роботам!

 146   2021   bash   все эти ваши компьютеры   КЭНК   Яндекс.Диск

Новый комплюктер и домашние облака

На новый год сделал себе подарок одновременно приятный и полезный — впервые за почти 10 лет обновил основной домашний компьютер. Много лет в корпусе Asus Ascot от собранного еще в середине 2000-x компа на базе Prescott трудился i5-2400. Сначала мне его хватало с лихвой, потом я стал упираться в троттлинг при сборке видео, купил башенный чудо-кулер, и при замене обнаружил что во время первой сборки забыл убрать защитную плёнку с оригинального кулера. Так, обретя полноценное охлаждение он и проработал до недавнего времени, закрывая большинство задач. Претензий было две — недостаточно быстрое кодирование видео в современные форматы, и откровенные тормоза при файловых операциях и включенном антивирусе, которые стали бесить.

Почитав эти ваши тридэньюсы, я открыл что за годы постепенного (и как я считал несущественного) прироста производительности, итоговая разница мощи актуальных камней и старичка — в разы, а значит обновиться действительно стоит.

Самое непривычное — я почитал обзоры, пособирал конструкторы, и впервые в жизни купил полностью готовый брендовый комп на i7-10700: оказалось что подходящая мне по параметрам и размерам модель ещё и стоит дешевле, чем собрать такой же конфиг самому.

Ощущения от скорости удивительные, а ещё удивительней полностью новая современная платформа, без механических дисков, тихая и производительная, размером с треть моего прошлого системника — ощущаю себя Робинзоном, вернувшимся в цивилизацию. Недостатки тоже есть — на материнке не распаян PCI слот, SATA не поддерживает эмуляцию eSATA, так что комп придётся дополнить новым кредлом для дисков и, может быть, контроллером IEEE1394.

Перенося софт и данные на новый комп, решил протестировать что там в домашних облаках в варианте Hyper-V (которого не касался почти 8 лет). Сверхъестественного ничего, всё работает, с конвертацией виртуалок между форматами успешно справляется StarWind V2V Converter — собственно, для фиксирования этой информации в первую очередь пишется пост. Кстати, для основных учебных проектов я наверное вернусь к Oracle VM VirtualBox, так как его образы могу крутить без преобразований и на Win10 и на macOS.

 117   2021   Hyper-V   Oracle VM VirtualBox   все эти ваши компьютеры

Забрать своё из облаков: жж и гуглоплюс

На каникулах перенёс в блог архив своего ЖЖ и гуглоплюса

ЖЖ

ЖЖ я завёл (судя по записи «хэхэ, жэжэ») в 2009 году, и активно писал в него несколько лет. Журнал сохранился в неизменном виде до декабря 2020, когда я провёл перенос его в этот блог. В журнале никогда не было особых обсуждений, да и сам я почти никогда ничего не комментировал в других журналах, так как чужие жж читал и читаю через RSS. Но как дневник, прото-иг и заметки использовал его плотно. К слову о комментариях — уже закончив перенос я вспомнил про те немногие комменты, что в моем жж были — и решил ими не заморачиваться. Такой вот чукча читатель и он же чукча-писатель без потребности в обратной связи.

Google+

Несколько лет в 2011-2014 я активно пользовался гуглоплюсом. Люблю тестить новые технологии, плюс идея с геолокацией оказать удивительно ёмкой на применение. Например, было интересно в новом месте посмотреть, кто постит что-то рядом (а вот на этом полустанке между Москвой и Киевом, есть пользователи гуглоплюса?). Ещё я нашел несколько интересных людей просто потому, что они постили из того же утреннего экспресса из Перди в Нерезиновую, что и я (и кстати, которых я благополучно потерял вместе с закрытием гуглоплюса). В московском метро на кольцевой клиент гуглоплюса меня постоянно определял как в Питере — это был забавный телепорт внутри сервиса.

Само закрытие гуглоплюса пару лет назад я как-то прощёлкал — знал о нём, но не придал значения. Когда мысль выдернуть оттуда посты меня всё же посетила — архивы сервиса уже были потёрты. Справедливости ради отмечу, что в процессе переноса (о котором ниже) я всё же столкнулся пару раз с тем что мои картинки по длинным урлам на серверах гугла ещё доступны, то есть удалили — но не всё.

В общем, в плане переноса мне повезло, что после перехода в гуглоплюс я настроил экспорт заметок из него в ЖЖ, поэтому тексты постов сохранились. А картинки, которые погибли вместе с G+, остались в бэкапах на домашнем хранилище (фотки со смартфонов я предусмотрительно синхронизировал на NAS уже в те года).

Таким образом, перед началом переноса у меня был выгруженный из жж архив, заполненный оригинальными записями вперемешку с полуистлевшими репостами из G+, а также архив оригинальных фотографий, павершелл и стойкое нежелание делать много ручной работы — в реальности, совсем без неё не обошлось, и в итоге я фактически открыл и в той или иной мере отредактировал каждый из постов, но основной объем работы по переносу, включая создание записей, правку форматирования, генерацию заголовков постов, выдерг тегов и местоположений, создание URL постов для эгеи, и кучу ещё всего сделали за меня роботы.

Процедура переноса.

Сначала я взял выгрузку актуальной базы из Эгеи и разобрался в её устройстве. Посмотрел как работает с базой Евгений Степанищев. В несколько итераций написал на павершелле парсер, который выдёргивает из поста жж данные — заголовок, тело, дату и теги (настроениями я не пользовался обычно), складывает и переименовывает картинки. Для импортированных из G+ постов сделал парсер отметок геолокации из тела поста. Ну и по мелочи множество всяких замен ссылок на формат эгеи, убирания форматирования и тому подобное. На выходе парсера были команды SQL, которые я копипастил большими кусками (набором постов за месяц сразу) в phpMyAdmin прямо на хостинге, и файлы картинок, которые я вгрузил пачкой по ftp.

В целом работа заняла почти все праздники. Я правил скрипт под менявшиеся несколько раз форматы постов, вгонял их в блог, открывал и редактировал где это было необходимо. Заодно я местами добавил фоток к постам или заменил фотки из жж на оригиналы из архива в бОльших разрешениях, местами добавил комментарии «из 2020», или поменял ссылки наружу на работающие. В целом данные переехали как есть примерно на 70-80%

Изменения в технологиях и головах

По ходу работы подметил много интересного:

  • с одной стороны правильно говорят, что информацию из интернета удалить невозможно — разыскивая хоть какие-то дополнительные следы своей страницы в гуглоплюсе я находил репосты, сайты-индексаторы и каталоги, хоть и не нашел в итоге ничего удобоваримого (а в archive.org гуглоплюс не сохранился). С другой стороны, примерно половина ссылок из постов жж на внешние ресурсы, ролики с ютуба и тому подобное не открылись. Какие-то сайты и СМИ просто перестали существовать, какие-то поменяли структуру ресурса (например, мне удалось по не изменившемуся тексту найти новость на сайте мчс от 2012 года, на которую ссылался мой пост). В целом, здесь делаю вывод, что действительно важные вещи стоит либо цитировать в тексте поста полностью, либо выгружать и прикладывать к постам например в pdf (как я и сделал несколько раз в итоге). Что делать с ютубом и прочими большими медиа-штуками пока непонятно.
  • технологии развиваются стремительно. В жж в начале 2010-х я часто встраивал в заметки плееры музыки и видео со сторонних сайтов — все эти фреймы и жабаскрипты уже не работают вообще, сервисы переделаны или уничтожены. Собственно, встройку ютуба удалось победить только выпарсив из кода начала десятилетия id роликов и сформировав актуальный линк вручную.
  • при этом какие-то вещи остаются на удивление незыблемыми. Живы сайты, куда я 10 лет назад выгружал треки покатушек, живы вручную забитые маршруты на Яндекс картах и на гугле, живы картинки на хостингах, куда не заглядывал 7-8 лет, живы примерно половина роликов ютуба (и некоторые набрали за это время миллионы просмотров)
  • я 10 лет назад был значительно резче, злей, радикальней, нетерпимей в мыслях и высказываниях. Удивительно насколько было мне тогда важно, что «в интернете кто-то неправ», или что какая-то технология крива или не работает. Мудрость это или равнодушие сейчас — не знаю. Какие-то тогдашние свои позиции я больше не разделяю, за какие-то высказывания сейчас стыдно, но я решил перенести все посты как есть.
  • интересна повторяемость сюжетов и каких-то идей в мыслях, которые забывались и изобретались заново — встретил несколько таких, уже не помня эти их первые (?) инкарнации

Эта работа — часть большого проекта по забираче всего своего у корпораций и сбору персонального цифрового архива. Надеюсь, хватит сил продолжить её дальше, в планах ещё много всего, не переключайтесь!

Теги для импортированных постов:
посты из гуглоплюса
посты из жж

 95   2021   все эти ваши компьютеры   Забрать своё из облаков

Забрать своё из облаков: начало

Давным-давно, на заре интернета (модемы, первые порталы, фтп с музыкой и скоростью в 10 мегабайт в час), мы ржали над шуткой

Вопрос в службу техподдержки.: «Я скачал файл из интернета, теперь он мне больше не нужен. Как его закачать обратно?»
Ответ: «Вот из-за таких уродов, как ты, в Интернете скоро совсем файлов не останется.»

Реальность как всегда превзошла все фантазии — прекрасные умные компьютерщики напридумывали сервисов и наделали смартфонов, и все от мала до велика стали жить, общаться и хранить данные в этих ваших интернетах. Теперь никто ничего не скачивает — все генерят контент, шерят, публикуют, лайкают и репостят, смотрят и слушают онлайн, и всё своё существо держат там. Мы резвимся как пятилетки на этой цифровой детской площадке, и не задумываемся, где лежит наше электронное настоящее и прошлое, и какую реальную власть над ним мы имеем. История эта удобная и вполне себе безоблачная — до тех пор пока у тебя не уведут аккаунт от соцсети, или пока, например, администрация ресурса не удалит твою страницу, потому что ты дрянной (по их мнению) президент и позволяешь себе лишнего.

Я какое-то время работаю над идеей забрать свои данные из соцсетей-облаков, чтобы хранить у себя (ну ок, не забрать — но хотя бы получить копию). Оказывается, сделать это непросто, и помогать юзерам никто не горит. Одно время у Яндекс Диска в интерфейсе была кнопка, выгружающая на него фото из других соцсетей, но её давно выпилили. В 2016-17 годах Касперский анонсировали похожий сервис ffforget.me, но так его и не выкатили. А значит, придётся делать всё вручную (максимально автоматизируя, как я это люблю)

Пока результаты исследований о возможности экспорта данных такие:

  • вконтакте. Позволяет запросить выгрузку всех данных. Выгрузка представляет собой небольшой архив, внутри набор html страниц со ссылками на оригинальные медиафайлы — то есть все альбомы, вставленные в переписку фото-видео и тому подобное открываются из интернета, полноценной локальной копией это не является. Чтобы перенести инфу в полный оффлайн или на свой ресурс, придётся писать парсеры и выкачивать картинки и видео, от музыки думаю максимум что выйдет — утащить названия треков.
  • иг. Позволяет запросить выгрузку всех данных. На выходе страница со ссылками на архивы по 2 ГБ, которые по одному нужно прокликать и скачать за ограниченные несколько дней. Внутри каждого архива — индивидуальный набор данных за определенное время: медиаматериалы, разложенные в папки по месяцам (фото и видео с очищенными метаданными и служебными именами файлов) и отдельные json с текстами постов, временем публикации, локацией в виде текста (без координат). Файлы с метаданными лежат в корне каждого архива и поэтому все архивы в одну папку развернуть нельзя — метаданные затрутся.
  • гуглефото. Позволяет запросить выгрузку всех фоток и видео. На выходе страница со ссылками на архивы по 2 ГБ, которые по одному нужно прокликать и скачать за ограниченные несколько дней. Внутри архивов материалы разложены по альбомам как в сервисе (те что вне альбомов — разложены по годам). В файлах сохранены метаданные, плюс к каждому выгружается json. Имена файлов оригинальные как были в устройстве. Можно всё развернуть в одну папку.
  • жж. Сервис полумёртвый, все программы-выгружальщики данных устарели и работают через пень колоду. Лучший результат по моему опыту — у https://github.com/ati/ljsm. На выходе набор связанных html страниц с картинками которые можно смотреть оффлайн
  • яндекс диск — данные доступны для скачивания через родное приложение, метаданные на месте, имена файлов поменяны на сгенеренные приложением (в формате даты) при начальной загрузке с телефона, например.
  • одноклассники, фб — мне неактуально, не изучал

В целом, утащить себе в нору и разглядывать архивы холодными ночами ядерной зимы, без доступа к глобальной сети и сервисам — перспектива малоуспешная. Тем не менее, я планирую по максимуму перенести архивы на свою площадку, а там уже и бэкап сделать можно, и виртуальный веб-сервер на домашнем компьютере поднять, если вдруг импичмент случится

Такие дела

 107   2021   все эти ваши компьютеры   Забрать своё из облаков
Ранее Ctrl + ↓