Ivan Begtin
Технологии и стартапы
Подписаться
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы

Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других. и, в целом, с каждым годом такого всё больше.

Как с этим бороться? Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?

#webarchive

Другие статьи канала Ivan Begtin

Ivan Begtin
Технологии и стартапы
Подписаться

Приглашаем некоммерческие организации к участию в первом независимом конкурсе «Исследователь», организованном Информационной культурой при поддержке Фонда президентских грантов.

Работа некоммерческих организаций сложная и многогранная
- она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.

Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.

Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».

Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.

Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов
- разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.

Подать заявку: https://ngo-research.ru/contest.

Ivan Begtin
Технологии и стартапы
Подписаться

На сайте Международного бюджетного партнерства (International Budget Partnership) появился набор данных из 171 некоммерческой организации занятых темой налогового равенства [1].Никого из России там, ожидаемо, нет.

Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-
19.

Ссылки:[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-
2020.pdf

#budgets

Ivan Begtin
Технологии и стартапы
Подписаться

Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных
- это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-
2020.pdf

#germany

Ivan Begtin
Технологии и стартапы
Подписаться
Для тех кто помнит про сервис Keybase.

Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.

Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов

Минусы:- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.

Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования

Ссылки:[1] https://keybase.io/blog/keybase-joins-zoom[2] http://cyph.com[3] https://www.crunchbase.com/organization/cyph

#crypto

Ivan Begtin
Технологии и стартапы
Подписаться

В сегодняшнем анонсе Павла Дурова о монетизации Телеграм [1], ожидаемый выход его платформы на конкуренцию со Slack за корпоративных пользователей. Хочется надеяться что стоимость аккаунтов в Slack снизится и он начнёт, наконец-то, развиваться.

Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.

Ссылки:[1] https://t.me/durov_russia/29

#russia

Ivan Begtin
Технологии и стартапы
Подписаться

Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за
76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.

Для поощрения наиболее бдительных доносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.

P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет когда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?

Ссылки:[1] https://www.kommersant.ru/doc/4615863

#informers

Ivan Begtin
Технологии и стартапы
Подписаться

Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $
5.95 миллионов [2].

Ключевое ноу-хау
- это искусственный интеллект пишущий правила для проверки данных.

Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.

Ссылки:[1] https://www.anomalo.com/[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/

#dataquality

Ivan Begtin
Технологии и стартапы
Подписаться

15 декабря вышло Постановление Правительства №2109 [1] О Правительственной комиссии, уполномоченной на принятие решения об аккредитации удостоверяющих центров.

Те кто лучше погружён в эту тему, я уверен, лучше меня прокомментируют о том что это означает для рынка, регулирования в целом и так далее, а я обращу Ваше внимание на следующий абзац:
-Предельное количество членов Правительственной комиссии составляет 22 человека, в том числе7 уполномоченных представителей автономной некоммерческой организации, на которую в соответствии с решением Правительства Российской Федерации возложены функции по мониторингу развития цифровой экономики и цифровых технологий и формированию прогнозов развития цифровой экономики и цифровых технологий
-Что это за организация догадаться несложно, другой вопрос прецедента модели формирования Правительственных комиссий. Не решением внутри Аппарата Правительства, а на уровне НКО с частичным (или уже полным?) государственным участием и частичным корпоративным участием. Как я помню у других, более "ассоциативных" объединений предпринимателей, вроде РСПП или ТПП РФ, никогда таких полномочий не было.

Ссылки:[1] http://government.ru/news/41147/#

#regulation

Ivan Begtin
Технологии и стартапы
Подписаться

Свежий текст в рассылке: #
10. Инвентаризация государственных ИТ ресурсов

Инвентаризация чего-бы то ни было чем занимается государство во всей его совокупности органов власти, учреждений и иных организаций
- это само по себе большая работа. Часто сопряженная с наказанием виновных и невиновных в отсутствии искомого.

12 декабря Правительством Михаила Мишустина была анонсирована большая инвентаризация ИТ систем в ведении органов власти. Это большая задача, скорее нужная и важная, чем бесполезная. В каком-то смысле запоздалая, но это претензия к предыдущему Правительству Д. Медведева. А вот сроки этой инвентаризации обозначены крайне жесткие, до 31 марта 2021 года необходимо проинвентаризировать практически все ИТ ресурсы ФОИВов. Сроки, скажу честно почти невыполнимые, но, в любом случае, надо смотреть на результаты.

Я ранее немного рассказывал про инвентаризацию государственных доменов, а сейчас настала пора поговорить об инвентаризации ИТ в государстве более серьёзно. В каких-то вопросах я буду излагать начиная с самых азов, для погружения в контекст ситуации и, по возможности, простыми словами.

Подробнее [1]

P.S. Несмотря на длинный текст он получился неполным и в ближайшие месяцы я ещё не раз вернусь к этой теме.

Ссылки:[1] https://begtin.substack.com/p/10-

#data

Ivan Begtin
Технологии и стартапы
Подписаться

Комментировать совсем не хочется, хочется задаться одним лишь вопросом
- а откуда таки эта утечка?

Ivan Begtin
Технологии и стартапы
Подписаться
Очередная крупная утечка персональных данных россиян.

На популярном англоязычном теневом форуме выставили на продажу персональные данные более 23 миллионов жителей Москвы и Московской области. База данных фонда обязательного медицинского страхования, содержащая ФИО, дату рождения, пол, регион проживания, регион страхования, номер и дату выдачи полиса ОМС, а также другие сведения, предлагается всем желающим всего за 990 долларов США. Согласно данным продавца, источником утечки является: ffoms.gov.ru.

Размещенный в открытом доступе образец продаваемых данных содержит сведения о 100 тысячах москвичей и жителях МО.@In4security

Ivan Begtin
Технологии и стартапы
Подписаться
Есть ли у цифровой архивации персональный контур?

Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут? Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования
- это ArchiveBox [2].

ArchiveBox
- это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:- скриншот- полная страница одним файлом (внутри всё, включая скрипты и изображения)- файл веб-архивации WARC- просто веб-страница

Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.

Ссылки:[1] https://conifer.rhizome.org/[2] https://archivebox.io/

#webarchive

Ivan Begtin
Технологии и стартапы
Подписаться

В The Bell вышла заметка про стоимость расследования отравления Навального [1] с оценками того что как и сколько стоит на чёрном рынке купить информацию о человеке [1]. Всё это, не так дорого, в общей сложности сбор данных на 11 человек обошёлся чуть более миллиона. Что, впрочем, в любом случае было с нарушением российского законодательства, но показательно то насколько доступны эти данные и насколько отечественные правоохранители не способны предотвращать доступ к ним.

И здесь же, специально для тех кто считает что рядовому человеку ничего не грозит, в Lenta.ru время от времени проскакивают любопытные лонгриды и один из них «Тюрьма
- это самый дорогой отель» [2] про профессионального мошенника. Чтение весьма познавательно и, если людям с небольшими доходами опасаться (возможно) почти нечего, то людям с доходами выше среднего ещё как есть чего бояться.

Я сам очень не люблю приводить примеры того как можно злоупотреблять персональными данными, но тут раз уж опубликовано, то почитайте.

Ссылки:[1] https://thebell.io/million-za-vseh-skolko-stoilo-rassledovanie-bellingcat-o-navalnom[2] https://lenta.ru/articles/2020/12/14/baltazar/

#personaldata

Ivan Begtin
Технологии и стартапы
Подписаться
Хорошая новость:

Минэкономразвития восстановил портал открытых данных (ну как "восстановил", реестра наборов данных как не было, так и нет).Плохая новость: На портале открытых данных "задними числами" размещены новости (как будто они размещались на протяжении первого этапа госконтракта). Похоже, без РНП, ФАС и других органов и в этом году не обойтись. Главный вопрос: кто занимался "подделкой" публикации новостей: заказчик или поставщик?

Ivan Begtin
Технологии и стартапы
Подписаться
А это вдогонку, о том что с открытыми данными на федеральном уровне творится в России.

Я давно говорю что если отдать портал открытых данных и полномочия тому же Минкультуры РФ или Минцифре РФ, то хуже бы точно не было, а лучше могло бы.

Рейтинг авторов

  • "Записки Дизайнера" (про дизайн и только про него 157 157 157
  • (Не) только немецкий 157 157 157
  • #анямастерконтента 157 157 157
  • #Фудтех 157 157 157
  • 10 идей и трендов дня 157 157 157
Показать весь рейтинг
Загрузка ...