Ivan Begtin
Технологии и стартапы
Подписаться

Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных
- это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных
- это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#regulation

Другие статьи канала Ivan Begtin

Ivan Begtin
Технологии и стартапы
Подписаться

Amazon в след за Google и Apple добивают социальную сеть Parler куда мигрировал Трамп после блокировки в Twitter, Facebook и Instagram. Об этом пишут сейчас практически все СМИ в США, Arstechnica[1], NYT [2] и многие другие. Фактически Amazon поставили Parler ультиматум и нет гарантии что новый хостинг куда Parler может мигрировать не предъявит аналогичных требований.

Только Electronic Frontier Foundation пишут о том что права человека первичны [3], впрочем борьба с цензурой интернет платформ
- это достаточно давняя их позиция.

Это, конечно, очень важная ситуация резкой политизации компании Кремниевой долины и технологических компаний. Список "сетевых цензоров" теперь состоит как минимум в виде Apple, Google и Amazon. Причём, если первые просто отрезают компании/сервисы от своей экосистемы, то Amazon не даёт другого выбора кроме поиска другого провайдера.

Честно говоря интересно что будет дальше. Поступят ли также облачные CDN вроде Cloudflare? Поступит ли также AT&
T фильтруя трафик к сайтам со сторонниками Трампа? Иначе говоря, есть ли пределы подобной технологической цензуре.

Ссылки:[1] https://arstechnica.com/tech-policy/2021/01/amazon-cuts-off-parlers-web-hosting-following-apple-google-bans/[2] https://www.nytimes.com/2021/01/09/technology/apple-google-parler.html[3] https://www.eff.org/deeplinks/2021/01/eff-response-social-media-companies-decision-block-president-trumps-accounts

#trump

Ivan Begtin
Технологии и стартапы
Подписаться
Команда Jupyter выпустили новую версию Jupyter Lab 3.

Команда Jupyter выпустили новую версию Jupyter Lab
3.0 [1], системы для ведения научных блокнотов дата сайентистами по всему миру.

Из полезных изменений:- визуальный дебаггер- поддержка упрощённого интерфейса- table of contents по умолчанию- улучшенная работа с расширениями

В целом ощущение что всё больше движение в сторону executive papers, по крайней мере, в части подключения table of contents по умолчанию.

Лично я ещё не успел оценить все возможности по достоинству, но активно использую.

#tools

Ivan Begtin
Технологии и стартапы
Подписаться
Стартап Deliveroo проиграл суд трём профсоюзам в Италии [1].

В основе обвинения лежит алгоритмическая дискриминация самозанятых (self-employed) работников в Deliveroo и нарушение местных законов из-за несоблюдения условий труда. Обвинения включали то что алгоритмы нагружающие курьеров не учитывали что они имеют право болеть или же их право на забастовку. Мой комментарийВозможны ли подобные ситуации у российских сервисов доставки? Лично я сомневаюсь, российские профсоюзы не являются активным политическом/общественным игроком, а есть ли они у курьеров
- большой вопрос. Важно то что критерием юридической оценки роботизированных систем является то кто является их владельцем и выгодоприобретателем и отмазка "Это не мы, а алгоритм и мы тут не при чём, не работает". Впрочем, всё европейское регулирование движется в сторону ответственности разработчиков и эксплуатантов алгоритмов.

Ссылки:[1] https://techcrunch.com/2021/01/04/italian-court-rules-against-discriminatory-deliveroo-rider-ranking-algorithm/

#italy

Ivan Begtin
Технологии и стартапы
Подписаться

Ультиматум от WhatsApp "Либо делишься данными с Facebook, либо перестаёшь пользоваться приложением" в Arstechnica статья о том что WhatsApp поменяли правила использования [1]. С рекомендациями о том что пора переходить на другие мессенжеры, например, Signal.

Не отвлекаясь от темы WhatsApp'а, как нельзя кстати, новость на BBC о том что в спецбатальоне МВД собирали данные о передвижении Президента РФ именно через WhatsApp [2]. В данном случае не хочется даже иронизировать, потому что слов нет.

Ссылки:[1] https://arstechnica.com/tech-policy/2021/01/whatsapp-users-must-share-their-data-with-facebook-or-stop-using-the-app/[2] https://www.bbc.com/russian/news-55496368

#whatsapp

Ivan Begtin
Технологии и стартапы
Подписаться

Правительство РФ утвердило список из 28 приложений обязательных к предустановке с 1 апреля 2021 года [1].

Список включает:- 16 приложений для смартфонов из которых 16 для Android и 14 для iPhone- 1 приложение для Windows
- пакет МойОфис- 11 приложений для "умных" телевизоров

На что стоит обратить внимание:- 4 приложения Яндекса и 7 приложений от Mail.ru и компаний входящих в Mail.ru Group- 2 госприложения от структур подчинённых федеральному правительству, для смартфонов: Госуслуги и AppList.ru. Для телевизоров приложения Wink от Ростелекома и Смотрим от ФГУП ВГТРК- судя по описанию AppList.ru
- это аггрегатор для доступа к социальным ресурсам, сервисное приложение, возможно аналог AppStore или Google Play, хотя и до конца непонятно, пока его нет в открытом доступе.

Что остаётся за кадром:- В регулировании пока нет упоминания будут ли приложения неудаляемыми, а если будут удаляемыми, то можно ли это будет сделать одной кнопкой или потребуется удалять каждое- Что, в итоге, с политикой Apple по поводу предустановки приложений. Это вопрос уже не регулирования, а готовности компании это регулирование выполнять и процедур выполнения.- ничего нет про региональный контур, мобильные приложения имеющие привязку к субъектам федерации, то же Пр-во Москвы полным ходом разрабатывает свой набор мобильных приложений.

P.S. Небольшое отступлениеНе могу не отметить что до сих пор, несмотря на то что уже 2021 год, цифровизация и всё такое, документы Правительства сначала доступны сканами, и только через недели в виде текстов. На сайте Правительства документы публикуются с задержкой в 3 недели, последние публиковались 19 декабря, а в системе НПА Минюста России в 2 недели, последние документы публиковались 23 декабря. Только на publication.pravo.gov.ru они публикуются относительно оперативно, но исключительно в отсканированном виде с неприличным названием "документы для качественной печати". Очень хочется надеяться что так будет не всегда.

Ссылки:[1] http://publication.pravo.gov.ru/Document/View/0001202101060012?index=0&
rangeSize=1

#regulation

Ivan Begtin
Технологии и стартапы
Подписаться

То что все боялись по поводу госслежки во время пандемии таки случилось, хотя и не в России. В Сингапуре полиция намерена использовать данные приложения TraceTogether в криминальных расследованиях [1] [2].

И, хотя и обещают что, данные будут хранится в безопасной платформе и доступ будет только у ограниченного числа полицейских, а за незаконный доступ к данным штрафы будут достигать S$5000 (примерно
- 280 тысяч рублей) или заключением до 2-х лет, тем не менее факт остаётся фактом, данные будут накапливаться и применяться в официальных расследованиях.

Здесь важно напомнить что в Сингапуре используется не анонимизирующее API от Google/Apple на основе которого работают приложения правительств большинства стран, а собственное приложение и устройство TraceTogether работающее по Bluetooth [3] и предполагающее неанонимизированное отслеживание контактов.

Пример Сингапура имеет сразу несколько прецендентов:
1. То что государство может в любой момент изменить статус доступа к данным и что даже условия приватности в созданных системах могут поменяться очень быстро и имеют обратную силу.
2. То что действия Google/Apple по блокировке любых приложений использующих отслеживание не через их API было обосновано. TraceTogether обходит это ограничение за счёт внешнего устройства.

Ссылки:[1] https://sg.news.yahoo.com/trace-together-data-criminal-investigations-desmond-tan-
080806396.html
[2] https://www.channelnewsasia.com/news/singapore/singapore-police-force-can-obtain-tracetogether-data-covid-19-13889914[3] https://www.tracetogether.gov.sg/

#privacy

Ivan Begtin
Технологии и стартапы
Подписаться

Желаю всемЧтобы Новый год был новымЧтобы дом был ДомомЧтобы счастья много и регулярноЧтобы спокойствия постоянно

Желаю всем реальной, а не имитационной трансформацииОсторожной цифровой адаптации

С наступающим новым годом!Пусть радости будет много, а горя немного

Ivan Begtin
Технологии и стартапы
Подписаться

Пока мы в России, относительно мирно, справляем новый год, в США GoDaddy, известный сервис регистрации доменных имён, разослали сотрудникам фишинговое письмо с предложением получить годовой бонус в $650 и более 500 сотрудников кликнули на ссылку в письме [1] после чего получили ещё одно письмо о необходимости пройти курс о том как устроена социальная инженерия вместо обещанного бонуса.

Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.

С одной стороны
- это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.

Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.

Ссылки:[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/

#badpractices

Ivan Begtin
Технологии и стартапы
Подписаться

Я за этот год очень много чего плохого (недоброжелательного) написал про Мэрию Москвы, особенно в части работы с данными, но это не значит что "всё плохо". Есть и то за что можно и нужно хвалить. Например, Главархив Москвы разместил у себя на сайте все церковные метрические книги [1] с 1726 года по 1932 год. Об этом есть новость на сайте Мэрии Москвы [2] и обещают в следующем году оцифровать ревизские сказки
- переписи населения того времени.

В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.

В любом случае
- это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.

Ссылки:[1] https://cgamos.ru/metric-books/[2] https://www.mos.ru/news/item/84607073/[3] http://ruarxive.org

#moscow

Ivan Begtin
Технологии и стартапы
Подписаться
На сайте администрации Владимирской области есть раздел « Открытые данные».

На сайте администрации Владимирской области есть раздел «Открытые данные». Последнее обновление в нем − от 2012 года. Другого Big Data у них нет ни для внешнего пользования, ни для внутреннего.

Издатель ПроВладимира Алексей Шляпужников на экспертном совете в РАНХиГС затронул проблему использования современных технологий анализа данных, точнее, ее неиспользования администрацией Владимирской области.

«Система сбора анализа данных, которые сегодня работают в регионе, они не связаны друг с другом. Чуть ли не каждый департамент использует свою собственную систему, свой набор данных, который не линкуется. Из этого, конечно, происходит тот самый (недавно, то ли придумано, то ли вспомнено Медведевым) разнотык. И, конечно, Владимирская область, к моему величайшему сожалению, выглядит столицей разнотыка».

https://provladimir.ru/2020/12/24/aleksej-shljapuzhnikov-likero-vodochnyj-magazin-luchshe-znaet-svoego-pokupatelja-chem-administracija-vladimirskoj-oblasti-zhitelej/

Ivan Begtin
Технологии и стартапы
Подписаться
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы

Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других. и, в целом, с каждым годом такого всё больше.

Как с этим бороться? Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?

#webarchive

Ivan Begtin
Технологии и стартапы
Подписаться

Приглашаем некоммерческие организации к участию в первом независимом конкурсе «Исследователь», организованном Информационной культурой при поддержке Фонда президентских грантов.

Работа некоммерческих организаций сложная и многогранная
- она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.

Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.

Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».

Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.

Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов
- разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.

Подать заявку: https://ngo-research.ru/contest.

Ivan Begtin
Технологии и стартапы
Подписаться

На сайте Международного бюджетного партнерства (International Budget Partnership) появился набор данных из 171 некоммерческой организации занятых темой налогового равенства [1].Никого из России там, ожидаемо, нет.

Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-
19.

Ссылки:[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-
2020.pdf

#budgets

Ivan Begtin
Технологии и стартапы
Подписаться

Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных
- это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-
2020.pdf

#germany

Ivan Begtin
Технологии и стартапы
Подписаться
Для тех кто помнит про сервис Keybase.

Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.

Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов

Минусы:- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.

Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования

Ссылки:[1] https://keybase.io/blog/keybase-joins-zoom[2] http://cyph.com[3] https://www.crunchbase.com/organization/cyph

#crypto

Рейтинг авторов

  • "Записки Дизайнера" (про дизайн и только про него 157 157 157
  • (Не) только немецкий 157 157 157
  • #анямастерконтента 157 157 157
  • #Фудтех 157 157 157
  • 10 идей и трендов дня 157 157 157
Показать весь рейтинг
Загрузка ...