Машинное обучение поможет установить личность анонимного кодера по его стилю

Машинное обучение поможет установить личность анонимного кодера по его стилю
Специалисты в области стилометрии (исследование стилистики, включающее статистический анализ) хорошо знают, что письмо – это уникальный процесс. Словарный запас, синтаксис и грамматика создают индивидуальный почерк, позволяя определить автора текста. Существуют даже автоматизированные системы, способные идентифицировать человека, написавшего сообщение или публикацию в интернете. А недавнее исследование показало, что стилометрию можно применить и к искусственным языкам (программирование). Как оказалось, кодеры точно так же имеют свой стиль, который можно распознать.Исследователи Рэйчел Гринстадт (Rachel Greenstadt) из Дрексельского университета и Айлин Калискан (Aylin Caliskan) из Университета Джорджа Вашингтона пришли к выводу, что код, как и другие формы стилистического выражения, не является анонимным. Результаты своей работы они представили на конференции DefCon. В исследовании учёные использовали машинное обучение для выявления авторов образцов кода. Алгоритм сначала идентифицирует все особенности в примерах, затем это список сокращают до 50, оставив только те, которые отличают разработчиков. Таким образом Гринстадт и Калискан создают «абстрактные синтаксические деревья», отражающие базовую структуру кода.Для данного метода необходимо как можно больше образцов кода, чтобы научить алгоритм сопоставлять их с авторами. В таком случае, достаточно небольшого фрагмента кода из репозитория GitHub, чтобы отличить одного кодера от другого с высокой точностью, утверждают авторы исследования.Гринстадт и Калискан вместе с другими учёными показали, как можно деанонимизировать программиста, используя его скомпилированный двоичный код. Им также удалось декомпиллировать его обратно на C++, сохранив уникальный стиль. Это работает примерно так, как если бы вы перевели документ в Google Translate на другой язык – текст выглядит совершенно иначе, но он сохранил орфографию и синтаксис.Новая работа исследователей может быть использована для определения плагиата, особенно для новичков, которые часто копируют куски кода, или для выявления разработчиков вредоносного ПО. Они также надеются, что в будущем им удастся получить ответы на многие интересующие их вопросы, например, какие факторы влияют на стиль программирования, что происходит, когда члены одной команды работают вместе над проектом, отличаются ли стили программирования людей из разных стран и так далее. К слову, уже на данном этапе их алгоритм смог различить образцы кода канадских и китайских программистов с точностью более 90%.Источник: wired
Stfw.Ru
Читайте также


Оставить комментарий
Имя:  

Комментарий:

Примечание: При комментировании материала просим соблюдать законы Российской Федерации. Пожалуйста, воздержитесь от оскорблений и токсичного поведения.

Сводка событий

16:02 «Слишком рано»: LG решила повременить с выпуском складного смартфона с гибким экраном


16:02 Xiaomi показала готовящийся к анонсу смартфон Xiaomi Mi 9 в версии Transparent Edition с «прозрачным» участком задней панели


16:02 NASA разрабатывает датчики, которые изготавливаются из наноматериалов методом 3D-печати и помогут улучшить роверы будущих поколений


16:02 В Microsoft Store были найдены приложения майнившие в тайне Monero


16:02 Физики из России выяснили, как можно поменять свойства электрона


16:02 Суставная часть: разработана механическая рука для людей с ограниченными возможностями


16:02 Российские товары начнут производить в Египте


16:02 Миражи. Семь мифов об "американской мечте"


16:02 В центре Донецка прогремели три взрыва (.....причиной взрывов стала атака украинских беспилотников)


16:02 В продажу вернулся HomTom HT16 по цене $46.99


16:02 ZTE представит первый 5G-смартфон на MWC 2019


16:02 Xiaomi Mi 9: Battle Edition замечен на видео и реальных фото


16:02 Xiaomi Mi 9 Lite и Mi 9 SE готовятся к выходу


События из мира ИТ