Машинное обучение поможет установить личность анонимного кодера по его стилю

Машинное обучение поможет установить личность анонимного кодера по его стилю
Специалисты в области стилометрии (исследование стилистики, включающее статистический анализ) хорошо знают, что письмо – это уникальный процесс. Словарный запас, синтаксис и грамматика создают индивидуальный почерк, позволяя определить автора текста. Существуют даже автоматизированные системы, способные идентифицировать человека, написавшего сообщение или публикацию в интернете. А недавнее исследование показало, что стилометрию можно применить и к искусственным языкам (программирование). Как оказалось, кодеры точно так же имеют свой стиль, который можно распознать.Исследователи Рэйчел Гринстадт (Rachel Greenstadt) из Дрексельского университета и Айлин Калискан (Aylin Caliskan) из Университета Джорджа Вашингтона пришли к выводу, что код, как и другие формы стилистического выражения, не является анонимным. Результаты своей работы они представили на конференции DefCon. В исследовании учёные использовали машинное обучение для выявления авторов образцов кода. Алгоритм сначала идентифицирует все особенности в примерах, затем это список сокращают до 50, оставив только те, которые отличают разработчиков. Таким образом Гринстадт и Калискан создают «абстрактные синтаксические деревья», отражающие базовую структуру кода.Для данного метода необходимо как можно больше образцов кода, чтобы научить алгоритм сопоставлять их с авторами. В таком случае, достаточно небольшого фрагмента кода из репозитория GitHub, чтобы отличить одного кодера от другого с высокой точностью, утверждают авторы исследования.Гринстадт и Калискан вместе с другими учёными показали, как можно деанонимизировать программиста, используя его скомпилированный двоичный код. Им также удалось декомпиллировать его обратно на C++, сохранив уникальный стиль. Это работает примерно так, как если бы вы перевели документ в Google Translate на другой язык – текст выглядит совершенно иначе, но он сохранил орфографию и синтаксис.Новая работа исследователей может быть использована для определения плагиата, особенно для новичков, которые часто копируют куски кода, или для выявления разработчиков вредоносного ПО. Они также надеются, что в будущем им удастся получить ответы на многие интересующие их вопросы, например, какие факторы влияют на стиль программирования, что происходит, когда члены одной команды работают вместе над проектом, отличаются ли стили программирования людей из разных стран и так далее. К слову, уже на данном этапе их алгоритм смог различить образцы кода канадских и китайских программистов с точностью более 90%.Источник: wired
Stfw.Ru
Читайте также


Оставить комментарий
Имя:  

Комментарий:

Примечание: При комментировании материала просим соблюдать законы Российской Федерации. Пожалуйста, воздержитесь от оскорблений и токсичного поведения.

Сводка событий

13:09 Не справился с мусором: в Челябинске подал в отставку директор МУП "ГорЭкоЦентр"


13:09 Евросоюз создаст механизм для обхода санкций США против Ирана


13:09 "Мы заблудились": 74.ru проследил за мусоровозом и увидел, как на самом деле чистят дворы


13:09 Президент Ирана пригрозил перекрыть Персидский залив, если США продолжат политику санкционного давления


13:09 В базе данных агентства TENAA замечен Xiaomi Black Shark 2


13:09 Huawei Nova 3i получил версию с 6 Гб оперативки и 128 Гб флеш-памяти


11:09 Обзор монитора Samsung C34J791


11:09 Релиз Windows 10 October 2018 Update состоится 2 октября, RTM подписана


11:09 Радиоэлектронное подавление спутниковой связи будет осуществляться над акваторией Средиземного моря - Шойгу


11:09 Xiaomi Redmi Note 6 Pro отметился в бенчмарке Geekbench


10:09 Финальная версия ОС macOS Mojave доступна для свободного скачивания (главные новшества и список совместимых моделей)


10:09 Основатели Instagram объявили об уходе из компании


10:09 Часы Apple Watch 4 оказались вполне пригодными к ремонту


События из мира ИТ