Информационные технологииТехнологииПоиск

Машинное обучение поможет установить личность анонимного кодера по его стилю

Машинное обучение поможет установить личность анонимного кодера по его стилю Специалисты в области стилометрии (исследование стилистики, включающее статистический анализ) хорошо знают, что письмо – это уникальный процесс. Словарный запас, синтаксис и грамматика создают индивидуальный почерк, позволяя определить автора текста. Существуют даже автоматизированные системы, способные идентифицировать человека, написавшего сообщение или публикацию в интернете. А недавнее исследование показало, что стилометрию можно применить и к искусственным языкам (программирование). Как оказалось, кодеры точно так же имеют свой стиль, который можно распознать.Исследователи Рэйчел Гринстадт (Rachel Greenstadt) из Дрексельского университета и Айлин Калискан (Aylin Caliskan) из Университета Джорджа Вашингтона пришли к выводу, что код, как и другие формы стилистического выражения, не является анонимным. Результаты своей работы они представили на конференции DefCon. В исследовании учёные использовали машинное обучение для выявления авторов образцов кода. Алгоритм сначала идентифицирует все особенности в примерах, затем это список сокращают до 50, оставив только те, которые отличают разработчиков. Таким образом Гринстадт и Калискан создают «абстрактные синтаксические деревья», отражающие базовую структуру кода.Для данного метода необходимо как можно больше образцов кода, чтобы научить алгоритм сопоставлять их с авторами. В таком случае, достаточно небольшого фрагмента кода из репозитория GitHub, чтобы отличить одного кодера от другого с высокой точностью, утверждают авторы исследования.Гринстадт и Калискан вместе с другими учёными показали, как можно деанонимизировать программиста, используя его скомпилированный двоичный код. Им также удалось декомпиллировать его обратно на C++, сохранив уникальный стиль. Это работает примерно так, как если бы вы перевели документ в Google Translate на другой язык – текст выглядит совершенно иначе, но он сохранил орфографию и синтаксис.Новая работа исследователей может быть использована для определения плагиата, особенно для новичков, которые часто копируют куски кода, или для выявления разработчиков вредоносного ПО. Они также надеются, что в будущем им удастся получить ответы на многие интересующие их вопросы, например, какие факторы влияют на стиль программирования, что происходит, когда члены одной команды работают вместе над проектом, отличаются ли стили программирования людей из разных стран и так далее. К слову, уже на данном этапе их алгоритм смог различить образцы кода канадских и китайских программистов с точностью более 90%.Источник: wired
Stfw.Ru
Читать ✆ в Telegram
* При комментировании просим соблюдать законы Российской Федерации.

Машинное обучение в Google или как искусственный интеллект делает сервисы компании и жизнь людей лучше


Сегодня:

05:07 Строители завершили укладку рельсов на Крымском мосту


05:07 Синхронистки Колесниченко и Ромашина выиграли произвольную программу на ЧМ


05:07 США не поддержали решение Зеленского о люстрации чиновников времен Порошенко


05:07 СМИ: Иран задержал в Персидском заливе иностранное судно с контрабандным топливом


05:07 Россия готова поставить Турции Су-35, заявил Чемезов


05:07 Госдума приняла закон о шпионских гаджетах


05:07 Гварамия уволен с должности генерального директора телеканала "Рустави 2"


05:07 Все партнеры против того, чтобы я общался с Путиным... Но я позвонил Путину, потому что это - вопрос прежде всего Украины", - Зеленский


05:07 В продаже появился новый внедорожник на базе "Лады 4x4"


05:07 В РФ в 2019 году начнут разворачивать цифровую государственную образовательную платформу


05:07 В Петербурге задержан друг Алексея Кудрина и хозяин лабрадора от Путина. Секретную операцию контролировал Роман Плугин


05:07 В Киеве заявили о намерении добиться переговоров с Путиным


События из мира ИТ