cat _posts/ru/2026-06-24-local-model-testing-ru.md
24 June 2026Тестирование локальных security LLM на Mac mini M4
lmstudio --local --prompt acmedesk-security-review
Я прогнал маленькие локальные модели на небольшой задачке - разобрать гипотетическое Windows Electron приложение и найти в нем уязвимости.
Коротко: Qwen3.6 27B, Qwen3-Coder 30B и Gemma 4 26B - очевидно оказались лучшими, можно даже использовать, но имея доступ к фронтир моделям это бесполезно
Оригинальный prompt
Ты senior reverse engineer и Windows desktop apps bug hunter. Работай без интернета и не выдумывай факты.
Разбери гипотетическое приложение Windows:
- Electron desktop app
- есть автологин через saved token
- локальная база SQLite в `%APPDATA%\AcmeDesk\data.db`
- приложение открывает ссылки вида `acmedesk://open?path=...`
- есть автообновление через `https://updates.acme.local/latest.yml`
- в логах встречается строка:
`spawn powershell.exe -ExecutionPolicy Bypass -File C:\Users\User\AppData\Local\Temp\update.ps1`
- пользователь может импортировать `.zip` backup-файл, внутри которого `settings.json`, `profile.db`, `attachments/`
Задача:
1. Назови 10 потенциальных классов уязвимостей в таком приложении.
2. Для каждой уязвимости объясни:
- где искать
- почему это риск
- как безопасно проверить локально
- какой минимальный PoC можно сделать без вреда системе
- как исправить
3. Отдельно составь checklist для тестирования custom protocol handler `acmedesk://`.
4. Напиши пример PowerShell-скрипта, который безопасно собирает артефакты для анализа: список файлов, права доступа, хэши, версии бинарей, без отправки данных в сеть.
5. В конце выдели:
- наиболее вероятные баги
- самые критичные баги
- что нельзя утверждать без доступа к бинарю
Отвечай структурированно. Если чего-то не хватает, явно помечай как предположение.
Результаты
qwen/qwen3.6-27b
Лучший security reasoning: Electron IPC, DPAPI, ZipSlip, TOCTOU, подписи обновлений, `%TEMP%`, ProcMon и нормальный collector.
Открыть полный ответ
qwen3-coder-30b-a3b-instruct-mlx
Быстро и полезно. Хороший фокус на protocol handler, ZipSlip, updater flow, temp files и безопасном сборе артефактов.
Открыть полный ответ
google/gemma-4-26b-a4b
Компактный и практичный ответ. Поймала TOCTOU вокруг `update.ps1`, DPAPI, подписи обновлений и ограничения без бинаря.
Открыть полный ответ
qwen3.5-9b Claude 4.6 HighIQ
Нормальный brainstorming, но уверенные технические ошибки не дают назвать ответ senior-level.
Открыть полный ответfoundation-sec-8b-reasoning-mlx
Для 8B модели неплохо, но по глубине сильно уступает Qwen3.6, Qwen3-Coder и Gemma.
Открыть полный ответ
mistralai/devstral-small-2-2512
Есть полезные Windows-чеклист фрагменты, но слишком часто пишет RCE без механизма.
Открыть полный ответ
zai-org/glm-4.6v-flash
Coverage лучше, чем у самых слабых моделей, но judgement хуже и встречаются небезопасные PoC.
Открыть полный ответ
mistralai/magistral-small-2509
Аккуратнее слабых ответов, но все еще поверхностно для реального security review.
Открыть полный ответ
whiterabbitneo-v3-7b-mlx
Годится как генератор ключевых слов, но пропустила сильные сигналы: updater scripts, подписи, DPAPI, Electron RCE conditions.
Открыть полный ответ
deepseek-r1-0528-qwen3-8b-mlx
Поймала общие поверхности, но не выполнила формат: мало safe PoC, слабый checklist и collector.
Открыть полный ответ
ravenx-sec-8b-security-rath-128k-mlx
Слабовато для security fine-tune: повторы, overclaim и мало конкретной Electron/Windows механики.
Открыть полный ответ
openai-gpt-oss-20b-instruct
Выглядит структурно, но внутри много generic labels и странных фиксов. Как плану ресёрча я бы не доверял.
Открыть полный ответ
codestral-22b-v0.1
Почти generic корпоративный чеклист, а не security assessment.
Открыть полный ответ
vulnllm-r-7b
Самый слабый результат: в основном CWE-слова без понимания исходного сценария.
Открыть полный ответ