1
00:00:00,000 --> 00:00:02,000
Всем привет!

2
00:00:02,000 --> 00:00:06,000
Меня зовут Кавчлан Секрулин.

3
00:00:06,000 --> 00:00:09,000
Я, получается, эксперт-аналитер команды CyberOx.

4
00:00:09,000 --> 00:00:12,000
Сегодня расскажу вам тоже про тему LMP-иажа.

5
00:00:12,000 --> 00:00:16,000
Но в данном случае в контексте Blackboard сканера рублей.

6
00:00:16,000 --> 00:00:19,000
Соответственно, то, как мы применяем LMP,

7
00:00:19,000 --> 00:00:22,000
какие встречи нам помогли улучшить результат

8
00:00:22,000 --> 00:00:29,900
В принципе сравнение по бенчмаркам по улучшению по фронтам

9
00:00:29,900 --> 00:00:40,820
И в конце также покажу ссылку на open-source ReaGN Nuclea, к которому вы можете подключать свои логичные

10
00:00:42,960 --> 00:00:46,120
Начну. Что такое Nuclea?

11
00:00:46,120 --> 00:00:51,180
Nuclei — это open-source сканер, который работает на базе шаблонов.

12
00:00:51,180 --> 00:01:00,300
Это Nuclei Demplates, грубо говоря, сигнатура проверки, по которому мы можем определить, есть ли там, допустим, на каком-то инфоинте по матчеру выделимость или нет.

13
00:01:00,540 --> 00:01:01,140
Ну, как пример.

14
00:01:01,860 --> 00:01:07,340
Собственно, какие воли у нас возникли при работе со сканерами.

15
00:01:07,340 --> 00:01:11,280
Это большое количество алертов, в принципе, на большом потоке.

16
00:01:11,360 --> 00:01:14,000
То есть в день не может пролетать больше 10 тысяч алертов.

17
00:01:14,000 --> 00:01:23,000
человеку ручную такой тряжи, ну в принципе реально, но опять же у нас может уйти на это большое количество времени,

18
00:01:23,000 --> 00:01:31,000
соответственно у нас SLA и горят, и опять же присутствуют человеческие факторы, что на большом объеме человек начинает ошибаться.

19
00:01:31,000 --> 00:01:37,000
В принципе совпадение шаблона не равно выделимости, ну конкретно нуклеи, если рассматривать нуклей,

20
00:01:37,000 --> 00:01:44,000
То есть какое-то количество постпоинтимов, несмотря на то, какой хороший буклей присутствует.

21
00:01:44,000 --> 00:01:50,000
Соответственно реальные находки дом в шуме — это бесконечное количество инфо сработок.

22
00:01:50,000 --> 00:01:56,000
И иногда даже в инфо-шаблонах, там, допустим, публичных встречаются интересные находки,

23
00:01:56,000 --> 00:01:58,000
которые можно докрутить в рекретах.

24
00:01:58,000 --> 00:02:07,000
Ну и собственно триаж руками это дорого, медленно, скучно и человек может заняться чем-то более интересным.

25
00:02:07,000 --> 00:02:23,000
Ну первое, что приходит в голову, как решать эту проблему, это допиливать шаблоны или реализовать какие-то детерминические правила, за которые мы можем детектировать ползы.

26
00:02:23,000 --> 00:02:27,700
Ну, все это разбивается в контексты.

27
00:02:27,700 --> 00:02:31,200
Первый, ну вот, допустим, пример на слайде.

28
00:02:31,200 --> 00:02:34,480
Запустили паблик-шаблон, который текстит WordPress.

29
00:02:34,480 --> 00:02:41,940
Соответственно, он сработал на каком-то ресурсе по регулярке VPC.

30
00:02:41,940 --> 00:02:46,100
То есть тут относительный путь на какую-то тему WordPress.

31
00:02:46,100 --> 00:02:52,200
Также где-то там в вводе раскрывается в HTML WordPress прямо с версии.

32
00:02:52,200 --> 00:03:00,040
И дополнительно, если сходить на REST API WordPress WPJSON, он у нас отвечает статусом 200, он там реально присутствует.

33
00:03:00,040 --> 00:03:01,960
То есть это группа интереса сработка.

34
00:03:01,960 --> 00:03:07,800
И опять же, это же шаблон, но уже на каком-то другом ресурсе.

35
00:03:07,800 --> 00:03:10,680
Опять та же регулярка на WP-контент.

36
00:03:10,680 --> 00:03:22,400
Но в данном случае тут абсолютная ссылка на какую-то картинку с другого сайта, где используется WordPress.

37
00:03:22,400 --> 00:03:27,280
Соответственно, если проверять глубже, никаких следов WordPress на ресурсе нету.

38
00:03:27,280 --> 00:03:36,560
В header у нас раскрывается, что сервер нативте, вопей, JSON, endpoint, REST.IP, в принципе, отсутствуют.

39
00:03:36,560 --> 00:03:40,260
Соответственно, это полсработка и таких контекстов.

40
00:03:40,260 --> 00:03:46,960
Ну вот, допустим, на этот шаблон мы нашли два контекста, в которых он может быть как true-positive, так и post-positive.

41
00:03:48,820 --> 00:03:51,400
Шаблонов десятки тысяч на рублей.

42
00:03:52,280 --> 00:03:55,240
Соответственно, в них может быть много таких контекстов.

43
00:03:55,380 --> 00:04:01,060
Если все это покрывать, пытаться покрыть правилами, это практически невозможно отдачать.

44
00:04:01,060 --> 00:04:09,300
Расскажу про то, как мы решали задачу с LN-триажом.

45
00:04:09,300 --> 00:04:15,060
По архитектуре получаем данные от сканера.

46
00:04:15,060 --> 00:04:19,060
Это сырой выклопный клей с дебагом и респонсом request.

47
00:04:19,060 --> 00:04:23,060
В принципе, это стандартный дебаг от Necler.

48
00:04:23,060 --> 00:04:27,060
Дальше, первым шагом мы его прогоняем через припроцессор,

49
00:04:27,060 --> 00:04:31,060
то есть сплошной конкретный код без каких-либо ЛМов.

50
00:04:31,060 --> 00:04:36,060
Для того чтобы подготовить данные на код, чуть дальше подробнее расскажу.

51
00:04:36,060 --> 00:04:40,060
На третьем шаге у нас уже подключаются ЛМки.

52
00:04:40,060 --> 00:04:44,060
Соответственно, выдается вердикт с небольшим пояснением.

53
00:04:44,060 --> 00:04:51,060
Да, нет, не знаю. Если у нас вердикт не знаю, он сразу отправляется на эксперты либо на AI-аналитики, как в предыдущем докладе,

54
00:04:51,060 --> 00:04:58,880
которые более автономны и могут более углубленно использовать те же инструменты, что и аналитика человека, перепроверить.

55
00:05:00,620 --> 00:05:05,540
Дальше, следующим шагом мы оцениваем уверенность первого вердикта, тоже через ELM.

56
00:05:06,060 --> 00:05:09,720
И на последнем шаге, тоже через ELM, мы обогащаем карточку.

57
00:05:09,900 --> 00:05:14,260
Это помимо человека, читаемых описаний, стримшотов и прочего.

58
00:05:14,260 --> 00:05:22,260
мы добавляем также различные сигналы, по которым мы дальше можем откладывать находку в нужные нам корзины.

59
00:05:22,260 --> 00:05:24,260
Об этом тоже чуть поподробнее.

60
00:05:24,260 --> 00:05:26,260
Ну и в итоге у нас получается три корзины.

61
00:05:26,260 --> 00:05:33,260
Это то, что мы отправляем на эксперта-аналитика, где, допустим, уверенность модель достаточно низкая.

62
00:05:33,260 --> 00:05:39,260
Это где уверенные нет, то есть это просто прочител, уверенные да, это просто прочител.

63
00:05:39,260 --> 00:05:52,260
Теперь, ну, с первого шага, после скана получили debucked.ly, соответственно, мы будем через 3-процессор без TGP-LM.

64
00:05:52,260 --> 00:06:05,260
Если рассмотреть на примере шаблона, который вы детектив в Spring Boot endpoint.ql.en, точнее его раскрытие, как пример на слайде, у нас сделан какой-то тест-опрос, получим реквест.

65
00:06:05,260 --> 00:06:14,980
и WEST у нас содержит больше одного мегабайта простыни с JSON этих самых метрик N, которые у нас открываются по данному point.

66
00:06:14,980 --> 00:06:24,620
Если это все засунуть в RLM-ку, плюс prompt, плюс шаблон, это все просто вылезет за контекст,

67
00:06:24,620 --> 00:06:28,860
модель начнет галлюцинировать, решать эту задачу.

68
00:06:28,860 --> 00:06:36,020
Это как раз таки по опыту основной источник проблем с поломанием JSON.

69
00:06:37,020 --> 00:06:41,740
Соответственно, через перепроцессоры мы пригоняем весь этот CO-debug.

70
00:06:41,740 --> 00:06:46,860
Что мы делаем? Основное, помимо всяких метаполей, это сколько матчеров у нас работало,

71
00:06:46,860 --> 00:06:50,380
какой статус под получен, какие хеддеры появились.

72
00:06:50,380 --> 00:07:00,060
Основной это работа именно с респонсом. Соответственно мы по матчеру определяем место, где у нас работал нутлей, то есть его регулярка.

73
00:07:00,060 --> 00:07:09,580
Мы берем, получается, голову боди, квоск боди и окна вокруг места, где сработала наша регулярка.

74
00:07:09,580 --> 00:07:18,220
Соответственно, этого контекста зачастую модельки полностью хватает для вынесения вердикта.

75
00:07:18,220 --> 00:07:20,940
По качеству вердикта посмотрим дальше.

76
00:07:20,940 --> 00:07:23,540
И не ломает ее, что самое главное.

77
00:07:24,540 --> 00:07:30,300
Соответственно, таким образом у нас сжимается то, что мы подаем в LN,

78
00:07:30,300 --> 00:07:33,180
с одного мегабайта до считанных килобайт.

79
00:07:35,020 --> 00:07:37,580
Следующий шаг — это вердикт.

80
00:07:37,580 --> 00:07:41,580
Здесь мы применили прием — это вердикт от противного,

81
00:07:41,580 --> 00:07:50,020
То есть мы не просим LMP, подав в нее данные при процессорах, плюс шаблон, плюс промп,

82
00:07:50,020 --> 00:07:53,420
Мы не просим ее доказать, что это двухводитель сработка,

83
00:07:53,420 --> 00:07:59,360
Мы просим ее рассказать, почему эта ползанка.

84
00:07:59,360 --> 00:08:04,200
То есть идем, не доверяем предыдущему сигналу и пытаемся его критиковать.

85
00:08:04,200 --> 00:08:07,460
Предыдущий сигнал — это сработка, соответственно, самого нуклея.

86
00:08:07,460 --> 00:08:13,460
На данном примере, опять же, актуатор .

87
00:08:13,460 --> 00:08:18,460
То есть, постпозитив сигналы никакие у моделей не сработали.

88
00:08:18,460 --> 00:08:22,460
Это не баг, не продукция впадает, условия матчера выполнены.

89
00:08:22,460 --> 00:08:24,460
Находка – true positive.

90
00:08:26,460 --> 00:08:33,460
По тому, какие сигналы постпозитив применяются, они зашиты в порте.

91
00:08:33,460 --> 00:08:38,460
Вот пример на слайде. Собственно, не сработала страница блокировки.

92
00:08:38,460 --> 00:08:45,460
То есть там либо нет какой-то заглушки, где я мог стрелять матчер, потому что она в ответе отдала твой запрос.

93
00:08:45,460 --> 00:08:50,460
Это действительно JSON актуатор. Модель сама определяет.

94
00:08:50,460 --> 00:08:56,460
Есть признаки матчеров данных, которые мы подали в LVM-кой.

95
00:08:56,460 --> 00:08:59,580
То есть, опять же, этот false politics не сработал.

96
00:08:59,580 --> 00:09:03,780
И это реальная конфигурация, никакая не заглушка.

97
00:09:03,780 --> 00:09:08,780
По аналогии с блокировкой бафом.

98
00:09:11,420 --> 00:09:20,220
Дальше, следующий шаг — это уверенность через атаку, опять же, на предыдущий вертик, вертик модели, который был на прошлом шаге.

99
00:09:20,220 --> 00:09:33,680
Соответственно, в данном случае мы уже confidence не просим модель выставить самой и не имея какого-то представления по тому, как она его выставила.

100
00:09:33,680 --> 00:09:49,140
Соответственно, если мы пойдем по такому пути, просто будем просить ее выставить, ну, сделать самооценку, она начнет, соответственно, плавать на одних и тех же сработках, как пример проблем с этим.

101
00:09:49,140 --> 00:10:06,940
В данном случае мы используем таблицу якорей, то есть если определяем тип сработки, допустим, как в ActuarGISON, в ActuarRENV, у нас сработал тип якоря F, это подтверждение по контенту.

102
00:10:06,940 --> 00:10:12,080
Для него есть фиктированное значение таблицы, это 0.75 уверенности.

103
00:10:12,080 --> 00:10:18,960
И соответственно к нему мы применяем атаку к этому вердикту, используя этот якорь.

104
00:10:18,960 --> 00:10:26,860
Соответственно, модель пытается опровергнуть вердикт предыдущей модели.

105
00:10:26,860 --> 00:10:34,520
И при каждом это red team count, то есть red team в данном случае это как бы критик.

106
00:10:34,520 --> 00:10:39,400
При каждом увеличении RAT count у нас уверенность моделей будет падать.

107
00:10:39,400 --> 00:10:42,920
Соответственно, промты на true positive, true false positive разные.

108
00:10:47,920 --> 00:10:51,120
Ну и в конце, после того, как мы получили вердикт от модели,

109
00:10:51,120 --> 00:10:56,400
мы его перепроверили в скором уверенности, используя в нашем якоре.

110
00:10:56,920 --> 00:10:58,560
У нас идет маршрутизация.

111
00:10:58,560 --> 00:11:08,560
Это применено для того, чтобы избежать каких-то галлюцинаций и пошуток моделей и не пропустить что-то важное.

112
00:11:08,560 --> 00:11:20,560
Соответственно, первый пункт маршрутизации — это вердикт. Если вердикт не знаю, либо конкретенц у нас с предыдущего этапа ниже порога, который мы выставили.

113
00:11:20,560 --> 00:11:47,980
Это детальнированные guardrails, то есть если у нас моделька говорит, что она не нашла что-то, ну не смогла утерпить им что-то из респонса, которые ей обрезаны далее, но по факту скамеры его смогут вытащить экстрактором, как пример мудлее, в таком случае мы перенаправляем на эксперта либо и аналитика.

114
00:11:47,980 --> 00:11:53,360
Опять оцениваем класс байджинга, это, допустим, байдерная проверка, либо это прямая эксплуатация.

115
00:11:54,420 --> 00:12:00,720
И в случае, если это прямая эксплуатация, мы все равно отправляем на эксперта, либо и аналитика,

116
00:12:00,800 --> 00:12:07,660
для того, чтобы перепроверить, что это действительно, ну, это применяется только для физических плотности.

117
00:12:09,800 --> 00:12:11,700
Дальше, качественных доказательств.

118
00:12:11,700 --> 00:12:15,560
Соответственно, если у нас чего-то не хватает в данных после перепроцессора,

119
00:12:15,560 --> 00:12:22,560
то, что мы поддаем на модели, это тоже улетает на эксперты, либо и аналитика.

120
00:12:25,560 --> 00:12:29,560
И, собственно, важность байдинга — это самое ключевое, что обычно сработает маршрутизация,

121
00:12:29,560 --> 00:12:33,560
то есть скриты, стороны мы не отправляем.

122
00:12:33,560 --> 00:12:37,560
То есть мы их отправляем в дуаленку, чтобы она оценила на круг политеп, постполите,

123
00:12:37,560 --> 00:12:43,560
в голосовой график и уверенность, но все равно перепроверяем руками, потому что это крит.

124
00:12:45,560 --> 00:12:53,560
Собственно, здесь, по инсекциям, небольшой пенчмарк по моделькам проводили,

125
00:12:53,560 --> 00:12:59,560
ну, как в проте тестировали то, как сравнивали модели,

126
00:12:59,560 --> 00:13:04,560
то есть тут сравнивали GPT-SS, QN3-E5, GEMO, GEMO-4.

127
00:13:04,560 --> 00:13:11,560
По итогам выбрали модель QN3-E6 и FB8 на провайдере VLM.

128
00:13:11,560 --> 00:13:13,560
Работает хорошо.

129
00:13:13,560 --> 00:13:25,560
Собственно, сделали 844 размеченных вердикта, тоже, как коллеги из предыдущего доклада перепроверили помимо человека, перепроверили вход.

130
00:13:25,560 --> 00:13:34,560
Получили ground rules, тоже, и на нем перепрогнали, ну, сделали такой небольшой бенчмарк.

131
00:13:34,560 --> 00:13:49,560
Возвращаясь к началу, к препроцессу, насколько это важно на самом деле подготовить данные для модели, чтобы она не галлюцинировала и работала нормально, давала хороший результат.

132
00:13:49,560 --> 00:13:59,560
Первый промо «Докажи параду», который мы использовали, это самый первый промо, он написан чуть ли не человеку, частично не ромки,

133
00:13:59,560 --> 00:14:06,560
По тому, что у нас сейчас есть, он очень плохой, но за счет того, что мы приготовили достаточно хорошие данные,

134
00:14:06,560 --> 00:14:13,560
на вход этой модели у нас точность даже получилась немного выше, чем итоговый последний промп.

135
00:14:13,560 --> 00:14:23,560
Покрытие в районе 85%, но, соответственно, пропуски, ну, много пропусков, нас такой результат не устраивал.

136
00:14:23,560 --> 00:14:28,560
Ну, в принципе, результаты таблицы. То есть это на кто, насколько важно при процессе.

137
00:14:28,560 --> 00:14:37,560
Соответственно, наш текущий промп по тем химтам, которые я давал на предыдущих слайдов,

138
00:14:37,560 --> 00:14:43,560
то, что мы атакуем предыдущие вердикты, как сигнал от нуклея, так и вердикт самой модели.

139
00:14:43,560 --> 00:14:51,560
Точность у нас, в принципе, не изменилась, но покрытие, то, что где модель перестала сомневаться,

140
00:14:51,560 --> 00:14:55,560
когда мы ее спрашиваем доказать правду, у нас сильно уменьшилось.

141
00:14:55,560 --> 00:15:03,960
То есть на самой правой части таблицы у нас в статусе двух вердиктов для моделей не смогла отжидеть вердикт правильно.

142
00:15:03,960 --> 00:15:06,960
Соответственно, сидел из 2-двити.

143
00:15:10,960 --> 00:15:12,960
По данному слайду все.

144
00:15:12,960 --> 00:15:18,960
Какие итоги мы для себя и Джерюс С вами получили?

145
00:15:18,960 --> 00:15:25,360
То, что подготовка машиночитаемых доказательств невероятно важна при работе с аэллайдами.

146
00:15:25,360 --> 00:15:35,360
в том числе и спасает от галлюцинаций, так и модели тут же JSON намного проще понимать, чем с рейвыкута чего-нибудь.

147
00:15:35,360 --> 00:15:42,360
Поиск FTP сигналов при выставлении вердикта на каждом этапе,

148
00:15:42,360 --> 00:15:46,360
собственно, то, о чем я говорил, идем от противного.

149
00:15:46,360 --> 00:15:52,360
И уверенность через атаку на вердикт, в том числе, атакуем предыдущий вердикт.

150
00:15:52,360 --> 00:15:59,360
Рошартизацию на эксперты и аналитику лучше выбирать для того, чтобы не пропустить что-то важное.

151
00:15:59,360 --> 00:16:06,360
Ну и в конце, как и обещал, в принципе, open source-неплей от патриажа опубликован на GitHub,

152
00:16:06,360 --> 00:16:09,360
думаю, ссылка и в чате 5 там все тоже будет.

153
00:16:09,360 --> 00:16:12,360
Там, в принципе, наши первые версии протоф.

154
00:16:12,360 --> 00:16:16,360
Грубо говоря, закидывайте сырой дебак-неплей.

155
00:16:16,360 --> 00:16:32,360
Включайте Alamo, BLM, все что хотите, любую свою модель и гоняйте Auto-Trianger и прямо через мончик вам выставит вердит, и дальше уже применять их.

156
00:16:32,360 --> 00:16:34,360
Как считаете нужным?

157
00:16:34,360 --> 00:16:36,360
Так, у меня все, спасибо за внимание.

158
00:16:36,360 --> 00:16:43,360
Спасибо за доклад.

159
00:16:43,360 --> 00:16:44,180
У меня был вопрос.

160
00:16:45,840 --> 00:16:46,760
Получается какой-то.

161
00:16:46,760 --> 00:16:47,500
Девятый слайд.

162
00:16:48,260 --> 00:16:50,120
По флоспостик-сигналы.

163
00:16:50,680 --> 00:16:53,380
Там есть первый критерий.

164
00:16:53,560 --> 00:16:53,920
Это WAF.

165
00:16:53,920 --> 00:16:54,880
Коанн-блок-пейдж.

166
00:16:55,780 --> 00:16:57,500
А что если WAF?

167
00:16:57,880 --> 00:17:00,500
Ну, допустим, это может быть не прямо именно WAF.

168
00:17:00,780 --> 00:17:02,460
А просто, допустим, блок-баланс.

169
00:17:02,580 --> 00:17:05,000
И еще, что ты слишком много отниметишь его.

170
00:17:05,000 --> 00:17:08,000
и вот у тебя в своих директ на какую-нибудь заглушку

171
00:17:08,000 --> 00:17:11,000
но это не само, а то Waf, по странице

172
00:17:11,000 --> 00:17:13,000
не устают

173
00:17:13,000 --> 00:17:16,000
а не более правый клименты получается или нет?

174
00:17:16,000 --> 00:17:18,000
нет, как?

175
00:17:18,000 --> 00:17:24,000
насколько точны критерии оценки, что это не Waf и не заблокировано на странице?

176
00:17:24,000 --> 00:17:28,000
а, ну, отлично, ну, заглушка, они там

177
00:17:28,000 --> 00:17:30,000
достаточно типизированы, то есть это там

178
00:17:30,000 --> 00:17:32,000
какой-нибудь большой красный крест с

179
00:17:32,000 --> 00:17:38,000
Сообщение о том, что у вас заплакированы на GSTP To Data, получается это текст под объемом диспансера

180
00:17:38,000 --> 00:17:39,000
Да, вот и просто

181
00:17:39,000 --> 00:17:41,000
Сейчас еще одно

182
00:17:41,000 --> 00:17:46,000
Так, по поводу моделей, ты что-нибудь еще тестировал из моделей?

183
00:17:46,000 --> 00:17:48,000
Или только вот взял QN и все

184
00:17:48,000 --> 00:17:53,000
JVT OSS, QN 3.5 и GEMA 4

185
00:17:53,000 --> 00:17:55,000
А по размеру?

186
00:17:57,000 --> 00:17:59,000
До 20000 параметров

187
00:17:59,000 --> 00:18:01,000
Ну, 20 и...

188
00:18:01,000 --> 00:18:02,000
Илья.

189
00:18:05,000 --> 00:18:07,000
И... А, идут вопросы.

190
00:18:07,000 --> 00:18:13,000
В целом, потому что уже третий доклад подряд подтверждаем, это про безопасность самого AI-помощника.

191
00:18:13,000 --> 00:18:18,000
То есть ты написал, что у тебя есть детерминированные гардрейлы, так понимаешь, что это у тебя на ливчиках сделано.

192
00:18:20,000 --> 00:18:24,000
На чем у тебя построен гардрейл, который защищает агента?

193
00:18:24,000 --> 00:18:33,960
Ну, он, на самом деле, Gun Rail, да, это обычный там битон-правилы, то есть они достаточно банальные, на самом деле.

194
00:18:33,960 --> 00:18:46,560
Если, допустим, моделька нам вернула своих сигналов, которые мы собираем при обогащении, что не обнаружено, ну, допустим, матчер, там, не совпал или там что-нибудь в таком роде,

195
00:18:46,560 --> 00:18:50,560
но при этом у нас в суром дебаге

196
00:18:50,560 --> 00:18:55,560
есть какие-то выточенные данные после сканды

197
00:18:55,560 --> 00:18:58,560
то есть мы такого все-таки не доверяем и перепроверяем

198
00:18:58,560 --> 00:19:04,560
просто как совет, если вам будет интересно, попробуй взять какой-нибудь email на экран рейл

199
00:19:04,560 --> 00:19:07,560
поставь его в режиме прозрачного прокси

200
00:19:07,560 --> 00:19:10,560
и смотри, какие он данные тебе коллекционирует

201
00:19:10,560 --> 00:19:15,560
потом можешь его потюнить и запустить уже в режиме блогера

202
00:19:15,560 --> 00:19:17,560
А почему ты не засобили?

203
00:19:17,560 --> 00:19:18,560
Так...

204
00:19:18,560 --> 00:19:19,560
А я...

205
00:19:19,560 --> 00:19:21,560
Чего нет?

206
00:19:21,560 --> 00:19:23,560
Чего нет?

207
00:19:23,560 --> 00:19:27,560
Так, повторю, чтобы было лучше слышно.

208
00:19:27,560 --> 00:19:31,560
Хороший день, я сам свою реальность променяю, взять

209
00:19:31,560 --> 00:19:37,560
MLG Gradrail, он достаточно быстро, он длинненько на CPU, причем даже слабеньком.

210
00:19:37,560 --> 00:19:42,560
Его пустить в режиме как прозрачный прокси, то есть чтобы он просто теперь размечал

211
00:19:42,560 --> 00:19:46,900
Файлы, которые попадают в LLM как Safe and Safe.

212
00:19:46,900 --> 00:19:51,500
Ну и, допустим, если еще есть вердит, тоже сохранять.

213
00:19:51,500 --> 00:19:55,500
Дальше лучше глазами, потому что ничего лучше, чем глаз, не будет.

214
00:19:55,500 --> 00:19:58,720
И LLM и Judge никогда не панацея, на самом деле.

215
00:19:58,720 --> 00:20:02,820
Он может врать вообще спокойно, это будет очень элистично.

216
00:20:02,820 --> 00:20:10,000
И если у тебя, допустим, F1 метрика очень высокая на все в этом деле, или полметрика высокая,

217
00:20:10,000 --> 00:20:16,000
то можно уже подключать в режиме блокера, и тогда у тебя будет довольно хорошая превентивная защита.

218
00:20:16,000 --> 00:20:24,000
То есть это не защита, это митигация, но это лучше, чем на гифах, типа, из-за «Ignore my instructions».

219
00:20:24,000 --> 00:20:32,000
Ну, там очень много вариантов, как отрабатывать нужные лэнки и детерминированные гадреи. Вот это довольно слабая тема, я считаю.

220
00:20:32,000 --> 00:20:36,000
Согласен. Спасибо, Григо. Прямо, сведено.

221
00:20:36,000 --> 00:20:40,480
У меня тут небольшой вопрос возник.

222
00:20:42,180 --> 00:20:48,380
Получается, мы, когда получаем ответ от этой модели,

223
00:20:48,860 --> 00:20:51,380
мы просим, чтобы он искал ложь.

224
00:20:52,040 --> 00:20:57,440
И, соответственно, модель если ищет, или вдруг находит, что он нашился,

225
00:20:58,340 --> 00:21:01,500
и, соответственно, будет уже другой вердикт.

226
00:21:01,500 --> 00:21:13,500
Такой вердик будет отправлено специалисту или же будет смотреть только на то, что будет выведено в самом деле?

227
00:21:13,500 --> 00:21:17,500
Я так понял, речь про контейнг-спор, оценку уверенности.

228
00:21:17,500 --> 00:21:22,500
Оценка уверенности происходит именно на тот вердикт, который выставился на предыдущем этапе.

229
00:21:22,500 --> 00:21:28,500
То есть если предыдущий этап выставил вердикт true, то мы идем от противного, мы говорим, что это не true.

230
00:21:28,500 --> 00:21:37,500
Следующий прогон ЭЛМКИ пытается выставить спор и доказать насколько это не трусработка.

231
00:21:37,500 --> 00:21:42,500
И с постмозитивом пост сработка и все в обратную сторону.

232
00:21:42,500 --> 00:21:44,500
Хорошо, спасибо.

233
00:21:51,500 --> 00:21:53,500
Что, поблагодарим окначика.

234
00:21:53,500 --> 00:21:54,500
Спасибо.

235
00:21:58,500 --> 00:22:11,500
Мне кажется уже поднагопилась какая-то неплохая история с тем, что и на этом тахаде люди релизят

236
00:22:11,500 --> 00:22:17,500
И в целом, в целом, может сделаем какую-нибудь китовку, да просто будем кидать эти промки и так далее

237
00:22:17,500 --> 00:22:20,500
Готов поделиться?

238
00:22:20,500 --> 00:22:23,500
А? Блин, как там видите?

239
00:22:23,500 --> 00:22:26,500
Ну, тихо, бескладывайся

240
00:22:26,500 --> 00:22:27,800
Пока еще.

241
00:22:29,140 --> 00:22:30,360
Ну давайте, да.

242
00:22:30,540 --> 00:22:33,320
Я могу на своем завести, но тогда это будет дорого.

243
00:22:34,020 --> 00:22:34,940
Давайте сделаем.

244
00:22:35,020 --> 00:22:37,360
Прикольная тема, просто она вот в воздухе.

245
00:22:37,540 --> 00:22:42,180
Ее соревнования, кто на неделю поправится, кто на неделю позже.

246
00:22:42,280 --> 00:22:45,240
Она, мне кажется, в одной роли уже особо не играет.

247
00:22:45,900 --> 00:22:46,480
Спасибо.

248
00:22:46,480 --> 00:22:50,700
А у нас закончился этот прям такой эллипенный кусочек.

249
00:22:50,700 --> 00:22:58,540
и мы вернемся к странным вещам, связанным с токенами и токенами.

