Мустакимов Вячеслав Алексеевич - GPT маркетологу. 337 промптов повышающих производительность в 1000 раз. Промпт-инжиниринг для написания исследований, от плана до антиплагиата, решения задач, генерации творческих идей, ускорения рутинных процессов стр 2.

Шрифт
Фон

1.2. Шинглы текста

Шингл  последовательность количества слов, используемая в алгоритме проверки уникальности текста. Уникальность проверяется путем сравнения нового текста с текстом, который уже был проиндексирован.

При определении уникальности происходит следующее:

Нормализация (канонизация) текста  удаление из текста элементов, не несущих смысловой нагрузки, предлогов, союзов, знаков препинания и др.

Лемматизация  приведение слов к нормальной форме.

Разбиение текста на фрагменты  шинглы, конец каждого фрагмента является началом предыдущего, рис. 4.



Рисунок 4  Лемматизированный текст, КонтрПлагиат работает с шинглами, состоящими из 2 слов


Вычисление хэш-значения фрагмента слова  на этом этапе начинается сравнение текста. Точность сравнения напрямую зависит от количества операций  это достаточно ресурсоемкий процесс. Чтобы увеличить производительность метода сверки шинглов, сравнение текстов по контрольным суммам может осуществляться на случайных выборках.

Определение результата  на основе сравнения выдается результат, указывающий на уникальность проверяемого текста. Результаты отражаются в процентах: 100%  полностью уникальный текст, 0%  полностью неуникальный текст, т.е. такой текст уже существует.


1.3. Как ВУЗам и студентам сэкономить на проверках в Антиплагиат?


Антиплагиат использует шингл из 3 слов. Другими словами, текст, после перефразирования должен отличаться от текста источника, при сверке по шинглам, состоящим из 3 слов, на 100%, рис. 5. У КонтрПлагиата другой подход, тексты перефразируются так, чтобы при сверке по шинглам состоящим из двух слов, источник и текст рерайта отличались на 8090%, рис. 6.



Рисунок 5  Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, отличие текстов 100%



Рисунок 6  Сверка текста источника (правое окно) с перефразированным текстом (левое окно) по методу шинглов, состоящим их 3 слов, желтым выделены шинглы, которые не изменились, отличие текстов 95%


Я его слепила из того, что было. А потом что было, то и полюбила


Тексты, которые используются в академической сфере  специфичны тем, что базовое знание, определения, распространённые подходы, методы, порядок изложения и т. д. многократно используются в разных работах, разными ВУЗами, на протяжении десятилетий. С введением в практику ВУЗов антиплагиата все студенческие тексты смело можно отнести к высокочастотным, их сотни и тысячи раз перефразировали, пытаясь добиться уникальности и каждый текст, сходной тематики должен быть перефразирован вновь так, чтобы он не напоминал предыдущие, а проверка будет осуществляться по таким крошечным частям текста, как шинглы.

Согласно обобщенных данных, АО «Антиплагиат» занимает ок. 80% отечественного рынка проверок работ на наличие заимствований, что характеризуется цифрой  16 млн. проверок, стоимость одной проверки 472 руб. Любой маркетолог восхититься маркетингом этой компании, бросающей взгляды на зарубежье (возможна проверка на 100 языках).

Вероятно показатель количества проверок, по итогам 2023 г. прирастет, т. к. Антиплагиат учится выявлять генеративные тексты, написанные с помощью (ИИ, AI): GPT, GPT-3, GPT-3,5, GPT-4, ChatGPT (все версии), monica, jasper, neuraltext, writesonic, sber, NeuralWriter, neuro-texter, YandexGPT и др., и если генеративный текст найден, выдается уведомление  «Внимание, документ подозрительный: в документе присутствует сгенерированный текст».

В марте 2022 г. АО «Антиплагиат» увеличил стоимость проверок с 270 руб. до 472 руб., в этой связи справедливо задаться рядом вопросов, как студентам и ВУЗам РФ сэкономить на проверках, обеспечивая высокое качество студенческих работ.


Сущность глубокого перефразирования, как легального и рекомендованного метода повышения уникальности текстов


Глубокое перефразирование, это изложение текста источника «своими» или «другими словами», без потери смыслового содержания. В процессе перефразирования автор добивается отличия нового текста от текста источника. Академический рерайт, или академическое перефразирование  изложение текстов, научного содержания, своими словами.


Пример GPT-промпта 1


Перефразируй текст, используй научный стиль изложения, сохрани абсолютно все факты, имена собственные, законы и логику изложения [ваш текст]


Согласно промпта 1 мы перефразировали текст в GPT и сверили его на отличия по методу шинглов, состоящих из двух слов (Ш2), тексты отличаются на 58%, рис. 7, следовательно, такой текст проверку в Антиплагиат не пройдет, т.к. пороговое значение отличия по показателю Ш2  более 80%.

С целью объективности, повысим уникальность исходного текста с помощью КонтрПлагиат, рис. 8.



Рисунок 7  Сверка текста источника (правое окно) с текстом, перефразированным GPT (левое окно) по методу шинглов, состоящих из 2 слов, желтым выделен текст, который не изменился  отличие 58%



Рисунок 8  Сверка текста источника (правое окно) с текстом, перефразированным КонтрПлагиат (левое окно) по методу шинглов, состоящих из 2 слов  отличие 88%


Как рассчитать объем дефицита уникального текста


Имеется текст, объемом 100 тыс. знаков, текущая уникальность 20%, требуется 70%. Сколько текста нужно изменить по методу шинглов, чтобы достичь нужного показателя оригинальности.

Расчет количества знаков в 1% текста:

100 тыс. знаков / 100% = 1 тыс. знаков содержится в 1% текста

Расчет дефицита уникальности:

Требуемая оригинальность  оригинальность имеется = дефицит оригинальности

Расчет объема знаков для покрытия дефицита оригинальности текста:

Дефицит оригинальности * количество знаков в 1% текста


Обоснование метода подготовки текстов для проверки в Антиплагиат ВУЗ


Библиотеки, из источника знаний, превратились в источники плагиата. Проблему усугубляет ограниченность формулировок знаний, как правило все учебные программы унифицированы (однообразны) и опираются на официальный перечень учебной литературы. В этой связи, любой текст, опирающийся на источники, имеет низкий показатель уникальности, т.к. текст пишется с использованием метода научной компиляции, используются общеизвестные знания и распространённые формулировки.

В этой связи проверять свеженаписанный (скомпилированный) текст в Антиплагиат ВУЗ не имеет смысла, т.к. чуда не случится, и он покажет недостаточную уникальность.

Вновь созданный текст (первичный) необходимо подвергнуть глубокому перефразированию. Проверку в Антиплагиат ВУЗ следует выполнять после получения показателя отличия вторичного текста от первичного по показателю Ш2 на 80% и более процентов.

Данный подход может привести к двум возможным результатам:

 требуемая уникальность достигнута;

 необходимая уникальность не достигнута.

В случае недостижения уникальности, руководствуясь отчетом о полной проверке, необходимо места плагиата подвергнуть вторичному глубокому перефразированию, с показателем Ш2  9095%.

После вторичной глубокой переработки, текст может быть проверен в системе поиска заимствований, как правило второй проверки достаточно, для получения необходимого уровня уникальности.

Почему не получается, после первой проверки, перефразировать места плагиата и достигнуть нужный процент. Да, такая проблема существует, вторая проверка покажет, что текст, который в перовой проверке не был плагиатом, местами отмечен таковым и процент не набран. Антиплагиат оценивает текст в совокупности, к сожалению схитрить не получится, текст необходимо перефразировать полностью, так, чтобы при сверкам по шинглам, состоящим из 2 слов он отличался от источника более чем на 80%.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3