پرش به محتویات

افزایش داده متنی

ماژول transforms.noise عملگرهای افزودن نویز برای افزایش داده‌های متن فارسی ارائه می‌دهد. این ابزارها برای آموزش مدل‌های NLP مقاوم‌تر مفیدند و خطاهای دنیای واقعی مانند اشتباهات OCR، تایپ اشتباه روی صفحه‌کلید و فاصله‌گذاری نادرست را شبیه‌سازی می‌کنند.

عملگر توضیح
KeyboardNoise کاراکترها را با کلیدهای مجاور بصری یا موقعیتی روی صفحه‌کلید فارسی جایگزین می‌کند
OCRNoise کاراکترها را با کاراکترهای شبیه بصری جایگزین می‌کند تا خطاهای اسکن OCR را شبیه‌سازی کند
WhitespaceNoise فاصله‌های بین کلمات و زیرکلمه‌ها را به‌صورت تصادفی درج، حذف یا تغییر می‌دهد

نمونهٔ استفاده

from shekar import WhitespaceNoise, OCRNoise, KeyboardNoise

text = "عمری دگر بباید بعد از وفات ما را"

keyboard_noise = KeyboardNoise()
print(keyboard_noise(text))

ocr_noise = OCRNoise()
print(ocr_noise(text))

white_noise = WhitespaceNoise()
print(white_noise(text))
عمریی دگر بباید بعد از وفات ما را
عمری ذگر بباید بعد از وفات ما را
عمری‌دگر بباید‌بعد‌از وفاتما را

Note

خروجی هر عملگر تصادفی است، نتایج بین اجراها متفاوت خواهد بود. برای تضمین تکرارپذیری در آزمایش‌ها از یک seed ثابت استفاده کنید.