افزایش داده متنی
ماژول transforms.noise عملگرهای افزودن نویز برای افزایش دادههای متن فارسی ارائه میدهد. این ابزارها برای آموزش مدلهای NLP مقاومتر مفیدند و خطاهای دنیای واقعی مانند اشتباهات OCR، تایپ اشتباه روی صفحهکلید و فاصلهگذاری نادرست را شبیهسازی میکنند.
| عملگر | توضیح |
|---|---|
KeyboardNoise |
کاراکترها را با کلیدهای مجاور بصری یا موقعیتی روی صفحهکلید فارسی جایگزین میکند |
OCRNoise |
کاراکترها را با کاراکترهای شبیه بصری جایگزین میکند تا خطاهای اسکن OCR را شبیهسازی کند |
WhitespaceNoise |
فاصلههای بین کلمات و زیرکلمهها را بهصورت تصادفی درج، حذف یا تغییر میدهد |
نمونهٔ استفاده
from shekar import WhitespaceNoise, OCRNoise, KeyboardNoise
text = "عمری دگر بباید بعد از وفات ما را"
keyboard_noise = KeyboardNoise()
print(keyboard_noise(text))
ocr_noise = OCRNoise()
print(ocr_noise(text))
white_noise = WhitespaceNoise()
print(white_noise(text))
Note
خروجی هر عملگر تصادفی است، نتایج بین اجراها متفاوت خواهد بود. برای تضمین تکرارپذیری در آزمایشها از یک seed ثابت استفاده کنید.