דעם 4טן אױגוסט האָט די גרױסע טעכנאָלאָגישע פֿירמע „פֿײסבוק“ אַרױסגעלאָזט אַ מעלדונג װעגן אַ נײַעם אַלגאָריטעם, װאָס מע האָט געשאַפֿן, כּדי בעסער אױסצושטעלן די נײַעס־אַרטיקלען אױפֿן הױפּטזײַטל. דער דאָזיקער אַלגאָריטעם קען דיפֿערענצירן צװישן ערנצטע נײַעס־אַרטיקלען פֿון פֿאַרלאָזלעכע נײַעס־קװאַלן און צװישן כּלומרשטיקע נײַעסלעך, װאָס טראָגן שטאַרק צוציִענדיקע קעפּלעך (למשל, „אַ טוריסט אין ניו־יאָרק האָט געפֿונען אַ פֿרעמדן טשעמאָדאַן אין טאַקסי… װאָס איז דערנאָך געשען איז שװער צו גלײבן!“), אָבער אַז מע עפֿנט אױף דאָס זײַטל און מע לײענט עס, דערקענט מען באַלד, אַז זײ האָבן אַ קנאַפּן אינהאַלט. אױף ענגליש הײסט די קאַטעגאָריע אַרטיקלען „clickbait“ — דאָס הײסט, די װאָס האָבן דעם כּוח אַרײַנצוציִען דעם לײענער (ער זאָל „קליקן“, אַ קװעטש טאָן מיטן קאָמפּיוטער־מײַזל), אַזױ װי דער פֿיש צו דער נעץ, און דאָס פֿערד צו דער טאָרבע. „פֿײסבוק“ גיט צו פֿאַרשטײן, אַז צוליב דעם נײַעם אַלגאָריטעם װעלן זיך די אמתדיקע אַרטיקלען אױטאָמאַטיש אַרױפֿרוקן אױפֿן נײַעסזײַטל, און די סענסאַציאָנעלע אַרטיקלען װעלן זיך אַראָפּרוקן.
די מעלדונג האָט בײַ מיר באַלד אויפֿגעװעקט דעם אינטערעס. װי אַזױ קען מען אױסלערנען אַ קאָמפּיוטער צו דערשנאַפּן צי אַן אַרטיקל איז אַן אמתדיקער, צי אַ פֿאַלשער? דער ענטפֿער איז, װי „פֿײסבוק“ האָט איבערגעגעבן, אין תּוך אַ לינגװיסטישער. לכתּחילה האָט מען געפּרוּװט דערקענען דעם זשורנאַליסטישן „שונד“ לױט נישט־לינגװיסטישע קריטעריעס: מע האָט געמאָסטן, אין סעקונדעס צי מיליסעקונדעס, װי לאַנג עס האָט געדױערט ביז דער פֿײסבוק־באַניצער, װאָס האָט אַ „קװעטש“ געגעבן אױף אַן אַרטיקל, האָט זיך אומגעקערט צוריק אױף „פֿײסבוק“; די אַרטיקלען, װאָס מע האָט פֿאַרבראַכט נאָר געצײלטע (מילי)סעקונדעס אײדער מ’איז צוריק, האָט מען אַראָפּגערוקט אױפֿן נײַעסזײַטל. אַזאַ מעטאָד קען אָבער נישט דיפֿערענצירן צװישן די שונד־אַרטיקלען און ערנצטע, װאָס זענען פּשוט װײניקער אינטערעסאַנט און נאָר דערפֿאַר דערלײענט מען זײ נישט ביזן סוף.
די מעלדונג גיט צו פֿאַרשטײן, אַז דער לעצטער נוסח פֿונעם אַלגאָריטעם נעמט טאַקע אַרײַן אינפֿאָרמאַציע װעגן די טיפּישע לינגװיסטישע סטרוקטורן פֿון די צוציִענדיקע קעפּלעך. למשל, ס’רובֿ קעפּלעך האַלטן צוריק װיכטיקע פּרטים, װאָס מע דאַרף עפֿענען דעם אַרטיקל, כּדי זײ צו טרעפֿן („איר װעט נישט גלײבן, װיפֿל דאָנאַלד טראָמפּ האָט פֿאַרדינט אין יאָר 2015“); אין די גוטע צײַטונגען איז דאָך דאָס קעפּל אַ קיצור פֿונעם אינהאַלט (למשל, „גרעסטע ישׂראל־דעלעגאַציע אין דער אָלימפּיאַדע־געשיכטע“). אַ סך פֿון די צוציִענדיקע קעפּלעך פֿאַרפֿירן דעם לײענער צו אַ פֿאַלשן אײַנדרוק װעגן דער כּװנה פֿונעם אַרטיקל (למשל, „עפּל זענען נישט געזונט!?“ אָבער דער אַרטיקל גיט צו פֿאַרשטײן אַז עפּל זענען יאָ געזונט, סײַדן מע עסט הונדערטער מיט אײן מאָל). די פּראָגראַמירערס פֿון „פֿײסבוק“ האָבן צוזאַמענגעשטעלט אַ „טרעניר־קאָרפּוס“ פֿון הונדערטער אַזעלכע קעפּלעך, און דער קאָמפּיוטער, מיט זײַן „קינסטלעכער אינטעליגענץ“, קען שאַפֿן פֿאַר זיך אַ מאָדעל, װאָס זאָל קענען באַטראַכטן אַ נײַ קעפּל און באַשטימען, צו װעלכער קאַטעגאָריע עס געהערט — אמתדיקער צי סענסאַציאָנעלער.
אַזעלכע אַלגאָריטעמס ניצט מען זײער אָפֿט, כּדי צו לײזן שפּראַכיקע פּראָבלעמען, װאָס װאָלטן געפֿאָדערט אַ סך מי און צײַט זיי צו לײזן מיט דער האַנט. מײַנער אַ חבֿר, א מיטאַרבעטער פֿון אַ גרױסער פֿאַרמאַצעװטישער פֿירמע, אַרבעט די טעג איבער אַן אַלגאָריטעם, װאָס זאָל קענען איבערלײענען טױזנטער בליצבריװ און געפֿינען די זאַצן, װאָס דריקן אױס טענות און סוביעקטיװע מײנונגען װעגן דער עפֿעקטיװקײט פֿון פֿאַרשידענע מעדיקאַמענטן. (די פֿירמע זאָל זײ קענען אױסמײַדן, און דערבײַ אױסמײַדן געזעץ־פּראָבלעמען.)
די מערסטע גראַדויִר־פּראָגראַמען אין לינגװיסטיק — און מײַן אָפּטײל בתוכם — באַמיִען זיך אױסצושולן אַ נײַעם דור לינגװיסטן, װאָס זאָלן זײַן ביכולת נישט נאָר צו זײַן פּראָפֿעסאָרן, נאָר אױך צו קענען אַרבעטן אין די גרױסע פֿירמעס און אַרױסהעלפֿן מיט אַזעלכע שפּראַכיקע פּראָבלעמען.
די לינגװיסטיק האָט שױן אַ סך בײַגעטראָגן צום כּסדרדיקן פּראָגרעס פֿון דער טעכנאָלאָגיע. אָבער די קװאַליטעט פֿון אַלע קאָמפּיוטער־פּראָגראַמען — אַפֿילו ווי די רעזולטאַטן פֿון קינסטלעכער אינטעליגענץ, װענדט זיך אין דער קװאַליטעט פֿון די פּראָגראַמירערס, ד″ה, פֿון לעבעדיקע מענטשן, װאָס קענען אַ מאָל האָבן טעותן. למשל, די פּאָפּולערע איבערזעצונג־פּראָגראַם פֿון „גוגל“ פֿונקציאָנירט אױך מיט „קינסטלעכער אינטעליגענץ“ און קען זיך אַלײן אױסלערנען דעם אָפּטײַטש פֿון אַן אומבאַקאַנט װאָרט, אױפֿן סמך פֿון אַ סטאַטיסטישער פֿאַרגלײַכונג צװישן צװײשפּראַכיקע טעקסטן. אָבער אפֿשר װײסט מען נישט, אַז די גוגל־פּראָגראַמירערס האָבן געדאַרפֿט שאַפֿן אַ קלײנעם קאָרפּוס פֿון װערטער און כּללים, אַז די איבערזעצונג־פּראָגראַם זאָל אָנהײבן פֿונקציאָנירן. אין אַ באַריכט װעגן דעם, װי אַזױ אַ מאַנשאַפֿט פּראָגראַמירערס האָבן געשאַפֿן אַן איבערזעצונג־סיסטעם פֿאַר ייִדיש, שטײט געשריבן, אַז װען די פּראָגראַם װײסט נישט װי אַזױ איבערצוזעצן אַ געװיס װאָרט, זאָל זי פּרוּװן טראַנסקריבירן דאָס ענגלישע װאָרט מיטן ייִדישן אַלף־בית. אָבער די פּראָגראַמירערס האָבן אַ טעות, װען זײ שרײַבן (אױף זײַטל 3), אַז דאָס ענגלישע װאָרט „oops“ לײגט זיך אױס אױף ייִדיש: „ופּס“, ד”ה, אָן דעם שטומען אַלף װאָרט־אײַן. סע קען גרינג געמאָלט זײַן, אַז אַ קאָמפּיוטער װאָלט אַלײן אױסגעפּלאָנטערט, אַז אין די װערטער, װאָס הײבן זיך אָן מיטן װאָקאַל [וּ] דאַרף מען צוגעבן אַ שטומען אַלף; אָבער אַזױ װי די פּראָגראַמירערס האָבן בפֿירוש אױסגעלערנט דעם קאָמפּיוטער דעם פֿאַרגרײַזטן כּלל, באַגעגנט מען אים עד־היום אין די ייִדישע איבערזעצונגען, װאָס די פּראָגראַם גיט אַרױס.
The Yiddish Daily Forward welcomes reader comments in order to promote thoughtful discussion on issues of importance to the Jewish community. In the interest of maintaining a civil forum, The Yiddish Daily Forwardrequires that all commenters be appropriately respectful toward our writers, other commenters and the subjects of the articles. Vigorous debate and reasoned critique are welcome; name-calling and personal invective are not. While we generally do not seek to edit or actively moderate comments, our spam filter prevents most links and certain key words from being posted and The Yiddish Daily Forward reserves the right to remove comments for any reason.