ලිනක්ස් හි හඬ පිළිගැනුම

by ගැරී නිව්ල්

හැදින්වීම

මම ලිපි සඳහා බොහෝ කාලයක් පර්යේෂණ කරන අතර නිතරම දුම්රිය ස්ථානයට යන විට හෝ සාමාන්යයෙන් පිටතට යන අතරතුර ලිපියක් සඳහා විෂයය කරුණු ගැන සිතනවා.

එක සැන්දෑව මගේ කාර්යය සිට සැතපුම් 1.5 ක දුරක් ඇවිදිමින් සිටියදී මම සිතුවා "මට පැවසීමට අවශ්ය දේ සටහන් කරගත හැකි නම් එය මට පසුව සංස්කරණය කිරීමට සහ ආකෘතියට අනුව හැඩගැසෙන පෙළ ගොනුවකට ස්වයංක්රීයවම පිටපත් කරගත හැකිය" .

ඩිජිටල් ඩිජිටල් මෘදුකාංග භාවිතයෙන් සෘජුව පටිගත කිරීම, ශබ්දය හඳුනා ගැනීම සහ නිර්දේශ කිරීම සඳහා දිගු පැය ගණනක් වැය කර ඇත. ගොනුව MP3 හෝ WAV ආකෘතියට ඇතුළත් කිරීම සහ විධාන රේඛාව හරහා එය පරිවර්තනය කිරීම මෙන්ම Chrome සහ ඇන්ඩ්රොයිඩ් වැඩසටහන්.

මෙම ලිපියෙන් දවසේ දුෂ්කර ශ්රමය පසු මගේ සොයාගැනීම් අවධාරණය කරයි.

ලිනක්ස් විකල්පයන්

ලිනක්ස් වල ශබ්ද විකාශන සහ ශබ්ද හඳුනාගැනීමේ මෘදුකාංගය සොයා ගැනීමට උත්සහ කිරීම, එය විය හැකි තරම් පහසු නැත, සහ විකල්පයන් එතරම් බුද්ධිමත් නොවේ.

CMO Sphinx, ජූලියස් සහ සයිමන් ඇතුළුව වික්ෙෂේප් පිටුවට විභව විකල්පයන් ලැයිස්තුවක් ඇත.

දැන් මම Debian Testing මත පදනම්ව SparkyLinux භාවිතා කරමි. නිධන් වල තිබෙන එකම හඬ හඳුනාගැනීමේ පැකේජය Sphinx වේ.

මම උත්සාහ කළ අවසන් දේශීය Linux වැඩසටහන් PocketSphinx, මම WAV ගොනු පෙළට පරිවර්තනය කිරීමට භාවිතා කළ අතර, ඔබ මයික්රෆෝනයකින් කෙළින්ම වාර්තාගත කරන ලද python යෙදුමක් වන Freespeech-VR.

මම VoiceNote II සහ Dictanote ඇතුළු Chrome යෙදුම් කිහිපයක්ම උත්සාහ කළා.

අවසානයේදී මම "ඇඩෝනය සහ ඊ-මේල්" සහ "කතා සහ කතා ඩිජිටෙක්" ඇන්ඩ්රොයිඩ් යෙදුම් උත්සාහ කළා.

Freespeech-VR

Freespeech-VR සම්මත නිධිය තුල නොමැත. මම මෙතන ගොනු බාගත කළා.

Zip ගොනුවේ අන්තර්ගතය බාගත කර ගැනීම සහ උපුටා ගැනීමෙන් පසුව ටර්මිනල් එකක් විවෘත කර ෆයිල්ස් ලබාගත් ෆෝල්ඩරය වෙත ගමන් කළෙමි.

මම නිදහස් freespeech-vr විවෘත කිරීමට පහත විධානය මා ටයිප් කර ඇත.

sudo python freespeech-vr

මට හොඳට සුදුසු මයික්රෆෝනයක් සහ ඉතා පැහැදිලිව පෙනෙන දක්ෂිණ ඉංග්රීසි අකුරක් සහිත හෙඩ්ෆෝන් යුගලයක් ඇත.

පහත දැක්වෙන පාඨය freespeech-vr කවුළුවේ දිස්වේ:

ප්රතිඵලයේ ඒකීය සුනඛයන්ට සාදරයෙන් පිලිගනිමු අද කළමණාකරණය කළ පරීක්ෂණයන් ඇති ආකාරය සහතික කර ගැනීමක් පරීක්ෂා කිරීමට සිදුවිය යුතුද? පෙළ සඳහා ක්රමයක් භාවිතා කරන ක්රමයක් එක් එක් කථාව එක් එක් එක පමණක් විය. රැඳී සිටීමේ බලාපොරොත්තුව හා එකම කුකුළන් රන්වන් ක්රමයක් ලෙස පද්ධතියට ඊය යන විට මගේ නම ඊලග ෆෝන් එක අමතයි දුරකථනය අමතන්න මෙම ගොනුව ප්රමාණවත් නඩු ස්පෙන්සයේ දුරකථන වලට ස්තූතියි ස්පෙන්සිස් ස්පෙන්සයක් එබීම ජංගම දුරකථනයක් නොවනු ඇත පුහුණුවකින් යුක්තව සහ මෙවලම් භාවිතා කරන්න කථා කිරීම අවසන් කළ විට භාවිතා කරන ලද ගොනුවක් අවසන් වූ විට කතාව A එය හරියටම සාර්ථක වන්නේ කවදාද යන්න භාවිතා කිරීමෙන් ඔබ එය වළක්වාලයි

මම මේ බුබ් නම් බ්ලොග් වෙබ් අඩවිය නොවන බව දැන් කියන්න කැමතියි. මම කොයිම ස්ථානයකවත් ගෝල්ඩන් කුකුළන් සමඟ සම්බන්ධ කිසිවක් සඳහන් කළෙමි. මම ඇත්ත වශයෙන්ම හඬ හඳුනාගැනීමේ මෘදුකාංගයක් භාවිතා කිරීමේ ක්රියාවලිය විස්තර කිරීමට උත්සාහ කරමි.

මම මෘදුකාංගය කිහිප වතාවක්ම විවිධ තාර සහ වේගයන් ඇතුළුව, නමුත් නිරවද්යතාවය දුප්පත් විය.

PocketSphinx

PocketSphinx හට WAV ගොනුවක් ගෙන එය විධාන රේඛාව භාවිතයෙන් පෙළට පරිවර්තනය කිරීම.

PocketSphinx ඩේබියන් ගබඩාවන් හරහා ලබා ගත හැකි අතර බොහෝ බෙදාහැරීම් සඳහා ලබා ගත යුතුය.

PocketSphinx හි ඇති ප්රධානතම ගැටළුව වන්නේ හඬ හඳුනා ගැනීම, භාෂා ලිපිගොනු, ශබ්දකෝෂ සහ පද්ධතිය පුහුණු කිරීම සඳහා ඔබ සැබැවින්ම උපාධියක් අවශ්ය බවයි.

PocketSphinx ස්ථාපනය කිරීමෙන් පසු ඔබ CMU Sphinx වෙබ් අඩවියට පිවිස හැකි තරම් තොරතුරු කියවිය යුතුය. පහත දැක්වෙන මාදිලියේ ගොනුව බාගත කිරීමටද අවශ්ය වේ.

එක්සත් ජනපද ඉංග්රීසි ජනවාර්ගික මාදිලිය

(ඔබ ඉංග්රීසි කථිකයෙකු නොවන්නේ නම්, ඔබට සුදුසු භාෂා මාදිලිය තෝරන්න).

PocketSphinx සහ Sphinx සඳහා ලියකියවිලි සාමාන්යයෙන් ගිහියන්ට තේරුම් ගැනීමට අපහසු විය හැකි නමුත් හැකි වචන වලින් ලැයිස්තුවක් සැපයීමට ශබ්ද කෝෂ ගොනු භාවිතා කළ හැකි අතර, භාෂා ආකෘතීන් ලැයිස්තුගත විය හැකි විභවයන් ලැයිස්තුවක් ඇත.

PocketSphinx පරික්ෂා කිරීම සඳහා මම මගේම හඬක්, අල් පැසිෆෝගේ "ද ඩිබල්ස් ඇඩ්වොකෙක්ට්" හි විකාශනය සහ "මෝර්ගන් ෆ්රීමන්" හි නිශ්චිත වීඩියෝවක් භාවිතා කළෙමි. මේ කාරණය වූයේ වෙනස් හඬවල් උත්සාහ කිරීම සඳහා වන අතර, මෝර්ගන් ෆ්රීමන් හා පැහැදිලිවම ඇල් පැචීන වැනි රේඛාවක් ගෙන එයි.

වැඩ කිරීමට PocketSphinx සඳහා WAV ගොනුවක් අවශ්ය වන අතර එය යම් ආකෘතියක් තුළ තිබිය යුතුය. ගොනුව MP3 ආකෘතියේ නම් එය WAV ආකෘතියට පරිවර්තනය කිරීම සඳහා ffmpeg විධානය භාවිතා කරන්න:

ffmpeg -i inputfilename.mp3 -කොඩෙක් pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx ධාවනය කිරීම සඳහා පහත දැක්වෙන විධානය භාවිතා කරන්න:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> හඬ 2.log

pocketsphinx_continuous WAV ගොනුවක් ගෙන එය පෙළට පරිවර්තනය කරයි.

ඉහත ආඥාව තුල pocketsphinx හි සඳහන් "cmusphinx-5.0-en-us.lm" භාෂා ශබ්දකෝෂය සමඟ "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" යන ශබ්දකෝෂ ගොනුව භාවිතා කිරීමට. පෙළට පරිවර්තනය කරන ගොනුව voice2.wav (මම මගේ කටහඬින් කළ පටිගත කිරීමකි). අන්තිමේදී 2>> voice2.log ලෙස හඳුන්වන ගොනුවක් තුල ඔබට අනිවාර්යයෙන්ම අවශ්ය නොවන සියලු ප්රතිරෝධය ප්රතිදානය කරයි. පරීක්ෂණයේ සැබෑ ප්රතිඵල වින්ඩෝස් කවුළුව තුළ පෙන්වයි.

මගේ හඬ භාවිතයෙන් ප්රතිඵල පහත පරිදි වේ:

මිනිත්තු කීපයක් හඳුනාගැනීමේ මෘදුකාංගය පිළිබඳව මේ සතියේ කිසිදු ළමයෙක් ගැන සාදරයෙන් පිළිගන්න

ප්රතිපල freespeech-vr සමග මෙන් භයංකර ලෙස නොව, සැබවින්ම ප්රයෝජනවත් නොවේ. මම පසුව PocketSphinx භාවිතා කරමින් Al Pacino භාවිතා කිරීමට උත්සාහ කළත් මෙය කිසිසේත් ප්රතිඵල නොලැබුනි.

අවසානයේ මම "මොළොක් ෆ්රීමන්" ගේ හඬ "සර්ව බලධාරී" චිත්රපටයෙන් මම උත්සාහ කරමි. මෙන්න මෙහි ප්රතිඵල:

000000000: අපි ඇය ගැන
000000001: මේ සියල්ලටම වඩා දරුණු වූ දිනයයි ඔව් මේ තමයි අපි ජීවත් වුනේ වැඩියෙන්මයි.
000000002: බේස්බෝල් ඔයිල්වලින් යතුරු පැත්තෙන් ඔසවයි. නැතහොත් ජීවිතයේ කුමක් කිරීමටද යන්න දැන ගන්න.
000000003: සුවය ලබන්නන් මොනවාද?
000000004: ඔවුන් එය ලියුවේ නැත
000000005: ඔවුන් මාත් පිටතට යති
000000006: ඔබ නීති රීති තිබිය යුතුය
000000007: මම ඔබෙන් අපේක්ෂා කළෙමි
000000008: ඔහු උපුටා දැක්වුවේ මිනීමරු නත්තල් සාදයයි
000000009: o ලියන්න පුළුවන් ක්රම එකක්. මම නිතරම කිහිප දෙනෙක් එකට ඇඳගෙන සිටියා
000000010: එක්සත් වී ඇති ගැටලුව මෙන් ඔහු යහපත නොලැබේවි. මම මේ ලෝකය තුළ සිටින බව ඔබ සිතන හැම දෙයක්ම නොසිතූ මොහොතේ එම ස්ථානයේ තක්සේරු කළෙමි.
000000011: එය ඇති පියා
000000012: මේ ගැන ගොඩක් දේවල්
000000013: එය ලබා දී තිබේ
000000014: බොහෝ දේ සඳහා වැටෙන කිසිවක් නැත
000000015: වැටීමේ දී හරි
000000016: හොඳයි, මා වෙනුවෙන්
000000017: මම ඒ ගැන සතුටු වනවා නම් මම ඒ ගැන අසතුටට පත්වෙනවා නම් ඒ සියල්ල විවාහ වී ඇති බව අපි නොසිටියෙමු

මගේ පරීක්ෂණය විද්යාත්මක ලෙස සැලකිය නොහැකි අතර PocketSphinx හි සංවර්ධකයින් පවසන්නේ, මම මෘදුකාංගය නිවැරදිව භාවිතා නොකරන බවයි. හොඳ ශබ්දකෝෂ සහ භාෂා ලිපිගොනු නිර්මාණය කිරීමට යොදාගත හැකි හඬ පුහුණුව හැඳින්වෙන තාක්ෂණයක් ද තිබේ.

මගේ ප්රධාන මතය වන්නේ සාමාන්ය දිනපතා භාවිතය සඳහා එය අතිශය දුෂ්කර වන බවයි.

VoiceNote II

VoiceNote II යනු Google හඬ පිළිගැනීමේ API භාවිතා කරන Chrome යෙදුමකි.

ඔබ Chrome හෝ Chromium බ්රව්සර භාවිතා කරන්නේ නම් ඔබට අන්තර්ජාල වෙළඳසැල හරහා VoiceNote II ස්ථාපනය කළ හැකිය.

VoiceNote II මත ඇති අයිකන ඔබට වින්ඩෝස් පතුලේ තිබෙන භාෂාව සකස් කිරීමට අවශ්ය වන පරිදි අමුතු ආකාරයකින් සකස් කර ඇති අතර, සංස්කරණ බොත්තම ද පතුලේ ද, වාර්තාගත බොත්තම ඉහල දකුණු පසෙහි වේ.

ඔබට කළ යුතු පළමු දෙය වන්නේ භාෂාව තෝරන්න. මෙය ලෝක අයිකනය මත ක්ලික් කිරීමෙන් ලබා ගත හැක.

සටහන් ආරම්භ කිරීමට, මයික්රොෆෝන නිරූපකය මත ක්ලික් කර ඔබේ මයික්රෆෝනය වෙත කතා කරන්න. කතාබහ සෙමින් කියවීම සඳහා හොඳම ප්රතිඵල ලබා ගැනීම සඳහා මෘදුකාංගයට දිගටම අවස්ථාවක් ලැබෙනු ඇත.

ප්රතිඵල පහත දැක්වේ.

ආයුබෝවන් සහ සම්බන්ධ වන්න. ඩොනල්ම් ෆ්රීඑස්එල්එල්ස් 2008 පරිවර්තනය පරිවර්තන ලෙස ඩවුන්ලෝඩ් ෆොරෙල්ස් අවපාතය ගැන ප්රවෘත්ති ලිපි ගැන ද්රවිඩ ලිපි 2014 දබාන හෝ rpm පැකේජය පෙන්වීම සඳහා හොඳම ශබ්ද විකාශන ඇඩප්ටරය සොයාගෙන ඇත. ඔබට එය තෝරා ගැනීමට අවශ්ය නම් එය විවෘත කිරීමට පෙළ විවෘත කරන්න. එඩින්බින්හි ප්රංශ ජර්මානු භාෂාව තෝරා ගැනීම සඳහා මුහුදේ එක්සත් රාජධානියේ ආරම්භක කාලය තුල ඔබ තෝරා ගන්නා ලද අතර, ඔබ ඔබේ ඉංග්රීසි අකුරු ඇල්ජීරියාවට ඉතා ඉහළ ප්රමිතියකින් යුත් ඉංග්රීසි අක්ෂරයක් ලෙස පෙළගස්වා ඇත. සැබෑ ලේඛනය සමඟ ඔබට ඇහුම්කන් දෙන්නාවූ මිතුරන් ඔබට කරන වැරදි වලට ඔබ දකින්න පුළුවන්

ඩිකෙනොට්

Dictanote යනු තවත් නිර්මාපක අභිප්රායන් සඳහා භාවිතා කළ හැකි තවත් Chrome ඇප් එකක් වන අතර එය වඩාත් තීක්ෂ්ණ බුද්ධියකින් යුක්ත වුවද, ප්රතිපලය VoiceNote II වඩා හොඳ නොවේ.

මම නව ලේඛන නිර්මාණය කිරීමෙන් වළක්වා ඇති ඩිකනොෙටෝට් ඩොමේනෝට් අනුවාදය පමණක් භාවිතා කර ඇත. නමුත් එය ඔබට දැනටමත් සංස්කාරකයේ ඇති අකුරු හරහා සාකච්ඡා කරයි. මම හඬ හඳුනාගැනීමේ පරීක්ෂණයට සමත් විය හැකි නමුත් ප්රතිඵල VoiceNote II වලට වඩා හොඳ නැත. එබැවින් මම ප්රෝ සංස්කරණ සඳහා අත්සන් නොකළෙමි.

ඇමතුම් සහ තැපැල්

"ඩිජිටේෂන් ඇන්ඩ් මේල්" යනු දේශීය ගූගල් හඬ හඳුනාගැනීමේ API භාවිතා කරන ඇන්ඩ්රොයිඩ් යෙදුමකි.

මෙම "ලක්ෂ්යය" සහ "ඊමේල්" යනුවෙන් ලබා ගත් ප්රතිඵල මෙම ස්ථානය දක්වා උත්සහ කළ අනෙක් වැඩසටහනට වඩා බෙහෙවින් හොඳ ය.

හිලව් ගැන ලිනක්ස් වලට සාදරයෙන් පිළිගනිමු. අද අපි කතා කරන්නේ ශබ්දයට පරිවර්තනය කිරීම ගැන

"ඩිජිටේෂන් සහ තැපැල්" සමඟ ඇති උපාය වන්නේ සෙමින් කතා කිරීම හා උච්චාරණය කිරීම මෙන්ම ඔබට පවා අවධාරණය කළ හැකිය.

ඔබ කතා කර අවසන් වූ පසු ඔබට ඔබටම ප්රතිඵල ලැබෙනු ඇත.

කතා කරන්න සහ කතා කරන්න

මම උත්සාහ කළ අනෙක් ඇන්ඩ්රොයිඩ් යෙදුම "Talk and Talk Dictation".

මෙම යෙදුම සඳහා වූ අතුරු මුහුණත පොදුවේ හොඳම අතර හඬ හඳුනා ගැනීම සැබැවින්ම හොඳින් ක්රියා කළේය. මෙම නියෝගය පටිගත කිරීමෙන් පසු ඊමේල් හරහා විවිධ ක්රම ඔස්සේ බෙදා ගැනීමට හැකි විය.

linux about.com අද දින අපි පිළිගන්නෙමු

ඉහත දැක්වෙන පාඨය ඔබ අපේක්ෂා කළ හැකි පරිදි ඔබ අපේක්ෂා කළ හැකි තරම් පැහැදිලි ය. සෙමින් කතා කිරීම යතුරයි.

සාරාංශය

Voice පිළිගැනීමේ සහ විශේෂයෙන් නිර්දේශ කිරීම සම්බන්ධයෙන් දේශීය Linux සඳහා යම් ආකාරයක් ඇත. Google Voice API භාවිතා කරන යෙදුම් කිහිපයක් ඇත නමුත් ඒවා තවමත් නිධිය තුල ලැයිස්තුගත කර නොමැත.

ChromeOS යෙදුම් ටිකක් වඩා හොඳ නමුත් මගේ හොඳම ඇන්ඩ්රොයිඩ් දුරකථනයෙන් හොඳම ප්රතිඵල අත් කර ගත්තා. සමහරවිට දුරකථනය වඩා හොඳ මයික්රෆෝනයක් තිබේ. එබැවින් හඬ හඳුනාගැනීමේ මෘදුකාංගය පරිවර්තනය කිරීම සඳහා හොඳ අවස්ථාවක් තිබේ.

හඬ හඳුනා ගැනීම සැබවින්ම භාවිත කළ හැකි වීම සඳහා අවශ්ය වන අඩු පිහිටුම් සමඟ වඩා තෘප්ත විය යුතුය. භාෂාමය ආකෘතීන් සහ ශබ්දකෝෂ සමඟ අවුල් කිරීමට අවශ්ය නොවේ.

කෙසේ වෙතත්, ලොව පුරා භාවිතා කරන භාෂාවන් සිය ගණනක් ගැන කනස්සල්ලට පත් නොවී එක රටක කලාපයෙන් කලාපයට බොහෝ භාෂාවලින් කතා කරන බැවින්, හඬ හඬ හඳුනා ගැනීම ඉතාම අභියෝගාත්මක ය.

එබැවින්, මගේ විශ්ලේෂණය වන්නේ හඬ හඳුනාගැනීමේ මෘදුකාංගය තවමත් ක්රියාත්මක වෙමින් පවතී.