ಕೇಸ್ ಸ್ಟಡಿ: ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ

8 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಆಡಿಯೋ ಗಂಟೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ, ಬಹುಭಾಷಾ ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನಕ್ಕಾಗಿ 800 ಗಂಟೆಗಳ ಕಾಲ ಲಿಪ್ಯಂತರಿಸಲಾಗಿದೆ
ಸಂವಾದಾತ್ಮಕ AI

ಪರಿಚಯ

ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಡಿಜಿಟಲ್ ಸೇವೆಗಳನ್ನು ಒದಗಿಸಲು ಬಹುಭಾಷಾ ಡೇಟಾಸೆಟ್‌ಗಳು ಮತ್ತು AI-ಆಧಾರಿತ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನ ಪರಿಹಾರಗಳನ್ನು ರಚಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುವ ವೇದಿಕೆಯ ಅಗತ್ಯವಿದೆ. ಈ ಉಪಕ್ರಮವನ್ನು ಪ್ರಾರಂಭಿಸಲು, ಬಹು-ಭಾಷಾ ಭಾಷಣ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಭಾರತೀಯ ಭಾಷೆಯನ್ನು ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ಲಿಪ್ಯಂತರ ಮಾಡಲು ದ ಕ್ಲೈಂಟ್ ಶೈಪ್‌ನೊಂದಿಗೆ ಪಾಲುದಾರಿಕೆ ಮಾಡಿಕೊಂಡಿತು.

ಸಂಪುಟ

ಗಂಟೆಗಳ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ
10
ಪುಟಗಳ ಸಂಖ್ಯೆ ಟಿಪ್ಪಣಿ
10 +
ಯೋಜನೆಯ ಅವಧಿ
< 1 ತಿಂಗಳುಗಳು

ಸವಾಲುಗಳು

ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಅವರ ಸ್ಪೀಚ್ ಟೆಕ್ನಾಲಜಿ ಸ್ಪೀಚ್ ರೋಡ್‌ಮ್ಯಾಪ್‌ನೊಂದಿಗೆ ಕ್ಲೈಂಟ್‌ಗೆ ಸಹಾಯ ಮಾಡಲು, ತಂಡವು AI ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲು ದೊಡ್ಡ ಪ್ರಮಾಣದ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳಲು, ವಿಭಾಗಿಸಲು ಮತ್ತು ಲಿಪ್ಯಂತರ ಮಾಡಲು ಅಗತ್ಯವಿದೆ. ಕ್ಲೈಂಟ್ನ ನಿರ್ಣಾಯಕ ಅವಶ್ಯಕತೆಗಳು:

ಮಾಹಿತಿ ಸಂಗ್ರಹ

  • ಭಾರತದ ದೂರದ ಸ್ಥಳಗಳಿಂದ 8000 ಗಂಟೆಗಳ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳಿ
  • 20-70 ವರ್ಷ ವಯಸ್ಸಿನ ಗುಂಪುಗಳಿಂದ ಸ್ವಯಂಪ್ರೇರಿತ ಭಾಷಣವನ್ನು ಸಂಗ್ರಹಿಸಲು ಪೂರೈಕೆದಾರರು
  • ವಯಸ್ಸು, ಲಿಂಗ, ಶಿಕ್ಷಣ ಮತ್ತು ಉಪಭಾಷೆಗಳ ಪ್ರಕಾರ ಮಾತನಾಡುವವರ ವೈವಿಧ್ಯಮಯ ಮಿಶ್ರಣವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ
  • ಪ್ರತಿ ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್ 16 ಬಿಟ್‌ಗಳು/ಮಾದರಿಯೊಂದಿಗೆ ಕನಿಷ್ಠ 16kHz ಆಗಿರಬೇಕು.
ಮಾಹಿತಿ ಸಂಗ್ರಹ

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಅಕ್ಷರಗಳು ಮತ್ತು ವಿಶೇಷ ಚಿಹ್ನೆಗಳು, ಕಾಗುಣಿತ ಮತ್ತು ವ್ಯಾಕರಣ, ಕ್ಯಾಪಿಟಲೈಸೇಶನ್, ಸಂಕ್ಷೇಪಣಗಳು, ಸಂಕೋಚನಗಳು, ವೈಯಕ್ತಿಕ ಮಾತನಾಡುವ ಅಕ್ಷರಗಳು, ಸಂಖ್ಯೆಗಳು, ವಿರಾಮಚಿಹ್ನೆಗಳು, ಪ್ರಥಮಾಕ್ಷರಗಳು ಮತ್ತು ಪ್ರಾರಂಭಿಕತೆಗಳು, ಅಸ್ಪಷ್ಟ ಮಾತು, ಅರ್ಥವಾಗದ ಮಾತು, ಗುರಿಯಿಲ್ಲದ ಲಾಂಗ್-ಸ್ಪ್ಲೇಜ್-ಸ್ಪಷ್ಟತೆಯ ಬಗ್ಗೆ ವಿವರವಾದ ಪ್ರತಿಲೇಖನ ಮಾರ್ಗಸೂಚಿಗಳನ್ನು ಅನುಸರಿಸಿ

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಗುಣಮಟ್ಟ ಪರಿಶೀಲನೆ ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆ

ಗುಣಮಟ್ಟದ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಮೌಲ್ಯೀಕರಣಕ್ಕೆ ಒಳಗಾಗಲು ಎಲ್ಲಾ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು, ಮೌಲ್ಯೀಕರಿಸಿದ ಭಾಷಣ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಮಾತ್ರ ವಿತರಿಸಲಾಗುವುದು

ಪರಿಹಾರ

ಸಂವಾದಾತ್ಮಕ AI ಕುರಿತು ನಮ್ಮ ಆಳವಾದ ತಿಳುವಳಿಕೆಯೊಂದಿಗೆ, ಭಾರತದ ದೂರದ ಭಾಗಗಳಿಂದ ಆಡಿಯೊ ಡೇಟಾದ ದೊಡ್ಡ ಕಾರ್ಪಸ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ಪರಿಣಿತ ಸಂಗ್ರಾಹಕರು, ಭಾಷಾಶಾಸ್ತ್ರಜ್ಞರು ಮತ್ತು ಟಿಪ್ಪಣಿಕಾರರ ತಂಡದೊಂದಿಗೆ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು, ಲಿಪ್ಯಂತರ ಮಾಡಲು ನಾವು ಕ್ಲೈಂಟ್‌ಗೆ ಸಹಾಯ ಮಾಡಿದ್ದೇವೆ.

Shaip ಗಾಗಿ ಕೆಲಸದ ವ್ಯಾಪ್ತಿಯನ್ನು ಒಳಗೊಂಡಿತ್ತು ಆದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಆಡಿಯೊ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳುವುದಕ್ಕೆ ಸೀಮಿತವಾಗಿಲ್ಲ, ಡೇಟಾವನ್ನು ಲಿಪ್ಯಂತರಗೊಳಿಸುವುದು ಮತ್ತು ಮೆಟಾಡೇಟಾವನ್ನು ಹೊಂದಿರುವ ಅನುಗುಣವಾದ JSON ಫೈಲ್‌ಗಳನ್ನು [ಸ್ಪೀಕರ್‌ಗಳು ಮತ್ತು ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್‌ಗಳಿಗೆ ತಲುಪಿಸುವುದು. ಪ್ರತಿ ಸ್ಪೀಕರ್‌ಗೆ, ಮೆಟಾಡೇಟಾ ಅನಾಮಧೇಯ ಸ್ಪೀಕರ್ ಐಡಿ, ಸಾಧನದ ವಿವರಗಳು, ಲಿಂಗ, ವಯಸ್ಸು ಮತ್ತು ಶಿಕ್ಷಣದಂತಹ ಜನಸಂಖ್ಯಾ ಮಾಹಿತಿ, ಜೊತೆಗೆ ಅವರ ಪಿನ್‌ಕೋಡ್, ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಸ್ಥಿತಿ, ಮಾತನಾಡುವ ಭಾಷೆಗಳು ಮತ್ತು ಅವರ ಜೀವನದ ಅವಧಿಯ ದಾಖಲೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಪ್ರತಿ ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್‌ಗೆ, ಡೇಟಾವು ಅನಾಮಧೇಯ ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್ ಐಡಿ, ಸ್ಪೀಕರ್‌ಗಳಿಗೆ ಹೋಲುವ ಜನಸಂಖ್ಯಾ ವಿವರಗಳು, ಅವರ ಪ್ರತಿಲೇಖನದ ಅನುಭವದ ಅವಧಿ ಮತ್ತು ಅವರು ಓದಲು, ಬರೆಯಲು ಮತ್ತು ಮಾತನಾಡಲು ಸಾಧ್ಯವಾಗುವ ಭಾಷೆಗಳ ಸಂಪೂರ್ಣ ವಿಭಜನೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.

ಶೈಪ್ ಸಂಗ್ರಹಿಸಿದರು 8000 ಗಂಟೆಗಳ ಆಡಿಯೋ ಡೇಟಾ / ಸ್ವಾಭಾವಿಕ ಭಾಷಣದ ಪ್ರಮಾಣದಲ್ಲಿ ಮತ್ತು 800 ಗಂಟೆಗಳ ಕಾಲ ಲಿಪ್ಯಂತರಿಸಲಾಗಿದೆ ಮತ್ತು ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಭಾಷಣ ತಂತ್ರಜ್ಞಾನವನ್ನು ತರಬೇತಿ ಮಾಡಲು ಅಗತ್ಯವಿರುವ ಗುಣಮಟ್ಟದ ಗುಣಮಟ್ಟವನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಪ್ರತಿಯೊಬ್ಬ ಭಾಗವಹಿಸುವವರಿಂದ ಸ್ಪಷ್ಟ ಸಮ್ಮತಿಯ ನಮೂನೆಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ವಿಶ್ವವಿದ್ಯಾನಿಲಯ ಒದಗಿಸಿದ ಚಿತ್ರಗಳನ್ನು ಆಧರಿಸಿ / ಸ್ವಯಂಪ್ರೇರಿತ ಭಾಷಣವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಆಫ್ 3500 ಚಿತ್ರಗಳನ್ನು 1000 ಸಾಮಾನ್ಯ ಮತ್ತು 2500 ಜಿಲ್ಲೆ-ನಿರ್ದಿಷ್ಟ ಸಂಸ್ಕೃತಿ, ಹಬ್ಬಗಳು, ಇತ್ಯಾದಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ಚಿತ್ರಗಳು ರೈಲು ನಿಲ್ದಾಣಗಳು, ಮಾರುಕಟ್ಟೆಗಳು, ಹವಾಮಾನ ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳಂತಹ ವಿವಿಧ ಡೊಮೇನ್‌ಗಳನ್ನು ಬಿಂಬಿಸುತ್ತವೆ.

ಮಾಹಿತಿ ಸಂಗ್ರಹ

ರಾಜ್ಯಜಿಲ್ಲೆಗಳುಆಡಿಯೋ ಗಂನಕಲು
(ಗಂಟೆ)
ಬಿಹಾರಸರನ್, ಪೂರ್ವ ಚಂಪಾರಣ್, ಗೋಪಾಲ್‌ಗಂಜ್, ಸಿತಾಮರ್ಹಿ, ಸಮಸ್ತಿಪುರ್, ದರ್ಭಾಂಗ, ಮಾಧೇಪುರ, ಭಾಗಲ್ಪುರ್, ಗಯಾ, ಕಿಶನ್‌ಗಂಜ್, ವೈಶಾಲಿ, ಲಖಿಸಾರೈ, ಸಹರ್ಸಾ, ಸುಪೌಲ್, ಅರಾರಿಯಾ, ಬೇಗುಸರೈ, ಜಹಾನಾಬಾದ್, ಪುರ್ನಿಯಾ, ಮುಜಾಫರ್‌ಪುರ್, ಜಮುಯಿ2000200
ಉತ್ತರಪ್ರದೇಶಡಿಯೋರಿಯಾ, ವಾರಣಾಸಿ, ಗೋರಖ್‌ಪುರ, ಘಾಜಿಪುರ, ಮುಝಾಫರ್‌ನಗರ, ಇಟಾಹ್, ಹಮೀರ್‌ಪುರ್, ಜ್ಯೋತಿಬಾ ಫುಲೆ ನಗರ, ಬುದೌನ್, ಜಲೌನ್1000100
ರಾಜಸ್ಥಾನನಾಗೌರ್, ಚುರು20020
ಉತ್ತರಾಖಂಡ್ತೆಹ್ರಿ ಗರ್ವಾಲ್, ಉತ್ತರಕಾಶಿ20020
ಛತ್ತೀಸ್ಗಢಬಿಲಾಸ್ಪುರ್, ರಾಯ್ಗಢ್, ಕಬೀರ್ಧಾಮ್, ಸರ್ಗುಜಾ, ಕೊರ್ಬಾ, ಜಶ್ಪುರ್, ರಾಜನಂದಗಾಂವ್, ಬಲರಾಮ್ಪುರ್, ಬಸ್ತಾರ್, ಸುಕ್ಮಾ1000100
ಪಶ್ಚಿಮ ಬಂಗಾಳಪಶ್ಚಿಮ್ ಮೆದಿನಿಪುರ್, ಮಾಲ್ಡಾ, ಜಲ್ಪೈಗುರಿ, ಪುರುಲಿಯಾ, ಕೋಲ್ಕತ್ತಾ, ಝಾರ್ಗ್ರಾಮ್, ಉತ್ತರ 24 ಪರಗಣಗಳು, ದಕ್ಷಿಣ ದಿನಾಜ್ಪುರ್80080
ಜಾರ್ಖಂಡ್ಸಾಹೇಬಗಂಜ್, ಜಮ್ತಾರಾ20020
APಗುಂಟೂರು, ಚಿತ್ತೂರು, ವಿಶಾಖಪಟ್ಟಣಂ, ಕೃಷ್ಣಾ, ಅನಂತಪುರ, ಶ್ರೀಕಾಕುಳಂ60060
ತೆಲಂಗಾಣಕರೀಂನಗರ, ನಲ್ಗೊಂಡ20020
ಗೋವಾಉತ್ತರ+ದಕ್ಷಿಣ ಗೋವಾ10010
ಕರ್ನಾಟಕದಕ್ಷಿಣ ಕನ್ನಡ, ಗುಲ್ಬರ್ಗ, ಧಾರವಾಡ, ಬಳ್ಳಾರಿ, ಮೈಸೂರು, ಶಿವಮೊಗ್ಗ, ಬಿಜಾಪುರ, ಬೆಳಗಾವಿ, ರಾಯಚೂರು, ಚಾಮರಾಜನಗರ1000100
ಮಹಾರಾಷ್ಟ್ರಸಿಂಧುದುರ್ಗ, ಧುಲೆ, ನಾಗ್ಪುರ, ಪುಣೆ, ಔರಂಗಾಬಾದ್, ಚಂದ್ರಪುರ, ಸೊಲ್ಲಾಪುರ70070
ಒಟ್ಟು8000800

ಸಾಮಾನ್ಯ ಮಾರ್ಗಸೂಚಿಗಳು

ರೂಪದಲ್ಲಿ

    • 16 kHz ನಲ್ಲಿ ಆಡಿಯೋ, 16 ಬಿಟ್‌ಗಳು/ಮಾದರಿ.
    • ಏಕ ಚಾನಲ್.
    • ಟ್ರಾನ್ಸ್‌ಕೋಡಿಂಗ್ ಇಲ್ಲದೆ ಕಚ್ಚಾ ಆಡಿಯೊ.

ಶೈಲಿ

    • ಸ್ವಾಭಾವಿಕ ಮಾತು.
    • ವಿಶ್ವವಿದ್ಯಾಲಯ ಒದಗಿಸಿದ ಚಿತ್ರಗಳನ್ನು ಆಧರಿಸಿದ ವಾಕ್ಯಗಳು. 3500 ಚಿತ್ರಗಳಲ್ಲಿ, 1000 ಜೆನೆರಿಕ್ ಮತ್ತು 2500 ಜಿಲ್ಲೆ-ನಿರ್ದಿಷ್ಟ ಸಂಸ್ಕೃತಿ, ಹಬ್ಬಗಳು ಇತ್ಯಾದಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ಚಿತ್ರಗಳು ರೈಲು ನಿಲ್ದಾಣಗಳು, ಮಾರುಕಟ್ಟೆಗಳು, ಹವಾಮಾನ ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳಂತಹ ವಿವಿಧ ಡೊಮೇನ್‌ಗಳನ್ನು ಬಿಂಬಿಸುತ್ತವೆ.

ರೆಕಾರ್ಡಿಂಗ್ ಹಿನ್ನೆಲೆ

    • ಶಾಂತವಾದ, ಪ್ರತಿಧ್ವನಿ ಮುಕ್ತ ಪರಿಸರದಲ್ಲಿ ರೆಕಾರ್ಡ್ ಮಾಡಲಾಗಿದೆ.
    • ರೆಕಾರ್ಡಿಂಗ್ ಸಮಯದಲ್ಲಿ ಯಾವುದೇ ಸ್ಮಾರ್ಟ್‌ಫೋನ್ ಅಡಚಣೆಗಳಿಲ್ಲ (ಕಂಪನ ಅಥವಾ ಅಧಿಸೂಚನೆಗಳು).
    • ಕ್ಲಿಪ್ಪಿಂಗ್ ಅಥವಾ ದೂರದ-ಕ್ಷೇತ್ರದ ಪರಿಣಾಮಗಳಂತಹ ಯಾವುದೇ ವಿರೂಪಗಳಿಲ್ಲ.
    • ಫೋನ್‌ನಿಂದ ಕಂಪನಗಳು ಸ್ವೀಕಾರಾರ್ಹವಲ್ಲ; ಆಡಿಯೋ ಸ್ಪಷ್ಟವಾಗಿದ್ದರೆ ಬಾಹ್ಯ ಕಂಪನಗಳನ್ನು ಸಹಿಸಿಕೊಳ್ಳಬಹುದು.

ಸ್ಪೀಕರ್ ವಿವರಣೆ

    • ಪ್ರತಿ ಜಿಲ್ಲೆಗೆ ಸಮತೋಲಿತ ಲಿಂಗ ವಿತರಣೆಯೊಂದಿಗೆ 20-70 ವರ್ಷ ವಯಸ್ಸಿನ ವ್ಯಾಪ್ತಿಯು.
    • ಪ್ರತಿ ಜಿಲ್ಲೆಯಲ್ಲಿ ಕನಿಷ್ಠ 400 ಸ್ಥಳೀಯ ಭಾಷಿಕರು.
    • ಮಾತನಾಡುವವರು ತಮ್ಮ ಮನೆ ಭಾಷೆ/ಉಪಭಾಷೆಯನ್ನು ಬಳಸಬೇಕು.
    • ಎಲ್ಲಾ ಭಾಗವಹಿಸುವವರಿಗೆ ಒಪ್ಪಿಗೆ ನಮೂನೆಗಳು ಕಡ್ಡಾಯವಾಗಿದೆ.

ಗುಣಮಟ್ಟ ಪರಿಶೀಲನೆ ಮತ್ತು ನಿರ್ಣಾಯಕ ಗುಣಮಟ್ಟದ ಭರವಸೆ

QA ಪ್ರಕ್ರಿಯೆಯು ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಮತ್ತು ಪ್ರತಿಲೇಖನಗಳಿಗೆ ಗುಣಮಟ್ಟದ ಭರವಸೆಯನ್ನು ಆದ್ಯತೆ ನೀಡುತ್ತದೆ. ಆಡಿಯೋ ಮಾನದಂಡಗಳು ನಿಖರವಾದ ಮೌನಗಳು, ವಿಭಾಗದ ಅವಧಿ, ಸಿಂಗಲ್-ಸ್ಪೀಕರ್ ಸ್ಪಷ್ಟತೆ ಮತ್ತು ವಯಸ್ಸು ಮತ್ತು ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಸ್ಥಿತಿ ಸೇರಿದಂತೆ ವಿವರವಾದ ಮೆಟಾಡೇಟಾದ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. ಪ್ರತಿಲೇಖನದ ಮಾನದಂಡಗಳು ಟ್ಯಾಗ್ ನಿಖರತೆ, ಪದದ ನಿಖರತೆ ಮತ್ತು ಸರಿಯಾದ ವಿಭಾಗದ ವಿವರಗಳನ್ನು ಒತ್ತಿಹೇಳುತ್ತವೆ. ಆಡಿಯೊ ಬ್ಯಾಚ್‌ನ 20% ಕ್ಕಿಂತ ಹೆಚ್ಚು ಈ ಮಾನದಂಡಗಳನ್ನು ವಿಫಲಗೊಳಿಸಿದರೆ, ಅದನ್ನು ತಿರಸ್ಕರಿಸಲಾಗುತ್ತದೆ ಎಂದು ಸ್ವೀಕಾರ ಮಾನದಂಡವು ನಿರ್ದೇಶಿಸುತ್ತದೆ. 20% ಕ್ಕಿಂತ ಕಡಿಮೆ ವ್ಯತ್ಯಾಸಗಳಿಗಾಗಿ, ಒಂದೇ ರೀತಿಯ ಪ್ರೊಫೈಲ್‌ಗಳೊಂದಿಗೆ ಬದಲಿ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಅಗತ್ಯವಿದೆ.

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಪದಗಳು ಸ್ಪಷ್ಟ ಮತ್ತು ಅರ್ಥವಾಗುವಂತಹದ್ದಾಗಿದ್ದರೆ ಮಾತ್ರ ಪ್ರತಿಲೇಖನ ಮಾರ್ಗಸೂಚಿಗಳು ನಿಖರತೆ ಮತ್ತು ಮೌಖಿಕ ಪ್ರತಿಲೇಖನವನ್ನು ಒತ್ತಿಹೇಳುತ್ತವೆ; ಅಸ್ಪಷ್ಟ ಪದಗಳನ್ನು ಸಮಸ್ಯೆಯ ಆಧಾರದ ಮೇಲೆ [ಅರ್ಥವಾಗದ] ಅಥವಾ [ಕೇಳಿಸುವುದಿಲ್ಲ] ಎಂದು ಗುರುತಿಸಲಾಗಿದೆ. ದೀರ್ಘವಾದ ಆಡಿಯೊದಲ್ಲಿ ವಾಕ್ಯದ ಗಡಿಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ , ಮತ್ತು ವ್ಯಾಕರಣ ದೋಷಗಳ ಯಾವುದೇ ಪ್ಯಾರಾಫ್ರೇಸಿಂಗ್ ಅಥವಾ ತಿದ್ದುಪಡಿಯನ್ನು ಅನುಮತಿಸಲಾಗುವುದಿಲ್ಲ. ವರ್ಬ್ಯಾಟಿಮ್ ಪ್ರತಿಲೇಖನವು ದೋಷಗಳು, ಗ್ರಾಮ್ಯಗಳು ಮತ್ತು ಪುನರಾವರ್ತನೆಗಳನ್ನು ಒಳಗೊಳ್ಳುತ್ತದೆ ಆದರೆ ತಪ್ಪು ಪ್ರಾರಂಭಗಳು, ಫಿಲ್ಲರ್ ಶಬ್ದಗಳು ಮತ್ತು ತೊದಲುವಿಕೆಗಳನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತದೆ. ಹಿನ್ನೆಲೆ ಮತ್ತು ಮುಂಭಾಗದ ಶಬ್ದಗಳನ್ನು ವಿವರಣಾತ್ಮಕ ಟ್ಯಾಗ್‌ಗಳೊಂದಿಗೆ ಲಿಪ್ಯಂತರ ಮಾಡಲಾಗುತ್ತದೆ, ಆದರೆ ಸರಿಯಾದ ಹೆಸರುಗಳು, ಶೀರ್ಷಿಕೆಗಳು ಮತ್ತು ಸಂಖ್ಯೆಗಳು ನಿರ್ದಿಷ್ಟ ಪ್ರತಿಲೇಖನ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸುತ್ತವೆ. ಪ್ರತಿ ವಾಕ್ಯಕ್ಕೂ ಸ್ಪೀಕರ್ ಲೇಬಲ್‌ಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಅಪೂರ್ಣ ವಾಕ್ಯಗಳನ್ನು ಸೂಚಿಸಲಾಗುತ್ತದೆ.

ಪ್ರಾಜೆಕ್ಟ್ ವರ್ಕ್‌ಫ್ಲೋ

ಕೆಲಸದ ಹರಿವು ಆಡಿಯೊ ಪ್ರತಿಲೇಖನ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವಿವರಿಸುತ್ತದೆ. ಇದು ಆನ್‌ಬೋರ್ಡಿಂಗ್ ಮತ್ತು ತರಬೇತಿ ಭಾಗವಹಿಸುವವರೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅವರು ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಆಡಿಯೊವನ್ನು ರೆಕಾರ್ಡ್ ಮಾಡುತ್ತಾರೆ, ಅದನ್ನು QA ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗೆ ಅಪ್‌ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಆಡಿಯೋ ಗುಣಮಟ್ಟದ ತಪಾಸಣೆ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ವಿಭಜನೆಗೆ ಒಳಗಾಗುತ್ತದೆ. ಟೆಕ್ ತಂಡವು ನಂತರ ಪ್ರತಿಲೇಖನಕ್ಕಾಗಿ ವಿಭಾಗಗಳನ್ನು ಸಿದ್ಧಪಡಿಸುತ್ತದೆ. ಹಸ್ತಚಾಲಿತ ಪ್ರತಿಲೇಖನದ ನಂತರ, ಗುಣಮಟ್ಟದ ಭರವಸೆಯ ಹಂತವಿದೆ. ಪ್ರತಿಲೇಖನಗಳನ್ನು ಕ್ಲೈಂಟ್‌ಗೆ ತಲುಪಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಸ್ವೀಕರಿಸಿದರೆ, ವಿತರಣೆಯು ಪೂರ್ಣಗೊಂಡಿದೆ ಎಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ. ಇಲ್ಲದಿದ್ದರೆ, ಕ್ಲೈಂಟ್ ಪ್ರತಿಕ್ರಿಯೆಯ ಆಧಾರದ ಮೇಲೆ ಪರಿಷ್ಕರಣೆಗಳನ್ನು ಮಾಡಲಾಗುತ್ತದೆ.

ಫಲಿತಾಂಶ

ಪರಿಣಿತ ಭಾಷಾಶಾಸ್ತ್ರಜ್ಞರಿಂದ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಆಡಿಯೊ ಡೇಟಾವು ನಿಗದಿತ ಸಮಯದಲ್ಲಿ ವಿವಿಧ ಉಪಭಾಷೆಗಳೊಂದಿಗೆ ವಿವಿಧ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಬಹುಭಾಷಾ ಸ್ಪೀಚ್ ರೆಕಗ್ನಿಷನ್ ಮಾದರಿಗಳನ್ನು ನಿಖರವಾಗಿ ತರಬೇತಿ ನೀಡಲು ಮತ್ತು ನಿರ್ಮಿಸಲು ನಮ್ಮ ಕ್ಲೈಂಟ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. ಧ್ವನಿ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳನ್ನು ಇದಕ್ಕಾಗಿ ಬಳಸಬಹುದು:

  • ನಾಗರಿಕರನ್ನು ಅವರ ಸ್ವಂತ ಮಾತೃಭಾಷೆಯಲ್ಲಿ ಉಪಕ್ರಮಗಳಿಗೆ ಸಂಪರ್ಕಿಸುವ ಮೂಲಕ ಡಿಜಿಟಲ್ ಸೇರ್ಪಡೆಗಾಗಿ ಭಾಷಾ ತಡೆಗೋಡೆ ನಿವಾರಿಸಿ.
  • ಡಿಜಿಟಲ್ ಆಡಳಿತವನ್ನು ಉತ್ತೇಜಿಸುತ್ತದೆ
  • ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಸೇವೆಗಳು ಮತ್ತು ಉತ್ಪನ್ನಗಳಿಗೆ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯನ್ನು ರೂಪಿಸಲು ವೇಗವರ್ಧಕ
  • ಸಾರ್ವಜನಿಕ ಹಿತಾಸಕ್ತಿಯ ಡೊಮೇನ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚು ಸ್ಥಳೀಕರಿಸಿದ ಡಿಜಿಟಲ್ ವಿಷಯ, ನಿರ್ದಿಷ್ಟವಾಗಿ, ಆಡಳಿತ ಮತ್ತು ನೀತಿ

ಸಂಭಾಷಣಾ AI ಕ್ಷೇತ್ರದಲ್ಲಿ ಶೈಪ್ ಅವರ ಪರಿಣತಿಯನ್ನು ನಾವು ವಿಸ್ಮಯಗೊಳಿಸಿದ್ದೇವೆ. 8000 ವೈವಿಧ್ಯಮಯ ಜಿಲ್ಲೆಗಳಲ್ಲಿ 800 ಗಂಟೆಗಳ ಪ್ರತಿಲೇಖನದ ಜೊತೆಗೆ 80 ಗಂಟೆಗಳ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುವ ಕಾರ್ಯವು ಸ್ಮಾರಕವಾಗಿದೆ, ಕನಿಷ್ಠ ಹೇಳಲು. ಈ ಡೊಮೇನ್‌ನ ಸಂಕೀರ್ಣ ವಿವರಗಳು ಮತ್ತು ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳ ಬಗ್ಗೆ ಶೈಪ್ ಅವರ ಆಳವಾದ ಗ್ರಹಿಕೆಯು ಅಂತಹ ಸವಾಲಿನ ಯೋಜನೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಕಾರ್ಯಗತಗೊಳಿಸುವಂತೆ ಮಾಡಿತು. ಉನ್ನತ ದರ್ಜೆಯ ಗುಣಮಟ್ಟವನ್ನು ಖಾತ್ರಿಪಡಿಸಿಕೊಳ್ಳುವಾಗ ಈ ಬೃಹತ್ ಪ್ರಮಾಣದ ಡೇಟಾದ ಸಂಕೀರ್ಣತೆಗಳನ್ನು ಮನಬಂದಂತೆ ನಿರ್ವಹಿಸುವ ಮತ್ತು ನ್ಯಾವಿಗೇಟ್ ಮಾಡುವ ಅವರ ಸಾಮರ್ಥ್ಯವು ನಿಜವಾಗಿಯೂ ಶ್ಲಾಘನೀಯವಾಗಿದೆ.

ಗೋಲ್ಡನ್-5-ಸ್ಟಾರ್

ನಿಮ್ಮ ಸಂವಾದಾತ್ಮಕ AI ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಯನ್ನು 100% ರಷ್ಟು ವೇಗಗೊಳಿಸಿ