ಕೇಸ್ ಸ್ಟಡಿ: ಸ್ವಯಂಚಾಲಿತ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ

8 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಆಡಿಯೋ ಗಂಟೆಗಳನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ, ಬಹುಭಾಷಾ ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನಕ್ಕಾಗಿ 800 ಗಂಟೆಗಳ ಕಾಲ ಲಿಪ್ಯಂತರಿಸಲಾಗಿದೆ

ಸಂವಾದಾತ್ಮಕ AI

ಪರಿಚಯ

ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಡಿಜಿಟಲ್ ಸೇವೆಗಳನ್ನು ಒದಗಿಸಲು ಬಹುಭಾಷಾ ಡೇಟಾಸೆಟ್‌ಗಳು ಮತ್ತು AI-ಆಧಾರಿತ ಭಾಷಾ ತಂತ್ರಜ್ಞಾನ ಪರಿಹಾರಗಳನ್ನು ರಚಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುವ ವೇದಿಕೆಯ ಅಗತ್ಯವಿದೆ. ಈ ಉಪಕ್ರಮವನ್ನು ಪ್ರಾರಂಭಿಸಲು, ಬಹು-ಭಾಷಾ ಭಾಷಣ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಭಾರತೀಯ ಭಾಷೆಯನ್ನು ಸಂಗ್ರಹಿಸಲು ಮತ್ತು ಲಿಪ್ಯಂತರ ಮಾಡಲು ದ ಕ್ಲೈಂಟ್ ಶೈಪ್‌ನೊಂದಿಗೆ ಪಾಲುದಾರಿಕೆ ಮಾಡಿಕೊಂಡಿತು.

ಸಂಪುಟ

ಗಂಟೆಗಳ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ
10
ಪುಟಗಳ ಸಂಖ್ಯೆ ಟಿಪ್ಪಣಿ
10 +
ಯೋಜನೆಯ ಅವಧಿ
< 1 ತಿಂಗಳುಗಳು

ಸವಾಲುಗಳು

ಭಾರತೀಯ ಭಾಷೆಗಳಿಗೆ ಅವರ ಸ್ಪೀಚ್ ಟೆಕ್ನಾಲಜಿ ಸ್ಪೀಚ್ ರೋಡ್‌ಮ್ಯಾಪ್‌ನೊಂದಿಗೆ ಕ್ಲೈಂಟ್‌ಗೆ ಸಹಾಯ ಮಾಡಲು, ತಂಡವು AI ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲು ದೊಡ್ಡ ಪ್ರಮಾಣದ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳಲು, ವಿಭಾಗಿಸಲು ಮತ್ತು ಲಿಪ್ಯಂತರ ಮಾಡಲು ಅಗತ್ಯವಿದೆ. ಕ್ಲೈಂಟ್ನ ನಿರ್ಣಾಯಕ ಅವಶ್ಯಕತೆಗಳು:

ಮಾಹಿತಿ ಸಂಗ್ರಹ

  • ಭಾರತದ ದೂರದ ಸ್ಥಳಗಳಿಂದ 8000 ಗಂಟೆಗಳ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳಿ
  • 20-70 ವರ್ಷ ವಯಸ್ಸಿನ ಗುಂಪುಗಳಿಂದ ಸ್ವಯಂಪ್ರೇರಿತ ಭಾಷಣವನ್ನು ಸಂಗ್ರಹಿಸಲು ಪೂರೈಕೆದಾರರು
  • ವಯಸ್ಸು, ಲಿಂಗ, ಶಿಕ್ಷಣ ಮತ್ತು ಉಪಭಾಷೆಗಳ ಪ್ರಕಾರ ಮಾತನಾಡುವವರ ವೈವಿಧ್ಯಮಯ ಮಿಶ್ರಣವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ
  • ಪ್ರತಿ ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್ 16 ಬಿಟ್‌ಗಳು/ಮಾದರಿಯೊಂದಿಗೆ ಕನಿಷ್ಠ 16kHz ಆಗಿರಬೇಕು.
ಮಾಹಿತಿ ಸಂಗ್ರಹ

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಅಕ್ಷರಗಳು ಮತ್ತು ವಿಶೇಷ ಚಿಹ್ನೆಗಳು, ಕಾಗುಣಿತ ಮತ್ತು ವ್ಯಾಕರಣ, ಕ್ಯಾಪಿಟಲೈಸೇಶನ್, ಸಂಕ್ಷೇಪಣಗಳು, ಸಂಕೋಚನಗಳು, ವೈಯಕ್ತಿಕ ಮಾತನಾಡುವ ಅಕ್ಷರಗಳು, ಸಂಖ್ಯೆಗಳು, ವಿರಾಮಚಿಹ್ನೆಗಳು, ಪ್ರಥಮಾಕ್ಷರಗಳು ಮತ್ತು ಪ್ರಾರಂಭಿಕತೆಗಳು, ಅಸ್ಪಷ್ಟ ಮಾತು, ಅರ್ಥವಾಗದ ಮಾತು, ಗುರಿಯಿಲ್ಲದ ಲಾಂಗ್-ಸ್ಪ್ಲೇಜ್-ಸ್ಪಷ್ಟತೆಯ ಬಗ್ಗೆ ವಿವರವಾದ ಪ್ರತಿಲೇಖನ ಮಾರ್ಗಸೂಚಿಗಳನ್ನು ಅನುಸರಿಸಿ

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಗುಣಮಟ್ಟ ಪರಿಶೀಲನೆ ಮತ್ತು ಪ್ರತಿಕ್ರಿಯೆ

ಗುಣಮಟ್ಟದ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಮೌಲ್ಯೀಕರಣಕ್ಕೆ ಒಳಗಾಗಲು ಎಲ್ಲಾ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು, ಮೌಲ್ಯೀಕರಿಸಿದ ಭಾಷಣ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಮಾತ್ರ ವಿತರಿಸಲಾಗುವುದು

ಪರಿಹಾರ

ಸಂವಾದಾತ್ಮಕ AI ಕುರಿತು ನಮ್ಮ ಆಳವಾದ ತಿಳುವಳಿಕೆಯೊಂದಿಗೆ, ಭಾರತದ ದೂರದ ಭಾಗಗಳಿಂದ ಆಡಿಯೊ ಡೇಟಾದ ದೊಡ್ಡ ಕಾರ್ಪಸ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ಪರಿಣಿತ ಸಂಗ್ರಾಹಕರು, ಭಾಷಾಶಾಸ್ತ್ರಜ್ಞರು ಮತ್ತು ಟಿಪ್ಪಣಿಕಾರರ ತಂಡದೊಂದಿಗೆ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು, ಲಿಪ್ಯಂತರ ಮಾಡಲು ನಾವು ಕ್ಲೈಂಟ್‌ಗೆ ಸಹಾಯ ಮಾಡಿದ್ದೇವೆ.

Shaip ಗಾಗಿ ಕೆಲಸದ ವ್ಯಾಪ್ತಿಯನ್ನು ಒಳಗೊಂಡಿತ್ತು ಆದರೆ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಆಡಿಯೊ ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆದುಕೊಳ್ಳುವುದಕ್ಕೆ ಸೀಮಿತವಾಗಿಲ್ಲ, ಡೇಟಾವನ್ನು ಲಿಪ್ಯಂತರಗೊಳಿಸುವುದು ಮತ್ತು ಮೆಟಾಡೇಟಾವನ್ನು ಹೊಂದಿರುವ ಅನುಗುಣವಾದ JSON ಫೈಲ್‌ಗಳನ್ನು [ಸ್ಪೀಕರ್‌ಗಳು ಮತ್ತು ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್‌ಗಳಿಗೆ ತಲುಪಿಸುವುದು. ಪ್ರತಿ ಸ್ಪೀಕರ್‌ಗೆ, ಮೆಟಾಡೇಟಾ ಅನಾಮಧೇಯ ಸ್ಪೀಕರ್ ಐಡಿ, ಸಾಧನದ ವಿವರಗಳು, ಲಿಂಗ, ವಯಸ್ಸು ಮತ್ತು ಶಿಕ್ಷಣದಂತಹ ಜನಸಂಖ್ಯಾ ಮಾಹಿತಿ, ಜೊತೆಗೆ ಅವರ ಪಿನ್‌ಕೋಡ್, ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಸ್ಥಿತಿ, ಮಾತನಾಡುವ ಭಾಷೆಗಳು ಮತ್ತು ಅವರ ಜೀವನದ ಅವಧಿಯ ದಾಖಲೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಪ್ರತಿ ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್‌ಗೆ, ಡೇಟಾವು ಅನಾಮಧೇಯ ಟ್ರಾನ್ಸ್‌ಕ್ರೈಬರ್ ಐಡಿ, ಸ್ಪೀಕರ್‌ಗಳಿಗೆ ಹೋಲುವ ಜನಸಂಖ್ಯಾ ವಿವರಗಳು, ಅವರ ಪ್ರತಿಲೇಖನದ ಅನುಭವದ ಅವಧಿ ಮತ್ತು ಅವರು ಓದಲು, ಬರೆಯಲು ಮತ್ತು ಮಾತನಾಡಲು ಸಾಧ್ಯವಾಗುವ ಭಾಷೆಗಳ ಸಂಪೂರ್ಣ ವಿಭಜನೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.

ಶೈಪ್ ಸಂಗ್ರಹಿಸಿದರು 8000 ಗಂಟೆಗಳ ಆಡಿಯೋ ಡೇಟಾ / ಸ್ವಾಭಾವಿಕ ಭಾಷಣದ ಪ್ರಮಾಣದಲ್ಲಿ ಮತ್ತು 800 ಗಂಟೆಗಳ ಕಾಲ ಲಿಪ್ಯಂತರಿಸಲಾಗಿದೆ ಮತ್ತು ಸಂಕೀರ್ಣ ಯೋಜನೆಗಳಿಗೆ ಭಾಷಣ ತಂತ್ರಜ್ಞಾನವನ್ನು ತರಬೇತಿ ಮಾಡಲು ಅಗತ್ಯವಿರುವ ಗುಣಮಟ್ಟದ ಗುಣಮಟ್ಟವನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಪ್ರತಿಯೊಬ್ಬ ಭಾಗವಹಿಸುವವರಿಂದ ಸ್ಪಷ್ಟ ಸಮ್ಮತಿಯ ನಮೂನೆಯನ್ನು ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ವಿಶ್ವವಿದ್ಯಾನಿಲಯ ಒದಗಿಸಿದ ಚಿತ್ರಗಳನ್ನು ಆಧರಿಸಿ / ಸ್ವಯಂಪ್ರೇರಿತ ಭಾಷಣವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಆಫ್ 3500 ಚಿತ್ರಗಳನ್ನು 1000 ಸಾಮಾನ್ಯ ಮತ್ತು 2500 ಜಿಲ್ಲೆ-ನಿರ್ದಿಷ್ಟ ಸಂಸ್ಕೃತಿ, ಹಬ್ಬಗಳು, ಇತ್ಯಾದಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ಚಿತ್ರಗಳು ರೈಲು ನಿಲ್ದಾಣಗಳು, ಮಾರುಕಟ್ಟೆಗಳು, ಹವಾಮಾನ ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳಂತಹ ವಿವಿಧ ಡೊಮೇನ್‌ಗಳನ್ನು ಬಿಂಬಿಸುತ್ತವೆ.

ಮಾಹಿತಿ ಸಂಗ್ರಹ

ರಾಜ್ಯ ಜಿಲ್ಲೆಗಳು ಆಡಿಯೋ ಗಂ ಪ್ರತಿಲೇಖನ (ಗಂಟೆಗಳು)
ಬಿಹಾರ ಸರನ್, ಪೂರ್ವ ಚಂಪಾರಣ್, ಗೋಪಾಲಗಂಜ್, ಸೀತಾಮರ್ಹಿ, ಸಮಸ್ತಿಪುರ್, ದರ್ಭಾಂಗ, ಮಾಧೇಪುರ, ಭಾಗಲ್ಪುರ್, ಗಯಾ, ಕಿಶನ್‌ಗಂಜ್, ವೈಶಾಲಿ, ಲಖಿಸಾರೈ, ಸಹರ್ಸಾ, ಸುಪೌಲ್, ಅರಾರಿಯಾ, ಬೇಗುಸರೈ, ಜಹಾನಾಬಾದ್, ಪುರ್ನಿಯಾ, ಮುಜಫರ್‌ಪುರ, ಜಮುಯಿ 2000 200
ಉತ್ತರ ಪ್ರದೇಶ ಡಿಯೋರಿಯಾ, ವಾರಣಾಸಿ, ಗೋರಖ್‌ಪುರ್, ಗಾಜಿಪುರ, ಮುಜಾಫರ್‌ನಗರ, ಇಟಾಹ್, ಹಮೀರ್‌ಪುರ್, ಜ್ಯೋತಿಬಾ ಫುಲೆ ನಗರ, ಬುದೌನ್, ಜಲೌನ್ 1000 100
ರಾಜಸ್ಥಾನ ನಾಗೌರ್, ಚುರು 200 20
ಉತ್ತರಾಖಂಡ್ ತೆಹ್ರಿ ಗರ್ವಾಲ್, ಉತ್ತರಕಾಶಿ 200 20
ಛತ್ತೀಸ್ಗಢ ಬಿಲಾಸ್ಪುರ್, ರಾಯ್ಗಢ್, ಕಬೀರ್ಧಾಮ್, ಸರ್ಗುಜಾ, ಕೊರ್ಬಾ, ಜಶ್ಪುರ್, ರಾಜನಂದಗಾಂವ್, ಬಲರಾಮ್ಪುರ್, ಬಸ್ತಾರ್, ಸುಕ್ಮಾ 1000 100
ಪಶ್ಚಿಮ ಬಂಗಾಳ ಪಶ್ಚಿಮ್ ಮೆದಿನಿಪುರ್, ಮಾಲ್ಡಾ, ಜಲ್ಪೈಗುರಿ, ಪುರುಲಿಯಾ, ಕೋಲ್ಕತ್ತಾ, ಜಾರ್ಗ್ರಾಮ್, ಉತ್ತರ 24 ಪರಗಣಗಳು, ದಕ್ಷಿಣ ದಿನಾಜ್ಪುರ್ 800 80
ಜಾರ್ಖಂಡ್ ಸಾಹೇಬಗಂಜ್, ಜಮ್ತಾರಾ 200 20
ಆಂಧ್ರ ಪ್ರದೇಶ ಗುಂಟೂರು, ಚಿತ್ತೂರು, ವಿಶಾಖಪಟ್ಟಣಂ, ಕೃಷ್ಣಾ, ಅನಂತಪುರ, ಶ್ರೀಕಾಕುಳಂ 600 60
ತೆಲಂಗಾಣ ಕರೀಂನಗರ, ನಲ್ಗೊಂಡ 200 20
ಗೋವಾ ಉತ್ತರ ಮತ್ತು ದಕ್ಷಿಣ ಗೋವಾ 100 10
ಕರ್ನಾಟಕ ದಕ್ಷಿಣ ಕನ್ನಡ, ಗುಲ್ಬರ್ಗ, ಧಾರವಾಡ, ಬಳ್ಳಾರಿ, ಮೈಸೂರು, ಶಿವಮೊಗ್ಗ, ಬಿಜಾಪುರ, ಬೆಳಗಾವಿ, ರಾಯಚೂರು, ಚಾಮರಾಜನಗರ 1000 100
ಮಹಾರಾಷ್ಟ್ರ ಸಿಂಧುದುರ್ಗ, ಧುಲೆ, ನಾಗಪುರ, ಪುಣೆ, ಔರಂಗಾಬಾದ್, ಚಂದ್ರಾಪುರ, ಸೊಲ್ಲಾಪುರ 700 70
ಒಟ್ಟು 8000 800

ಸಾಮಾನ್ಯ ಮಾರ್ಗಸೂಚಿಗಳು

ರೂಪದಲ್ಲಿ

  • 16 kHz ನಲ್ಲಿ ಆಡಿಯೋ, 16 ಬಿಟ್‌ಗಳು/ಮಾದರಿ.
  • ಏಕ ಚಾನಲ್.
  • ಟ್ರಾನ್ಸ್‌ಕೋಡಿಂಗ್ ಇಲ್ಲದೆ ಕಚ್ಚಾ ಆಡಿಯೊ.

ಶೈಲಿ

  • ಸ್ವಾಭಾವಿಕ ಮಾತು.
  • ವಿಶ್ವವಿದ್ಯಾಲಯ ಒದಗಿಸಿದ ಚಿತ್ರಗಳನ್ನು ಆಧರಿಸಿದ ವಾಕ್ಯಗಳು. 3500 ಚಿತ್ರಗಳಲ್ಲಿ, 1000 ಜೆನೆರಿಕ್ ಮತ್ತು 2500 ಜಿಲ್ಲೆ-ನಿರ್ದಿಷ್ಟ ಸಂಸ್ಕೃತಿ, ಹಬ್ಬಗಳು ಇತ್ಯಾದಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದೆ. ಚಿತ್ರಗಳು ರೈಲು ನಿಲ್ದಾಣಗಳು, ಮಾರುಕಟ್ಟೆಗಳು, ಹವಾಮಾನ ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳಂತಹ ವಿವಿಧ ಡೊಮೇನ್‌ಗಳನ್ನು ಬಿಂಬಿಸುತ್ತವೆ.

ರೆಕಾರ್ಡಿಂಗ್ ಹಿನ್ನೆಲೆ

  • ಶಾಂತವಾದ, ಪ್ರತಿಧ್ವನಿ ಮುಕ್ತ ಪರಿಸರದಲ್ಲಿ ರೆಕಾರ್ಡ್ ಮಾಡಲಾಗಿದೆ.
  • ರೆಕಾರ್ಡಿಂಗ್ ಸಮಯದಲ್ಲಿ ಯಾವುದೇ ಸ್ಮಾರ್ಟ್‌ಫೋನ್ ಅಡಚಣೆಗಳಿಲ್ಲ (ಕಂಪನ ಅಥವಾ ಅಧಿಸೂಚನೆಗಳು).
  • ಕ್ಲಿಪ್ಪಿಂಗ್ ಅಥವಾ ದೂರದ-ಕ್ಷೇತ್ರದ ಪರಿಣಾಮಗಳಂತಹ ಯಾವುದೇ ವಿರೂಪಗಳಿಲ್ಲ.
  • ಫೋನ್‌ನಿಂದ ಕಂಪನಗಳು ಸ್ವೀಕಾರಾರ್ಹವಲ್ಲ; ಆಡಿಯೋ ಸ್ಪಷ್ಟವಾಗಿದ್ದರೆ ಬಾಹ್ಯ ಕಂಪನಗಳನ್ನು ಸಹಿಸಿಕೊಳ್ಳಬಹುದು.

ಸ್ಪೀಕರ್ ವಿವರಣೆ

  • ಪ್ರತಿ ಜಿಲ್ಲೆಗೆ ಸಮತೋಲಿತ ಲಿಂಗ ವಿತರಣೆಯೊಂದಿಗೆ 20-70 ವರ್ಷ ವಯಸ್ಸಿನ ವ್ಯಾಪ್ತಿಯು.
  • ಪ್ರತಿ ಜಿಲ್ಲೆಯಲ್ಲಿ ಕನಿಷ್ಠ 400 ಸ್ಥಳೀಯ ಭಾಷಿಕರು.
  • ಮಾತನಾಡುವವರು ತಮ್ಮ ಮನೆ ಭಾಷೆ/ಉಪಭಾಷೆಯನ್ನು ಬಳಸಬೇಕು.
  • ಎಲ್ಲಾ ಭಾಗವಹಿಸುವವರಿಗೆ ಒಪ್ಪಿಗೆ ನಮೂನೆಗಳು ಕಡ್ಡಾಯವಾಗಿದೆ.

ಗುಣಮಟ್ಟ ಪರಿಶೀಲನೆ ಮತ್ತು ನಿರ್ಣಾಯಕ ಗುಣಮಟ್ಟದ ಭರವಸೆ

QA ಪ್ರಕ್ರಿಯೆಯು ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಮತ್ತು ಪ್ರತಿಲೇಖನಗಳಿಗೆ ಗುಣಮಟ್ಟದ ಭರವಸೆಯನ್ನು ಆದ್ಯತೆ ನೀಡುತ್ತದೆ. ಆಡಿಯೋ ಮಾನದಂಡಗಳು ನಿಖರವಾದ ಮೌನಗಳು, ವಿಭಾಗದ ಅವಧಿ, ಸಿಂಗಲ್-ಸ್ಪೀಕರ್ ಸ್ಪಷ್ಟತೆ ಮತ್ತು ವಯಸ್ಸು ಮತ್ತು ಸಾಮಾಜಿಕ-ಆರ್ಥಿಕ ಸ್ಥಿತಿ ಸೇರಿದಂತೆ ವಿವರವಾದ ಮೆಟಾಡೇಟಾದ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತವೆ. ಪ್ರತಿಲೇಖನದ ಮಾನದಂಡಗಳು ಟ್ಯಾಗ್ ನಿಖರತೆ, ಪದದ ನಿಖರತೆ ಮತ್ತು ಸರಿಯಾದ ವಿಭಾಗದ ವಿವರಗಳನ್ನು ಒತ್ತಿಹೇಳುತ್ತವೆ. ಆಡಿಯೊ ಬ್ಯಾಚ್‌ನ 20% ಕ್ಕಿಂತ ಹೆಚ್ಚು ಈ ಮಾನದಂಡಗಳನ್ನು ವಿಫಲಗೊಳಿಸಿದರೆ, ಅದನ್ನು ತಿರಸ್ಕರಿಸಲಾಗುತ್ತದೆ ಎಂದು ಸ್ವೀಕಾರ ಮಾನದಂಡವು ನಿರ್ದೇಶಿಸುತ್ತದೆ. 20% ಕ್ಕಿಂತ ಕಡಿಮೆ ವ್ಯತ್ಯಾಸಗಳಿಗಾಗಿ, ಒಂದೇ ರೀತಿಯ ಪ್ರೊಫೈಲ್‌ಗಳೊಂದಿಗೆ ಬದಲಿ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಅಗತ್ಯವಿದೆ.

ಡೇಟಾ ಪ್ರತಿಲೇಖನ

ಪದಗಳು ಸ್ಪಷ್ಟ ಮತ್ತು ಅರ್ಥವಾಗುವಂತಹದ್ದಾಗಿದ್ದರೆ ಮಾತ್ರ ಪ್ರತಿಲೇಖನ ಮಾರ್ಗಸೂಚಿಗಳು ನಿಖರತೆ ಮತ್ತು ಮೌಖಿಕ ಪ್ರತಿಲೇಖನವನ್ನು ಒತ್ತಿಹೇಳುತ್ತವೆ; ಅಸ್ಪಷ್ಟ ಪದಗಳನ್ನು ಸಮಸ್ಯೆಯ ಆಧಾರದ ಮೇಲೆ [ಅರ್ಥವಾಗದ] ಅಥವಾ [ಕೇಳಿಸುವುದಿಲ್ಲ] ಎಂದು ಗುರುತಿಸಲಾಗಿದೆ. ದೀರ್ಘವಾದ ಆಡಿಯೊದಲ್ಲಿ ವಾಕ್ಯದ ಗಡಿಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ , ಮತ್ತು ವ್ಯಾಕರಣ ದೋಷಗಳ ಯಾವುದೇ ಪ್ಯಾರಾಫ್ರೇಸಿಂಗ್ ಅಥವಾ ತಿದ್ದುಪಡಿಯನ್ನು ಅನುಮತಿಸಲಾಗುವುದಿಲ್ಲ. ವರ್ಬ್ಯಾಟಿಮ್ ಪ್ರತಿಲೇಖನವು ದೋಷಗಳು, ಗ್ರಾಮ್ಯಗಳು ಮತ್ತು ಪುನರಾವರ್ತನೆಗಳನ್ನು ಒಳಗೊಳ್ಳುತ್ತದೆ ಆದರೆ ತಪ್ಪು ಪ್ರಾರಂಭಗಳು, ಫಿಲ್ಲರ್ ಶಬ್ದಗಳು ಮತ್ತು ತೊದಲುವಿಕೆಗಳನ್ನು ಬಿಟ್ಟುಬಿಡುತ್ತದೆ. ಹಿನ್ನೆಲೆ ಮತ್ತು ಮುಂಭಾಗದ ಶಬ್ದಗಳನ್ನು ವಿವರಣಾತ್ಮಕ ಟ್ಯಾಗ್‌ಗಳೊಂದಿಗೆ ಲಿಪ್ಯಂತರ ಮಾಡಲಾಗುತ್ತದೆ, ಆದರೆ ಸರಿಯಾದ ಹೆಸರುಗಳು, ಶೀರ್ಷಿಕೆಗಳು ಮತ್ತು ಸಂಖ್ಯೆಗಳು ನಿರ್ದಿಷ್ಟ ಪ್ರತಿಲೇಖನ ನಿಯಮಗಳನ್ನು ಅನುಸರಿಸುತ್ತವೆ. ಪ್ರತಿ ವಾಕ್ಯಕ್ಕೂ ಸ್ಪೀಕರ್ ಲೇಬಲ್‌ಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಅಪೂರ್ಣ ವಾಕ್ಯಗಳನ್ನು ಸೂಚಿಸಲಾಗುತ್ತದೆ.

ಪ್ರಾಜೆಕ್ಟ್ ವರ್ಕ್‌ಫ್ಲೋ

ಕೆಲಸದ ಹರಿವು ಆಡಿಯೊ ಪ್ರತಿಲೇಖನ ಪ್ರಕ್ರಿಯೆಯನ್ನು ವಿವರಿಸುತ್ತದೆ. ಇದು ಆನ್‌ಬೋರ್ಡಿಂಗ್ ಮತ್ತು ತರಬೇತಿ ಭಾಗವಹಿಸುವವರೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅವರು ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಆಡಿಯೊವನ್ನು ರೆಕಾರ್ಡ್ ಮಾಡುತ್ತಾರೆ, ಅದನ್ನು QA ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗೆ ಅಪ್‌ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಆಡಿಯೋ ಗುಣಮಟ್ಟದ ತಪಾಸಣೆ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ವಿಭಜನೆಗೆ ಒಳಗಾಗುತ್ತದೆ. ಟೆಕ್ ತಂಡವು ನಂತರ ಪ್ರತಿಲೇಖನಕ್ಕಾಗಿ ವಿಭಾಗಗಳನ್ನು ಸಿದ್ಧಪಡಿಸುತ್ತದೆ. ಹಸ್ತಚಾಲಿತ ಪ್ರತಿಲೇಖನದ ನಂತರ, ಗುಣಮಟ್ಟದ ಭರವಸೆಯ ಹಂತವಿದೆ. ಪ್ರತಿಲೇಖನಗಳನ್ನು ಕ್ಲೈಂಟ್‌ಗೆ ತಲುಪಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಸ್ವೀಕರಿಸಿದರೆ, ವಿತರಣೆಯು ಪೂರ್ಣಗೊಂಡಿದೆ ಎಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ. ಇಲ್ಲದಿದ್ದರೆ, ಕ್ಲೈಂಟ್ ಪ್ರತಿಕ್ರಿಯೆಯ ಆಧಾರದ ಮೇಲೆ ಪರಿಷ್ಕರಣೆಗಳನ್ನು ಮಾಡಲಾಗುತ್ತದೆ.

ಯೋಜನೆಯ ಕೆಲಸದ ಹರಿವು

ಫಲಿತಾಂಶ

ಪರಿಣಿತ ಭಾಷಾಶಾಸ್ತ್ರಜ್ಞರಿಂದ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಆಡಿಯೊ ಡೇಟಾವು ನಿಗದಿತ ಸಮಯದಲ್ಲಿ ವಿವಿಧ ಉಪಭಾಷೆಗಳೊಂದಿಗೆ ವಿವಿಧ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಬಹುಭಾಷಾ ಸ್ಪೀಚ್ ರೆಕಗ್ನಿಷನ್ ಮಾದರಿಗಳನ್ನು ನಿಖರವಾಗಿ ತರಬೇತಿ ನೀಡಲು ಮತ್ತು ನಿರ್ಮಿಸಲು ನಮ್ಮ ಕ್ಲೈಂಟ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. ಧ್ವನಿ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳನ್ನು ಇದಕ್ಕಾಗಿ ಬಳಸಬಹುದು:

  • ನಾಗರಿಕರನ್ನು ಅವರ ಸ್ವಂತ ಮಾತೃಭಾಷೆಯಲ್ಲಿ ಉಪಕ್ರಮಗಳಿಗೆ ಸಂಪರ್ಕಿಸುವ ಮೂಲಕ ಡಿಜಿಟಲ್ ಸೇರ್ಪಡೆಗಾಗಿ ಭಾಷಾ ತಡೆಗೋಡೆ ನಿವಾರಿಸಿ.
  • ಡಿಜಿಟಲ್ ಆಡಳಿತವನ್ನು ಉತ್ತೇಜಿಸುತ್ತದೆ
  • ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ಸೇವೆಗಳು ಮತ್ತು ಉತ್ಪನ್ನಗಳಿಗೆ ಪರಿಸರ ವ್ಯವಸ್ಥೆಯನ್ನು ರೂಪಿಸಲು ವೇಗವರ್ಧಕ
  • ಸಾರ್ವಜನಿಕ ಹಿತಾಸಕ್ತಿಯ ಡೊಮೇನ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚು ಸ್ಥಳೀಕರಿಸಿದ ಡಿಜಿಟಲ್ ವಿಷಯ, ನಿರ್ದಿಷ್ಟವಾಗಿ, ಆಡಳಿತ ಮತ್ತು ನೀತಿ

ಸಂಭಾಷಣಾ AI ಕ್ಷೇತ್ರದಲ್ಲಿ ಶೈಪ್ ಅವರ ಪರಿಣತಿಯನ್ನು ನಾವು ವಿಸ್ಮಯಗೊಳಿಸಿದ್ದೇವೆ. 8000 ವೈವಿಧ್ಯಮಯ ಜಿಲ್ಲೆಗಳಲ್ಲಿ 800 ಗಂಟೆಗಳ ಪ್ರತಿಲೇಖನದ ಜೊತೆಗೆ 80 ಗಂಟೆಗಳ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸುವ ಕಾರ್ಯವು ಸ್ಮಾರಕವಾಗಿದೆ, ಕನಿಷ್ಠ ಹೇಳಲು. ಈ ಡೊಮೇನ್‌ನ ಸಂಕೀರ್ಣ ವಿವರಗಳು ಮತ್ತು ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳ ಬಗ್ಗೆ ಶೈಪ್ ಅವರ ಆಳವಾದ ಗ್ರಹಿಕೆಯು ಅಂತಹ ಸವಾಲಿನ ಯೋಜನೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ಕಾರ್ಯಗತಗೊಳಿಸುವಂತೆ ಮಾಡಿತು. ಉನ್ನತ ದರ್ಜೆಯ ಗುಣಮಟ್ಟವನ್ನು ಖಾತ್ರಿಪಡಿಸಿಕೊಳ್ಳುವಾಗ ಈ ಬೃಹತ್ ಪ್ರಮಾಣದ ಡೇಟಾದ ಸಂಕೀರ್ಣತೆಗಳನ್ನು ಮನಬಂದಂತೆ ನಿರ್ವಹಿಸುವ ಮತ್ತು ನ್ಯಾವಿಗೇಟ್ ಮಾಡುವ ಅವರ ಸಾಮರ್ಥ್ಯವು ನಿಜವಾಗಿಯೂ ಶ್ಲಾಘನೀಯವಾಗಿದೆ.

ಗೋಲ್ಡನ್-5-ಸ್ಟಾರ್

ನಿಮ್ಮ ಸಂವಾದಾತ್ಮಕ AI ಅಪ್ಲಿಕೇಶನ್ ಅಭಿವೃದ್ಧಿಯನ್ನು 100% ರಷ್ಟು ವೇಗಗೊಳಿಸಿ