ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿ

ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿ: ಭಾರತಕ್ಕಾಗಿ ಬಹುಭಾಷಾ AI ಅನ್ನು ರೂಪಿಸುವಲ್ಲಿ ಶೈಪ್ ಪಾತ್ರ

ಭಾರತದಂತಹ ಸಾಂಸ್ಕೃತಿಕವಾಗಿ ವೈವಿಧ್ಯಮಯ ಮತ್ತು ಭಾಷಾಶಾಸ್ತ್ರೀಯವಾಗಿ ಶ್ರೀಮಂತವಾಗಿರುವ ದೇಶದಲ್ಲಿ, ಎಲ್ಲರನ್ನೂ ಒಳಗೊಂಡ AI ಅನ್ನು ನಿರ್ಮಿಸುವುದು ಪ್ರಾತಿನಿಧಿಕ, ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವುದರೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅದು ಹಿಂದಿನ ದೃಷ್ಟಿಕೋನ. ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿ—ನೇತೃತ್ವದಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ, ಮುಕ್ತ-ಮೂಲ ಉಪಕ್ರಮ ಆರ್ಟ್‌ಪಾರ್ಕ್, ಐಐಎಸ್ಸಿ ಬೆಂಗಳೂರು, ಮತ್ತು ಗೂಗಲ್, ಪ್ರತಿಯೊಂದು ಭಾರತೀಯ ಭಾಷೆ ಮತ್ತು ಉಪಭಾಷೆಗೆ ಧ್ವನಿ ನೀಡುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ.

ಮಹತ್ವಾಕಾಂಕ್ಷೆಯ ಗುರಿಯೇ? ಸಂಗ್ರಹಿಸುವುದೇ? 150,000+ ಗಂಟೆಗಳ ಭಾಷಣ ಮತ್ತು 15,000+ ಗಂಟೆಗಳ ಪ್ರತಿಲೇಖನಗಳು ರಿಂದ 1 ದಶಲಕ್ಷ ಜನರು ಅಡ್ಡಲಾಗಿ 773 ಜಿಲ್ಲೆಗಳು ಭಾರತದ.

ಈ ರಾಷ್ಟ್ರೀಯ ಧ್ಯೇಯದ ಪ್ರಮುಖ ಮಾರಾಟಗಾರರಲ್ಲಿ ಒಬ್ಬರಾಗಿ, ಶೇಪ್ ಸ್ವಯಂಪ್ರೇರಿತ ಭಾಷಣ ದತ್ತಾಂಶ, ಪ್ರತಿಲೇಖನ ಮತ್ತು ಮೆಟಾಡೇಟಾ ಸಂಗ್ರಹವನ್ನು ಸಂಗ್ರಹಿಸುವಲ್ಲಿ ಪ್ರಮುಖ ಪಾತ್ರ ವಹಿಸಿದೆ - ನಿಜವಾದ ಭಾರತವನ್ನು ನಿಜವಾಗಿಯೂ ಪ್ರತಿನಿಧಿಸುವ ಸಮಾನ ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನಗಳಿಗೆ ಅಡಿಪಾಯ ಹಾಕಿದೆ.

ವಾಣಿ ಯೋಜನೆಯ ಹಿಂದಿನ ದೃಷ್ಟಿ

ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿಯನ್ನು ರಚಿಸುವ ಮೂಲಕ AI ಸೇರ್ಪಡೆ ಅಂತರವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ ಅತಿದೊಡ್ಡ ಬಹುಮಾದರಿ, ಬಹುಭಾಷಾ, ಮುಕ್ತ ಮೂಲ ಡೇಟಾಸೆಟ್ ಭಾರತದಲ್ಲಿ. ಸ್ಥಳೀಯ ಭಾರತೀಯ ಭಾಷೆಗಳಲ್ಲಿ ನಿಖರವಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ, ಅನುವಾದ ಮತ್ತು ಉತ್ಪಾದಕ AI ವ್ಯವಸ್ಥೆಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಈ ಡೇಟಾ ಅಡಿಪಾಯವಾಗಿದೆ - ಇವುಗಳಲ್ಲಿ ಹಲವು ಜಾಗತಿಕ ತಂತ್ರಜ್ಞಾನ ಪರಿಸರ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಕಡಿಮೆ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಹೊಂದಿವೆ.

ದೀರ್ಘಕಾಲೀನ ದೃಷ್ಟಿಕೋನವು ಪರಿಣಾಮಕಾರಿ ಅನ್ವಯಿಕೆಗಳಿಗೆ ಶಕ್ತಿ ತುಂಬುವುದಾಗಿದೆ:

ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿಗಾಗಿ ಭಾರತದ ಅತಿದೊಡ್ಡ ಓಪನ್-ಸೋರ್ಸ್ ಸ್ಪೀಚ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ಶೈಪ್ ಹೇಗೆ ಸಹಾಯ ಮಾಡಿದರು

ಶೈಪ್ ಅವರಿಗೆ ಸಂಗ್ರಹದ ಜವಾಬ್ದಾರಿಯನ್ನು ವಹಿಸಲಾಗಿತ್ತು 8,000 ಗಂಟೆಗಳ ಸ್ವಯಂಪ್ರೇರಿತ ಮಾತು ಮತ್ತು 800 ಗಂಟೆಗಳ ಹಸ್ತಚಾಲಿತವಾಗಿ ಪರಿಶೀಲಿಸಿದ ಪ್ರತಿಲೇಖನಗಳು. ನಮ್ಮ ಜವಾಬ್ದಾರಿ ಸ್ಪೀಕರ್ ಆನ್‌ಬೋರ್ಡಿಂಗ್, ಆಡಿಯೋ ಸೆರೆಹಿಡಿಯುವಿಕೆ, ಮೆಟಾಡೇಟಾ ಟ್ಯಾಗಿಂಗ್, ಪ್ರತಿಲೇಖನ ಸಮನ್ವಯ ಮತ್ತು ಗುಣಮಟ್ಟ ನಿಯಂತ್ರಣವನ್ನು ಒಳಗೊಂಡಿತ್ತು.

8,000 ಗಂಟೆಗಳ ಸ್ವಯಂಪ್ರೇರಿತ ಆಡಿಯೋ ಡೇಟಾ

800 ಗಂಟೆಗಳ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಹಸ್ತಚಾಲಿತ ಪ್ರತಿಲೇಖನಗಳು

ಇವರಿಂದ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಪ್ರತಿ ಜಿಲ್ಲೆಗೆ 400+ ಮಾತೃಭಾಷಿಕರು, ವೈವಿಧ್ಯಮಯ ವಯೋಮಾನದ ಗುಂಪುಗಳು, ಲಿಂಗಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ

80 ಜಿಲ್ಲೆಗಳು, ಒಳಗೊಂಡಿದೆ

ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಚಿತ್ರ ಆಧಾರಿತ ಪ್ರಾಂಪ್ಟಿಂಗ್ ನೈಸರ್ಗಿಕ, ಸಂದರ್ಭೋಚಿತ ಮಾತು

ನಮ್ಮ ವಿಧಾನವನ್ನು ಅನನ್ಯವಾಗಿಸಿದ ವಿಷಯ ಇಲ್ಲಿದೆ:

ಜಿಲ್ಲಾ ಮಟ್ಟದ ವೈವಿಧ್ಯತೆ

ಜಿಲ್ಲಾ ಮಟ್ಟದ ವೈವಿಧ್ಯತೆ

ನಾವು ಬಿಹಾರ, ಉತ್ತರ ಪ್ರದೇಶ, ಕರ್ನಾಟಕ, ಪಶ್ಚಿಮ ಬಂಗಾಳ ಮತ್ತು ಮಹಾರಾಷ್ಟ್ರದಂತಹ ರಾಜ್ಯಗಳಾದ್ಯಂತ ಹರಡಿರುವ 80 ಜಿಲ್ಲೆಗಳಿಂದ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ. ಪ್ರತಿಯೊಂದು ಜಿಲ್ಲೆಯು 100 ಗಂಟೆಗಳ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ಕೊಡುಗೆಯಾಗಿ ನೀಡಿತು, ಪ್ರಾದೇಶಿಕ ಸಮತೋಲನವನ್ನು ಖಚಿತಪಡಿಸಿತು. ಮುಖ್ಯವಾಹಿನಿಯ AI ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಕಡೆಗಣಿಸಲ್ಪಡುವ ಪ್ರಾದೇಶಿಕ ಉಚ್ಚಾರಣೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಂಡು ನಾವು ಸ್ಥಳೀಯ ಭಾಷಿಕರನ್ನು ತೊಡಗಿಸಿಕೊಂಡಿದ್ದೇವೆ.

ಭಾಷಾ ಮತ್ತು ಜನಸಂಖ್ಯಾ ಪ್ರಾತಿನಿಧ್ಯ

ಭಾಷಾ ಮತ್ತು ಜನಸಂಖ್ಯಾ ಪ್ರಾತಿನಿಧ್ಯ

ನಾವು ಬಿಹಾರ, ಉತ್ತರ ಪ್ರದೇಶ, ಕರ್ನಾಟಕ, ಪಶ್ಚಿಮ ಬಂಗಾಳ ಮತ್ತು ಮಹಾರಾಷ್ಟ್ರದಂತಹ ರಾಜ್ಯಗಳಾದ್ಯಂತ ಹರಡಿರುವ 80 ಜಿಲ್ಲೆಗಳಿಂದ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ. ಪ್ರತಿಯೊಂದು ಜಿಲ್ಲೆಯು 100 ಗಂಟೆಗಳ ಆಡಿಯೊ ಡೇಟಾವನ್ನು ಕೊಡುಗೆಯಾಗಿ ನೀಡಿತು, ಪ್ರಾದೇಶಿಕ ಸಮತೋಲನವನ್ನು ಖಚಿತಪಡಿಸಿತು. ಮುಖ್ಯವಾಹಿನಿಯ AI ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಕಡೆಗಣಿಸಲ್ಪಡುವ ಪ್ರಾದೇಶಿಕ ಉಚ್ಚಾರಣೆಗಳು ಮತ್ತು ಉಪಭಾಷೆಗಳ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಖಚಿತಪಡಿಸಿಕೊಂಡು ನಾವು ಸ್ಥಳೀಯ ಭಾಷಿಕರನ್ನು ತೊಡಗಿಸಿಕೊಂಡಿದ್ದೇವೆ.

ಇಮೇಜ್-ಪ್ರೋಂಪ್ಟೆಡ್ ಸ್ಪೀಚ್

ಸ್ವಯಂಪ್ರೇರಿತ ಮತ್ತು ನೈಸರ್ಗಿಕ ಶಬ್ದಕೋಶವನ್ನು ಉತ್ತೇಜಿಸಲು, ಭಾಗವಹಿಸುವವರಿಗೆ ಪ್ರತಿ ಅವಧಿಗೆ 45-90 ಚಿತ್ರಗಳನ್ನು ತೋರಿಸಲಾಯಿತು ಮತ್ತು ಅವುಗಳನ್ನು ವಿವರಿಸಲು ಕೇಳಲಾಯಿತು. ಭಾಗವಹಿಸುವವರು ತಮ್ಮ ಸ್ಥಳೀಯ ಭಾಷೆಯಲ್ಲಿ ನೈಸರ್ಗಿಕ, ಸ್ವಯಂಪ್ರೇರಿತ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಹೊರಹೊಮ್ಮಿಸಲು ಸಾಂಸ್ಕೃತಿಕ ಸಂಕೇತಗಳಿಂದ ಹಿಡಿದು ದೈನಂದಿನ ವಸ್ತುಗಳವರೆಗೆ ವೈವಿಧ್ಯಮಯ ಚಿತ್ರಗಳನ್ನು ಬಳಸಲು ಪ್ರೇರೇಪಿಸಲಾಯಿತು. ಇದು ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ನೈಜ-ಪ್ರಪಂಚದ, ಸಂದರ್ಭೋಚಿತ ಭಾಷಣವನ್ನು ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿತು - ಮುಂದುವರಿದ NLP ವ್ಯವಸ್ಥೆಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಇದು ಅವಶ್ಯಕವಾಗಿದೆ.

ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಪ್ರತಿಲೇಖನ ಮಾನದಂಡಗಳು

ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಪ್ರತಿಲೇಖನ ಮಾನದಂಡಗಳು

ಭಾಷಣ ದತ್ತಾಂಶದ ಕೇವಲ 10% ಮಾತ್ರ ಲಿಪ್ಯಂತರ ಮಾಡಲಾಗಿದೆ - ಇದು 800 ಗಂಟೆಗಳಷ್ಟಿತ್ತು. ಸ್ಥಳೀಯ ಭಾಷಾಶಾಸ್ತ್ರಜ್ಞರು ಭಾಷಣಕಾರರಿಂದ 20-50 ಕಿಮೀ ವ್ಯಾಪ್ತಿಯೊಳಗೆ ಪ್ರತಿಲೇಖನಗಳನ್ನು ನಡೆಸುತ್ತಿದ್ದರು, ಇದು ಉಪಭಾಷೆಗಳು ಮತ್ತು ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳೊಂದಿಗೆ ಪರಿಚಿತತೆಯನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ. ಎರಡನೇ ಹಂತದ ಪರಿಶೀಲನೆಯು <5% ಪದ ದೋಷ ದರವನ್ನು (WER) ಖಚಿತಪಡಿಸಿತು.

ಕಟ್ಟುನಿಟ್ಟಾದ ಗುಣಮಟ್ಟದ ಭರವಸೆ

ಆಡಿಯೋ ಡೇಟಾವು ಹೆಚ್ಚಿನ ಬಾರ್ ಅನ್ನು ಪೂರೈಸಬೇಕಾಗಿತ್ತು: ಯಾವುದೇ ಹಿನ್ನೆಲೆ ಶಬ್ದ, ಪ್ರತಿಧ್ವನಿಗಳು, ಫೋನ್ ಕಂಪನಗಳು ಅಥವಾ ವಿರೂಪಗಳು ಇಲ್ಲ. ಆಡಿಯೋವನ್ನು ಶಾಂತ, ಪ್ರತಿಧ್ವನಿ-ಮುಕ್ತ ಪರಿಸರದಲ್ಲಿ ರೆಕಾರ್ಡ್ ಮಾಡಲಾಗಿದೆ. ಮಾತಿನ ಸ್ಪಷ್ಟತೆ, ಶಬ್ದ ಮಟ್ಟಗಳು, ಮೆಟಾಡೇಟಾ ನಿಖರತೆ ಮತ್ತು ಸ್ಪೀಕರ್ ಪರಿಶೀಲನೆಗಾಗಿ ಮಾರ್ಗಸೂಚಿಗಳನ್ನು ಪೂರೈಸಲು ಫೈಲ್‌ಗಳನ್ನು ಕಠಿಣ ಪರಿಶೀಲನೆಗೆ ಒಳಪಡಿಸಲಾಯಿತು. ಮೆಟಾಡೇಟಾ ಟ್ಯಾಗಿಂಗ್ ಎಲ್ಲಾ ಫೈಲ್‌ಗಳಲ್ಲಿ ನಿಖರವಾಗಿರಬೇಕು ಮತ್ತು ಸ್ಪೀಕರ್ ಮತ್ತು ಸ್ಥಳ ಜೋಡಣೆಗಾಗಿ ಎಲ್ಲಾ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಪರಿಶೀಲಿಸಲಾಯಿತು.

ನಾವು ಪರಿಹರಿಸಿದ ಸವಾಲುಗಳು

ನಮ್ಮ ಯಶಸ್ಸು ನಿಖರವಾದ ಯೋಜನೆ, ತಂತ್ರಜ್ಞಾನ ಆಧಾರಿತ ಮೌಲ್ಯೀಕರಣ ಮತ್ತು ಪ್ರತಿಯೊಂದು ಪ್ರದೇಶದ ಸಾಂಸ್ಕೃತಿಕ ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡ ಸ್ಥಳೀಯ ತಂಡಗಳೊಂದಿಗೆ ಪಾಲುದಾರಿಕೆಯಿಂದ ಬಂದಿದೆ.

ಪರಿಣಾಮ ಮತ್ತು ಅಪ್ಲಿಕೇಶನ್‌ಗಳು

ಶೈಪ್ ಅವರ ಕೊಡುಗೆಯು ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿಯ ಪ್ರಗತಿಯನ್ನು ವೇಗಗೊಳಿಸಿದೆ ಮಾತ್ರವಲ್ಲದೆ ಭಾರತದಲ್ಲಿ ಅಂತರ್ಗತ AI ಗೆ ಅಡಿಪಾಯ ಹಾಕಿದೆ. ಕ್ಯುರೇಟೆಡ್ ಸ್ಪೀಚ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಈಗಾಗಲೇ AI ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಮತ್ತು ಉತ್ತಮಗೊಳಿಸಲು ಬಳಸಲಾಗುತ್ತಿದೆ:

  • ಸ್ಥಳೀಯ ಧ್ವನಿ ಸಹಾಯಕರು
  • ಪ್ರಾದೇಶಿಕ ಅನುವಾದ ಎಂಜಿನ್‌ಗಳು
  • ದೃಷ್ಟಿಹೀನರಿಗೆ ಸುಲಭವಾಗಿ ಲಭ್ಯವಿರುವ ಸಂವಹನ ಸಾಧನಗಳು
  • ಗ್ರಾಮೀಣ ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ಆಧಾರಿತ ಶಿಕ್ಷಣ ವೇದಿಕೆಗಳು
  • ಗ್ರಾಮೀಣ ಟೆಲಿಮೆಡಿಸಿನ್
  • ಧ್ವನಿ ಆಧಾರಿತ ನಾಗರಿಕ ಸೇವೆಗಳು
  • ನೈಜ-ಸಮಯದ ಅನುವಾದ ಮತ್ತು ಪ್ರತಿಲೇಖನ

ತೀರ್ಮಾನ

ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿ ಎಂಬುದು ಎಲ್ಲರನ್ನೂ ಒಳಗೊಳ್ಳುವ, ಪ್ರವೇಶಿಸಬಹುದಾದ AI ಕಡೆಗೆ ಒಂದು ದಿಟ್ಟ ಹೆಜ್ಜೆಯಾಗಿದೆ - ಮತ್ತು ಶೈಪ್‌ಗೆ ಮೂಲಭೂತ ಪಾತ್ರವನ್ನು ವಹಿಸುವ ಗೌರವವಿದೆ. ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿಯಲ್ಲಿ ಶೈಪ್ ಅವರ ಕೆಲಸವು ವೈವಿಧ್ಯತೆ ಮತ್ತು ಪ್ರಾತಿನಿಧ್ಯದಲ್ಲಿ ಬೇರೂರಿರುವ ನೈತಿಕ, ಅಂತರ್ಗತ AI ವ್ಯವಸ್ಥೆಗಳನ್ನು ನಿರ್ಮಿಸುವ ನಮ್ಮ ಬದ್ಧತೆಯನ್ನು ಪುನರುಚ್ಚರಿಸುತ್ತದೆ. 8,000 ಗಂಟೆಗಳಿಗೂ ಹೆಚ್ಚು ಭಾಷಣವನ್ನು ಸಂಗ್ರಹಿಸಿ 800 ಗಂಟೆಗಳನ್ನು ಲಿಪ್ಯಂತರ ಮಾಡಲಾಗಿದ್ದು, ಭಾರತದ ಅತ್ಯಂತ ದೂರದೃಷ್ಟಿಯ ಡಿಜಿಟಲ್ ಸೇರ್ಪಡೆ ಯೋಜನೆಗಳಲ್ಲಿ ಒಂದರಲ್ಲಿ ನಾವು ಪಾತ್ರ ವಹಿಸಿದ್ದಕ್ಕೆ ಹೆಮ್ಮೆಪಡುತ್ತೇವೆ.

ಪ್ರಾಜೆಕ್ಟ್ ವಾಣಿ 150,000+ ಗಂಟೆಗಳ ಡೇಟಾದ ದೊಡ್ಡ ಗುರಿಯತ್ತ ಮುಂದುವರಿಯುತ್ತಿದ್ದಂತೆ, ಪ್ರತಿಯೊಬ್ಬ ಭಾರತೀಯನಿಗೂ ಮಾತನಾಡುವ AI ನಾವೀನ್ಯತೆಯ ಮುಂದಿನ ಗಡಿಯನ್ನು ಬೆಂಬಲಿಸಲು ನಾವು ಸಿದ್ಧರಿದ್ದೇವೆ.

ನೈಜ ಪ್ರಪಂಚವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ AI ಅನ್ನು ನಿರ್ಮಿಸಲು ನಮ್ಮೊಂದಿಗೆ ಪಾಲುದಾರರಾಗಲು ಬಯಸುವಿರಾ? www.shaip.com

ಸಾಮಾಜಿಕ ಹಂಚಿಕೆ